谷歌Gemini AI尝试通过照片和视频技能胜过ChatGPT

谷歌Gemini AI旨在通过照片和视频技能超越ChatGPT

谷歌已经开始为其Bard AI聊天机器人引入视频、音频和照片的本地化理解，这是通过一种名为Gemini的新模型实现的。谷歌Pixel 8手机的用户将是首批能够利用其新的人工智能功能的人群。

这项新技术的首批应用在周三通过谷歌Bard的Gemini更新在数十个国家上线，但仅提供英文服务。它可以提供基于文本的聊天能力，例如总结文档、推理和编写编程代码等复杂任务的人工智能能力得到了进一步提升。谷歌表示，对于多媒体能力的重大改变，例如理解视频中的手势或解开孩子的连线绘图难题，”不久后”将会推出。

看这个：

Gemini对于人工智能来说是一次戏剧性的转变。基于文本的聊天很重要，但人类在我们所处的三维、不断变化的世界中必须处理更丰富的信息。除了书面文字，我们还回应复杂的交流能力，如语音和图像。Gemini试图更接近我们自己对世界的更全面理解。

谷歌表示，Gemini有三个版本，针对不同级别的计算能力进行了优化：

Gemini Nano可以在手机上运行，提供了两个不同的版本，适用于不同内存空间。它将为谷歌的Pixel 8手机提供新功能，如在其录音应用程序中总结对话，或在使用谷歌的Gboard输入的WhatsApp中建议消息回复。
Gemini Pro是针对快速响应进行优化的，运行在谷歌的数据中心，并将为Bard的新版本提供动力，从周三开始。
Gemini Ultra目前仅适用于测试组，将在2024年初发布的新版Bard Advanced聊天机器人中提供。谷歌拒绝透露定价细节，但预计将为这种顶级功能支付额外费用。

这个新版本突显了新生代生成式人工智能领域的飞速进展，其中聊天机器人根据我们以通俗语言而非奥秘的编程指令编写的提示自动生成回复。谷歌的主要竞争对手OpenAI在一年前推出了ChatGPT，但谷歌已经推出了第三个主要的人工智能模型修订版，并期望通过像搜索、Chrome、Google文档和Gmail这样亿万用户使用的产品进行交付。

“很长一段时间以来，我们希望建立一代新的人工智能模型，它受到人们理解和与世界互动方式的启发，即一种更像一个有帮助的合作伙伴，而不仅仅是一种智能软件的模型，”谷歌DeepMind部门的产品副总裁Eli Collins说道。”Gemini使我们更接近这一愿景。”

OpenAI也为微软的Copilot AI技术提供了基础，包括去年11月发布的新版GPT-4 Turbo AI模型。与谷歌一样，微软在其Office和Windows等主要产品中加入了人工智能功能。

人工智能变得更智能，但它并不完美

多媒体服务一旦推出，可能会与文本相比产生巨大变化。但尽管如此，由海量真实世界数据中的模式识别进行训练的人工智能模型的根本问题并未改变。它们可以将日益复杂的提示转化为日益精细复杂的回应，但您仍然无法完全信任它们是否只是提供一个似是而非而不是实际正确的答案。正如谷歌的聊天机器人在您使用时警告的那样，“Bard可能会展示不准确的信息，包括关于人物的信息，因此请务必核实其回复。”

Gemini是谷歌的大型语言模型的下一代，是迄今为止Bard的PaLM和PaLM 2的续集。但通过同时对文本、编程代码、图像、音频和视频进行训练，它能够更高效地处理多媒体输入，而不是为每种输入模式单独构建但彼此交互的人工智能模型。

根据一篇谷歌的研究论文（PDF）中的例子，Gemini的能力是多样的。

观察一系列由三角形、正方形和五边形组成的形状，它能够正确猜测出下一个形状是六边形。展示照片中的月亮和一只握着高尔夫球的手，并被要求找到它们之间的联系，它正确指出阿波罗宇航员在1971年在月球上打了两个高尔夫球。它将展示了四个国家间的废物处理技术的柱状图转化为带标签的表格，并发现了一个异常数据点，即美国在垃圾填埋场中丢弃的塑料比其他地区多得多。

该公司还展示了Gemini处理一个手写的物理问题，问题中包含一个简单的草图，它找到了学生错误的地方，并解释了纠正的方法。更复杂的演示视频展示了Gemini识别蓝色小鸭、手偶、手法戏法等视频。不过，所有的演示都是预先录制的，并不清楚Gemini在面对这些挑战时会出现多少错误。

Gemini Ultra将在明年面世之前进行进一步测试。

“红队审查”，即产品制造商请人寻找安全漏洞和其他问题，正在对Gemini Ultra进行。这样的测试在涉及多媒体输入数据时更加复杂。例如，一个文本消息和一张照片本身可能是无害的，但当它们配对在一起时可能传达完全不同的意义。

Google首席执行官桑达尔·皮查伊在一篇博文中说：“我们正在大胆而负责任地进行这项工作。”这意味着既要进行有着巨大潜力的研究，又要增加安全措施，并与政府及其他人合作“以解决人工智能日益强大时的风险问题。”

编辑说明：ENBLE正在使用人工智能引擎来协助创作部分文章。了解更多，请参见这篇文章。

谷歌Gemini AI尝试通过照片和视频技能胜过ChatGPT

谷歌Gemini AI旨在通过照片和视频技能超越ChatGPT

人工智能变得更智能，但它并不完美

现在只需$30购买Mac或PC的微软Office许可证

苹果推广iCloud的高级端到端加密功能，同时数...

36%的IT工作者担心人工智能会夺走他们的工作

谷歌gemini试图通过照片，视频人工智能超越Cha...

Linus Torvalds对Linux今天的状态以及人工智能...

2023年最佳网络摄像头从1080p到4K

Computing