谷歌gemini试图通过照片,视频人工智能超越ChatGPT

谷歌Gemini计划通过利用图像及影片人工智能技术来超越ChatGPT

谷歌已开始为其Bard AI聊天机器人引入本地视频、音频和照片的理解能力,通过一个名为Gemini的新模型。谷歌Pixel 8手机的所有者将是首批能够利用其新的人工智能能力的人。

新技术的第一次实现于星期三在数十个国家通过谷歌Bard的Gemini更新发布,但仅支持英文。它可以提供基于文本的聊天能力,谷歌表示这可以改善A能力在复杂任务中的表现,例如总结文件、推理和编写编程代码。谷歌表示,多媒体能力(例如在视频中理解手势或解决孩子的连线绘画难题)的变化将“很快”到来。

Gemini是AI的一个重大转变。基于文本的聊天很重要,但是人们在我们居住的三维、不断变化的世界中必须处理更丰富的信息。我们以复杂的交流能力回应,如语音和图像,而不仅仅是书面文字。Gemini试图更接近我们自己对世界的更完整理解。

谷歌表示,Gemini有三个针对不同计算能力水平的版本:

  • Gemini Nano适用于移动电话,提供了两种不同内存可用级别的变体。它将为谷歌的Pixel 8手机带来新功能,例如在其录音机应用中总结对话或在使用谷歌的Gboard输入的WhatsApp消息中提供建议。
  • Gemini Pro专为快速响应而调整,运行在谷歌的数据中心,并将为Bard的新版本提供动力,从星期三开始。
  • Gemini Ultra目前仅限于测试群体,并将在2024年初的全新Bard Advanced聊天机器人中提供。谷歌拒绝透露定价详情,但请准备支付较高价格以获取此项顶级能力。

这个新版本突显了生成AI领域中快速进展的速度,其中聊天机器人根据我们以通俗语言编写的提示自行生成回答,而不是晦涩难懂的编程指令。谷歌的主要竞争对手OpenAI,在一年前推出了ChatGPT,占据了先机,但谷歌已经推出了它的第三个主要AI模型修订,并预计通过像搜索、Chrome、Google Docs和Gmail这样的产品向数十亿用户提供这项技术。

谷歌的DeepMind部门的产品副总裁Eli Collins表示:“长期以来,我们希望构建一代新的受到人们理解和与世界互动方式启发的AI模型-一种感觉更像一个有帮助的合作者而不像一个聪明的软件的AI。” “Gemini让我们更接近这一愿景。”

OpenAI还提供了Microsoft的Copilot AI技术,包括去年11月推出的GPT-4 Turbo AI模型。像谷歌一样,微软也正在其Office和Windows等主要产品中添加人工智能功能。

AI变得更智能,但并非完美

多媒体可能会与文本相比带来巨大的变化。但是,没有改变的是AI模型面临的根本难题,即通过识别大量现实世界数据中的模式进行训练。它们可以将越来越复杂的提示转化为越来越复杂的回应,但您仍然不能相信它们只是提供了一个可能的答案,而不是实际正确的答案。正如谷歌的聊天机器人在使用时警告您的那样:“Bard可能会显示不准确的信息,包括有关人员的信息,因此请仔细核对其回答。”

Gemini是谷歌的大型语言模型的下一代,是迄今为止Bard的PaLM和PaLM 2的续集。但通过同时训练Gemini以文本、编程代码、图像、音频和视频,它能够更有效地处理多媒体输入,而不是针对每种输入模式分别建立但相互关联的AI模型。

根据一份谷歌的研究论文,Gemini的能力举例如下:

对一系列由三角形、正方形和五边形组成的形状进行观察,它可以正确地猜测该系列中的下一个形状是六边形。对于一张显示月亮和一只手拿高尔夫球的照片,要求找到它们之间的关联,它会准确地指出阿波罗宇航员在1971年在月球上击中了两个高尔夫球。它将显示按国家划分的废物处理技术的四个条形图转换为有标签的表格,并发现了一个离群数据点,即美国比其他地区在垃圾填埋中抛弃了更多的塑料。

公司还展示了Gemini处理手写的物理问题,其中包括一个简单的草图,找出学生的错误所在,并解释修改。一个更为复杂的演示视频显示了Gemini识别蓝色的鸭子、手偶、手法变戏法和其它视频。然而,这些演示并非实时的,而且尚不清楚Gemini在多大程度上能够应对这些挑战。

Gemini Ultra在明年出现之前需要进一步测试。

Gemini Ultra进行了红方测试,即产品制造商邀请人们发现安全漏洞和其他问题。这种测试在多媒体输入数据的情况下更加复杂。例如,单独看来,一条文本消息和一张照片可能都是无害的,但是当它们配对在一起时,可能传达截然不同的意义。

谷歌首席执行官桑达尔·皮查伊在一篇博文中说:“我们大胆而负责地对待这项工作。”这意味着将积极开展有潜力带来巨大回报的研究,同时也增加保障措施,与政府和其他机构合作,“以应对人工智能变得更加有能力带来的风险。”

编辑注:ENBLE正在使用人工智能引擎来帮助创建一些报道。更多信息,请参见这篇文章