谷歌DeepMind的Demis Hassabis说Gemini是一种全新的人工智能新品种

谷歌DeepMind创始人Demis Hassabis表示Gemini是一种全新的人工智能品种

Demis Hassabis从来都不害羞地宣扬人工智能的巨大进步。最著名的是,2016年,他因为一个名为AlphaGo的机器人自学成才,在超人的技巧和独创性上玩出了复杂而微妙的棋盘游戏围棋。

今天,Hassabis表示,他在Google的团队在他个人、公司以及AI领域的整体发展上迈出了更大的一步。他说,Google今天宣布的AI模型Gemini为AI开辟了一条未开垦的道路,可能引领到重大突破。

“作为神经科学家和计算机科学家,多年来我一直想尝试创造一种以我们与世界互动和理解的方式为灵感的新一代AI模型。” Hassabis在今天的公告之前告诉ENBLE。Gemini是“朝着那种模型迈出的一大步”,他说。Google将Gemini描述为“多模式”,因为它可以处理文本、音频、图像和视频形式的信息。

从今天开始,Gemini的初始版本将通过Google的聊天机器人Bard提供。该公司表示,该模型的最强版本Gemini Ultra将于明年发布,并在几个常见的基准测试中胜过ChatGPT背后的模型GPT-4。谷歌发布的视频显示,Gemini解决了涉及复杂推理的任务,还展示了该模型结合文本图像、音频和视频信息的例子。

“到目前为止,大多数模型都通过训练单独的模块,然后将它们拼接在一起来近似达到多模态。” Hassabis说,这似乎是在暗指OpenAI的技术。“对于某些任务来说,这还可以,但你无法在多模态空间中进行这种深度复杂的推理。”

OpenAI在9月份推出了ChatGPT的升级版本,除了文本外,还使聊天机器人能够接受图像和音频作为输入。OpenAI没有透露GPT-4如何实现这一点,以及其多模态能力的技术基础。

与公司先前的AI项目相比,谷歌开发和推出了Gemini速度惊人,这归功于对OpenAI等公司的发展可能对谷歌未来构成威胁的最近关注。

2022年底,谷歌被视为大型科技公司中的AI领导者,拥有大批AI研究人员为该领域作出重大贡献。首席执行官Sundar Pichai将公司的战略定位为“AI为先”,谷歌已成功将AI应用于其许多产品,从搜索到智能手机。

如何阻止另一场OpenAI崩溃

Paresh Dave

OpenAI同意从一家由CEO Sam Altman支持的初创公司购买价值5100万美元的AI芯片

Paresh Dave

OpenAI的奇怪结构赋予了4个人解雇Sam Altman的权力

Paresh Dave

在OpenAI推出ChatGPT后不久,这家只有不到800名员工的奇特初创公司,谷歌不再被视为AI领域的领先者。ChatGPT具有回答各种问题的能力,其聪明才智似乎超乎寻常,这可能将威胁到谷歌引以为傲的搜索引擎,尤其是当微软作为OpenAI的投资者,将底层技术纳入其自己的必应搜索引擎时。

谷歌被吓得赶紧采取行动,推出了与ChatGPT竞争的Bard,改进了搜索引擎,并匆忙推出了一个新模型PaLM 2来竞争ChatGPT背后的模型。Hassabis从领导伦敦的AI实验室晋升为领导新的AI部门,将DeepMind团队与谷歌的主要AI研究团队Google Brain合并。今年5月,在谷歌的开发者大会I/O上,Pichai宣布,他们正在培训一种比PaLM更强大的后续型号Gemini。当时他没有这样说,但该项目的命名是为了标志谷歌的两个主要AI实验室的并轨,并向NASA的“Gemini计划”致敬,该计划为阿波罗登月做前期准备。

大约七个月后,双子座终于来了。哈萨比斯表示,新模型处理不同形式的数据,包括但不限于文本,是项目最初设想的重要部分。许多人工智能研究人员认为,能够利用不同格式的数据是自然智能的关键能力,而这在机器中往往是缺乏的。

像ChatGPT这样的系统背后的大型语言模型从从网页和其他地方获取的大量文本数据中获取了灵活性和强大的能力。它们可以回答问题,生成诗歌和引人注目的文学模仿作品,通过重播和混合从训练数据中学到的模式(有时也加入“臆想”的事实)。

但是,尽管ChatGPT和类似的聊天机器人可以使用相同的技巧讨论或回答与现实世界相关的问题,这种表面的理解可能很快就会被打破。许多人工智能专家认为,要使机器智能取得显著进展,需要将语言模型与能够看、听,甚至最终触摸的软件相结合,使其在物理现实中具有某种形式的“基础”。

哈萨比斯表示,Google DeepMind已经在研究如何将Gemini与机器人相结合,以与世界进行物理交互。“要真正成为多模式,你需要包括触觉和触觉反馈,”他说。“将这些类型的基础模型应用于机器人有很多潜力,我们正在积极探索。”

Google已经朝这个方向迈出了一小步。2022年5月,该公司宣布推出了一个名为Gato的AI模型,能够学习完成各种任务,包括玩Atari游戏、给图像加上标题,并使用机械臂堆叠积木。今年7月,Google展示了一个名为RT-2的项目,涉及使用语言模型来帮助机器人理解和执行动作。

哈萨比斯表示,对视觉信息进行更好推理的模型也将作为软件代理的更实用,或者说是试图像人一样使用计算机和互联网完成任务的机器人。OpenAI等公司已经在努力将ChatGPT和类似系统适应更强大、更实用的新一代虚拟助手,但它们目前还不可靠。

要使AI代理能够可靠地工作,驱动它们的算法需要更加智能。OpenAI正在进行一个名为Q*的项目,旨在提高AI模型的推理能力,也许会使用强化学习这一在AlphaGo中心的技术。哈萨比斯说,他的公司也在研究类似的方向。“我们拥有一些世界上最优秀的强化学习专家,他们发明了其中一些东西,”他说。AlphaGo的进展有望帮助改进明天推出的Gemini等未来模型的规划和推理。“我们正在研究一些有趣的创新,将其应用到未来版本的Gemini上。明年你会看到很多快速进展。”

随着谷歌、OpenAI和其他科技巨头加快其人工智能研究和部署的速度,有关当前和未来模型可能带来的风险的争论越来越激烈,甚至在国家领导人之间也是如此。哈萨比斯今年初参与了英国政府发起的一个倡议,发出了有关人工智能潜在危险的警告,并呼吁进一步的研究和讨论。关于OpenAI以何种速度商业化其人工智能的紧张氛围似乎在最近的董事会风波中起到了一定作用,这导致首席执行官萨姆·阿尔特曼被迅速罢免。

哈萨比斯表示,在谷歌2014年收购DeepMind之前,他和他的联合创始人Shane Legg和Mustafa Suleyman已经在讨论研究和减轻可能风险的方法。“我们拥有世界上一些最好的团队在寻找偏见、有毒性,以及其他形式的安全问题,”他说。

即使在谷歌今天推出Gemini的初始版本之际,对最强大版本Ultra进行安全测试的工作仍在进行中,该版本计划于明年推出。“我们正在进行最后的审查和平衡,安全和责任测试,”哈萨比斯说。“然后我们将在明年初发布。”