DeepMind的RT-2使机器人控制成为AI聊天的问题

DeepMind's RT-2 makes robot control an AI chat issue.

DeepMind的机器人变压器版本2是一个大型语言模型,它不仅在图像和文本上进行训练,还在空间中记录了机器人移动的坐标数据。训练完成后,它可以接收图像和命令,并输出行动计划和完成命令所需的坐标。

人类如何实时指导机器是未来机器人技术的关键要素。但在机器人领域,如何进行指导是一个开放性问题。

谷歌的DeepMind团队的最新研究提出了一个大型语言模型的概念,类似于OpenAI的ChatGPT。当给定单词和图像之间的关联以及从机器人记录的数据时,这个模型可以简单地通过与ChatGPT对话的方式输入指令。

此外:最佳AI聊天机器人

DeepMind的论文《RT-2:视觉语言行动模型将Web知识转化为机器人控制》由Anthony Brohan和同事撰写,发布在一篇博客文章中,介绍了RT-2,它被称为“视觉语言行动”模型(还有一个相关的GitHub存储库)。RT是“机器人变压器”(Robotics Transformer)的缩写。

挑战在于如何使一个能够接收图像和文本的程序产生一系列对机器人有意义的行动。“为了使视觉语言模型能够控制机器人,它们必须被训练输出行动”,他们如此写道。

该研究的关键洞察是:“我们将机器人行动表示为另一种语言”,Brohan和团队写道。这意味着从机器人记录的行动可以成为生成新行动的源,就像训练使用互联网文本的ChatGPT生成新文本一样。

此外:这只军犬是大脑-机器界面技术的一部分

机器人的行动被编码为机器人变压器中的空间坐标,也称为自由度。

“行动空间包括机器人末端执行器的6自由度位置和旋转位移,以及机器人夹持器的延伸级别和一个特殊的离散命令,用于终止任务,该命令应由策略触发以表示成功完成。”

在训练期间,这些标记与语言标记和图像标记一起输入程序。机器人坐标成为短语的另一部分。

机器人的行动被编码为机器人变压器中的空间坐标,也称为自由度。在训练期间,这些标记与语言标记和图像标记一起输入程序。机器人坐标成为短语的另一部分。

坐标的使用是一个重要的里程碑。通常,机器人的物理特性通过与语言和图像神经网络不同的低级程序来指定。在这里,一切都混合在一起。

RT程序建立在谷歌之前的两个努力之上,它们被称为PaLI-X和PaLM-E,都是所谓的视觉语言模型。正如名称所示,视觉语言模型是将文本数据与图像数据混合在一起的程序,使程序能够将两者联系起来,例如为图像添加标题,或回答关于图像内容的问题。

此外:Google Bard是什么?这里是你需要了解的一切

虽然PaLI-X仅专注于图像和文本任务,但谷歌最近推出的PaLM-E进一步利用语言和图像驱动机器人,生成命令作为其输出。RT在生成行动计划和空间移动坐标方面超越了PaLM-E。

“RT-2是一个重大进步,”加利福尼亚大学伯克利分校电气工程系副教授Sergey Levine在与ENBLE的电子邮件通信中表示。“本质上,RT-2可以被看作是PaLM-E + RT1的端到端版本,它将互联网规模的知识直接转移到机器人中,可能为未来提供更可扩展的方法类别。”

在RT-2的情况下,它是去年版本RT-1的继任者。RT-1和RT-2之间的区别在于,第一个RT是基于一种小型语言和视觉程序EfficientNet-B3的。但是RT-2是基于所谓的大型语言模型PaLI-X和PaLM-E的。这意味着它们有更多的神经权重或参数,这往往使程序更加熟练。PaLI-X有一个版本有50亿个参数,另一个版本有550亿个参数。PaLM-E有120亿个参数。

RT-2的训练结合了图像和文本组合以及从记录的机器人数据中提取的动作。

一旦RT-2被训练完成,作者们进行了一系列测试,这些测试要求机器人通过键入自然语言命令和图片来拾取、移动、放下等等,就像要求ChatGPT撰写一些东西一样。

另外:你需要了解的7个高级ChatGPT提示

例如,当出现一个提示,其中图片显示一张桌子上有一堆罐头和一根巧克力棒:

给定  指令:挑选与其他所有物体不同的物体

机器人将生成一个带有坐标的动作来拾取巧克力棒:

预测:计划:挑选rxbar巧克力。动作:1 128 129 125 131 125 128 127

三位数是坐标移动的密码本的键。

给定一个提示,RT-2将生成一个动作计划和一系列坐标,用spacer执行这些动作。

一个关键的方面是,任务的许多元素可能是全新的、以前从未见过的对象。他们相关地表示:“RT-2能够推广到需要推理、符号理解和人类识别的各种现实世界情况。”

“作为结果,我们观察到了一些新兴能力。”“该模型能够将从机器人数据中学到的拾取和放置技能重新用于放置与语义指示位置相近的物体,例如特定的数字或图标,尽管这些提示在机器人数据中不存在。该模型还可以解释物体之间的关系,确定要挑选哪个物体以及放置在哪里,尽管机器人演示中没有提供这样的关系。”

另外:从现实中识别生成AI的四种方法

在与RT-1和其他程序的测试中,使用PaLI-X或PaLM-E的RT-2在完成任务方面要更加熟练,平均完成了约60%的涉及以前未见过的物体的任务,而以前的程序只完成了不到50%的任务。

PaLI-X和PaLM-E之间也存在差异,PaLI-X并非专门为机器人开发,而PaLM-E则是。“我们还注意到,虽然基于更大的PaLI-X模型的结果在符号理解、推理和人类识别的性能上平均表现更好,但基于较小的PaLM-E模型在涉及数学推理的任务上具有优势。”作者们将这一优势归因于“PaLM-E中使用的不同预训练混合,使得该模型在数学计算方面比大部分以视觉为基础的PaLI-X模型更具能力。”

作者们得出的结论是,使用视觉-语言-动作程序可以“使机器人学习领域处于战略位置,以随着其他领域的进展而进一步改进”,从而使这种方法在语言和图像处理变得更好时受益。

另外:IT报告:9成IT领导者认为生成AI很快将成为主流

然而,有一个警告,它与实时控制机器人的观念有关。大型语言模型对计算资源要求非常高,这会成为获取响应的问题。

他们写道:“这些模型的计算成本很高,当这些方法应用于需要高频率控制的环境时,实时推理可能成为主要瓶颈。”“未来研究的一个激动人心的方向是探索量化和蒸馏技术,这可能使这些模型能够以更高的速率运行或在更低成本的硬件上运行。”