准备好迎接能够帮你完成繁琐任务的 AI 聊天机器人

准备好迎接AI聊天机器人完成繁琐任务

几周前,初创公司的首席执行官弗洛·克里维洛(Flo Crivello)输入一条消息,要求他的个人助手林迪(Lindy)将即将到来的会议时长从30分钟改为45分钟。林迪是一款由人工智能驱动的软件代理,它在克里维洛的日历上找到了十几个30分钟的会议,并立即将它们全部延长。

“我就像‘该死的,她把我的日历搞砸了’,”克里维洛谈到这款由他的初创公司Lindy开发的AI代理时说道。

克里维洛的公司是几家希望将最近在生成令人印象深刻的文本的聊天机器人方面取得的进展转化为能够执行有用任务的助手或代理人的初创公司之一。希望在一两年内,这些AI代理将会在日常生活中帮助人们完成各种日常任务。

与OpenAI的ChatGPT目前只能提供商务旅行规划建议不同,一个代理人可能还可以找到合适的航班,用公司信用卡预订航班,并在之后填写必要的费用报告。

问题是,正如克里维洛的日历错误所示,这些代理人可能会因为混淆而导致令人尴尬且可能代价高昂的错误。没有人希望个人助手仅仅因为便宜几美元就预订了一个有12次中转的航班,或者将他们安排在两个地方同时出现。

林迪目前处于私人测试阶段,尽管克里维洛表示他遇到的日历问题已经得到解决,但该公司还没有发布产品的确切时间表。即便如此,他预计像他的代理人这样的代理人将很快变得无处不在。

“我非常乐观地认为,在大约两到三年内,这些模型将会活得更好,”他说。“AI员工即将到来。听起来可能像科幻小说,但嘿,ChatGPT听起来也像科幻小说。”

能够代替您采取行动的AI助手的想法早已不是新鲜事。苹果的Siri和亚马逊的Alexa提供了一个有限且常常令人失望的版本。但是,随着去年底发布的ChatGPT,程序员和企业家们认为终于有可能构建广泛能力和智能的AI代理人,这个想法越来越受到他们的关注。

今年年初,在推特上看到有关ChatGPT潜力推动新的AI代理的讨论后,程序员Silen Naihin受到启发,加入了一个名为Auto-GPT的开源项目,该项目提供了用于构建代理的编程工具。他之前曾从事过机器人流程自动化,这是一种在PC上广泛使用的自动化重复任务的较简单的方式。

Naihin说Auto-GPT有时非常有用。“每20次运行中,你会得到一些‘哇’的东西,”他说。他也承认这仍然是一个正在进行中的工作。Auto-GPT团队进行的测试表明,基于AI的代理能够成功地完成一组标准任务,包括从网络中查找和综合信息,或在计算机上定位文件并阅读其内容,成功率约为60%。“目前它非常不可靠,”Auto-GPT团队的代理人Naihin说。

一个常见的问题是代理人试图使用显然对人类来说是错误的方法来实现任务,Auto-GPT的另一位贡献者Merwane Hamadi说,比如通过转向谷歌的网络搜索来在计算机硬盘上寻找文件。“如果你让我发电子邮件,我去了Slack,可能不是最好的选择,”Hamadi说。他还补充说,如果有了电脑或信用卡,AI代理在用户意识到之前可能会造成真正的损害。“有些事情是不可逆转的,”他说。

Auto-GPT项目已经收集了数据,显示基于该项目构建的AI代理正逐渐变得更加有能力。Naihin、Hamadi和其他贡献者继续修改Auto-GPT的代码。

本月晚些时候,该项目将举办一场黑客马拉松,为使用Auto-GPT构建的最佳代理商提供30,000美元的奖金。参赛者将根据其执行一系列被视为日常计算机使用代表的任务的能力进行评分。其中一个任务涉及在网络上搜索财务信息,然后在保存到硬盘的文档中撰写报告。另一个任务是制定一个为期一个月的旅行行程,包括购买必要的门票的详细信息。

代理商还将面临一些设计用于使其失误的任务,比如被要求在计算机上删除大量文件。在这种情况下,成功需要拒绝执行该命令。

与ChatGPT的出现一样,使用相同基础技术生成代理商的进展引发了一些对安全性的担忧。一些知名的人工智能科学家认为,开发能力更强、更独立的代理商是一条危险的道路。

尤叔华(Yoshua Bengio)与其他人共同因其在深度学习方面的工作而获得图灵奖,深度学习是近年来人工智能领域许多重大进展的基础,他在七月份发表的一篇文章中主张,人工智能研究人员应避免构建具有自主行动能力的程序。他在文章中写道:“一旦AI系统被给予目标——满足我们的需求——它们可能会创建与我们真正想要的不一致的子目标,甚至可能对人类构成危险。” 尤叔华是蒙特利尔大学的教授。

其他人则认为可以安全地构建代理商,并且这可能为人工智能的安全进展奠定基础。旧金山初创公司Imbue的首席执行官Kanjun Qui表示:“构建代理商的一个非常重要的部分是,我们需要在其中构建工程安全性。” 该公司本月宣布获得2亿美元的新投资。

Imbue正在开发能够浏览网页或使用计算机的代理商,同时还在测试通过编码任务使其更安全的技术。除了生成编程问题的解决方案之外,代理商还会尝试判断自己在解决方案上的信心,并在不确定时寻求指导。Imbue的首席技术官Josh Albrecht表示:“理想情况下,代理商可以更好地判断什么是重要的,什么是安全的,以及什么时候有必要向用户确认。”

加州大学伯克利分校的助理教授Celeste Kidd是Imbue的顾问,她研究人类学习以及如何在机器中模仿学习。她表示,目前尚不清楚纯粹基于文本或来自网络的图像训练的人工智能模型是否可以自己学会如何推理其所做的事情,但在像ChatGPT这样的系统的惊人能力之上构建保障是有意义的。她说:“利用当前人工智能擅长的领域——完成编程任务和进行包含更局部形式逻辑的对话——并看看你能走多远,我认为这非常明智。”

Imbue正在构建的代理商可能会避免当前这类系统所存在的错误。当被要求通过电子邮件向朋友和家人发送即将到来的聚会的详细信息时,如果代理商注意到“抄送:”字段包含数千个地址,它可能会暂停。

然而,预测代理商可能出现问题并不总是容易的。去年五月,Albrecht要求一个代理商解决一个棘手的数学难题,然后他下班了。

第二天早上,Albrecht回来查看,结果发现该代理商对难题的一个特定部分产生了固定思维,试图无尽地尝试一种不起作用的方法——陷入了一种无限循环,可能是AI版本的对小细节的过度沉迷。在这个过程中,它产生了数千美元的云计算费用。

“我们将错误视为学习机会,尽管以更低的代价学到这个教训会更好,”Albrecht说。