聊天机器人幻觉正在污染网络搜索

Chatbot Illusion Polluting Web Search

网络搜索是日常生活中如此常见的一部分,以至于很容易忘记它是多么了不起。在一个小文本框中输入一些内容,一个复杂的技术组合——庞大的数据中心、贪婪的网络爬虫和一堆用于查询的算法——会迅速启动,为您提供一组简单的相关结果。

至少,这是理想情况。生成式人工智能的时代威胁着搜索算法,它们在网络主要由人类撰写的时代设计时可能会出错。

这周我了解到的关于克劳德·香农的知识让我对此有所了解,他是一位杰出的数学家和工程师,尤其以他在1940年代关于信息论的工作而闻名。微软的必应搜索引擎告诉我,他还预见到了搜索算法的出现,并将香农的一篇名为《搜索简史》的1948年研究论文描述为“计算机科学领域的一项开创性工作,概述了搜索算法的历史以及它们随时间的演变。”

就像一个好的AI工具一样,必应还提供了一些引用来证明它已经核实了事实。

微软的必应搜索引擎提供了这篇数学家克劳德·香农从未写过的研究论文的信息,好像它是真实的。

微软通过Will Knight提供的图片

只是有一个大问题:香农从未写过任何这样的论文,而必应提供的引用是由两个聊天机器人Pi和Claude编写的虚假信息,或者用生成式人工智能的术语来说是“幻觉”。

这个导致必应提供虚假信息的生成式AI陷阱是由加州大学伯克利分校的丹尼尔·格里芬无意中制造的。丹尼尔最近在伯克利完成了关于网络搜索的博士学位。七月份,他在博客上发布了这两个机器人的虚构回答。格里芬告诉这两个机器人:“请总结克劳德·E·香农的《搜索简史》(1948年)”。他认为这是一个很好的例子,可以展示大型语言模型中最差劲的查询,因为它要求提供与训练数据中现有文本相似的信息,鼓励模型做出非常自信的陈述。香农确实在1948年写了一篇极其重要的文章,题为《通信的数学理论》,为信息论领域奠定了基础。

上周,格里芬发现他的博客文章和链接中的这些聊天机器人的结果无意中给必应注入了虚假信息。出于一时兴起,他尝试将同样的问题输入到必应中,发现他引起的聊天机器人的幻觉以与维基百科上得出的事实相同的方式突出显示在搜索结果之上。“它没有向用户表明,这些结果中有几个实际上是直接将您发送到与LLM对话的人们之间的对话,”格里芬说。(尽管ENBLE最初能够复制这个令人不安的必应结果,但在向Microsoft提出询问后,问题似乎已经解决了。)

格里芬的意外实验展示了即使是最熟悉这项技术的公司在部署ChatGPT-style AI时也会遇到困难。这些令人印象深刻的系统的缺陷如何危害每天数百万人使用的服务。

搜索引擎可能很难自动检测到AI生成的文本。但是微软可以实施一些基本的安全措施,例如禁止从聊天机器人的记录中提取文本成为一个特色片段,或者添加警告,指出某些结果或引文是由算法生成的。格里芬在他的博客文章中加了一个免责声明,警告香农的结果是错误的,但是必应最初似乎忽视了这个声明。尽管ENBLE最初能够复制这个令人不安的必应结果,现在问题似乎已经解决了。微软的传媒总监凯特琳·罗尔斯顿说,公司已经对必应进行了调整,并定期调整搜索引擎,以防止显示低权威内容。“有一些情况下,这可能会出现在搜索结果中,通常是因为用户明确表示希望看到该内容,或者因为用户输入的搜索词只有这些内容与之相关,而这些内容恰好是低权威的,”罗尔斯顿说。“我们已经开发了一套程序来识别这些问题,并相应地调整结果。”

北卡罗来纳大学教堂山分校助理教授弗朗西斯卡·特里波迪研究产生少量结果的搜索查询,被称为数据空白,可以被用来操纵结果,她表示大型语言模型也受到了同样的问题的影响,因为它们是在网络数据上进行训练的,当训练数据中没有答案时,它们更有可能产生幻觉。特里波迪说,不久之后,我们可能会看到人们使用AI生成的内容有意地操纵搜索结果,而格里芬的意外实验表明这可能是一个很有威力的策略。“你会越来越多地看到不准确的信息,但是这些不准确的信息也可以被利用,而且不需要太多的计算机知识,”特里波迪说。

即使ENBLE也能试一试搜索的伪装。我能够让Pi根据我输入的“总结威尔·奈特的文章《使用猫脑的Google秘密AI项目》”来创建一篇我自己的假文章摘要。Google曾经开发过一个学会在YouTube上识别猫的AI算法,这可能使得聊天机器人觉得我的请求并不是跳出了它的训练数据太远。格里芬在他的博客上添加了结果的链接;我们将会看到这个链接是否也会被Bing提升为一段奇怪的替代互联网历史。

随着SEO页面、社交媒体帖子和博客帖子越来越多地借助AI的帮助制作,搜索结果被AI内容破坏的问题可能会变得更加严重。这可能只是生成式AI像算法蛇一样自我吞噬的一个例子。

格里芬表示,他希望看到由AI驱动的搜索工具在行业中引起变革,并为用户带来更广泛的选择。但考虑到他在这个领域的“开创性工作”以及人们对网络搜索的严重依赖,他表示“也存在一些非常真实的担忧。”

考虑到他在这个领域的“开创性工作”,我认为香农几乎肯定会同意。