人工智能检测竞赛开始了

AI competition starts.

Edward Tian并不认为自己是一个作家。作为普林斯顿大学的计算机科学专业学生,他修了几门新闻学课程,学习了报道的基础知识,他阳光的性格和好奇的天性赢得了老师和同学们的喜爱。但是他形容自己当时的写作风格为“相当糟糕”——公式化而笨拙。其中一位新闻学教授说天天擅长“模式识别”,这在写新闻稿时很有帮助。所以天天很惊讶,大二的时候,他竟然成功地进入了约翰·麦克菲的独家非小说写作研讨班。

每周,16名学生聚集在一起,聆听这位传奇的《纽约客》作家解剖他的艺术。麦克菲布置了一些练习,迫使他们严谨地思考词语:描述校园上的一件现代艺术品,或者修剪格莱茨堡演讲,使其变短。麦克菲使用投影机和幻灯片,分享手绘的图表,展示了他自己的文章结构的不同方式:一条直线,一个三角形,一个螺旋。天天记得麦克菲说他不能告诉学生们如何写作,但至少可以帮助他们找到自己独特的声音。

本文出现在2023年10月号。订阅ENBLE。

照片:Jessica Chou

如果麦克菲在天天心中燃起了对语言的浪漫视角,那么计算机科学则提供了一个不同的视角:语言作为统计学。在大流行期间,他休学一年,在BBC工作并在Bellingcat进行实习,这是一个开源新闻项目,他在那里编写了用于检测Twitter机器人的代码。大三时,他修了机器学习和自然语言处理的课程。在2022年秋季,他开始着手撰写关于检测人工智能生成文本与人类编写文本之间差异的毕业论文。

当ChatGPT在11月份首次亮相时,天天发现自己处于一个不寻常的位置。随着世界对这个新的、根本改进的聊天机器人疯狂迷恋,天天已经熟悉了底层的GPT-3技术。作为一名曾经从事揭示虚假信息活动的记者,他理解了人工智能生成内容对行业的影响。

在多伦多度过寒假期间,天天开始玩弄一个新的程序:一个ChatGPT检测器。他在自己最喜欢的咖啡馆里工作,一边喝着茉莉花茶,一边在卧室里深夜编程。他的想法很简单。该软件将扫描一段文本,考察两个因素:“困惑度”,即词语选择的随机性;和“爆发度”,即句子的复杂程度或变化程度。相比于人工智能写作,人类写作在这两个指标上往往得分更高,这让天天可以猜测一段文本是如何产生的。天天将这个工具称为GPTZero——“zero”表示真相,回归基本——并于1月2日晚上将其放在了互联网上。他在Twitter上发布了一个链接和简短的介绍。他的目标是对抗“日益增加的人工智能抄袭”,他写道。“高中老师会想要学生使用ChatGPT来写历史文章吗?很可能不会。”然后他就睡觉了。

第二天早上,天天醒来时发现自己收到了数百条转发和回复。主机服务器上的访问量非常大,许多用户无法访问。 “那是完全疯狂的,”天天说。“我的手机炸了。”一个朋友祝贺他赢得了互联网。TikTok上的年轻人称他为告密者。“最初的许多仇恨都是这样的,‘这个孩子是告密者,他没有生活,他从来没有女朋友,’”天天笑着说。“典型的东西。”(天天有一个女朋友。)几天之内,他接到了来自世界各地记者的电话,最终出现在从NPR到《南华早报》到《安德森·库珀360》等各种媒体上。在一周内,他原始的推文的浏览量超过了700万次。

GPTZero是围绕ChatGPT的媒体叙事的一个新变化,ChatGPT引发了整个行业的忧虑和大量由人工智能生成的开头段落。 (研究人员在2019年为GPT-2文本创建了一个检测器,但天天的检测器是首个针对ChatGPT的。)教师们感谢天天的工作,因为他们终于可以证明他们对可疑学生文章的怀疑。人类找到了自己抵抗机器接管的救世主吗?

天天的程序可以说是一个起跑线。现在,创造一个明确的人工智能检测工具的竞赛已经开始。在一个越来越充斥着人工智能生成内容的世界中,我们需要区分机器生成的和人类创作的。GPTZero代表了一个承诺,即我们确实能够将其中一种与另一种区分开来,并且认为这种区别很重要。在他的媒体之旅中,天天——笑容满面,真挚而努力,优等生的化身——详细阐述了这种令人 gerber 人的观点:不管生成式人工智能工具变得多么复杂,人类写作都有一种无法用数字表达的元素。

互联网上的生活一直是伪造者与伪造者检测者之间的战斗,双方都从这场冲突中获利。早期的垃圾邮件过滤器通过关键词筛选电子邮件,阻止包含“免费!”或“超过21岁”的短语的消息,最终他们学会了过滤整个写作风格。垃圾邮件发送者回应的方式是在他们的推销信息周围添加从旧书中截取的听起来像人类的语言片段并混合在一起的内容。(这种消息被称为“litspam”,成为了一种独特的类型。)随着搜索引擎的普及,为了提高网页排名,创作者们采用了“关键词堆积”的方法,即反复重复相同的词语。搜索引擎则通过降低这些网站的排名来反击。在谷歌推出其PageRank算法后,赞助商创建了一个完整的相互支持的页面生态系统。

千禧年之交,验证码工具出现了,基于人们解释扭曲文字图像的能力,将人类与机器人区分开来。一旦一些机器人能够处理这个问题,验证码又添加了其他的检测方法,包括解析摩托车和火车的图像,以及感知鼠标移动和其他用户行为。(在最近的一次测试中,GPT-4的早期版本显示它知道如何雇佣Taskrabbit上的人代替它完成验证码。)整个公司的命运都取决于发现伪造者的问题:埃隆·马斯克(Elon Musk)为了逃避购买Twitter的交易,引用了一个机器人检测器,以增强他的论点,即Twitter对其网站上机器人数量的描述不准确。

生成式人工智能(Generative AI)提高了赌注。虽然大型语言模型和文本到图像生成器在过去十年中稳步发展,但2022年出现了一大批消费者友好型工具,如ChatGPT和Dall-E。悲观主义者认为,我们很快就会被合成媒体的海啸淹没。《纽约时报》的科技专栏作家凯文·鲁斯(Kevin Roose)去年警告说:“在几年内,我们在互联网上遇到的大多数照片、视频和文本都可能是由人工智能生成的。”《大西洋》杂志想象了一个即将到来的“文本末日”,因为我们努力过滤掉那些生成的噪音。政治竞选活动正在利用人工智能工具创建广告,而亚马逊被ChatGPT写的书籍淹没(其中很多是关于人工智能的)。浏览产品评论已经感觉像是世界上最烦人的图灵测试。下一步似乎很明确:如果你认为尼日利亚王子的电子邮件很糟糕,那等着看尼日利亚王子聊天机器人吧。

天然(Tian)发布了GPTZero之后不久,一波类似的产品相继出现。OpenAI在一月底推出了自己的检测工具,而反抄袭巨头Turnitin在四月推出了一个分类器。它们都共享基本的方法论,但每个模型都是基于不同的数据集进行训练的。(例如,Turnitin专注于学生写作。)因此,准确性在OpenAI声称检测AI写作文本的26%到一家名为Winston AI声称的最乐观的99.6%之间差异巨大。为了保持竞争优势,天然必须不断改进GPTZero,开发下一个产品,并同时完成学业。

天然立即将他的高中朋友Alex Cui招聘为首席技术官,并在接下来的几周里,从普林斯顿和加拿大招募了一些程序员。然后,在春天的时候,他接纳了三名来自乌干达的编程人员,他们四年前在一家在非洲培训工程师的初创公司工作时结识的。(作为一个全球公民,天然出生在东京,在4岁时搬到了北京,然后他的中国工程师父母将家人搬到了安大略省。)团队一起开始着手下一个应用程序的开发:一个Chrome插件,可以扫描网页的文本并确定它是否是由人工智能生成的。

对于GPTZero来说,另一个威胁就是GPTZero。几乎在推出后不久,社交媒体上的怀疑论者就开始发布该工具误分类文本的尴尬例子。有人指出它将美国宪法的某些部分标记为可能是由人工智能写的。当有关学生因GPTZero的错误指控而被错误地指控作弊的故事开始在Reddit上涌现时,嘲笑变成了愤怒。在某个时刻,一名学生家长联系了马里兰大学的计算机科学教授Soheil Feizi。“他们非常愤怒,”Feizi说。去年秋天,在GPTZero推出之前,Feizi和马里兰大学的一些同事已经开始组织一个关于AI检测器问题的研究项目,他怀疑这些检测器可能不可靠。现在,GPTZero及其模仿者让他认为它们可能造成的伤害超过了好处。

对于天然来说,另一个头疼之处是聪明的学生们找到了绕过检测器的方法。Twitter上的一个人指示用户在ChatGPT生成的文本中的每个“e”之前插入一个零宽度空格。TikTok上的一个用户编写了一个程序,通过用其西里尔字母的近似字母替换某些英文字母来绕过检测。其他人开始将他们的AI文本通过流行的改写工具QuillBot。天然修补了这些漏洞,但绕过方法仍在不断出现。只是时间问题,就会有人推出竞争产品——一个反检测器。

三月初,斯坦福大学的一名新生Joseph Semrai和几个朋友驾车沿着太平洋海岸公路前往洛杉矶时,在文图拉被锁在Zipcar(一种共享汽车)外面。他们走到附近的一家星巴克等待路边救援。但是等待时间拖延了几个小时,Semrai和他的一个朋友想知道如何弥补失去的时间。Semrai下周需要为必修的大一写作课写一篇论文。这是他最不喜欢的任务类型:一个旨在展示逻辑推理的公式化论文。“这是一个相当算法化的过程,”Semrai说。

ChatGPT是显而易见的解决方案。但当时,它的回答通常只能达到几段文字,所以生成一篇完整的论文需要进行多步骤的过程。Semrai想要创建一个能够一次性写完论文的工具。他也知道有可能被GPTZero检测到。在朋友的鼓励下,Semrai拿出笔记本电脑,编写了一个脚本,根据提示写一篇论文,将文本通过GPTZero运行,然后不断调整措辞,直到AI不再可检测,实际上是利用GPTZero对抗自身。

几天后,Semrai在“朋友和家人演示日”上介绍了他的程序,这是斯坦福本科开发者社区的一种展示活动。站在一屋子的同学面前,他向观众提出了一个论文主题——有人建议“加利福尼亚的高级餐饮”——然后将其输入到提示框中。几秒钟后,程序输出了一篇八段落的论文,内容原创但连贯,并附有参考文献。“我不是说我会提交这篇论文,”Semrai笑着说。“但是给你们看看。我不知道,这样可以节省时间。”他将这个工具命名为WorkNinja,并在两个月后将其放到应用商店上。在一次促销活动中,他请来了Z世代的影响者David Dobrik,并向注册用户赠送了10辆特斯拉,第一周下载量超过35万次;据Semrai称,自那时以来,每天的注册数量已经减少到几百个。(Semrai没有透露活动的资助方是谁,只说是一位重要的硅谷天使投资者。)

Semrai平静的外表掩盖了一种炽热的热情。与Tian(斯坦福大学的另一位学生)一样,Semrai在世界上跳跃并充满活力,而Semrai显得专注和毫不动感。这位19岁的年轻人以自信、适合播客的语调说话,他将世界视为需要解决的问题,每隔一句话以“对吧?”结束。听他滔滔不绝地谈论可防御的壕沟和社会增长的“S曲线”,很容易忘记他还不能合法饮酒。但是,偶尔,他会说出一些表明他是一个睁大眼睛的大学生,面对世界,仍在摸索自己的位置的事情。例如,他和一个朋友在圣莫尼卡码头周围走到凌晨3点,“谈论我们所重视的东西”。Semrai经常考虑如何找到平衡和幸福。“我想,当我年轻的时候,这可能更多地在于探索导数,”他说,“追逐高峰和低谷。”

Semrai在纽约和佛罗里达长大,他的父亲是来自Yonkers的消防员,母亲是来自中国的家庭主妇,他们给了他很大的自由。他说:“在童年时期,我被允许追求自己真正感兴趣的东西。”“通过在电脑上制作东西是做到这一点的最好方式。”当Semrai六岁时,他创建了一个插件,用于为Minecraft服务器分配权限级别,七岁时,他写了一个程序,以便在Windows 7上运行Windows XP。“为人们制作东西使我真正感到幸福,”他说。

他的家人在他9岁时从皇后区搬到了棕榈城,Semrai看到了公立学校系统之间的差异。纽约学校所普遍拥有的基本计算机素养在佛罗里达很少见。他开始编写程序以填补教育中的空白,这条轨迹使他能够在19岁时说自己“一直在从事教育技术工作”。高中一年级时,他创建了一个在线学习平台,在当地的比赛中获得了初创公司的资金。在疫情之前,他创建了一个数字化的通行证系统,成为接触追踪的基础,并被东南部的40个学区采用。

Semrai从根本上是一个技术乐观主义者。他说他相信我们应该加快技术发展,包括人工智能,因为这最终将引导我们走向“后稀缺”社会,这种世界观有时被描述为“有效加速主义”。(不要与有效利他主义混淆,后者认为我们应该采取最大化“好”的结果的行动,无论如何定义。)Semrai对于WorkNinja的案例也基于这种加速主义的逻辑。在他看来,AI写作工具的好处不在于帮助学生作弊,而在于它们将迫使学校改革课程。“如果你可以按照一个公式来写一篇文章,那可能不是一个好的任务,”他说。他设想的未来是每个学生都能获得曾经只为贵族保留的个性化AI辅导的教育。Semrai说,在他刚开始学习编程时,他主要依靠YouTube视频和互联网论坛来解答问题。“如果有一个导师引导我,那会更容易,”他说。现在有了AI导师,为什么要阻止它们的发展呢?

Joseph Semrai,19岁,WorkNinja的创始人,这是一个生成AI写作文章的工具。

插图:詹姆斯·马歇尔;摄影:查理斯·摩根

最近我使用了WorkNinja生成了一些文章,其中包括一篇关于达尔文的进化论的文章。它给我的第一个版本很笨拙而重复,但还可以,探讨了这个理论对生物学、遗传学和哲学的影响。GPTZero将其标记为可能是由AI生成的。

所以我点击了WorkNinja的重新表述按钮。文本略微改变,用同义词替换了某些词语。经过三次重新表述,GPTZero终于给这段文本贴上了人类的标签。(几周后我再次测试相同的文本时,该工具将其标记为人类和AI写作的混合体。)问题是,许多重新表述的句子不再合乎逻辑。例如,以下句子:

达尔文的进化论是指生物种类随时间的推移由于与其环境的相互作用而进化。

变成了:

达尔文的进化论是指生物种类随时间的推移由于与其周围环境的相互作用而获取的思想。

至少,任何寻找捷径的学生在提交作业之前都必须清理他们的WorkNinja草稿。但这指出了一个真正的问题:即使这个不完善的产品都能绕过检测器,一个更强大的产品又能达到什么样的效果呢?

今年3月,马里兰大学的Soheil Feizi发表了他对AI检测器性能的研究结果。他认为,由于AI文本检测器的工作方式,准确性问题是不可避免的。当你增加仪器的敏感性以捕捉更多的AI生成文本时,你无法避免将误报的数量提高到他认为是不可接受的水平。他说,迄今为止,要想得到一个而不牺牲另一个是不可能的。随着AI生成文本中词语的统计分布趋近于人类的分布,也就是说,随着其越来越具有说服力,他说检测器的准确性只会降低。他还发现,改写句子会使AI检测器困惑,使其判断“几乎随机”。“我认为这些检测器的未来并不乐观,”Feizi说。

他说,“水印”也无济于事。根据这种方法,像ChatGPT这样的生成AI工具主动调整某些可互换的“标记”词语的统计权重,例如使用start代替begin,或使用pick代替choose,这种调整对读者来说是不可察觉的,但对算法来说很容易发现。任何包含这些词语并具有一定频率的文本都可以被标记为由特定工具生成。但Feizi认为,通过足够的改写,水印“可以被抹去”。

与此同时,他说,检测器正在伤害学生。假设一个检测工具的误报率为1%,这是一种乐观的假设。这意味着在一个有100名学生的教室里,在进行10次课后作业的过程中,平均会有10名学生被错误地指控作弊。(Feizi表示,每1000人中有1人的误报率是可以接受的。)“使用这样的工具来监管AI模型的使用是荒谬的,”他说。

天说,GPTZero的目的不是为了抓住作弊者,但到目前为止,这无疑是它的主要用途。(GPTZero的检测结果现在附有警告:“这些结果不应用于惩罚学生。”)至于准确性,天说GPTZero在其最新数据集上的训练水平为96%。其他检测器声称有更高的数字,但天说这些声明是一个警示信号,因为这意味着他们正在将其训练数据过拟合以适应其工具的优势。“你必须让AI和人类处于平等的地位,”他说。

令人惊讶的是,与合成文本相比,AI生成的图像、视频和音频片段要容易检测得多,至少目前是如此。2018年,一家名为Reality Defender的初创公司以检测虚假图像和视频为重点推出,并逐渐扩展到音频和文本。英特尔发布了一个名为FakeCatcher的工具,通过分析仅对摄像机可见的面部血流模式来检测深度伪造视频。一家名为Pindrop的公司使用声音“生物特征”来检测伪造音频,并在没有安全问题的情况下对呼叫者进行身份验证。

人工智能的诱惑说道:”事情不一定要这样”。当考虑到那些不属于作家困苦者精英俱乐部的数十亿人时,你会开始想:也许事情本不该如此。

人工智能生成的文本更难被检测到,因为它具有相对较少的数据点进行分析,这意味着人工智能输出与人类规范的偏离机会较少。与英特尔的FakeCatcher进行对比。英特尔的研究科学家伊尔克·德米尔(Ilke Demir)曾参与皮克斯电影的制作,他表示,要创建一个足够大且详细的数据集以允许深度伪造者模拟血流签名以欺骗侦测器将非常困难。当我问她是否可能最终会创建这样一个东西时,她说她的团队预计未来深度伪造技术的发展,以保持领先。

Reality Defender的首席执行官本·科尔曼(Ben Colman)表示,他公司的检测工具是无法逃避的,部分原因是它们是私有的。(到目前为止,该公司的客户主要是政府和大型公司。)像GPTZero这样的公开可用工具,任何人都可以通过检测器运行一段文本,然后调整它,直到通过审查。相比之下,Reality Defender会审查每个使用该工具的人和机构,科尔曼说。他们还会注意到可疑的使用情况,所以如果一个特定的帐户反复对同一张图像进行测试,以绕过检测,他们的系统会标记出来。

无论如何,就像垃圾邮件猎人、间谍、疫苗制造商、国际象棋作弊者、武器设计师和整个网络安全行业一样,所有媒体上的人工智能侦测器都必须不断适应新的逃避技术。前提是人和机器之间的区别仍然重要。

我与天和塞姆雷以及他们的同学同事们交谈的时间越长,我越想知道:这些年轻人中有没有人真的喜欢写作?“是的,非常喜欢!”天在去年五月在普林斯顿校园被我问到时喜笑颜开。他说:“就像一个拼图。”他喜欢弄清楚单词如何组合在一起,然后安排思路使其流畅。“我觉得这很有趣。”他还喜欢采访过程,因为它让他“窥视他人的生活,也是对自己生活方式的一种反映。”

天说,在高中时,写作感觉像是一项苦差事。他把麦克菲(McPhee)归功于激发了他的热爱并扩大了他的口味。在六月,他兴奋地告诉我,他刚刚买了一本安妮·迪拉德(Annie Dillard)的《写作生活》的二手书。

类似地,塞姆雷发现高中写作作业无聊而机械化,更多的是关于综合信息而不是创造新东西。“我更喜欢那种能激发创造力的开放式作业,”他说。但他把那些综合技能用到了实践中。大二时,他写了一本800页的教学书,名为《为一切构建》,旨在“帮助人们从一无所知到几乎了解关于网页开发的一切”。(他在2022年将该书自行发布在亚马逊上,并卖出了几百本。)塞姆雷说这是ChatGPT擅长的那种散文。“我不认为这本书属于有意义的写作范畴,”他说。

经过近20年为赚钱而打字的经历,我可以通过经验来说,写作很糟糕。询问任何职业作家,他们会告诉你,这是最糟糕的,而且练习也不会让它变得更容易。我可以证明,保持扫描世界、挖掘事实并从中挤出意义所需的热情和好奇心可能很难持续。而且在考虑行业的现状时:报酬减少、版面减少、注意力持续减少(读者和我自己的注意力)。我坚持下去,因为无论好坏,这已经成为了我的一部分。我这样做不是为了快乐,而是因为它对我来说有意义。

有些作家把挣扎浪漫化了。麦克菲曾经描述过躺在野餐桌上两周时间,试图决定如何开始一篇文章。他写道:“这篇文章最终会由大约五千个句子组成,但在那两周里,我甚至无法写出一句。”还有一次,他22岁时,他用浴袍的腰带把自己绑在写作椅子上。根据托马斯·曼(Thomas Mann)的说法,“作家是那些写作比其他人更困难的人。”安妮·迪拉德在《写作生活》中写道:“你要搜索,伤害你的心、背、脑,然后——只有那时候——它才会交给你。”她在一段漫长的写作与扭斗比较后提供了这样一句话。

这意味着,挤压越紧,果汁就越甜——在面对空白页面时有一种美德,驯服它,迫使它转化为散文。我们告诉自己,这就是最伟大的突破发生的方式。我们认为这种痛苦是值得的,因为这就是创意诞生的方式。

人工智能的诱惑说,事情不必这样。考虑到数十亿不属于作家受难者精英俱乐部的人们,你会开始想:也许事情不应该这样。

May Habib在黎巴嫩度过了她的童年,后来搬到加拿大,在那里她学习了英语作为第二语言。她说:“我觉得这是相当不公平的,这么多的好处都归于那些擅长阅读和写作的人。” 2020年,她创办了Writer,这是几个混合平台之一,旨在不是取代人类写作,而是帮助人们——更准确地说,帮助品牌更好地与人工智能合作。

Habib说她相信盯着空白页面有价值。它帮助你思考和舍弃想法,并迫使你组织思维。“通过沿途曲折、头痛欲裂、想要自杀般地盯着光标看,有很多好处,”她说。“但是这必须与毫秒级速度相权衡。”

Writer的目的不是替你写作,她说,而是让你的写作更快、更强、更一致。这可能意味着建议对散文和结构进行编辑,或者强调关于该主题的其他已经写过的内容并提供反驳意见。她说,目标是帮助用户更少地关注句子层面的机械性,更多地关注他们试图传达的思想。理想情况下,这个过程会产生一段文本,就像这个人完全自己写的一样“人类”。她说:“如果检测器能够标记它是AI写作,那么你使用工具的方式就不对。”

宾夕法尼亚大学沃顿商学院的教授Ethan Mollick说,黑白分明的观念,即写作要么是人类创作的,要么是人工智能生成的,正在逐渐消失。相反,我们正在进入他所称之为“半人马写作”的时代。他说,当你让ChatGPT写一篇关于蒙古帝国历史的文章时,结果很容易“像AI一样”。但是他说:“开始写,‘第三段的细节不太对——添加这些信息,并使语气更像《纽约客》’,然后它就变成了一种混合作品,质量更好。”

Mollick在沃顿教授创业课程时,不仅允许学生使用人工智能工具——他要求学生使用。他说:“现在我的教学大纲上写着你必须至少做一件不可能的事情。”如果一个学生不会编程,也许他们写一个可行的程序。如果他们从未做过设计工作,他们可能会制作一个视觉原型。“你提交的每篇论文都必须由至少四个名人企业家进行评论,以进行模拟,”他说。

Mollick表示,要想取得好的结果,学生仍然必须掌握自己的专业领域。目标是让他们进行批判性和创造性思考:“我不在乎他们用什么工具来做,只要他们以复杂的方式使用这些工具,并运用自己的思维。”

Mollick承认ChatGPT不如最优秀的人类作家好。但它可以帮助其他人更上一层楼。“如果你是一个底层作家,现在你进入了60%到70%的百分位数,”他说。它还使某些类型的思考者摆脱了写作过程的苦难。“我们把写作能力和智力等同起来,但这并不总是正确的,”他说。“事实上,我会说这通常是错误的。”

23岁的Edward Tian,GPTZero的创造者,这是一个检测人工智能生成写作的工具。

插图:James Marshall;照片:Lauryn Hill

五月的一个晴朗的日子,我和Tian漫步在普林斯顿大学的校园里;大白色的重聚帐篷好像降落在修剪整齐的草坪上。应我要求,Tian邀请了一些同学加入我们,在校外的一家川菜馆共进午餐,并谈论人工智能。

当一些学校急于禁止使用ChatGPT,科技公司的CEO签署信件警告人工智能崩溃的危险时,学生们对机器辅助的未来显得相当轻松。(普林斯顿大学让每位教授自行制定规则。)一个学生最近使用ChatGPT写了她的论文致谢部分。其他人,包括Tian,在编程时依赖它填写脚本的片段。计算机科学专业的高年级生Lydia You计划从事新闻工作,她让ChatGPT写了一首关于失去东西的诗,以伊丽莎白·毕晓普的风格为模板,试图重现她著名的诗作《One Art》。(“失去的艺术并不难掌握。”)结果,“非常接近”原诗,You说,她发现聊天机器人甚至更好地分析了原诗,并描述了什么使它如此动人。“我们已经看到了关于我们生活中几乎所有事情的恐慌,”You说,她提到了TikTok、Twitter和互联网本身。“我觉得我们这一代人,我们可以自己找出如何使用它的方法。”

“索菲·阿米顿是一名高级机械与航空航天工程专业的学生,她跳了进来说:“而且,我认为我们这一代在很多方面都比较懒,”她说,尤也点头表示同意。“我看到很多人现在不想要传统的工作,不想要一份朝九晚五的工作。”

“他们感到幻灭,”尤说。“很多工作都是关于电子表格。”

“我认为这是因为疫情的缘故,”阿米顿接着说。“人们重新评估了工作的目的,如果你可以使用ChatGPT使生活更轻松,从而获得更好的生活质量或工作与生活的平衡,为什么不使用这个快捷方式呢?”

丽兹是普林斯顿大学最近的毕业生,她不愿意透露自己的姓氏,她把她用ChatGPT的帮助写的一篇有关全球政治的论文发给了我。她不仅仅让它回答论文问题,还输入了一个有详细要点的大纲,然后让它根据她的笔记写论文。经过反复修改和补充,告诉它重新写作、重新组织,增加细节和背景,她最终得到了一篇她觉得可以提交的论文。她得到了A的成绩。

我把她的论文复制粘贴到GPTZero中。评判结果是:“你的文本很可能是完全由人类写成的。”

在五月初,就在天和他的同学们穿上他们的黑色毕业服的几周前,GPTZero团队发布了他们一直在开发的Chrome插件,称其为Origin。Origin还很简单:你必须自己选择网页上的文本,并且它的准确性并不完美。但是天希望有一天这个工具能够自动扫描你浏览的每个网站,突出显示从文本到图像到视频的人工智能生成的内容,以及任何“有毒”或事实可疑的内容。他将Origin描述为信息高速公路的“挡风玻璃”,可以避开无用或有害的材料,让我们清晰地看到道路。

天对这家公司一直充满乐观,他也觉得自己很幸运能够毕业后进入一份他真正想要的工作。他的很多朋友最初进入普林斯顿时计划成为企业家,但科技行业的紧缩改变了他们的计划。

“我们对我们生活中几乎所有的事情都恐慌不已。我觉得我们这一代人是这样的,我们可以自己找出如何利用这一点。”

作为一个还有三年时间在斯坦福大学度过的即将升入大二的学生,塞姆拉伊对这个夏天持有更加随遇而安的态度。在六月的一个炎热的星期四下午,他在沃尔街附近的17号码头的屋顶上,穿着一件绿色图案衬衫和白色耐克鞋,兴高采烈地和我谈论着未来,或者至少接下来的几个星期。他的夏天还在不断发展中。(“我正在快速地测试我的论文。”)但是现在他身在纽约,与朋友们一起生活,同时致力于几个基于人工智能的项目。前一天晚上,他在索霍的一个联合办公空间里睡觉。现在,他站在纽约市科技明星孵化器Techstars纽约城举办的活动的阴凉VIP区,数百名汗水淋漓的与会者在阳光下穿梭。

不远处,纽约市市长埃里克·亚当斯戴着墨镜和一套完整的西装站在舞台上,赞扬编码的荣耀。“我是一个技术人员,”亚当斯说道,然后鼓励来宾寻找多样化的合作伙伴,并使用“源代码”来解决癌症和枪支暴力等社会问题。然后他敦促人群中的单身人士找到一个“小矮人或者宝贝”,与他们搭讪。

塞姆拉伊正在采取试错的方式进行开发。除了WorkNinja,他还在开发一个基于真实名人数据的聊天机器人平台,粉丝可以通过它与名人互动。他还在原型制作一个手环,可以记录我们说和做的一切,塞姆拉伊称之为“完美记忆”,并提供实时提示以促进对话。(斯坦福大学的一群同学最近创建了一个类似的产品,名为RizzGPT,它是一种帮助佩戴者调情的眼镜。)

他预计这个夏天将会涌现出一系列的人工智能应用,年轻的编码者们将进行交流和交叉授粉。(埃里克·亚当斯会赞成的。)“我认为将会形成一系列的初创企业,五年后我们将能够在人们之间画出联系-这是一个生态系统的开始,”他说。

到了夏天,天已经有了一个由12名员工组成的团队,并从一些风险投资公司筹集了350万美元,包括杰克·阿尔特曼(OpenAI首席执行官山姆·阿尔特曼的兄弟)和稳定性AI的埃马德·莫斯塔克。但是在我们的对话过程中,我注意到他对于GPTZero/Origin的描述在略微变化。现在,他说,AI检测只是人性证明工具包中的一部分。同样重要的是对来源的强调,或者“内容验证”。这个想法是给一段内容附加一个加密标签,验证其是由人类创造的,根据其创作过程来确定-一种数字文件的验证码。Adobe Photoshop已经为使用其新的AI生成工具Firefly的照片附加了一个标签。任何查看照片的人都可以右击它,看到是谁制作的,何地以及如何制作。天表示他希望对文本做同样的事情,并且他已经与内容真实性倡议组织以及微软进行了合作的谈判。

有人可能将他对出处的强调解释为默许检测本身并不足够。 (OpenAI于7月关闭了其文本分类器,原因是“准确率低”。)这也预示了我们与数字媒体关系可能发生的范式转变。整个检测的努力表明,人类在一段文本中留下了一个明显的签名 – 一种可察觉的东西 – 就像测谎仪设想不诚实会留下客观的痕迹一样。出处依赖的是更像“美国制造”的标签。如果没有这个标签,我们就无法区分。这是一个微妙但有意义的区别:人类的写作可能不会更好,或更有创意,甚至更原创。但它将是人类的,这对其他人类来说很重要。

在6月,田的团队在实用性方面又迈出了一步。他告诉我,他们正在构建一个名为HumanPrint的新写作平台,该平台将帮助用户改善他们由AI撰写的文本,并使他们能够共享“真实性证明”。不过不是通过生成文本。相反,它将使用GPTZero的技术突出显示文本的部分,这些部分不够人类,并提示用户用自己的话重写它 – 这是当前AI写作助手的一种颠倒。“所以教师可以指定,好吧,也许文章中超过50%仍应该用你自己的话写,”他说。当我问这是否是公司的转型时,田辩称这是“检测的自然延伸”。“一直以来,我们都希望成为负责任AI使用的黄金标准,”田说,“这一点仍然存在。”不过,这暗示很清楚:AI写作是无法阻止的;唯一的选择是与其合作。

当田首次测试GPTZero时,他扫描了麦克菲(McPhee)于2015年在《纽约客》上发表的一篇名为“参照框架”的文章。在这篇文章中,麦克菲谈论了在写作中引用文化的乐趣和风险。“提到碧昂斯,每个人都知道她是谁。提到维罗妮卡·莱克(Veronica Lake),你可能就跟在奎提科-苏必利尔(Quetico-Superior)一样了,”他巧妙地写道。他列举了他用来描述胡子的形容词列表,包括“真诚的”,“毫不犹豫的”,“陀螺仪般的”,“纯真的”,“镇痛的”,“舒缓的”,“海象的”,以及“四字格的”。他以一则关于与一位编辑争论是否要包含一个英国上层阶级游客在印度时期使用的鲜为人知的词汇的轶事作为结尾。(他赢了。)这是典型的麦克菲:手术刀般精确,心胸开阔,虽然有点自鸣得意,欣然离题,纵容直到他达到恰到好处的观点。田说,GPTZero确定这篇文章是“在所有指标上最人类的文章”。我给麦克菲打电话,询问他认为自己的写作特别人类意味着什么。

“我真的没有很好的主意,”麦克菲在电话中告诉我。“但是如果我猜的话,那就是我的作品通过人来探索科学、农业、航空或者其他任何主题。我总是从一个中心人物那里学到东西。”确实,麦克菲通过专家的眼睛进行写作。读者不仅仅会得到一些关于地质学、粒子物理学或橙子的奇特知识,还能感受到研究这个主题的人以及麦克菲研究这个人的感觉。

现年92岁的麦克菲说,他不担心人工智能取代人类作家。“我对此非常怀疑,一点都不担心,”他说。“我认为没有一个人工智能的马克·吐温。”

但是,我问道,如果多年后,有人设计了一款以麦克菲的作品为基础的麦克菲机器人3000,并要求它就一个新的主题写一本书呢?它可能无法与环保行动者一起穿越河流,或者与鱼类学家一起去钓鱼,但它能否捕捉到麦克菲的声音、风格和世界观?田认为机器只能模仿,而麦克菲从不重复自己:“麦克菲的独特之处在于他能够想出一天前的麦克菲无法想到的事情。”

我问麦克菲关于假设的麦克菲机器人3000的问题。(或者,如果Semrai成功,就不只是假设了。)“如果这种事情发生,就是在我不在的未来,”他说,“我希望我的女儿们带着律师出现。”


本文刊登于2023年10月号。立即订阅。

请告诉我们您对这篇文章的看法。请将您的来信发送至编辑部邮件地址:[email protected]