AI训练数据集的阴暗世界揭秘

AI训练数据集的隐秘世界揭露

数据来源倡议组织的一项新研究揭示了在创建和共享用于训练人工智能系统的数据集时存在的一些问题。这些数据集对于开发高级AI功能至关重要,但许多数据集未能正确表明数据来源或缺乏许可信息,引发了法律和伦理上的担忧。

根据《华盛顿邮报》10月25日的一份报告,该研究审查了来自Hugging Face、GitHub和Papers With Code等领先人工智能网站的1800多个常用数据集。令人震惊的是,大约70%的数据集未明确指定许可条款或将许可权限与创建者的意图相混淆。这使得AI开发人员对于使用这些数据集可能存在的版权限制或要求一无所知——还需要更多信息。

报告的合著者Sara Hooker表示:“即使人们愿意,也不能做正确的事情。”这种模糊的许可证明了快速发展的AI开发领域存在更广泛的问题,在赶发布新数据集时,研究人员感受到了跳过记录数据来源等步骤的压力。

关于创作者许可条款和权限的错误程序带来了深远的后果

这些问题的影响深远,因为这些数据集为聊天机器人和语言模型等高级AI系统提供动力,包括Meta的Llama和OpenAI的GPT模型。科技巨头们因未经许可而从书籍和网站上抓取的文本面临诉讼。批评人士认为,AI公司应该支付Reddit等数据来源的费用,但许可问题却带来了阻碍。

在幕后,AI研究人员通过掩盖数据的来源来“洗涤”数据,试图消除限制。据报道,领先的AI实验室禁止将其模型的输出用于竞争的AI,但允许一些非商业用途。然而,缺乏适当的许可证明。

这项研究旨在窥探这个支持AI热潮的不透明生态系统。交互式工具并不制定政策,但有助于为开发人员、律师和政策制定者提供信息。分析结果显示,大部分数据来自学术界,其中维基百科和Reddit是主要来源。然而,代表全球南方语言的数据仍然主要来自北美和欧洲的创作者和网站。

Hooker表示:“数据集的创建通常是研究循环中最不受赞美的部分,但它却需要归因,因为它需要大量工作。”该研究通过强调改进实践的需求,向更透明和伦理化的人工智能迈进。然而,我们仍需做更深入的研究来揭示数据在推动AI无情进军未来过程中的阴暗面。

特色图片来源:Shuki Harel的照片;Pexels;谢谢!