“不了解OpenAI在云端正在构建什么可能存在巨大风险,牛津学者警告”

Oxford scholars warn of potential risks in OpenAI's cloud-based construction

2023年,开放AI(OpenAI)作出了一个具有里程碑意义的决定,即在3月份推出其最新的大型语言模型(LLM)GPT-4时,几乎不公开有关该模型的任何信息。这种突然的保密做法正在成为技术行业的一大伦理问题,因为除了OpenAI及其合作伙伴微软,没有人知道他们的计算云中的黑匣子中发生了什么。

此外:OpenAI选择保密而非公开披露GPT-4

这种模糊处理成为牛津大学的埃马努埃莱·拉·马尔法(Emanuele La Malfa)和阿伦·图灵研究所及利兹大学的合作者们本月发布的一份报告的主题。在一篇发布在arXiv预印服务器上的论文中,拉·马尔法和同事们探讨了“语言模型即服务”(LMaaS)的现象,指的是在线托管的LLM,可以通过用户界面或API访问。该方法的主要例子是OpenAI的ChatGPT和GPT-4。

作者写道:“商业压力导致了大型、高性能的LLM(语言模型)的发展,这些模型只能作为客户的服务访问,以返回字符串或标记作为对用户文本输入的响应,但没有关于其架构、实现、训练过程或训练数据的信息,也不能提供检查或修改其内部状态的能力。”

开源语言模型与LMaaS之间的差异。使用开源程序的用户具有完全控制权,而LMaaS服务的客户则只能通过浏览器或API使用。

他们观察到,由于这些与LMaaS相关的访问限制以及其黑盒本质,造成了公众和研究界更好地理解、信任和控制它们的需求与现状的矛盾。他们指出:“这在该领域的核心问题上产生了重大问题:最强大和最具风险的模型也是最难分析的。”

这个问题已经被许多人指出,包括OpenAI的竞争对手,尤其是那些依靠开源代码击败闭源代码的竞争对手。例如,生成式人工智能初创公司Stability.ai的首席执行官Emad Mostaque表示,没有企业可以信任像GPT-4这样的闭源程序。

他在五月份的一次小型新闻发布会上表示:“开源模型对于私有数据至关重要。你需要知道它的内部所有内容;这些模型非常强大。”

此外:GPT-3.5与GPT-4:ChatGPT Plus是否值得订阅费用?

拉·马尔法和团队回顾了各种语言模型的文献,并确定了模糊处理如何阻碍了针对这些程序的审计,涉及四个关键因素:可访问性、可复制性、可比性和可信性。

作者指出,这些问题是人工智能伦理学的一项新发展:“这些问题是特定于LMaaS范式的,与语言模型相关的既有问题不同。”

此外:根据Stability.ai创始人的说法,开源对缓解人工智能的担忧至关重要

可访问性关注代码保密的问题,这在很大程度上使得那些拥有庞大研发预算的大公司受益。

他们写道:“由于计算能力分布不均并集中在极少数公司手中,那些具有技术优势但缺乏计算资源的公司面临着一个困境:虽然公开他们的LMaaS代码将在市场曝光和社区贡献方面对他们有益,但释放驱动模型的代码可能很快以放弃竞争优势为代价,让拥有更高计算资源的竞争对手受益。”

此外,LMaaS程序的统一定价意味着发展不发达经济体的人们在获取这些工具方面处于不利地位。他们建议:“缓解这些问题的一个起点是将LMaaS以及以付费使用为基础的人工智能服务作为一种独立、普遍和具有颠覆性的技术进行分析。”

另一个问题是LLMs培训中的差距越来越大:作者们观察到,商业LLMs可以重复使用客户提示,从而使自己与只使用公共数据的程序有所区别。

此外:ChatGPT是如何工作的?

他们写道,LMaaS的商业许可证“授予公司使用提示来提供、维护和改进其服务的权利”,因此没有共同的基线培训数据供所有人使用。

他们提供了一个图表(如下所示),评估了语言模型是否收集客户提示进行训练和“微调”,在某些情况下,这一阶段可以增强语言模型的能力,以及它们是否允许用户选择退出。

比较语言模型是否向其客户提供选择退出数据以及是否使用这些数据来训练和微调其黑盒模型。

在详细描述各种风险之后,拉马尔法和团队提出了“初步议程”来解决这四个领域的问题,敦促“我们需要作为一个社区共同努力,找到能够使研究人员、决策者和公众都能够信任LMaaS的解决方案。”

首先,他们建议“公司应该发布其LMaaS程序的源代码”,即使不向公众发布,也应该“至少向审计员/评估员/红队提供有限的共享权限。”

此外:AI机器人一直在通过医学院考试,但它们应该成为你的医生吗?

他们建议,公司在推出新模型时不应完全放弃旧的语言模型。或者,至少应该“将构成模型的所有参数进行哈希处理,并且模型维护者应该向用户提供“模型提交”的日志记录,以便维护者更新模型。”并且,包括期刊和会议在内的领域应该“不鼓励使用不追求这些预防措施的模型。”

为了进行基准测试,需要开发工具来测试LMaaS已吸纳其提示的元素,以便准确设置基线。

显然,通过LMaaS,AI伦理问题已经进入了一个新阶段,在这个阶段中,关键信息被锁在了钥匙之下,使得伦理选择对每个人来说都比过去更加困难。