随着生成式人工智能模型的发展,定制化的测试基准和开放性至关重要

生成式人工智能模型的发展需要定制化的测试基准和开放性

随着生成式人工智能(AI)模型的不断发展,行业合作和定制化的测试基准将在组织努力寻找适合其业务的解决方案时至关重要。

在企业寻求基于其垂直领域特定数据训练的大型语言模型(LLMs)以及各国努力确保AI模型基于其独特价值观的数据和原则的情况下,这一努力将是必要的。据新加坡信息通信媒体发展局(IMDA)商业和技术组助理首席执行官王正辉表示。

此外:IBM研究表明,未来三年将有40%的员工需要通过AI进行再培训

她质疑是否一个大型基础模型才是未来的发展方向,还是是否需要更多专业化的模型,指出彭博社正努力构建自己的大规模生成式AI模型BloombergGPT,该模型专门针对金融数据进行了训练。

只要必要的专业知识、数据和计算资源“没有被锁定”,行业就可以继续推动发展。王正辉在本周举行的红帽峰会期间对媒体表示。

这家软件供应商是新加坡AI Verify基金会的成员之一,该基金会旨在利用开源社区开发测试工具包,以引导AI的负责任和道德使用。该计划于6月份启动,除红帽外,还有包括谷歌和微软在内的其他六个首席成员,由IMDA领导,目前已经有60多个普通成员。

此外:目前最好的AI聊天机器人

根据红帽新加坡总经理Guna Chellappan的说法,新加坡是亚太地区对开源技术和原则采纳程度最高的国家。他引用了供应商委托的研究结果,指出72%的新加坡组织表示,在采用开源方面已经取得了“很高或非常高的进展”。

港务公司PSA Singapore和大华银行是红帽的本地客户,前者部署开源应用程序来自动化其业务。大华银行利用红帽OpenShift来支持其云开发。

采用开源路线非常重要,因为透明度对于传递AI伦理信息至关重要。王正辉表示,如果要求公众相信基金会的测试工具包,但没有提供有关这些工具包的详细信息,那将是讽刺的。

她还从其他领域汲取了灵感,特别是网络安全领域,工具通常是在开源环境中开发的,社区持续贡献更新以改进这些应用程序。

她说:“我们希望AI Verify也是如此。”她补充说,如果基金会在孤立中开发测试工具包,将无法跟上行业快速变化的发展。

此外:通过调整ChatGPT提示,改进AI生成内容的简单方法

她指出,这种开放的合作也将有助于找到最佳和最有效的解决方案。汽车行业经历了类似的循环,其中安全带经过设计、测试和重新设计,以确定哪种安全带可以最好地保护驾驶员。

现在,同样的方法需要用于生成式AI,其中模型和应用程序应不断进行测试和调整,以确保它们可以在组织的保护范围内安全部署。

然而,目前一些行业中的人士对于OpenAI等主要参与者不公开披露LLMs背后的技术细节的决策表示担忧。

牛津大学的Emanuele La Malfa领导的一组学者上个月发表的一篇研究论文,强调了在四个方面(可访问性、可复制性、可靠性和可信度)中,由于缺乏有关大型语言AI模型的信息可能会出现的问题。

学者们指出,“商业压力”推动市场参与者将其AI模型作为服务向客户提供,通常通过API方式。然而,关于模型的架构、实施、训练数据或训练过程的信息既不提供也不公开以供检查。

另外:如何使用ChatGPT制作图表和表格

这些访问限制,以及LLMs通常是黑盒性质的,违反了公众和研究界对于更好地理解、信任和控制这些模型的需求,La Malfa的团队写道。他们指出:“这在该领域的核心问题上造成了重大困扰:最强大且最具风险的模型也是最难分析的。”

OpenAI此前曾为不提供有关其GPT-4版本的详细信息辩护,指出竞争环境以及发布此类大规模模型的架构、训练方法和数据集构建等信息的安全影响。

在被问及组织如何采用生成型人工智能时,Ong表示,在基础模型层将出现两个阵营,一个阵营由少数几个专有的大型语言AI模型组成,包括OpenAI的ChatGPT-4,另一个阵营选择在开源架构上构建自己的模型,例如Meta的Llama-v2。

她建议那些关注透明度的企业可以选择开源替代品。

需要定制化的测试基准

与此同时,企业将越来越多地在基础层之上构建,以部署更符合其特定领域要求(如教育和金融服务)的生成型人工智能应用。

另外:四分之一的员工担心使用人工智能工具会被视为“懒惰”

Ong表示,这个应用层也需要有监管措施,因此需要建立一定程度的透明度和信任。

这就是AI Verify希望通过其测试工具包来帮助企业朝正确方向发展的地方。她解释说,对于在不同市场、地区和行业运营的组织来说,他们的主要关注点不是一个AI模型是否开源,而是他们的生成型人工智能应用是否符合其AI伦理和安全原则。

Ong指出,许多企业和政府目前正在测试和评估生成型人工智能工具,既包括面向消费者的用例,也包括非面向消费者的用例。通常情况下,他们从非面向消费者的用例开始,以最小化潜在风险和对客户的影响,并在达到一定的舒适水平后将测试飞行扩展到包括面向消费者的应用。

她补充说,高度管制的行业(如金融服务)的组织在面向消费者的应用方面会更加谨慎。

不同国家和社会也拥有不同的价值观和文化。政府将希望确保人工智能模型建立在基于其人口独特组合的训练数据和原则基础上。

另外:为什么生成型人工智能如此受欢迎:你需要了解的一切

例如,新加坡的人口构成是多民族、多宗教和多语言的。种族和谐对于新加坡社会来说是独特的,就像当地的结构和政策(例如国家社会保障储蓄计划)一样,Ong说。

她指出,目前广泛使用的LLMs在对文化问题进行测试时表现不一致,她思考这种缺陷是否暗示新加坡需要建立自己的LLM,如果是这样,作为一个人口较少的国家,是否有足够的数据来训练人工智能模型。

由于其他地区的市场参与者,特别是中国,也在使用本地数据训练自己的LLM,ENBLE问是否有一种将来自不同地区的基础模型融合或集成的方式,以使其更好地适应新加坡的人口组合。

Ong认为,不同的LLM可能有相互学习的可能性,这是一个可以在研究领域中探索的潜在应用。她说,这里的努力必须确保数据隐私和敏感数据得到保护。

据Ong透露,新加坡目前正在评估这些选择的可行性,包括建立自己的LLM的潜力。

另外:如果我们不立即采取行动,人工智能繁荣将放大社会问题,AI伦理学家表示

对于专门的生成型人工智能模型的要求将进一步推动定制化工具包和基准的重要性,用于对AI模型进行测试和评估,包括第三方和垂直特定工具,以确保其部署负责任和符合伦理要求。