AWS发布了新的Trainium AI芯片和Graviton 4,并扩展了与Nvidia的合作伙伴关系

AWS推出了全新的Trainium AI芯片和Graviton 4,同时扩大与Nvidia的合作伙伴关系

aws-graviton4-and-aws-trainium2-prototype

Graviton 4芯片(左)是SAP等公司用于处理大工作量的通用微处理器芯片,而Trainium 2则是用于非常大型神经网络程序(如生成型人工智能)的特殊加速器芯片。

亚马逊在其位于拉斯维加斯的年度AWS re:Invent开发者大会上,宣布推出其专用于训练神经网络的芯片Trainium 2的新版本。Trainium 2专为训练所谓的大型语言模型(LLM)和基础模型进行了调整,这些是像OpenAI的GPT-4这样的生成型人工智能程序。

公司还发布了其定制微处理器Graviton 4的新版本,并表示将扩大与Nvidia的合作伙伴关系,在其云计算服务中运行Nvidia最先进的芯片。

此外:从混合云到边缘到AI驱动的云计算的未来

Trainium 2设计用于处理具有数万亿个参数或神经权重的神经网络,这些参数是程序算法的功能,赋予其规模和能力。扩展至更大的参数是整个人工智能行业的焦点。

万亿参数计数已成为行业的一种迷思,因为人脑被认为含有100万亿个神经元连接,因此,万亿参数神经网络程序似乎与人脑有关,无论实际上是否如此。

亚马逊表示,这些芯片“设计以提供最多四倍的训练性能和三倍的内存容量”,而且“能效(性能/瓦特比)提高了两倍”。

亚马逊将这些芯片提供给其EC2云计算服务的”Trn2″实例。该实例提供16个Trainium 2芯片同时运行,并可扩展至100,000个实例。较大的实例使用该公司的网络系统——弹性适配器进行互连,该系统提供了总计65艾克萨FLOP的计算能力。(每秒一艾克萨FLOP相当于一万亿亿次浮点运算)。

此外:AWS发布用于专属客户使用的本地云区域

亚马逊表示,在这种计算规模下,“客户可以在几周内训练3000亿参数的LLM,而不是几个月”。

除了为客户提供服务,亚马逊继续推动AI硅片技术的发展还有其他动机。该公司投资了40亿美元于Anthropic等私人控股的生成型人工智能初创公司,这些公司与OpenAI分道扬镳。这一投资使该公司能够与微软与OpenAI签署的独家协议竞争。

Graviton 4芯片基于ARM Holdings的微处理器知识产权构建,与基于旧版x86芯片标准的Intel和AMD处理器竞争。亚马逊AWS表示,包括Datadog、DirecTV、Discovery、Formula 1、Nielsen、Pinterest、SAP、Snowflake、Sprinklr、Stripe和Zendesk在内的客户使用Graviton芯片“运行广泛的工作负载,如数据库、分析、Web服务器、批处理、广告服务、应用服务器和微服务”。

.

SAP在准备好的讲稿中表示,它已经能够在Graviton芯片上运行其HANA内存数据库时实现”分析工作负载的性能提升35%”,而且”我们期待评估Graviton4以及它对我们共同客户的好处”。

这两款新芯片是在2021年Graviton 3和原始Trainium芯片推出两年后推出的。

亚马逊的这一消息是继微软上周推出其首款人工智能芯片之后的消息。作为亚马逊和微软并列的云巨头,谷歌的Alphabet早在2016年就推出了第一个云人工智能芯片TPU(Tensor Processing Unit),之后又推出了多个新一代产品。

此外:亚马逊将Fire TV Cube打造成企业级瘦客户端

除了这两款新的芯片,亚马逊还宣布延长其与人工智能芯片巨头Nvidia的战略合作伙伴关系。AWS将成为第一个运行即将推出的GH200 Grace Hopper多芯片产品的云服务提供商,该产品结合了Grace基于ARM架构的CPU和Hopper H100 GPU芯片。

据称,GH200芯片将于明年开始发货,它是今年早些时候公布的Grace Hopper组合芯片的升级版,目前已经在戴尔等计算机上的初始版本中投入使用。

GH200芯片将通过Nvidia专为人工智能设计的DGX进行托管,两家公司表示,DGX将加快超过一万亿参数的神经网络训练速度。

Nvidia表示将把AWS作为其”机器学习研发工作的主要云服务提供商”。