www.henhenlu.com

你的位置:巨臀av > www.henhenlu.com > 美女人体艺术 Graviton两年内为AWS提供卓著50%的CPU算力,冲突英特尔对商场节律的掌控

美女人体艺术 Graviton两年内为AWS提供卓著50%的CPU算力,冲突英特尔对商场节律的掌控

发布日期:2024-12-06 04:11    点击次数:173

美女人体艺术 Graviton两年内为AWS提供卓著50%的CPU算力,冲突英特尔对商场节律的掌控

在超大范围和云预备厂商范围较小、Arm未能霸占数据中心商场以及AMD尚未走上酬报之路的期间美女人体艺术,掌控着新预备引擎进入数据中心的节律。

时势老是在变化。本周,英特尔的CEO帕特.基辛格(Pat Gelsinger)晓谕去职,比较之下,云科技(AWS)在拉斯维加斯举办年度re:Invent大会,线下参会东谈主数达到6万,而线上东谈主数高度40万东谈主。谁在适度超大范围企业和云预备制造商的本领推出标准,似乎有了新的谜底。

对于AWS而言,他们也不错适度新本领的发布节律,因为他们不需要像芯片厂商一样,进行依期的家具迭代。他们不需要像英特尔、AMD和那样,把预备引擎卖给ODM和OEM,而是凯旋向客户出售云上家具。可想而知的是,这是一项更容易的业务。

在re:Invent大会上,AWS以过火母公司亚马逊高管所带来的演讲,让外界对于他们的预备引擎有了新的期待,比如Graviton5、Inferentia3及Trainium3。

Trainium3使用3nm工艺蚀刻,相较于Trainium2能效进步40%、性能翻倍。AWS的新闻稿中示意,Trainium3 UltraServers的性能将是Trainium2 UltraServers的4倍,这意味着它们将从使用Trainium2的16台建造膨胀到使用Trainium3的32台建造。

淫荡妈妈

AWS CEO马特.加曼(Matt Garman)称,Trainium3将于2025年晚些期间推出,这意味着大约会在re:Invent 2025年会议发布这款家具。早在6月份,就有一些对于AWS高管证实Trainium3将突破1000瓦的传言,但这点并不出乎外界的预思,英伟达的Blackwell B200 GPU的峰值功率是1200瓦。

真的出乎外界预思的是,在上个月的SC24超等预备会议上,针对HPC诈欺的Graviton4E仍未推出,这与AWS在2021年11月推出的往常Graviton3和2022年11月推出的增强版Graviton3E的过往速率比较有所互异。2023年11月发布的Graviton4不错说是商场上基于Arm架构最佳的做事器CPU之一,固然亦然适用面最广的CPU。

AWS的CPU、东谈主工智能加速器和DPU莫得任何年度更新的压力,如若仔细不雅察英伟达和AMD的GPU蹊径图,就会发现他们的中枢家具仍然是每两年发布一次,第二年会在第一年发布的GPU上进行内存升级或性能调度。

AWS在芯片领域的迭代周期大约是两年,其间会有一些波动。Graviton1本体上是一个基于Nitro架构的DPU卡,不错忽略不计。正如AWS公用做事预备高等副总裁彼得.德桑蒂斯(Peter DeSantis)在2018年发布的主题演讲中所说的,Graviton1仅仅“进入商场的一个信号”,主要用于考证客户需求。2019年推出的Graviton2, AWS接收了台积电的当代7纳米工艺,并使用了Arm的Ares N1内核,想象了一款64核CPU,与运行在AWS云上的英特尔和AMD的X86 CPU比较,性价比向上40%。

2021年,接收Arm Zeus V1内核的Graviton3问世,相通是64个内核却不错承担更多的任务。2023年,Graviton4问世了,这款芯片接收了台积电4纳米工艺,在插槽上塞入96个Demeter V2内核,与12个内存带宽为537.6 GB/秒的DDR5内存适度器搭配使用。与Graviton3比较,Graviton4的单核性能进步了30%,内核数目增多了50%,性能进步了2倍。凭据咱们的订价分析,家具的性价比进步了13%到15%。在本体的基准测试中,Graviton4带来的性能优化有时能达到40%。

AWS处理器干预的资金至少需要两年才不错收回。因此,在re:Invent大会上期待任何干于Graviton5的新讯息王人是不推行的。尽管如斯,AWS的高管们已经会吊一下商场的胃口。

AWS的高管在主题演讲中提供了一些对于Graviton的数据。AWS预备和集合做事副总裁戴夫.布朗(Dave Brown)展示了这张图表,它在一定流程上评释注解了为什么英特尔最近几个季度的财务情景如斯恶运。毛糙地说,AWS的四项中枢做事(Redshift Serverless和Aurora数据库、Kafka的Managed Streaming和ElastiCache搜索)简短有一半的处理是在Graviton上运行的。

布朗称:“最近,咱们达到了一个进军的里程碑,在昔时的两年里,咱们数据中心卓著50%的CPU算力王人来自Graviton,这比其他扫数类型的处理器加起来还要多。”

这恰是微软多年前所宣称思作念成的事情,而这亦然AWS所期待达成的指标。从永远来看,X86是一种传统的平台,其价钱亦然传统的,就像之前的大型预备机和RISC/Unix。RISC-V也许最终也会这么颠覆Arm架构(开源的ISA与可组合的模块似乎是必由之路,就像Linux开源系统让Windows Server酿成传统平台的)。

加曼让咱们对AWS里面的Graviton做事器群范围有了一个大致的了解:“Graviton正在豪恣地增长,2019年,系数AWS的业务范围为350亿好意思元,而当今,单单Graviton运行的业务范围就与2019年系数AWS业务范围一样,这是十分快的增长。”不错臆度的是,Graviton做事器集群的增长速率比AWS合座业务的增长速率还要快,而且幅度可能十分大。这对英特尔的伤害弘大于对AMD的伤害,因为AMD多年来一直领有比英特尔更好的X86做事器CPU。

Trainium系列,是否会成为英伟达和AMD以外的选拔?

加曼评论Trainium3的惟一原因是,东谈主工智能有观看对高性能预备的需求增长得比任何其他预备引擎快得多。面临英伟达在2025年加大其Blackwell B100和B200 GPU的产能,以及AMD扩大其Antares MI300系列,AWS如若思让客户将他们的东谈主工智能使命负载移植到Trainium上,就必须在商场上展现出鼎力实践Trainium系列的决心。

在来岁的re:Invent大会之前,但愿能够看到AWS发布对于Trainium3的一些新优化,因为商场上的竞争敌手太多,以谷歌和微软为首的一些公司将在2025年推出他们旗下的东谈主工智能加速器。

就像Graviton系列一样,从当今驱动,Trainium系列的更新周期无意将变为两年一更新。这些家具的研发干预王人十分腾贵,因此AWS要已矣财务效益必须将Trainium的蛊惑本钱摊销到尽可能多的建造上。与Graviton一样,咱们以为AWS的Trainium达成这一指场地日子不会太远方。从永远来看,这对英伟达和AMD来说不是善事,止境是如若谷歌、微软、腾讯、百度和阿里巴巴王人采选相通的行径。

AWS还莫得愚蠢到试图在GPU加速器商场上与英伟达直面抗衡,但与谷歌的TPU、SambaNova的RDU、Groq 的 GroqChip和Graphcore的IPU一样,这家云预备商相通以为我方不错构建一个系统阵列来进行东谈主工智能检会和推理,并为云预备客户带来互异化体验和附加值家具,与购买英伟达比较,客户购买AWS的家具不错从简本钱而况掌抓更多的主动权。

正如咱们上头所指出的,AWS高管对Trainium3并莫得表露太多的信息,但他们对Trainium2在UltraServer中的使用到十分沸腾。

本年的re:Invent大会上,AWS更多地先容了使用Trainium2加速器的系统架构,并展示了基于这些加速器构建的集合硬件,以膨胀和膨胀其东谈主工智能集群。底下是德桑蒂斯展示的Trainium2:

正如咱们前年报谈的那样,Trainium2似乎在单个封装上扬弃两个芯片互连,可能使用NeuronLink die-to-die里面互连本领,以在其分享的HBM存储器上一致地使命。Trainium2做事器有一个节点,该节点带有一双主机处理器并与三个Nitro DPU不绝,如下所示:

这是预备节点的鸟瞰图,前端有四个Nitros,后端有两个Trainium2s,接收无线想象以加速部署速率。

两个交换机托架,一个主机托架和八个预备托架构成了一台Trainium2做事器,该做事器使用2TB/秒的NeuronLink电缆将16个Tranium2芯片互连成2D环面成就,每个建造上96GB的HBM3主内存王人会与其他建造分享。每台Trainium2做事用具有1.5TB的HBM3内存,总内存带宽为46TB/秒(即每个Trainium2卡略低于3TB/秒)。此节点在密集FP8(一种浮点数示意神情)数据上的性能为20.8千万亿次浮点运算,在稀疏FP8数据上的性能为83.3千万亿次浮点运算。

AWS将四台做事器互相聚合以搭建Trainium2 UltraServer,该做事器在64个AI加速器中领有6TB的HBM3内存容量,内存带宽共计为184TB/秒。该做事用具有12.8Tb/秒的以太网带宽,可使用EFAv3适配器进行互连。UltraServer做事器在密集FP8数据上的运算速率为83.2千万亿次浮点运算,在稀疏FP8数据上的运算速率为332.8千万亿次浮点运算。底下是德桑蒂斯对Trn2 UltraServer实例硬件的展示:

在布满电线的机架顶部,荫藏着一双交换机,它们构成了3.2TB/秒的EFAv3以太网集合的端点,该集合将多个Tranium2做事器互相聚合,以创建UltraServer做事器,并将做事器与外部寰球聚合。

这还不是系数集合架构。如若你思运行大范围的基础模子,需要的加速器将远远不啻64个。为了将千千万万的加速器聚合在系数,不错进行大范围检会,AWS想象了一种基于以太网的集合结构,名为10p10u,其指标是在延伸不到10微秒的情况下,为系数集合提供每秒数十PB的带宽。底下是10p10u集合结构机架的口头:

由于原先做事器里面的电线十分复杂,AWS研发了一款光纤骨干电缆,将需要使用的电线数目压缩为原先的十六分之一。其旨趣是将数百个光纤聚合放在一条较粗的管线中,这么作念的平允是让做事器里面的架构更为简易。如下图所示,右边的机架使用的是光纤骨干电缆,它更简易工致。更少的聚合和澄澈处治意味着更少的诞妄,当你试图快速构建东谈主工智能基础要害时,这小数很进军。

据悉,这种有益用于东谈主工智能使命负载的10u10p集合由于其优异的弘扬正在被大范围接收。德桑蒂斯展示了它与AWS创建的旧式以太网集合比较的增长速率有多快:

假定这是蕴蓄贯串数(有用的预备),旧的Euclid集合结构(大约是100Gb/秒)在四年内缓缓增多到近 150 万个端口。名为One Fabric的集合与10u10p集合在2022年年中大致同期推出,咱们猜度其中One Fabric使用400Gb/秒以太网,而10u10p基于800Gb/秒以太网。One Fabric有简短100万个贯串,而10u10p有简短330万个贯串。

加曼示意,与基于AWS云上的GPU实例比较,Trn2实例的性价比将进步30%到40%。固然,AWS应该加大拉开外部预备引擎与自家预备引擎之间的差距,保持这么的差距是Trainium霸占东谈主工智能预备器商场的正确举措。

手脚主题演讲的一部分,德桑蒂斯和加曼王人谈到了一个代号为“Project Ranier”的超等集群,这是AWS正在为其东谈主工智能大模子巴合股伴Anthropic建造的一个超等集群。律例咫尺,亚马逊已向Anthropic投资80亿好意思元,该集群主要用于检会下一代Claude 4基础模子。加曼说,“Project Ranier”将领稀奇十万个Trainium2芯片,其性能将是检会Claude 3模子时所用机器的5倍。

本文由雷峰网编译自:https://www.nextplatform.com/2024/12/03/aws-reaps-the-benefits-of-the-custom-silicon-it-has-sown/