欧洲杯体育这是一台至极节略的机器-开云·kaiyun(中国)官方网站 登录入口

英伟达AI系统的年度校正节拍关于在正确时辰购买最新缔造的客户来说是件善事。但英伟达机架级AI系统的快速校正以及大范畴彭胀网罗的发展速率也意味着,任何时候王人会有一部分客户感到后悔,但愿我方当初等一等再买。
咱们意志到这不错说是第一生界的问题,当取得任何GPU或XPU算力自己便是着实的问题时,这个问题不值得牢骚。
但今天,当全国不雅看英伟达集合首创东说念主兼首席扩充官黄仁勋在拉斯维加斯2026年奢靡电子展上的主题演讲时,不少高管无疑会在看到以前"Vera" Arm作事器CPU和"Rubin"GPU加快器的性能规格,以及与之配套的彭胀NVLink内存架构和彭胀Spectrum以太网互连,以及新的网卡和DPU时想"早知说念就等等了",这些组件共同创造了一个在处理或输出Token方面大幅校正的机架级系统。
更具体地说,英伟达高层默示,Vera-Rubin NVL72机架级系统(顾名想义有72个GPU插槽,还有36个CPU插槽以及贯穿它们的NVSwitch架构)与上一代Grace-Blackwell NVL72系统比较,为巨匠羼杂(MoE)AI模子提供了每Token推理本钱10倍的缩小,检修这些模子所需的GPU数目减少了4倍(但请介怀,可能不是本钱缩小4倍)。
比较Blackwell更稳固的过渡
英伟达在2016年4月推出了其首台自主作事器DGX-1系统,基于"Pascal" P100 GPU加快器和将系统中八个GPU贯穿在沿途的NVLink端口羼杂立方网格。按当代表率来看,这是一台至极节略的机器,值得介怀的是,第一台机器被送给了OpenAI首席扩充官萨姆·奥特曼。
两年后,基于"Volta" V100 GPU的DGX-2平台问世,还有一个叫作念NVSwitch的奇特小缔造,这是英伟达操办部门的一个操办面孔。通过DGX-2,英伟达初度尝到了复杂系统组件开荒和集成的味说念,英伟达莫得让其他公司按规格制造,而是我方制造GPU板、交换板和两者之间的平面互连,以保抓质地截至。"Ampere" A100和"Hopper" H100 GPU经受了访佛联想,增强了浮点计较才智和辅助带宽,但在2024年3月推出的"Blackwell" GB200 NVL72联想中,英伟达转向机架级范畴,将72个GPU插槽、36个CPU插槽和18个NVSwitch托盘塞进"节点"中,创建了一个复杂、高温且制造具有挑战性的分享内存系统,同期需求量很大,供应病笃。
率先的Blackwell机架级机器存在问题,迫使GPU和机架在多个方面重新联想,这固然意味着出货延伸——从2024年底延伸到2025年头才有合理的出货量。但当你正在构建全国上最复杂的作事器节点,在集成和热经管方面冲突极限时,不管工程师何等严慎和周密,你王人必须预期会有如此这般的问题。
此次,Vera-Rubin VR200 NVL72机器的一切王人按蓄意进行。在黄仁勋主题演讲前与记者和分析师的事前简报中,HPC和AI工场经管决议高档总监Dion Harris说,Vera-Rubin NVL72平台中枢的六个芯片王人已从台积电代工场记忆,正在启动并发送给要津合营伙伴,不错在2026年下半年运转批量分娩。
咱们浓烈怀疑英伟达将在3月圣何塞举行的2026年GPU期间大会上公布VR200 NVL72平台的更多细节——这些是按GPU插槽计较而不是小芯片,是以这台机器亦然英伟达在旧年的蹊径图中之前称为VR200 NVL144系统的机器。但目下,咱们将分享在CES上公布的干系这些机器的信息。
Harris在预简报中展示的最热切图表清楚了Vera-Rubin系统联想重心见原提高HBM堆栈内存带宽的原因,以便那些富贵的Rubin GPU大概比Hopper和Blackwell世代更好地供给数据。
在这个巨匠羼杂期间,模子必须创建和分析更多Token来得出更好的谜底,如若你想实时作念到这小数,需要大批带宽来处理不同巨匠相互盘问时的通盘通讯。
因此,咱们以为新Vera-Rubin机器中最热切的意见是Rubin GPU中八个HBM4内存堆栈(预计是R200,但英伟达尚未阐述其称号)的总带宽为22 TB/秒,比Blackwell GPU中使用的八个HBM3E堆栈的8 TB/秒高2.75倍。这比预期的稍高一些,但288 GB的容量是Blackwell B200 GPU的192 GB的1.5倍,正值允洽预期。
Rubin GPU的基本规格清楚,这个双小芯片Rubin GPU插槽的NVFP4推感性能为50 petaflops,是Blackwell B200 GPU的5倍,但在检修方面,NVFP4精度浮点运算的性能仅为35 petaflops,仅为B200的10 petaflops的3.5倍。后续的B300经由转机,AI推感性能达到15 petaflops,比B200莳植了50%。
但关于Rubin GPU,英伟达超大范畴和HPC总司理Ian Buck证明了一种叫作念自顺应压缩的期间,这是Rubin GPU重新联想的张量中枢的一部分,亦然这些张量中枢竣事的下一代Transformer引擎的一部分。
"自顺应压缩是一种基本上是更智能稀疏性阵势的期间,大概自顺应地期骗,况兼咱们知说念它不会影响准确性,"Buck告诉The Next Platform。
在CPU方面,英伟达本年晚些时候推出的AI和随机的HPC平台包括基于Vera Arm的CPU和英伟达自主研发的"Olympus"中枢。
Vera是比Grace更好的CPU。Vera芯片有88个中枢,每个中枢有两个线程,英伟达称之为"空间多线程",这还有待证明。
Vera中枢每个中枢有2 MB的L2缓存(是Grace偏执非定制Arm Neoverse "Demeter" V2中枢的2倍),在中枢间分享162 MB的L3缓存(比Grace CPU的114 MB L3缓存增多42%)。Vera芯片有1.5 TB的LPDDR5X内存,比Grace的480 GB LPDDR5X内存高3.2倍。每个Vera中枢有六个辅助FP64到FP8表情的128位SVE2矢量引擎,而Grace中有四个辅助FP64到FP16表情的128位SVE2单位。在1.8 TB/秒的速率下,Vera的NVLink分享内存带宽是Grace的两倍,允许它与配对的Rubin GPU特殊快速地分享数据。
将它们组合在沿途,你就有了英伟达所说的Vera-Rubin超等芯片。将两个这么的组件放入MGX作事器托盘,然后将十八个这么的托盘放入带有36个NVSwitch 4交换机的"Oberon"机架中,你就有了一个机架级系统。
筹商到英伟达尚未运转销售这个Vera-Rubin怪兽,咱们不知说念它的本钱。但筹商到这个机架中的一切制变本钱王人比其处理器更高,况兼它在沟通空间内彰着提供更多性能和更好的每瓦性能,咱们以为英伟达大概为Vera-Rubin系统收取溢价。至于若干,市集将决定——咱们预期英伟达著明的集合首创东说念主兼首席扩充官会有很大影响力。
Vera-Rubin系统的灯塔客户包括亚马逊云作事、谷歌云、微软Azure、甲骨文云基础表情,以及CoreWeave、Lambda、Nebius和Nscale等较小参与者。前三个客户正在制造我方的加快器,谷歌很可能在硬件层面以与英伟达沟通或更低的每Token本钱作念到这小数——并构建可彭胀到单个内存域中9216个TPU的系统。这种范畴是一个特殊大的问题,是英伟达必须经管的着实工程问题。咱们也确信它能作念到。
Q&A
Q1:Vera-Rubin平台比较前一代有什么上风?
A:Vera-Rubin NVL72系统比较Grace-Blackwell NVL72系统,为巨匠羼杂AI模子提供每Token推理本钱10倍的缩小,检修模子所需的GPU数目减少4倍,同期Rubin GPU的推感性能达到50 petaflops,是Blackwell B200 GPU的5倍。
Q2:Vera CPU比较Grace CPU有哪些校正?
A:Vera芯片有88个中枢,每中枢2MB L2缓存(是Grace的2倍),分享162MB L3缓存(比Grace增多42%),1.5TB LPDDR5X内存(比Grace高3.2倍),NVLink分享内存带宽1.8TB/秒(是Grace的2倍)。
Q3:Vera-Rubin系统何时不错投产使用?
A:左证英伟达HPC和AI工场经管决议高档总监Dion Harris的说法,Vera-Rubin NVL72平台中枢的六个芯片已从台积电记忆欧洲杯体育,正在启动并发送给要津合营伙伴,不错在2026年下半年运转批量分娩。

