头部广告

正品保障

商品分类列表

会员中心会员中心

当前位置:网站首页 > 行业新闻

揭秘英伟达Blackwell GPU:为何被视为最强AI芯片架构?

发布日期:2024-03-25 15:28:22

       据安芯网介绍在英伟达GTC大会上,黄仁勋笑称:“我们可以附带着卖热水。”这并非空话,而是基于实际数据的。据黄仁勋透露,英伟达最新的DGX新机采用液冷散热技术,液体入口温度约为25℃,接近室温,而出口温度升高至45℃,类似于按摩浴缸的水温,且流速达到每秒2升。

       然而,尽管英伟达可能会卖热水,但其主要赚钱之道仍是其强大的GPU算力。黄仁勋被誉为“皮衣刀客”,一直以来都表现出极强的危机意识和风险认识,时刻为未来做好准备。在芯片行业这个高风险、高成本且低容错的领域,一举一动都可能影响整个市场格局,因此他始终保持着高度的警惕。

       特别是在人工智能算力需求激增、竞争对手如日中天的当下,英伟达绝不敢有丝毫懈怠。他们势必在短期内展现出最大的潜力爆发,使竞争对手望尘莫及。

       而当其他竞争对手还在追逐英伟达旗舰GPU的时候,黄仁勋已经站在了一个全新的水平上。他们已经意识到了数据中心客户面临的真正问题——单一芯片无法满足需求,而真正重要的是要解决系统级性能和能效提升的挑战。

黄仁勋对未来市场需求和行业趋势的前瞻性判断在英伟达从Blackwell架构设计到AI基础设施的技术布局中得到了体现:

       a面对摩尔定律的挑战:随着摩尔定律的逐渐失效,单一芯片的性能提升受到了限制。为了应对这一挑战,英伟达采取了多方面的创新举措,包括高带宽内存、Chiplet先进封装、片内互联等技术的组合,并优化了片外互连等高性能通信,为构建专为万亿参数级生成式AI设计的系统奠定了基础。

       b数据中心作为AI工厂:黄仁勋意识到未来数据中心将成为AI工厂,在整个生命周期内产生收益。针对数据中心市场的特点,英伟达将不同GPU组合成一个“巨型GPU”,以降低完成同等计算任务的成本和能耗,从而吸引更多客户。

       cAI模型的规模和数据量持续增长:黄仁勋预见到未来AI模型将变得更加庞大,需要处理更多的数据。他们将借助多模态数据、世界模型和合成数据生成技术,不断提升AI模型的规模和能力,并致力于降低与计算相关的成本和能耗。

       d高性能推理和生成的重要性:在云端运行的英伟达GPU将承担大量的生成式AI任务,这需要提高推理和生成的吞吐量,并提高交互速度以提升用户体验。黄仁勋认识到单一GPU难以胜任这一任务,因此需要寻找一种能够在多个GPU上并行处理模型工作的方法

       1、安芯科创解密最强AI芯片:2700W最大功耗,CUDA配置成谜。

       英伟达发布了新一代Blackwell GPU架构,不仅刻意减弱了单芯片的重要性,还没有明确指明GPU的代号,而是隐晦地称之为“Blackwell GPU”,给这一架构增添了一丝神秘色彩。在GTC大会上,英伟达副总裁Ian Buck和高级副总裁Jonah Alben向全球媒体,包括智东西和芯东西等,分享了更多关于Blackwell架构设计背后的思考。结合22页的英伟达Blackwell架构技术简报,GB200超级芯片、HGX B200/B100、DGX超级计算机等的配置细节也得以披露。

       根据安芯网的信息,全新的Blackwell GPU并没有采用最先进的3nm半导体制程工艺,而是继续沿用4nm的定制增强版工艺,即台积电的4NP工艺。已知的芯片款式包括三种——B100、B200和GB200超级芯片。B100并非新发布的重点,只在HGX B100板卡中提及。B200则是焦点,而GB200进一步将B200与一颗72核的Grace CPU相结合。

       B200拥有2080亿颗晶体管,是H100(800亿颗晶体管)数量的两倍以上。英伟达并未透露单个Blackwell GPU die的具体大小,只表示在reticle大小尺寸限制内。由于缺乏具体数字,很难计算B200在单位面积性能上的改进幅度。

英伟达利用NV-HBI高带宽接口,实现了两个GPU die之间以10TB/s双向带宽进行互联封装,从而使得B200能够像单芯片一样运行,不会因为通信损耗而降低性能。这种设计不仅解决了内存局部性问题和缓存问题,还支持更高的L2缓存带宽。然而,英伟达并未公开具体采用了何种芯片封装策略。

       在之前的GH200超级芯片中,采用了1个H100 GPU和1个Grace CPU的组合。而现在的GB200超级芯片则将两个Blackwell GPU和CPU组合在一起,每个GPU的满配TDP达到1200W,使得整个超级芯片的TDP达到2700W(1200W x 2 + 300W)。

       2、英伟达如何将AI训练算力提升1000倍?一窥背后的技术进步。

       英伟达如何实现AI训练算力提升1000倍?除了工艺升级和架构优化外,降低数据精度也至关重要。

       英伟达探索混合精度操作:Blackwell GPU的第二代Transformer引擎通过动态范围管理和微型tensor缩放技术,实现性能和精度的优化,同时支持FP4新格式,提升核性能和HBM模型规模。

英伟达的TensorRT-LLM创新包括4位精度量化和定制化内核,为MoE模型实时推理提供了硬件、能量和成本的优势。NeMo框架和Megatron-Core的专家并行技术也提高了模型训练性能。

       降低精度时需要平衡用户对准确率的需求。尽管FP4并非总是最有效的选择,但英伟达专注于混合专家模型和大语言模型的优势。引入了过渡的FP6格式,虽然性能没有提升,但数据处理量比FP8减少25%,有助于减轻内存压力。

       3、打破通信瓶颈是实现90天内用2000块GPU训练1.8万亿参数模型的关键。

       与消费级显卡策略不同,黄仁勋致力于为数据中心客户省钱,通过“堆料”路线来提高性能、节省机架空间和降低电力成本,对于竞争激烈的AI大模型竞赛而言,这尤为重要。

       黄仁勋以训练1.8万亿参数的GPT-MoE混合专家模型为例,使用25000个Ampere GPU需要3~5个月,而使用Hopper需要约8000个GPU、90天训练,耗电15MW;而使用Blackwell同样花费90天,只需2000个GPU,耗电仅4MW。

       省钱与省电成正比,提高能效的关键在于减少通信损耗。根据Ian Buck和Jonah Alben的分享,在GPU集群上运行庞大的GPT-MoE模型时,有60%的时间都用于通信。

       从打造垂直生态的角度来看,英伟达越来越像芯片和AI计算领域的苹果。在研发、工程和生态方面展现出强大而全面的统治力。类似苹果用App Store吸引开发者和消费者的做法,英伟达已经建立了完备的芯片、系统、网络、安全以及各种开发者所需的软件生态系统。他们不断降低在GPU上加速AI计算的门槛,让自己始终处于企业及开发者的首选之列。

       在安芯商城数据中心,单个芯片的峰值性能已经不再重要,而是多个芯片连在一起实现的实质性算力改进才更有意义。因此,黄仁勋着重于销售整体系统,一举跨越到数据中心客户算力需求的终点。

       与上一代Hopper相比,Blackwell GPU的主要优化并非依赖于制程工艺技术的提升,而是通过更先进的内存、更快的片内互联速度,并通过升级片间互连、多机互连的速度以及可扩展性、管理软件,消除大量数据处理导致的通信瓶颈。这使得大量GPU能够被连成一个更具成本效益的强大系统。

       英伟达早在8年前就开始探索将芯片、存储、网络、软件等各环节协同设计的系统。黄仁勋曾在2016年4月亲手将第一台内置8个P100 GPU的超级计算机DGX-1赠予OpenAI团队。随着GPU和互连技术的不断更新,DGX也会随之升级,系统性能不断增强。

       数据中心AI芯片是当前硅谷最热门的硬件产品,而英伟达则是这个行业的规则制定者,也是离生成式AI客户需求最近的企业。通过实现让数百万个GPU共同执行计算任务并最大限度提高能效的基础创新,黄仁勋反复强调的“买得越多,省得越多”已经越来越具有说服力。

 

  • 平价商品,质量保障

  • 品类齐全,购物轻松

  • 正品行货,服务精致

  • 下单秒发,确保到货

友情链接

Copyright 2010 - 2013 a-life.cn All Rights Reserved     粤ICP备2023120663号           安芯科创(深圳)有限公司 版权所有