英伟达GTC大会：“黑科技”扎推、B200巩固AI芯片“王座”

作者：陈兴华 03-19 17:29

来源：爱集微 #英伟达# #GTC# #AI芯片#

2.4w

集微网报道（文/陈兴华）备受瞩目的英伟达GTC 2024大会于3月19日如期举行。本次大会是近五年来首次恢复线下，现场聚集了超11,000名与会者，在线观众数以万计，是迄今为止最大规模的GTC大会。

会上，英伟达创始人兼CEO黄仁勋发表主题演讲《见证AI的变革时刻》。在两个小时的演讲中，他发布了NVIDIA Blackwell、NIM微服务、Omniverse Cloud API和Isaac Robotics平台等多项产品及服务，在这场被称为AI界“春晚”的活动上掀起一阵阵热潮。

其中最为关键的B200芯片拥有2080亿个晶体管，采用台积电定制的4NP工艺制造，Die之间的通信速度可以达到10TB/秒。在此基础上，一个GB200加速卡结合了两个B200 GPU和一个独立的Grace CPU，将能够使大模型推理工作负载的性能提升30倍，而且在成本、能源消耗、效率和训练速度等方面的表现均数倍优于上一代H100芯片。

加速计算达到“临界点”

长期以来，黄仁勋多次向产业界强调，摩尔定律已死，计算范式正发生改变，由CPU主导的通用计算转向GPU的加速计算，GPU在行业场景下有大量替代CPU的机会，而生成式AI更大大加速了这一进程，并有望彻底改变它所触及的每一个行业。

在GTC 2024大会上，黄仁勋首先用一张手绘图回顾了计算机产业的发展史，以及英伟达的发家史。他说，从1964年IBM推出世界首个通用计算机开始，伴随着Windows 95、加速计算乃至深度学习模型AlexNet的出现，再到2016年其亲手将第一台DGX-1超级计算机送给了OpenAI。在2022年，随着聊天机器人ChatGPT横空出世，生成式AI带来了全新一轮产业革命。

接着，黄仁勋强调了加速计算对于推动各行各业的数字化转型的重要作用，特别是在气候科技、工业仿真、生命科学和机器人领域。同时，他还讨论了生成型AI在半导体制造中的重要性，以及为满足大型语言模型的计算需求而需要更大的GPU的必要性。

“加速计算已到达临界点，通用计算已失去动力。我们需要一种全新的计算方式——由此我们才可以继续扩展，继续降低计算成本，并在保证可持续性的同时继续进行越来越多的计算。与通用计算相比，加速计算使每个行业都可以大幅提速。”

黄仁勋认为，多模态AI的崛起能够处理由不同模型负责的多样化数据类型，并赋予了AI更大的适应性和能力。通过增加参数，这些模型可以处理更复杂的分析任务。但这也意味着对计算能力的需求显著上升。随着这些协作、多模态系统变得更加复杂（参数多达万亿），对先进计算基础设施的需求也随之增加。

“我们需要更大的模型，”黄仁勋表示，“我们将使用多模态数据来训练它，而不仅仅是互联网上的文本。我们将使用文本和图像、图形和图表来训练它，就像我们从电视中学习一样，它也需要从海量视频中学习。”

全新AI芯片隆重登场

众所周知，英伟达目前按照平均两年一次的更新频率升级GPU架构，对产品性能进行大幅提升。在GTC 2024大会上，黄仁勋也带来了本次主题演讲的重头戏，即最新一代AI芯片Blackwell GPU。

他说，“Hopper很棒，但我们需要更大的GPU”，并在现场展示了英伟达的首款Blackwell芯片。这款芯片被命名为B200，是一款为生成性人工智能而设计的新一代GPU平台它拥有2080亿个晶体管，可以处理数万亿个参数的模型，计划于今年晚些时候上市。

英伟达B200 GPU

据介绍，新架构以一位加州大学伯克利分校的数学家David Harold Blackwell而命名。他专门研究博弈论和统计学，也是第一位入选美国国家科学院的黑人学者。新架构超越了两年前推出的NVIDIA Hopper架构，不仅加速性能全面提升，而且更擅长处理AI相关任务。

Blackwell采用台积电定制的4NP工艺制造，在单芯片训练方面的FP8性能是其上一代架构的2.5倍，在推理方面的FP4性能是其上一代架构的5倍。它具有第五代NVLink互连，速度是Hopper的两倍，Die之间的通信速度可以达到10TB/秒，并且可扩展至576个GPU。

在此基础上，一个GB200加速卡结合了两个B200 GPU和一个独立的Grace CPU，通过900GB/s超低功耗的NVLink芯片间互连，将能够使大模型推理工作负载的性能提升30倍，同时提高效率。相比于H100，它可以“将成本和能源消耗降至1/25”。而在参数为1750亿的GPT-3 LLM基准测试中，GB200的性能达到了H100的7倍，而训练速度则达到了H100的4倍。

在演讲中，黄仁勋举起一块带有系统的电路板说，“这台计算机是同类计算机中的第一台，能够在这么小的空间容纳如此多的计算量。由于它的内存是连贯的，感觉就像一个幸福的大家庭一起开发一个应用程序。”

为了获得最高的AI性能，基于GB200的系统可以与同期发布的NVIDIA Quantum-X800 InfiniBand和Spectrum-X800以太网平台连接，这些平台可提供速度高达800Gb/s的高级网络。

“这样我们可以大量地节省能源、网络带宽量和时间。”黄仁勋表示，“未来将是可生成的，这就是为什么这是一个全新的行业。我们的计算方式有本质差异，所以英伟达为生成式AI时代打造了一款全新处理器。”

为了扩大Blackwell的规模，英伟达构建了一款名为NVLink Switch的新芯片。每个芯片可以以每秒1.8 TB的速度连接四个NVLink，并通过减少网络内流量来消除流量拥塞。

英伟达Switch和GB200是黄仁勋所称的“一个巨型GPU”，也是英伟达GB200 NVL72的关键组件，包含600,000个零件。英伟达GB200 NVL72是一种多节点、液冷、机架级系统，利用Blackwell为万亿参数模型提供强力计算，在单个机架中可实现720 petaflops的AI训练性能和1.4 exaflops的AI推理性能。

黄仁勋在介绍此台机器时说道：“此时此刻，地球上也许只有三台百亿亿次浮点运算（exaflop）机器。而这是一个单一机架中的1个百亿亿次浮点运算AI系统。”

此外，英伟达还推出了更强大的新一代AI超级计算机——由GB200 Grace Blackwell超级芯片提供支持的NVIDIA DGX SuperPOD，可用于处理万亿参数模型，并具有持续的正常运行时间，以实现超大规模生成式AI训练和推理工作负载。

全新DGX SuperPOD采用新型高效液冷机架规模架构，可在FP4精度下提供11.5 exaflops的AI超级计算能力和240 TB的快速内存，并可通过额外的机架进行扩展。

“未来，数据中心将成为AI工厂”，黄仁勋说，“AI工厂的使命是创造收入，同时也创造智能。”不过，英伟达并没有公布关于B200和其相关产品的价格。

目前，英伟达Blackwell芯片正在被全球各大云服务提供商、领先的AI公司、系统和服务器供应商，以及世界各地的区域云服务提供商和电信公司所采用。“整个行业都在为Blackwell做准备”，黄仁勋表示。

开创软件服务新方式

随着人工智能技术加速在各领域的渗透和变革，生成式AI正在改变应用程序的编写方式。黄仁勋表示，未来的公司会将精力放在组装AI模型，赋予它们任务，给出工作产品示例，审查计划和中间结果，而不是编写软件。

为此，英伟达推出了推理微服务，即NVIDIA NIM。据黄仁勋介绍，这是一种全新的软件打包和交付方式，能够将开发者与数亿个GPU连接起来，以部署各种定制AI。其是根据英伟达的加速计算库和生成式AI模型构建。

英伟达NeMo Retriever与微服务的结合

“未来我们如何构建软件？你不太可能从头开始编写，也不太可能写一大堆Python代码或类似的东西，”黄仁勋说，“很可能你只需要组建一支AI团队就够了。”

这些微服务支持行业标准API、易于连接，可在英伟达庞大的CUDA安装基础上工作，针对新GPU进行重新优化，并不断扫描安全漏洞和威胁。

黄仁勋表示，客户可以使用现成的NIM微服务，或者英伟达可以为之构建专属的AI和AI助手，为特定公司所需的模型专业技能提供专门训练，以助力您创建宝贵的新服务。

“企业IT行业正坐在一座‘金矿’上，”黄仁勋说道，“他们拥有多年来创建的所有这些令人惊叹的工具（和数据）。如果他们能把这个‘金矿’变成AI助手，就能给用户提供更多可能。”

此外，为了推进AI技术对各行业的加速变革，英伟达还推出了多项相关服务。

其中，在电信领域，黄仁勋宣布推出NVIDIA 6G研究云，这是一个由AI和Omniverse支持的生成平台，旨在推动下一个通信时代的发展。它采用英伟达的Sionna神经无线电框架、Aerial CUDA加速无线电接入网络和Aerial Omniverse Digital Twin for 6G构建。

在半导体设计和制造领域，黄仁勋宣布，英伟达正在与TSMC和Synopsys合作，将其突破性的计算光刻平台cuLitho投入生产。该平台将把半导体制造中计算最密集的工作负载加速40-60倍。

同时，黄仁勋还宣布了NVIDIA地球气候数字孪生。该云平台现已推出，可实现交互式高分辨率模拟，以加速气候和天气预报。

黄仁勋表示，AI的最大影响将体现在医疗领域，英伟达已经涉足成像系统、基因测序仪器，并与领先的手术机器人公司合作。英伟达正在推出一种新型生物学软件。

总体上，英伟达在GTC 2024大会上发布了二十多个新的微服务，使全球医疗企业能够在任何地方、任何云上利用生成式AI的最新进展。这些微服务可提供先进的成像、自然语言和语音识别，以及数字生物学生成、预测和模拟功能。

英伟达希望通过这些服务来吸引购买英伟达服务器的客户来注册英伟达企业版NVIDIA AI Enterprise 5.0，对每个GPU每年收取4500美元的费用。企业可以自己选择基础设施来部署这些微服务，同时已有超过400个英伟达认证系统支持NVIDIA微服务。

机器智能将迎“GPT时刻”

除了硬件和软件，黄仁勋还在演讲中花了大篇幅来介绍英伟达的仿真平台Omniverse和适用于自主移动机器人的Isaac Robotics平台。

黄仁勋表示：“我们需要一个模拟引擎，来以数字方式为机器人呈现世界，这样机器人就有了一个学习如何成为机器人的‘健身房’，我们称这个虚拟世界为Omniverse。”

因此，英伟达宣布将以API形式提供NVIDIA Omniverse Cloud，从而将全球领先的工业数字孪生应用和工作流创建平台的覆盖范围扩展到整个软件制造商生态系统。

借助五个全新Omniverse Cloud应用编程接口（API），开发者能够轻松地将Omniverse 的核心技术直接集成到现有的数字孪生设计与自动化软件应用中，或是集成到用于测试和验证机器人或自动驾驶汽车等自主机器的仿真工作流中。

为了展示其工作原理，黄仁勋分享了一个机器人仓库的演示——使用多摄像头感知和追踪，看顾工人并协调机器人叉车，在整个机器人堆栈运行的情况下，这些叉车能够实现自动驾驶。他还宣布，英伟达将把Omniverse引入Apple Vision Pro中，通过新的Omniverse Cloud API，开发者可以将交互式工业数字孪生流式传输到VR头显中。