Nvidia Unveils Blackwell GPU: A Quantum Leap for Generative AI
Nvidia introduced the Blackwell GPU architecture at GTC, highlighting six breakthrough technologies, a 4nm process, massive performance gains, and its integration into DGX SuperPOD systems that promise to accelerate generative AI, data processing, and high‑performance computing across industries.
导读:本文对黄仁勋的演讲实录做了一番整理归纳,并做了一些新总结,希望对各位开发者和 AI 用户有价值。
尽管 AMD 和英特尔不断地发出威胁,但是就目前,毫无疑问的领袖地位已经更换了名字,英伟达已经是人工智能基础设施的首要提供商。
昨天,Blackwell GPU 架构在首席执行官黄仁勋 (Jensen Huang) 的 GTC 主题演讲中首次亮相,其发布一些新技术和产品,将继续扩大其在性能和功耗方面的技术领先地位。
业界中很多人亲切的称黄仁勋是“老黄”、“皮夹克黄”或者叫“黄教主”。
他在这场会上如此说道:“三十年来,我们一直在追求加速计算,目标是实现深度学习和人工智能等变革性突破,生成式人工智能是我们这个时代的决定性技术。Blackwell是推动这场新工业革命的引擎。与世界上最具活力的公司合作,我们将实现人工智能对每个行业的郑重承诺。”
关于Blackwell平台
英伟达推出的 Blackwell 平台,这是一种用于运行生成式人工智能的 GPU 架构。
这个产品是为了纪念美国著名统计学家和数学家 David Harold Blackwell 而命名,他在博弈论、概率论、信息论和统计学等领域做出了重大贡献。
除了加速生成式人工智能之外,英伟达还承诺,接替 Grace Hopper 的 Blackwell GPU 架构将在数据处理、工程模拟、电子设计自动化、计算机辅助药物设计和量子计算方面带来新的突破。
据黄仁勋称,它可以在万亿参数大型语言模型上实时生成 AI,成本和能源消耗比前代 Hopper 低至少 25 倍。
Blackwell带来的变革性技术
Blackwell 由六项新技术组成:2080 亿个晶体管芯片、第二代变压器引擎、第五代 NVLink、RAS 引擎、解压缩引擎以及对新的本机接口加密协议的支持。
其中一项技术是台积电开发的定制 4 纳米制造工艺,为下一代 GPU 打下基础,支持每秒 10 太字节的芯片间链接,形成统一的 GPU。
第二代 Transformer Engine 增加了在 Nvidia TensorTT‑LLM 和 NeMo Megatron 框架中的微张量缩放支持和动态范围管理算法,以四位浮点 AI 推理支持更大的计算算法和模型。
第五代 NVLink 网络交换机为每个 GPU 提供高达每秒 1.8 太比特的双向吞吐量,在单节点内支持多达 576 个 GPU 的高速通信。
新的 RAS 引擎使 Blackwell 成为首款配备专用可靠性、可用性和可维护性引擎的芯片。
芯片级新增功能支持 AI 驱动的预防性维护,提升诊断和可靠性,实现大规模 AI 部署的数月不间断运行。
Blackwell 还引入更先进的机密计算功能,保护 AI 模型及其数据,使其在医疗保健和金融等注重隐私的行业中更具可行性;同时推出新的解压缩引擎,加速 AI 模型、数据分析和数据科学的数据库查询。
NVIDIA GB200 Grace Blackwell 超级芯片
NVIDIA 团队还发布了一款新型超级计算机 DGX SuperPOD,该系统由 Blackwell 芯片提供支持。
该系统包括 36 个 GB200 超级芯片(每个包含 36 个 NVIDIA Grace CPU 和 72 个 NVIDIA Blackwell GPU),与 NVIDIA H100 Tensor Core GPU 相比,LLM 推理性能提升近 30 倍。
它还可以使用 NVIDIA 的 Quantum InfiniBand 扩展到数万个超级芯片。
SuperPOD 提供预测管理功能,帮助减少停机时间和低效率,识别关注领域并建议维护步骤、调整计算资源以及保存和恢复作业。
NVIDIA 网络高级副总裁 Gilad Shainer 提到,NVIDIA X800 交换机将在微软 Azure、Oracle 云基础设施等平台上推出,支持首个万亿参数生成式 AI 模型。
人工智能云时代来临,并将广泛可用
黄仁勋表示,NVIDIA DGX AI 超级计算机将是 AI 工业革命的工厂,新的 DGX SuperPOD 结合了 NVIDIA 加速计算、网络和软件的最新进展,使每个公司、行业与国家都能完善和生成自己的人工智能。
设计、模拟和建立现代数据中心非常复杂,涉及性能、能源效率和可扩展性等多种考虑因素,需要由计算、网络设计、CAD 建模以及机械、电气和热设计方面的工程师组成的团队。
NVIDIA 正打造世界上最先进的 AI 超级计算机,并在 GTC 上推出基于 NVIDIA GB200 NVL72 液冷系统的大型集群,由两个机架组成,每个机架包含 18 个 NVIDIA Grace CPU 和 36 个 NVIDIA Blackwell GPU,通过第四代 NVIDIA NVLink 交换机连接。
在展会上,NVIDIA 将完整运营的数据中心演示为 NVIDIA Omniverse 中的数字孪生,这是一个用于连接和构建支持 AI 的生成式 3D 管道、工具、应用程序和服务的平台。
为了快速建立新数据中心,NVIDIA 首先使用 Omniverse 连接的软件工具构建数字孪生。工程师使用由 NVIDIA Omniverse API 支持的 Cadence Reality 数字孪生平台,在 OpenUSD 中以完全物理精度和真实感统一并可视化多个 CAD 数据集。
提高效率和准确性的设计、数据仿真和优化
新的 GB200 集群正在取代 NVIDIA 旧数据中心之一的旧系统集群。科技公司 Kinetic Vision 使用 NavVis VLX 可穿戴激光雷达扫描仪生成高精度点云和全景照片。
随后使用 Prevu3D 软件将点云转换为 3D 网格,提供物理精确的 3D 模型用于模拟新的数字数据中心。
工程师使用 Cadence Reality 平台组合并可视化多个 CAD 数据集,提高了精度和真实感。该平台与 Omniverse 的集成提供强大的计算平台,使团队能够开发基于 OpenUSD 的 3D 工具、工作流程和应用程序。
Omniverse Cloud API 还增加了与更多工具的互操作性,包括 PATCH MANAGER 和 NVIDIA Air。通过 PATCH MANAGER,团队设计了集群和网络基础设施的物理布局,确保布线长度准确且路由配置正确。
团队使用 NVIDIA Modulus API 和 NVIDIA Grace Hopper 加速的 Cadence Reality Digital Twin 求解器模拟气流以及合作伙伴的液冷系统性能。GB200 托盘中的集成冷却系统使用 ANSYS 解决方案进行仿真和优化,将仿真数据带入数字孪生中。
数字孪生演示了在物理系统生产前全面测试、优化和验证数据中心设计的能力,使团队能够更快、更高效、更优化地上线集群,提升十余倍的效率。
Nvidia DGX SuperPOD 预计将于今年推出
在 GTC 活动上,黄教主团队指出,除了 NVIDIA 自己的 DGX 云服务外,亚马逊 AWS、Google 云和微软将成为首批在其公共云基础设施平台上提供 Blackwell GPU 访问权限的公司之一。
其它替代选择包括 Indosat Ooredoo Hutchinson、Nexgen Cloud、Oracle EU Sovereign Cloud 以及 Oracle 在美国、英国和澳大利亚的政府云等主权云平台,这些平台也将优先使用 Blackwell GPU。
还有一个选择是从第三方购买配备 Blackwell GPU 的服务器厂商,包括戴尔、惠普企业、联想、思科和超微等。
NVIDIA 和关联公司已经承诺在今年晚些时候推出首款基于 Blackwell GPU 的新型服务器。
人工智能的浪潮以几何倍数的进化、增长,正在进行时。
Signed-in readers can open the original source through BestHub's protected redirect.
This article has been distilled and summarized from source material, then republished for learning and reference. If you believe it infringes your rights, please contactand we will review it promptly.
21CTO
21CTO (21CTO.com) offers developers community, training, and services, making it your go‑to learning and service platform.
How this landed with the community
Was this worth your time?
0 Comments
Thoughtful readers leave field notes, pushback, and hard-won operational detail here.
