#356.AI硬件的未来:英伟达首席科学家Bill Dally的深度洞察

关注
此帖为播客帖,点击升级到最新版本可播放音频

📝 本期播客简介

本期播客,我们克隆了伯克利的一期公开课 Bill Dally - Trends in Deep Learning Hardware

荣幸邀请到英伟达首席科学家兼研究高级副总裁、斯坦福大学客座教授Bill Dally。作为计算领域的泰斗,Bill Dally分享了他对深度学习硬件未来趋势的独到见解。他回顾了深度学习从算法萌芽到GPU引爆的历程,揭示了硬件性能提升的真正驱动力——从数值表示、复杂指令集到稀疏性利用,以及如何通过并行计算应对模型规模的爆炸式增长。Bill Dally还深入探讨了当前深度学习应用面临的挑战,如Agent模式、预填充与解码阶段的差异化需求、以及思维链推理对硬件提出的严苛要求。他展望了未来硬件设计方向,包括3D堆叠内存、优化的数值表示法、结构化稀疏性,并分享了他对通用加速器和超越CMOS技术范式的思考。

👨‍⚕️ 本期嘉宾

Bill Dally,英伟达首席科学家兼研究高级副总裁,斯坦福大学客座教授(曾任斯坦福计算机系主任)。他是美国国家工程院院士,电气电子工程师学会、计算机协会及美国艺术与科学学院会士,曾荣获伊丽莎白女王工程奖、本杰明·富兰克林奖等众多荣誉,在硬件和软件创新领域做出了卓越贡献。

⏱️ 时间戳

00:00开场 & 嘉宾介绍

深度学习的崛起与硬件的推动

00:51深度学习的变革力量:ChatGPT的自我认知与量子化学AI系统Ente

02:34深度学习成功的三要素:算法、数据与硬件

03:36硬件的引爆点:GPU与深度学习的火箭式发展

04:08模型计算量爆炸:从AlexNet到Transformer的千万倍增长

05:06GPU的诞生:政府资助研究与CUDA的演变

GPU性能提升的秘密

06:29GPU性能飞跃:过去十年推理性能每年翻倍

06:57摩尔定律之外:架构与设计的五千倍提升

07:21数值表示的巨大贡献:从FP32到FP4的32倍提升

08:37复杂指令集:从点积到矩阵乘法的效率革命

10:54工艺进步的有限贡献:28纳米到4纳米仅3倍能效提升

11:10稀疏性与“作弊”:Blackwell的2倍稀疏度与芯片面积翻倍

11:46模型优化:GoogleNet等算法带来的额外性能提升

12:12Blackwell架构:工程奇迹与NVHBI互连

并行计算:突破性能瓶颈

12:57多维度并行:数据并行、流水线并行与张量并行

14:59通信技术:NVLink与InfiniBand构建大规模AI集群

16:30英伟达数据中心:系统规模与计算性能的七万倍增长

软件栈:深度学习的另一半

16:51软件的挑战:从cuDNN到Modulus、Clara等应用栈

18:36软件壁垒:构建完整高效软件栈的难度

19:00MLPerf基准测试:英伟达的领先地位与软件优化带来的性能提升

未来挑战与硬件设计方向

20:15Agent模式的兴起:大语言模型与工具、记忆的结合

21:17LLM运行的独特阶段:预填充(Prefill)与解码(Decode)的挑战

22:30解码阶段的内存与延迟需求:每秒千级Token的挑战

23:20思维链推理(Chain of Thought):多轮迭代对硬件的严苛要求

24:33硬件设计师的应对:极高Token生成速率的需求

25:35内存带宽与通信延迟:Blackwell面临的巨大挑战

26:37新模型与注意力机制:混合专家模型与多头潜在注意力

27:50能量消耗分析:数学计算、内存带宽与数据移动

28:553D堆叠内存:降低HBM内存能耗与提升带宽的潜力

30:12数值表示的艺术:从整数到浮点、对数与码本

31:04脉冲表示法的低效:CMOS电路中的能耗问题

31:58比较数值表示法:成本与准确性的权衡

33:13符号表与剪枝:优化权重表示以提高精度

34:28对数表示法:乘法变加法与误差分布的优势

36:07对数加法的挑战与延迟策略

37:37数值表示优化:缩放与裁剪最小化误差

40:21粒度优化:从层级到向量级的缩放与裁剪

41:09稀疏性利用:结构化稀疏与Ampere架构

42:53加速器原型:探索每瓦算力的极限

43:37指令开销:CPU与GPU的巨大差异

44:13内存访问成本:局部性与跨层级访问的能耗

45:14异构加速器:为不同阶段优化计算与内存

46:31Magnet加速器:每瓦百万亿次运算的里程碑

46:58电压缩放:优化每瓦性能的巨大机会

48:04通用加速器愿景:模块化设计应对多领域应用

总结与问答

49:30深度学习的未来:提升人类体验与模型优化

50:12当前挑战:分离式推理、思维链与新注意力机制

50:54硬件的成就:GPU性能的惊人增长与优化细节

52:00Q&A: 互连技术与NVLink的重要性

53:30Q&A: 数学运算与通信能耗的界定

54:36Q&A: AI功耗与人脑效率的对比

56:19Q&A: 电压堆叠与CMOS工艺的兼容性

57:47Q&A: 未来十年计算能力的预测

59:02Q&A: 超越CMOS的脉冲计算范式

59:45Q&A: 晶体管尺寸极限与工艺技术的未来

🌟 精彩内容

💡 **深度学习的引爆点**

Bill Dally回顾了深度学习的算法和数据早在上世纪80年代和2005年左右就已存在,但直到GPU的出现,才真正引爆了这场革命。GPU提供了足够的计算能力,使得在合理时间内训练大型模型成为可能,推动了深度学习的火箭式发展。

“当时 ImageNet 的数据集大概是一百多万张图片,而这个‘合理的时间’,指的是两周。这就像是点燃油气混合物的那一点火花,真正引爆了深度学习的革命。”

🚀 **GPU性能提升的秘密**

在过去十年里,GPU的AI推理性能提升了五千倍,其中只有三倍来自工艺进步(摩尔定律)。Bill Dally揭示了其余提升的真正来源:数值表示(如从FP32到FP4带来了32倍提升)、复杂指令集(如矩阵乘法指令将开销降至极低)、以及稀疏性利用。

“这五千倍的提升里,只有三倍来自工艺进步。剩下的全都是靠更好的架构和巧妙的设计。”

🧠 **未来挑战:Agent模式与思维链**

Bill Dally指出,当前深度学习应用正从单一模型运行转向复杂的Agent模式,它们拥有记忆、能使用工具,并进行多轮“思维链”推理。这导致了预填充(计算密集)和解码(内存与延迟密集)阶段的巨大差异化需求,对硬件的Token生成速率和通信延迟提出了前所未有的挑战。

“你既需要巨大的内存带宽…同时你还有延迟的要求。因为通常都会有用户层面的服务目标,比如你希望每个 token 的生成时间在一百毫秒左右。”

🛠️ **硬件设计方向:3D堆叠内存与数值表示**

为了应对未来的挑战,Bill Dally展望了硬件设计的新方向,包括通过3D堆叠内存将DRAM直接置于GPU上方,大幅降低内存访问能耗和提升带宽;以及优化数值表示法,如利用对数表示法和精细的缩放与裁剪策略,在低精度下实现更高精度。

“我们看到的一个长期方向是,把 D R A M 直接堆在 G P U 上面,并把计算局部化。这样我们就可以直接垂直向下读取 D R A M。”

💡 **通用加速器愿景**

Bill Dally分享了他对未来加速器的个人愿景:构建一个拥有通用计算、内存系统和互连的基础平台,然后通过堆叠定制化的应用模块,为深度学习、生物信息学等多种应用提供特化支持,实现灵活性与效率的统一。

“你可以想象有一个基础层的 G P U,通过在上面堆叠不同的应用模块,来为多种应用进行特化。”

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的

使用 AI 进行翻译,因此可能会有一些地方不通顺;

如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

阅读 8166

这些回复亮了

discusser-avatar

现在的保罗

亮了(30)
查看回复(1)
回复

稀疏性和复杂指令集,这些名词听着就烧钱

discusser-avatar

复古阿杜

亮了(24)
回复

模型计算量爆炸,硬件追得气喘吁吁