虎扑体育网

虎扑新闻网首页>NBA频道>步行街主干道>#356.AI硬件的未来：英伟达首席科学家Bill Dally的深度洞察

#356.AI硬件的未来：英伟达首席科学家Bill Dally的深度洞察

虎扑JR1911306407

12-11 15:09

关注

此帖为播客帖,点击升级到最新版本可播放音频

📝 本期播客简介

本期播客，我们克隆了伯克利的一期公开课 Bill Dally - Trends in Deep Learning Hardware

荣幸邀请到英伟达首席科学家兼研究高级副总裁、斯坦福大学客座教授Bill Dally。作为计算领域的泰斗，Bill Dally分享了他对深度学习硬件未来趋势的独到见解。他回顾了深度学习从算法萌芽到GPU引爆的历程，揭示了硬件性能提升的真正驱动力——从数值表示、复杂指令集到稀疏性利用，以及如何通过并行计算应对模型规模的爆炸式增长。Bill Dally还深入探讨了当前深度学习应用面临的挑战，如Agent模式、预填充与解码阶段的差异化需求、以及思维链推理对硬件提出的严苛要求。他展望了未来硬件设计方向，包括3D堆叠内存、优化的数值表示法、结构化稀疏性，并分享了他对通用加速器和超越CMOS技术范式的思考。

👨‍⚕️ 本期嘉宾

Bill Dally，英伟达首席科学家兼研究高级副总裁，斯坦福大学客座教授（曾任斯坦福计算机系主任）。他是美国国家工程院院士，电气电子工程师学会、计算机协会及美国艺术与科学学院会士，曾荣获伊丽莎白女王工程奖、本杰明·富兰克林奖等众多荣誉，在硬件和软件创新领域做出了卓越贡献。

⏱️ 时间戳

00:00开场 & 嘉宾介绍

深度学习的崛起与硬件的推动

00:51深度学习的变革力量：ChatGPT的自我认知与量子化学AI系统Ente

02:34深度学习成功的三要素：算法、数据与硬件

03:36硬件的引爆点：GPU与深度学习的火箭式发展

04:08模型计算量爆炸：从AlexNet到Transformer的千万倍增长

05:06GPU的诞生：政府资助研究与CUDA的演变

GPU性能提升的秘密

06:29GPU性能飞跃：过去十年推理性能每年翻倍

06:57摩尔定律之外：架构与设计的五千倍提升

07:21数值表示的巨大贡献：从FP32到FP4的32倍提升

08:37复杂指令集：从点积到矩阵乘法的效率革命

10:54工艺进步的有限贡献：28纳米到4纳米仅3倍能效提升

11:10稀疏性与“作弊”：Blackwell的2倍稀疏度与芯片面积翻倍

11:46模型优化：GoogleNet等算法带来的额外性能提升

12:12Blackwell架构：工程奇迹与NVHBI互连

并行计算：突破性能瓶颈

12:57多维度并行：数据并行、流水线并行与张量并行

14:59通信技术：NVLink与InfiniBand构建大规模AI集群

16:30英伟达数据中心：系统规模与计算性能的七万倍增长

软件栈：深度学习的另一半

16:51软件的挑战：从cuDNN到Modulus、Clara等应用栈

18:36软件壁垒：构建完整高效软件栈的难度

19:00MLPerf基准测试：英伟达的领先地位与软件优化带来的性能提升

未来挑战与硬件设计方向

20:15Agent模式的兴起：大语言模型与工具、记忆的结合

21:17LLM运行的独特阶段：预填充（Prefill）与解码（Decode）的挑战

22:30解码阶段的内存与延迟需求：每秒千级Token的挑战

23:20思维链推理（Chain of Thought）：多轮迭代对硬件的严苛要求

24:33硬件设计师的应对：极高Token生成速率的需求

25:35内存带宽与通信延迟：Blackwell面临的巨大挑战

26:37新模型与注意力机制：混合专家模型与多头潜在注意力

27:50能量消耗分析：数学计算、内存带宽与数据移动

28:553D堆叠内存：降低HBM内存能耗与提升带宽的潜力

30:12数值表示的艺术：从整数到浮点、对数与码本

31:04脉冲表示法的低效：CMOS电路中的能耗问题

31:58比较数值表示法：成本与准确性的权衡

33:13符号表与剪枝：优化权重表示以提高精度

34:28对数表示法：乘法变加法与误差分布的优势

36:07对数加法的挑战与延迟策略

37:37数值表示优化：缩放与裁剪最小化误差

40:21粒度优化：从层级到向量级的缩放与裁剪

41:09稀疏性利用：结构化稀疏与Ampere架构

42:53加速器原型：探索每瓦算力的极限

43:37指令开销：CPU与GPU的巨大差异

44:13内存访问成本：局部性与跨层级访问的能耗

45:14异构加速器：为不同阶段优化计算与内存

46:31Magnet加速器：每瓦百万亿次运算的里程碑

46:58电压缩放：优化每瓦性能的巨大机会

48:04通用加速器愿景：模块化设计应对多领域应用

总结与问答

49:30深度学习的未来：提升人类体验与模型优化

50:12当前挑战：分离式推理、思维链与新注意力机制

50:54硬件的成就：GPU性能的惊人增长与优化细节

52:00Q&A: 互连技术与NVLink的重要性

53:30Q&A: 数学运算与通信能耗的界定

54:36Q&A: AI功耗与人脑效率的对比

56:19Q&A: 电压堆叠与CMOS工艺的兼容性

57:47Q&A: 未来十年计算能力的预测

59:02Q&A: 超越CMOS的脉冲计算范式

59:45Q&A: 晶体管尺寸极限与工艺技术的未来

🌟 精彩内容

💡 **深度学习的引爆点**

Bill Dally回顾了深度学习的算法和数据早在上世纪80年代和2005年左右就已存在，但直到GPU的出现，才真正引爆了这场革命。GPU提供了足够的计算能力，使得在合理时间内训练大型模型成为可能，推动了深度学习的火箭式发展。

“当时 ImageNet 的数据集大概是一百多万张图片，而这个‘合理的时间’，指的是两周。这就像是点燃油气混合物的那一点火花，真正引爆了深度学习的革命。”

🚀 **GPU性能提升的秘密**

在过去十年里，GPU的AI推理性能提升了五千倍，其中只有三倍来自工艺进步（摩尔定律）。Bill Dally揭示了其余提升的真正来源：数值表示（如从FP32到FP4带来了32倍提升）、复杂指令集（如矩阵乘法指令将开销降至极低）、以及稀疏性利用。

“这五千倍的提升里，只有三倍来自工艺进步。剩下的全都是靠更好的架构和巧妙的设计。”

🧠 **未来挑战：Agent模式与思维链**

Bill Dally指出，当前深度学习应用正从单一模型运行转向复杂的Agent模式，它们拥有记忆、能使用工具，并进行多轮“思维链”推理。这导致了预填充（计算密集）和解码（内存与延迟密集）阶段的巨大差异化需求，对硬件的Token生成速率和通信延迟提出了前所未有的挑战。

“你既需要巨大的内存带宽…同时你还有延迟的要求。因为通常都会有用户层面的服务目标，比如你希望每个 token 的生成时间在一百毫秒左右。”

🛠️ **硬件设计方向：3D堆叠内存与数值表示**

为了应对未来的挑战，Bill Dally展望了硬件设计的新方向，包括通过3D堆叠内存将DRAM直接置于GPU上方，大幅降低内存访问能耗和提升带宽；以及优化数值表示法，如利用对数表示法和精细的缩放与裁剪策略，在低精度下实现更高精度。

“我们看到的一个长期方向是，把 D R A M 直接堆在 G P U 上面，并把计算局部化。这样我们就可以直接垂直向下读取 D R A M。”

💡 **通用加速器愿景**

Bill Dally分享了他对未来加速器的个人愿景：构建一个拥有通用计算、内存系统和互连的基础平台，然后通过堆叠定制化的应用模块，为深度学习、生物信息学等多种应用提供特化支持，实现灵活性与效率的统一。

“你可以想象有一个基础层的 G P U，通过在上面堆叠不同的应用模块，来为多种应用进行特化。”

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight

步行街主干道

阅读 8166

这些回复亮了

稀疏性和复杂指令集，这些名词听着就烧钱

模型计算量爆炸，硬件追得气喘吁吁

沪公网安备 31010902002561号警务室

网络社会征信网上海市互联网违法和不良信息举报中心中国互联网违法和不良信息举报中心虎扑举报电话：021-66695603 021-61431529

上海网警提示：

网络刷单是违法，切莫轻信有返利，网上交友套路多，卖惨要钱需当心，电子红包莫轻点，个人信息勿填写，仿冒客服来行骗，官方核实最重要，招工诈骗有套路，预交费用需谨慎，

低价充值莫轻信，莫因游戏陷套路，连接WIFI要规范，确认安全再连接，抢购车票有章法，确认订单再付款，白条赊购慎使用，提升额度莫轻信，网购预付有风险，正规渠道很重要！