#356.AI硬件的未来:英伟达首席科学家Bill Dally的深度洞察
📝 本期播客简介
本期播客,我们克隆了伯克利的一期公开课 Bill Dally - Trends in Deep Learning Hardware
荣幸邀请到英伟达首席科学家兼研究高级副总裁、斯坦福大学客座教授Bill Dally。作为计算领域的泰斗,Bill Dally分享了他对深度学习硬件未来趋势的独到见解。他回顾了深度学习从算法萌芽到GPU引爆的历程,揭示了硬件性能提升的真正驱动力——从数值表示、复杂指令集到稀疏性利用,以及如何通过并行计算应对模型规模的爆炸式增长。Bill Dally还深入探讨了当前深度学习应用面临的挑战,如Agent模式、预填充与解码阶段的差异化需求、以及思维链推理对硬件提出的严苛要求。他展望了未来硬件设计方向,包括3D堆叠内存、优化的数值表示法、结构化稀疏性,并分享了他对通用加速器和超越CMOS技术范式的思考。
👨⚕️ 本期嘉宾
Bill Dally,英伟达首席科学家兼研究高级副总裁,斯坦福大学客座教授(曾任斯坦福计算机系主任)。他是美国国家工程院院士,电气电子工程师学会、计算机协会及美国艺术与科学学院会士,曾荣获伊丽莎白女王工程奖、本杰明·富兰克林奖等众多荣誉,在硬件和软件创新领域做出了卓越贡献。
⏱️ 时间戳
00:00开场 & 嘉宾介绍
深度学习的崛起与硬件的推动
00:51深度学习的变革力量:ChatGPT的自我认知与量子化学AI系统Ente
02:34深度学习成功的三要素:算法、数据与硬件
03:36硬件的引爆点:GPU与深度学习的火箭式发展
04:08模型计算量爆炸:从AlexNet到Transformer的千万倍增长
05:06GPU的诞生:政府资助研究与CUDA的演变
GPU性能提升的秘密
06:29GPU性能飞跃:过去十年推理性能每年翻倍
06:57摩尔定律之外:架构与设计的五千倍提升
07:21数值表示的巨大贡献:从FP32到FP4的32倍提升
08:37复杂指令集:从点积到矩阵乘法的效率革命
10:54工艺进步的有限贡献:28纳米到4纳米仅3倍能效提升
11:10稀疏性与“作弊”:Blackwell的2倍稀疏度与芯片面积翻倍
11:46模型优化:GoogleNet等算法带来的额外性能提升
12:12Blackwell架构:工程奇迹与NVHBI互连
并行计算:突破性能瓶颈
12:57多维度并行:数据并行、流水线并行与张量并行
14:59通信技术:NVLink与InfiniBand构建大规模AI集群
16:30英伟达数据中心:系统规模与计算性能的七万倍增长
软件栈:深度学习的另一半
16:51软件的挑战:从cuDNN到Modulus、Clara等应用栈
18:36软件壁垒:构建完整高效软件栈的难度
19:00MLPerf基准测试:英伟达的领先地位与软件优化带来的性能提升
未来挑战与硬件设计方向
20:15Agent模式的兴起:大语言模型与工具、记忆的结合
21:17LLM运行的独特阶段:预填充(Prefill)与解码(Decode)的挑战
22:30解码阶段的内存与延迟需求:每秒千级Token的挑战
23:20思维链推理(Chain of Thought):多轮迭代对硬件的严苛要求
24:33硬件设计师的应对:极高Token生成速率的需求
25:35内存带宽与通信延迟:Blackwell面临的巨大挑战
26:37新模型与注意力机制:混合专家模型与多头潜在注意力
27:50能量消耗分析:数学计算、内存带宽与数据移动
28:553D堆叠内存:降低HBM内存能耗与提升带宽的潜力
30:12数值表示的艺术:从整数到浮点、对数与码本
31:04脉冲表示法的低效:CMOS电路中的能耗问题
31:58比较数值表示法:成本与准确性的权衡
33:13符号表与剪枝:优化权重表示以提高精度
34:28对数表示法:乘法变加法与误差分布的优势
36:07对数加法的挑战与延迟策略
37:37数值表示优化:缩放与裁剪最小化误差
40:21粒度优化:从层级到向量级的缩放与裁剪
41:09稀疏性利用:结构化稀疏与Ampere架构
42:53加速器原型:探索每瓦算力的极限
43:37指令开销:CPU与GPU的巨大差异
44:13内存访问成本:局部性与跨层级访问的能耗
45:14异构加速器:为不同阶段优化计算与内存
46:31Magnet加速器:每瓦百万亿次运算的里程碑
46:58电压缩放:优化每瓦性能的巨大机会
48:04通用加速器愿景:模块化设计应对多领域应用
总结与问答
49:30深度学习的未来:提升人类体验与模型优化
50:12当前挑战:分离式推理、思维链与新注意力机制
50:54硬件的成就:GPU性能的惊人增长与优化细节
52:00Q&A: 互连技术与NVLink的重要性
53:30Q&A: 数学运算与通信能耗的界定
54:36Q&A: AI功耗与人脑效率的对比
56:19Q&A: 电压堆叠与CMOS工艺的兼容性
57:47Q&A: 未来十年计算能力的预测
59:02Q&A: 超越CMOS的脉冲计算范式
59:45Q&A: 晶体管尺寸极限与工艺技术的未来
🌟 精彩内容
💡 **深度学习的引爆点**
Bill Dally回顾了深度学习的算法和数据早在上世纪80年代和2005年左右就已存在,但直到GPU的出现,才真正引爆了这场革命。GPU提供了足够的计算能力,使得在合理时间内训练大型模型成为可能,推动了深度学习的火箭式发展。
“当时 ImageNet 的数据集大概是一百多万张图片,而这个‘合理的时间’,指的是两周。这就像是点燃油气混合物的那一点火花,真正引爆了深度学习的革命。”
🚀 **GPU性能提升的秘密**
在过去十年里,GPU的AI推理性能提升了五千倍,其中只有三倍来自工艺进步(摩尔定律)。Bill Dally揭示了其余提升的真正来源:数值表示(如从FP32到FP4带来了32倍提升)、复杂指令集(如矩阵乘法指令将开销降至极低)、以及稀疏性利用。
“这五千倍的提升里,只有三倍来自工艺进步。剩下的全都是靠更好的架构和巧妙的设计。”
🧠 **未来挑战:Agent模式与思维链**
Bill Dally指出,当前深度学习应用正从单一模型运行转向复杂的Agent模式,它们拥有记忆、能使用工具,并进行多轮“思维链”推理。这导致了预填充(计算密集)和解码(内存与延迟密集)阶段的巨大差异化需求,对硬件的Token生成速率和通信延迟提出了前所未有的挑战。
“你既需要巨大的内存带宽…同时你还有延迟的要求。因为通常都会有用户层面的服务目标,比如你希望每个 token 的生成时间在一百毫秒左右。”
🛠️ **硬件设计方向:3D堆叠内存与数值表示**
为了应对未来的挑战,Bill Dally展望了硬件设计的新方向,包括通过3D堆叠内存将DRAM直接置于GPU上方,大幅降低内存访问能耗和提升带宽;以及优化数值表示法,如利用对数表示法和精细的缩放与裁剪策略,在低精度下实现更高精度。
“我们看到的一个长期方向是,把 D R A M 直接堆在 G P U 上面,并把计算局部化。这样我们就可以直接垂直向下读取 D R A M。”
💡 **通用加速器愿景**
Bill Dally分享了他对未来加速器的个人愿景:构建一个拥有通用计算、内存系统和互连的基础平台,然后通过堆叠定制化的应用模块,为深度学习、生物信息学等多种应用提供特化支持,实现灵活性与效率的统一。
“你可以想象有一个基础层的 G P U,通过在上面堆叠不同的应用模块,来为多种应用进行特化。”
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

现在的保罗
稀疏性和复杂指令集,这些名词听着就烧钱

复古阿杜
模型计算量爆炸,硬件追得气喘吁吁