从一个非常棘手的问题中诞生的突破
关于人工智能数据中心,有一点常常被忽视:它们不仅耗电,还产生大量热量。每当一个大型语言模型处理查询,每当一个AI芯片运行训练任务时,都会产生巨量的热量——而消除这些热量已经悄然成为我们这个时代最紧迫的工程挑战之一。
韩国科学技术院(KAIST)——韩国的旗舰科学与工程大学——的研究人员刚刚宣布了一项冷却技术,可能会真正改变这个问题的计算方式。他们报告的数字相当惊人。
他们究竟建造了什么?
这个团队由机械工程系的金成镇教授和人工智能转型系(AX)的李益镇教授领导,开发了一种液体冷却系统,采用在半导体芯片内部雕刻比人类头发还细的水道来工作。这个公告是在6月16日发布的,而相关研究则于5月15日在国际期刊Energy Conversion and Management上发表。
核心理念被称为微通道冷却——通过微观通道直接在热源处流动液体冷却剂,而不是试图通过外部冷却板或空气系统将热量抽走。这听起来简单,但工程挑战非常严峻。在实践中,冷却剂往往会选择阻力最小的路径,在某些通道中集中,而在其他通道中几乎不流动。这种不均匀的流动意味着一些热点得不到处理,泵必须更加努力地工作来补偿——在这个过程中消耗大量能量。
KAIST团队解决这个问题的方式非常有趣。他们没有改变材料或引入复杂的化学,而是专注于几何形状。他们优化了流动通道的宽度、高度、数量和形状,以确保冷却剂在所有通道中均匀分布。他们首先使用简化的一维计算模型来缩小设计候选范围,然后通过精确的三维流体动力学模拟验证最佳设计。这是一种优雅的工程——用形状解决材料问题。
引人注目的数字
当他们将优化后的结构应用于一个仅为5mm x 5mm的测试芯片时,结果令人瞩目。仅使用室温水,该系统每平方厘米去除了超过2000瓦的热量,同时将芯片温度保持在100摄氏度以下。
研究人员用来评估冷却效率的指标称为性能系数(Coefficient of Performance,COP)——基本上是你去除的热量与所用泵功率的比值。KAIST系统记录的COP为106,000。为了给这个数字提供背景:2020年在Nature期刊上发布的微通道冷却的先前基准记录的COP大约低十倍。从实际角度来看,这意味着你只需要十分之一的泵功率就能去除相同量的热量。
他们还在冷却板上测试了这项技术——这种外部冷却组件实际上在今天的数据中心中使用——与现有设计相比,冷却性能提高了超过30%。
为什么这超越实验室的重要性
要理解这为何如此重要,稍微放远一点看会有帮助。剑桥大学的一项最新研究分析了城市边缘数据中心周围的6,733个地点,发现设施开始运营后,地表温度平均上升了2.07摄氏度——某些地区甚至上升了9.1摄氏度。数据中心正在成为新的不受欢迎的邻居,产生的热量溢出到周围社区。
目前维持这些芯片运行的冷却系统本身也是巨大的能量消耗者。空气冷却在最高性能的AI芯片上已经达到了极限。液体冷却有所帮助,但也存在自身的低效。任何能够将冷却所需电力减少十倍的技术,不仅能提升芯片性能——还可能显著减少AI基础设施的总能耗。
金教授直接指出:“在AI时代,不仅半导体性能,热量控制的有效性也是竞争优势。我预计这将作为核心技术被用于减少AI数据中心的电力消耗。”
实用且兼容——这就是关键
这里一个默默重要的细节是,这项技术不需要特殊材料或复杂的新制造工艺。没有钻石基板,没有纳米表面处理,没有在芯片内部沸腾的相变冷却剂。整个系统采用低于350摄氏度的低温制造工艺实施——这完全兼容现有的半导体制造基础设施。
这种兼容性非常重要。需要全新制造线的突破性冷却技术在理论上很有趣,但在实际大规模部署时却困难重重。能够融入现有工艺的技术,才是制造商真正可以采用的。
研究团队还表示,相同的设计原则应该可以扩展到目前在数据中心运行的大型AI芯片。他们特别提到英伟达下一代“维拉·鲁宾”系列AI半导体作为潜在的未来应用——尽管在这个阶段仍然是一个愿景。
更大的图景
韩国在半导体研究方面进行了大量投资,而KAIST正处于这一工作的中心。这一特定的发展恰逢全球AI行业在可持续性方面认真挣扎——不仅仅是碳排放的问题,还有维持AI系统运行所需的庞大物理基础设施。冷却就是这个拼图中一个不那么光鲜但绝对关键的部分。
KAIST所展示的是,通过聪明的工程——非常精确、数学上严谨的几何优化——可以从一种经过验证的方法中提取出显著更好的性能。没有新材料,没有科学上的飞跃。只有更好的设计。在一个以加速速度消耗能源的行业中,这种实用的创新可能和下一个大模型架构一样重要。
This article is based on reports from Businesskorea, Koreaittimes, Businesskorea.