KAISTの髪の毛ほどの細い冷却チャンネルがAIデータセンターの最大の問題を解決するかもしれません

非常に熱い問題から生まれたブレークスルー

AIデータセンターについてあまり語られないことがあります。それは、彼らが単に電力を大量に消費するだけでなく、熱を生み出す機械でもあるということです。大規模な言語モデルがクエリを処理するたび、AIチップがトレーニング作業を実行するたびに、膨大な量の熱が生成されます。そして、その熱を取り除くことが、私たちの時代の最も緊急なエンジニアリングの課題の一つになっています。

韓国の科学技術大学であるKAISTの研究者たちは、この問題に対して本当に数学を変える可能性のある冷却技術を発表しました。そして、彼らが報告している数字は非常に注目に値します。

彼らは一体何を作ったのか？

機械工学科の金成鎮教授とAI変革学科のイ・イクジン教授が率いるチームは、半導体チップの内部に人間の髪の毛よりも細い水の通路を彫ることで機能する液体冷却システムを開発しました。この発表は6月16日に行われ、基礎研究は国際ジャーナルEnergy Conversion and Managementに5月15日に掲載されました。

この技術の核心的なアイデアはマイクロチャネル冷却と呼ばれ、外部の冷却プレートや空気システムを通じて熱を取り除くのではなく、熱の発生源である微小な通路を通して液体冷却剤を流すというものです。一見簡単に思えますが、エンジニアリングの課題は非常に厳しいものです。実際には、冷却剤は抵抗の少ない経路を選ぶ傾向があり、一部の通路に集中し、他の通路ではほとんど流れないことがあります。その不均一な流れは、一部の熱スポットが未処理のままとなり、ポンプは補償するためにより多くの作業をしなければならず、その過程で多くのエネルギーを消費します。

KAISTのチームがこの問題をどのように解決したかが非常に興味深いです。材料を変えたり、特異な化学を導入するのではなく、彼らは幾何学に執着しました。冷却剤がすべての通路に均等に分配されるように、流路の幅、高さ、数、形状を最適化しました。彼らはまず簡略化された一次元の計算モデルを使用して設計候補を絞り込み、その後、精密な三次元流体力学シミュレーションを用いて最適なものを検証しました。これはエレガントなエンジニアリングであり、形状の解決策で材料の問題を解決しています。

注目を集める数字

最適化された構造を5mm x 5mmのテストチップに適用したところ、結果は驚くべきものでした。室温の水だけを使用して、このシステムは1平方センチメートルあたり2,000ワット以上の熱を取り除き、チップの温度を100度 Celsius未満に保ちました。

研究者たちが冷却効率を判断するために使用する指標は、性能係数（Coefficient of Performance、COP）と呼ばれ、基本的には取り除く熱量に対して使用するポンプの電力の比率です。KAISTのシステムはCOP106,000を記録しました。これを文脈に置き換えると、2020年にNatureに発表されたマイクロチャネル冷却の以前のベンチマークは、COPが約10倍低かったのです。実際の意味では、同じ量の熱を取り除くために必要なポンプの電力は10分の1で済むということです。

彼らはまた、この技術を冷却プレート、つまり現在のデータセンターで実際に使用されている外部冷却コンポーネントにテストし、既存の設計と比較して冷却性能を30％以上向上させました。

なぜこれがラボを超えて重要なのか

これがなぜ大きな問題なのかを理解するためには、少し引いて見ることが役立ちます。ケンブリッジ大学の最近の研究では、都市の周辺にあるデータセンターの6,733か所を分析し、施設が稼働を開始した後、表面温度が平均2.07度 Celsius上昇したことがわかりました。一部の地域では9.1度の上昇が見られました。データセンターは新たな望まれない隣人となり、周囲のコミュニティに熱を放出しています。

現在、これらのチップを生かしている冷却システム自体が大規模なエネルギー消費者です。空冷は最高性能のAIチップに対して限界に達しています。液体冷却は助けになりますが、自身にも非効率性があります。冷却に必要な電力を10分の1に削減できる技術は、チップの性能を向上させるだけでなく、AIインフラの総エネルギー消費を大幅に削減する可能性があります。

金教授は直接的に述べました。「AI時代においては、半導体の性能だけでなく、熱の制御がどれだけ効果的に行われるかも競争上の優位性です。これはAIデータセンターの電力消費を削減するためのコア技術として利用されることを期待しています。」

実用的で互換性がある — それが鍵

ここでの静かに重要な詳細の一つは、この技術が特異な材料や複雑な新しい製造プロセスを必要としないということです。ダイヤモンド基板も、ナノ表面処理も、チップ内部で沸騰する相変化冷却剤も必要ありません。全体のシステムは、350度 Celsius未満の低温製造プロセスを使用して実装されており、既存の半導体製造インフラと互換性があります。

この互換性は非常に重要です。全く新しい製造ラインを必要とする冷却技術は理論的には興味深いですが、大規模に展開するのは実際には難しいです。既存のプロセスに組み込める技術は、製造業者が実際に採用できるものです。

研究チームは、同じ設計原則が現在データセンターで稼働している大規模なAIチップにもスケール可能であることを示唆しています。彼らは特にNvidiaの次世代「ヴェラ・ルービン」クラスのAI半導体を将来の応用として挙げましたが、現段階ではまだ期待段階にあります。

より大きな視点

韓国は半導体研究に多大な投資をしており、KAISTはその中心に位置しています。この特定の開発は、世界のAI産業が持続可能性に真剣に取り組んでいる瞬間に行われています — 炭素排出の観点だけでなく、AIシステムを稼働させるために必要な物理的インフラの観点でもです。冷却は、そのパズルの中で地味ですが絶対に重要な部分の一つです。

KAISTが示したのは、スマートなエンジニアリング — 本当に正確で数学的に厳密な幾何学の最適化 — によって、基本的に証明されたアプローチから劇的に優れた性能を引き出すことができるということです。新しい材料も、科学的な飛躍も必要ありません。単により良い設計です。そして、エネルギーを加速的に消費している業界において、そのような実用的な革新は、次の大きなモデルアーキテクチャと同じくらい重要かもしれません。

This article is based on reports from Businesskorea, Koreaittimes, Businesskorea.