KAIST의 머리카락보다 얇은 냉각 채널이 AI 데이터 센터의 가장 큰 문제를 해결할 수 있을까?

매우 뜨거운 문제에서 태어난 혁신

AI 데이터 센터에 대해 충분히 이야기되지 않는 점이 있습니다: 그들은 단순히 전력을 많이 소모하는 것이 아니라, 열을 발생시키는 기계입니다. 대형 언어 모델이 쿼리를 처리할 때마다, AI 칩이 훈련 작업을 수행할 때마다 막대한 양의 열이 발생합니다. 그리고 그 열을 없애는 것이 조용히 우리 시대의 가장 긴급한 공학적 도전 중 하나가 되었습니다.

KAIST, 즉 한국과학기술원 — 한국의 대표적인 과학 및 공학 대학 — 의 연구자들이 이 문제를 진정으로 변화시킬 수 있는 냉각 기술을 발표했습니다. 그들이 보고한 수치는 꽤 놀랍습니다.

그들이 정확히 무엇을 만들었나요?

기계공학과의 김성진 교수와 AI 변환학과(AX)의 이익진 교수의 팀은 반도체 칩 내부에 사람의 머리카락보다 얇은 물 채널을 직접 조각내어 작동하는 액체 냉각 시스템을 개발했습니다. 이 발표는 6월 16일에 이루어졌고, 기초 연구는 5월 15일 국제 저널 Energy Conversion and Management에 발표되었습니다.

핵심 아이디어는 마이크로채널 냉각이라고 불리며, 외부 냉각판이나 공기 시스템을 통해 열을 빼내려고 하기보다는 열의 원천 바로 그곳에서 미세한 통로를 통해 액체 냉각제를 흐르게 하는 것입니다. 간단하게 들리지만, 공학적 도전은 매우 가혹합니다. 실제로 냉각제는 저항이 가장 적은 경로를 따라 흐르는 경향이 있어, 일부 통로에 집중되고 다른 통로에서는 거의 흐르지 않습니다. 이러한 불균형한 흐름은 일부 뜨거운 지점이 치료되지 않게 만들고, 펌프는 보상을 위해 훨씬 더 열심히 작동해야 하며, 이 과정에서 많은 에너지를 소비하게 됩니다.

KAIST 팀이 이 문제를 어떻게 해결했는지가 정말 흥미롭습니다. 그들은 재료를 변경하거나 이국적인 화학을 도입하기보다는 기하학에 집착했습니다. 그들은 냉각제가 모든 통로에 고르게 분포될 수 있도록 흐름 채널의 너비, 높이, 수, 형태를 최적화했습니다. 그들은 디자인 후보를 좁히기 위해 단순화된 1차원 계산 모델로 시작한 후, 가장 좋은 후보를 정밀한 3차원 유체 역학 시뮬레이션을 사용하여 검증했습니다. 이는 우아한 공학입니다 — 형태 해결책으로 물질 문제를 해결하는 것입니다.

관심을 끄는 수치들

그들이 최적화된 구조를 5mm x 5mm 크기의 테스트 칩에 적용했을 때, 결과는 놀라웠습니다. 실온의 물만 사용하여 시스템은 제곱센티미터당 2,000와트 이상의 열을 제거하면서 칩 온도를 100도 섭씨 이하로 유지했습니다.

연구자들이 냉각 효율성을 판단하는 데 사용하는 지표는 성능 계수(Coefficient of Performance, COP)라고 불리며, 기본적으로 얼마나 많은 열을 제거하는지와 얼마나 많은 펌프 전력을 사용하는지를 비교합니다. KAIST 시스템은 106,000의 COP를 기록했습니다. 이를 맥락에 두면: 2020년 Nature 저널에 발표된 마이크로채널 냉각의 이전 기준은 대략 10배 낮은 COP를 기록했습니다. 실질적으로, 이는 동일한 양의 열을 제거하기 위해 필요한 펌프 전력이 10분의 1에 불과하다는 것을 의미합니다.

그들은 또한 이 기술을 냉각판, 즉 현재 데이터 센터에서 실제로 사용되는 외부 냉각 구성 요소에 테스트했으며, 기존 디자인에 비해 냉각 성능을 30% 이상 개선했습니다.

이것이 실험실 너머에서 중요한 이유

이것이 왜 그렇게 중요한지 이해하기 위해서는 잠시 시야를 넓힐 필요가 있습니다. 케임브리지 대학교의 최근 연구는 도시 외곽의 데이터 센터 주변 6,733개 위치를 분석했으며, 시설이 운영되기 시작한 후 표면 온도가 평균 2.07도 섭씨 상승했음을 발견했습니다. 일부 지역에서는 최대 9.1도 상승했습니다. 데이터 센터는 주변 커뮤니티에 열을 방출하며 새로운 원치 않는 이웃이 되고 있습니다.

현재 이러한 칩을 작동시키고 있는 냉각 시스템은 스스로도 막대한 에너지를 소비합니다. 공기 냉각은 최고 성능의 AI 칩에 대해 한계에 도달했습니다. 액체 냉각은 도움이 되지만, 그 자체로 비효율성이 있습니다. 냉각에 필요한 전력을 10배 줄일 수 있는 기술은 단순히 칩 성능을 개선하는 것이 아니라 AI 인프라의 총 에너지 발자국을 의미 있게 줄일 수 있습니다.

김 교수는 직접적으로 말했습니다: "AI 시대에는 반도체 성능뿐만 아니라 열을 얼마나 효과적으로 제어하는지가 경쟁력이 됩니다. 이는 AI 데이터 센터의 전력 소비를 줄이는 핵심 기술로 활용될 것으로 기대합니다."

실용적이고 호환 가능 — 그것이 핵심

여기서 조용히 중요한 세부 사항 중 하나는 이 기술이 이국적인 재료나 복잡한 새로운 제조 공정을 필요로 하지 않는다는 것입니다. 다이아몬드 기판, 나노 표면 처리, 칩 내부에서 끓는 상변화 냉각제가 필요하지 않습니다. 전체 시스템은 350도 섭씨 이하의 저온 제조 공정을 사용하여 구현되었습니다 — 기존의 반도체 제조 인프라와 호환되는 범위 내입니다.

이러한 호환성은 매우 중요합니다. 완전히 새로운 제조 라인을 요구하는 혁신적인 냉각 기술은 이론적으로 흥미롭지만, 실제로 대규모로 배포하기는 어렵습니다. 기존 프로세스에 통합될 수 있는 기술은 제조업체가 실제로 채택할 수 있는 것입니다.

연구팀은 또한 동일한 설계 원칙이 현재 데이터 센터에서 운영 중인 대형 AI 칩에 확장 가능하다고 밝혔습니다. 그들은 특히 Nvidia의 차세대 "베라 루빈" 클래스 AI 반도체를 잠재적인 미래 응용 프로그램으로 언급했지만, 이는 현재로서는 희망적인 단계에 있습니다.

더 큰 그림

한국은 반도체 연구에 막대한 투자를 하고 있으며, KAIST는 그 작업의 중심에 있습니다. 이 특정 개발은 글로벌 AI 산업이 지속 가능성 문제에 심각하게 직면하고 있는 시점에 이루어졌습니다 — 탄소 배출 측면뿐만 아니라 AI 시스템을 운영하는 데 필요한 물리적 인프라 측면에서도요. 냉각은 그 퍼즐의 매력적이지 않지만 절대적으로 중요한 부분 중 하나입니다.

KAIST가 보여준 것은 스마트한 공학, 즉 매우 정밀하고 수학적으로 엄격한 기하학 최적화를 통해 근본적으로 입증된 접근 방식에서 극적으로 더 나은 성능을 끌어낼 수 있다는 것입니다. 새로운 재료도, 과학적 도약도 필요 없습니다. 단지 더 나은 디자인입니다. 그리고 에너지를 가속화된 속도로 소모하고 있는 산업에서, 이러한 실용적인 혁신은 다음 큰 모델 아키텍처만큼이나 중요할 수 있습니다.

This article is based on reports from Businesskorea, Koreaittimes, Businesskorea.