임주형기자
인공지능(AI) 경쟁은 이제 컴퓨터 칩이나 전력 확보 문제가 아닙니다. 대형 데이터센터를 이루는 모든 기반 기술에서 우위를 차지해야 합니다.
초대형 AI 모델을 개발 중인 빅테크 기업 중 마이크로소프트(MS)가 최근 비장의 무기로 꺼내든 도구는 다름 아닌 '케이블', 즉 통신선입니다. 어디서든 흔히 구할 수 있을 듯한 물건으로 보이지만, 어쩌면 MS를 AI 시대의 승리자로 바꿀 핵심 기술이 될 가능성이 있습니다.
왜 갑자기 케이블이 중요해진 걸까요. 사실 AI 혁신의 뒤에는 항상 케이블이 있었습니다. 그래픽처리유닛(GPU) 제조사인 엔비디아의 예를 들어 보죠. 엔비디아는 GPU 수십장을 연결한 '서버 랙'을 고객에 판매합니다.
GPU와 GPU, 서버 랙과 서버 랙 사이에는 무수히 많은 케이블(NV링크)과 스위치(NV스위치)가 연결돼 있죠. 해당 장치를 통틀어 '인터커넥트'라 하는데, 바로 이 장치를 통해 GPU끼리 서로 의사소통을 하며 초대형 AI를 빠르게 훈련시킵니다. NV링크와 NV스위치는 컴퓨터 칩 만큼이나 엔비디아의 핵심 기술로 손꼽힙니다.
이제 GPU 서버 랙을 들여놓은 현대 데이터센터를 상상해 봅시다. 빅테크들이 투자하는 하이퍼스케일 데이터센터는 한 동 내부에 1~2만개의 GPU가 탑재됩니다. 이런 데이터센터가 전 세계에 수십개 배치돼 있으며, 각각의 데이터센터는 케이블로 연결됩니다.
AI 모델의 크기가 점점 더 커지면서, 딥러닝 훈련에 필요한 컴퓨팅 파워도 기하급수적으로 늘어났습니다. 이런 가운데 구글이 지난해 '제미나이 울트라' 모델을 훈련하며 '분산 데이터센터 훈련'이라는 새 기법을 선보여 업계의 이목을 집중시켰죠. 자사 AI 훈련용 칩인 TPUv5 5만여대를 동원해 한 개의 초대형 모델을 초고속 훈련한 겁니다.
분산 AI 훈련 자체는 이전에도 존재했던 기법입니다. AI 훈련에 필요한 데이터셋을 각 컴퓨터 칩의 통신 노드에 분할 전송해 동시다발적으로 훈련하는 겁니다. 분산 데이터센터 훈련은 그 규모를 데이터센터 단위로 확대한 겁니다. 즉, 미 전역에 깔린 구글 데이터센터들이 죄다 모델 학습에 투입된 것이죠.
오픈AI와 협력해 초거대 AI를 구축하려는 MS도 분산 훈련에 도전하려 합니다. 앞서 오픈AI와 MS는 최대 30만장의 GPU를 분산 훈련해 차세대 모델을 훈련할 예정이라고 밝힌 바 있습니다. 2만여대의 GPU가 탑재된 데이터센터 건물 15동을 동원해야 합니다. 비용, 전력은 물론 물리적 거리마저 어마어마할 겁니다.
AI 훈련에 가장 중요한 건 데이터의 전송 속도와 용량입니다. 앞서 IT 업계는 2000년대 초반 초고속 인터넷 시대를 맞이하며 구리 선 케이블에서 광섬유 케이블로 '세대 도약'을 진행했고, 덕분에 작금의 데이터센터는 엄청난 속도로 고용량 데이터를 전송할 수 있게 됐지요. 하지만 분산 데이터센터 훈련을 가능케 하려면 지금보다 훨씬 빠른 속도가 필요합니다.
결국, MS가 'GPU 30만장 분산 훈련'이라는 목표를 통과하려면 케이블 혁신을 일으켜야 한다는 뜻입니다. 그리고 MS는 2년 전부터 '비장의 무기'를 준비해 오고 있었습니다. 2022년 말 MS는 영국 사우샘프턴대학교 광전자연구소에서 출범한 스타트업 '루메니시티'를 인수했습니다. 이 회사는 차세대 광섬유 케이블의 한 종류인 HCF(Hollow Core Fiber·중공 섬유) 케이블을 개발합니다.
HCF라는 개념은 이미 1990년대에 제안된 광섬유입니다만, 당시엔 기술적 문제로 실현되지 못했습니다. 이 케이블은 일반적인 실리카 소재 케이블 내부에 마이크로미터(㎛) 단위 빈 구멍을 낸 케이블입니다. 광섬유는 실리카 케이블 내부에 들어간 광섬유가 빛을 전달한다면, HCF는 그 자리에 공기, 혹은 진공 상태만이 존재한다는 뜻입니다.
광자는 유리보다 공기 중에서 더 빨리 이동합니다. 이에 따라 HCF의 지연 수준은 일반 광케이블보다 50% 더 낮다고 알려졌습니다. 거리에 따른 빛 신호의 상실이나 디스퍼션(Dispersion·산란한 빛이 서로 다른 파장의 빛으로 굴절하며 신호에 혼란을 주는 현상)도 훨씬 덜합니다. 즉, 초장거리 초고속 통신에 이상적입니다. 멀리 떨어진 데이터센터 사이를 이어줄 'AI 신경망'이 될 잠재력이 있다는 뜻이죠.
HCF 케이블은 대량 생산하기엔 기술적 허들이 너무 높았습니다. 그러나 30여년간 관련 연구를 진행해 오던 루메니시티는 MS 인수 이후 사상 최초로 HCF 양산 공장을 설립할 수 있었습니다. 덕분에 지금은 영국에 위치한 MS 데이터센터에서 HCF 케이블을 테스트 중입니다. 지난해 사티아 나델라 MS 대표는 연례 개발자 행사에서 처음으로 HCF를 언급하며 "이 획기적인(Breakthrough) 기술이 실제로 작동하는 것을 보니 흥분된다"고 기대감을 전하기도 했지요.
물론, 케이블은 어디까지나 분산 데이터센터 훈련을 이루는 요소 중 하나일 뿐입니다. 이 케이블만으로 모든 병목과 기술 장벽이 사라지진 않을 겁니다. HCF 케이블과 다른 '일반' 통신 장비 사이의 호환 문제를 해결해야 하며, 무엇보다도 30만장 넘는 GPU를 100% 구동하려면 첨예한 모니터링 시스템과 장애 격리 체계를 만들어야 합니다. 수십년간 검색 엔진과 유튜브 등 인터넷 트래픽 관리 서비스를 제공하며 경험을 축적한 구글이 다른 빅테크들에 대해 우위를 점한 분야이지요.
그럼에도 이 이야기는 현대 빅테크가 초거대 AI를 만들기 위해 얼마나 큰 노력과 자본을 쏟아붓고 있는지 보여줍니다. AI 모델의 크기는 갈수록 더 늘어날 거고, 컴퓨팅 파워도 그에 비례해 증가해야만 합니다. 칩 성능 향상에만 의존해선 이 경쟁에서 살아남을 수 없습니다. 모든 과학·공학적 수단을 강구해 허들을 넘어야 합니다.
가장 흔하고 저렴해 보이는 '케이블' 하나에도 현대 나노 공학과 광물리학의 정수가 서려 있습니다. 이게 바로 AI가 어려운 진짜 이유일 겁니다. 데이터 전송 병목이라는 단 한 문제를 해결하기 위해, 전 세계를 샅샅이 뒤져 최고의 기술만을 가려 공수해야 합니다.