백종민기자
광주과학기술원(GIST) 슈퍼컴퓨팅센터는 전라남도 지역은 물론 국내 인공지능(AI) 연구자들에게는 성지와 같은 곳이다. 도로를 건너 마주 보고 있는 국가AI데이터센터가 들어서기 전까지만 해도 국내 학계에서 엔비디아의 그래픽가속기(GPU)에 기반한 슈퍼컴퓨터를 사용해 AI 연구를 하려면 이곳을 방문해야 했다. 국가 슈퍼컴퓨터 5호기 ‘누리온’이 국내 공공 분야 최고의 슈퍼컴퓨터로 자리 잡고 있지만 AI 시대에 필요한 GPU 기반 슈퍼컴이 아니다 보니 GIST는 국내 AI 연구진에게는 ‘가뭄 속의 단비’와 같은 존재였다.
지난 22일 김종원 GIST AI 대학원장 겸 슈퍼컴퓨팅센터장의 안내로 대학원 건물 1층에 위치한 슈퍼컴퓨터 데이터센터를 방문했다. 출입문 앞에는 센터가 보유한 컴퓨터의 성능을 과시하는 홍보물이 놓여 있었다. ‘드림 AI’. 한글로 말하면 꿈꾸는 아이다. "2022년 11월 기준 톱500 순위 178위". 톱500 순위는 독일 슈퍼컴퓨팅 콘퍼런스에서 전 세계 슈퍼컴퓨터의 순위를 정해 1년에 두 번 작성한다. 드림 AI의 올해 순위는 275위다. 첫 등장 시 국내 순위는 6위였고 이후 2년의 세월이 흘렀지만, 여전히 국내 학계가 보유한 컴퓨터 중에서는 가장 순위가 높다.
슈퍼컴퓨터는 과학 분야 연구에 필수적이다. 드림 AI의 순위가 낮아 보이지만 GPU를 갖고 있어 AI 연산 지원에 강점이 있다. 드림 AI는 총 320장의 엔비디아 A100 GPU를 품고 있다. 이 때문에 GPU가 필요한 연산을 해야 하는 연구자들이 여전히 이곳을 찾는다. 한 연구계 관계자는 "드림 AI를 빌려 쓰고 싶어도 대기를 오래 해야 한다"고 아쉬워했다. AI 시대에 GPU를 통한 학습이나 추론, 가속 기능이 필요하다는 점을 고려하면 드림 AI는 활용성이 높다. 이미 네이버, 카카오, 삼성전자, KT 등 기업들이 확보한 슈퍼컴퓨터는 모두 GPU를 포함한다. 학계, 공공연구기관, 기업들도 드림 AI를 통해 연구를 진행하기 위해 줄을 선다. 드림 AI가 공용 슈퍼컴인 이유다.
드림 AI는 별도의 공간에 복도를 마주 보고 컴퓨터와 스토리지가 서 있는 형태로 배치돼 있었다. 컴퓨터실에 서니 바닥에서부터 찬 바람이 불어 올라와 얼굴을 때린다. 이 바람이 컴퓨터들이 뿜어내는 열기를 식히고 배관을 따라 외부로 순환하며 관리된다. 김 원장은 온도와 전력 관리에 특별하게 신경을 쓴다고 했다. 전력 문제로 찰나의 정전이 일어나는 경우도 종종 발생한다. 이때는 무정전전원장치(UPS)가 작동한다.
김 원장은 "안전하게 컴퓨터들을 관리할 수 있게 모니터링 시스템도 갖추고 있다"고 설명했다. 컴퓨터를 식히는 쿨러 소리가 시끄러워 김 원장의 말소리도 잘 들리지 않는다. 스마트워치로 소음을 측정하니 82~85㏈이 측정됐다. 이 정도면 철로변 지하철 소음에 맞먹을 정도다. 이런 곳에서 오랜 시간 작업을 하면 난청의 위험이 있다. 센터에는 드림 AI 외에도 기업이 맡긴 서버나 컴퓨터도 있었다.
이 센터에는 엔비디아가 직접 제작한 ‘DGXA100’ ‘DGX-1V’ 컴퓨터도 설치돼 있다. 역시 A100 GPU가 8개씩 들어간 DG 컴퓨터를 보유한 것도 이 센터의 자랑거리다. 김 원장은 "엔비디아가 직접 제작한 시스템을 보유한 곳이 많지 않다"고 했다. 김 원장은 2019년 엔비디아와 GIST의 협력 업무협약(MOU)도 체결한 바 있다. 그 결과 GIST는 엔비디아와의 협력을 교육까지 이어가고 있다. 기자가 슈퍼컴퓨팅센터를 탐방한 다음 날인 23일에는 엔비디아의 전문가가 GIST에서 드림 AI의 GPU를 활용한 딥 러닝 모델 최신 기술과 방법론을 GIST 학생은 물론 외부 참가자들에게 전수했다.
◇"삽이나 곡갱이질로는 안돼…포클레인급 지원 필요"= 김 원장은 AI 개발을 위해 연신 ‘포클레인’론을 강조했다. 공용 슈퍼컴퓨터인 드림 AI와 같은 장비가 확산해야 국내 AI 기반이 공고해질 수 있다는 논리다. 그가 일찌감치 GPU 기반의 슈퍼컴퓨터센터 설치에 집착한 이유다.
김 원장은 "국내 AI 연구개발과 서비스가 대부분 소규모의 컴퓨팅 인프라를 통해 이뤄지고 있다. 세계 각국이 초거대 슈퍼컴퓨터를 경쟁적으로 도입하며 AI 연구를 강화하는 추세와 맞지 않는다"고 우려했다. 연구실마다 작은 규모의 컴퓨터를 설치하고 관리하며 연구를 하는 것보다는 고성능의 컴퓨터를 확보해 이를 공용으로 함께 사용해야 추격을 할 수 있다는 설명이다. 자가용을 선호하다가는 버스 수준의 수송 능력을 따라잡을 수 없다는 의미이다. 김 원장은 "메타가 오픈소스로 공개한 라마 3.1도 파라미터가 4050억개에 이르는 상황에서 파인튜닝을 하려면 소규모 장비로는 어림도 없다"고 했다.
김 원장의 주장은 틀리지 않았다. 드림 AI가 가동을 시작한 지 얼마 지나지 않아 챗GPT가 공개되며 생성형 AI 혁명이 시작됐다. 이후 GPU는 돈이 있어도 살 수 없는 상황이 됐다. 해외 빅테크(대형 정보기술 기업)들도 엔비디아의 GPU를 제때 공급받지 못할 것을 우려할 정도다. 김 원장이 선도적으로 GPU 기반 슈퍼컴을 확보한 덕에 GIST는 과기정통부의 10대 전문 슈퍼컴퓨터센터 중 ‘자율주행 초고성능컴퓨팅 전문센터’ 역할을 담당하고 있다. 최근 자율주행 기술이 센서가 아닌 비전 정보를 통한 AI 학습으로 옮겨가고 있는 상황과도 맞물린다. 김 원장은 반도체 생산국가인 한국이 AI 연산 칩을 개발하는 것도 중요하지만 AI를 활용할 수 있도록 하는 연구를 하는 것 역시 중요하다고 했다. 그러기 위해서는 AI 슈퍼컴퓨터센터의 역할이 중요하다고 강조했다.
김 원장에게도 걱정은 있다. 슈퍼컴퓨팅센터의 남은 공간을 채우는 2차 확장을 해야 하지만 계획이 지연될 것 같다고 했다. 전력은 항상 고민이다. 지금도 월 약 5000만원 정도의 비용이 발생하지만 앞으로 더 큰 비용이 필요할 것이 분명하다. 김 원장은 "지원 없이 센터를 운영하고 있다"면서 AI 슈퍼컴퓨터 선발대의 역할을 지속할 수 있다는 자신감을 피력했다.
임기철 GIST 총장도 "전남지역 대학에 슈퍼컴퓨터센터의 자원을 저렴하게 사용할 수 있도록 지원하겠다고 약속했다"면서 "GIST가 국내 AI 연구를 지원하는 데 적극 앞장서겠다"고 말했다.