KAIST “엔비디아 독주 ‘대항마’, 고용량·고성능 GPU 개발”

대전=정일웅기자

입력2024.07.08 08:28

수정2024.07.08 14:19

시계아이콘02분 05초 소요

언어변환 숏뉴스

숏 뉴스 AI 요약 기술은 핵심만 전달합니다. 전체 내용의 이해를 위해 기사 본문을 확인해주세요.

불러오는 중...

뉴스듣기

엔비디아(NVIDIA)에 필적할 고용량·고성능 인공지능(AI) 가속기가 국내에서 개발됐다. 엔비디아는 현재 AI 가속기 시장을 독점하다시피 하는 상황이다. 국내 연구진은 차세대 인터페이스 기술이 활성화된 고용량·고성능 AI 가속기로 엔비디아의 독주체제에 도전장을 내밀었다.

(윗줄 왼쪽부터 시계방향으로) 전기및전자공학부 김동평 석사과정·유어진 석사과정·이상원 박사·국동현 박사과정·정명수 교수·강승관 박사과정·장준혁 박사과정·배한여름 박사과정. KAIST 제공

카이스트는 전기및전자공학부 정명수 교수 연구팀(컴퓨터 아키텍처 및 메모리 시스템 연구실)이 차세대 인터페이스 기술인 CXL(Compute Express Link)을 활성화해 고용량 그래픽처리장치(GPU)의 메모리 읽기·쓰기 성능을 최적화하는 기술을 개발했다고 8일 밝혔다.

최신 GPU의 내부 메모리 용량은 수십 기가바이트(GB)에 불과해 단일 GPU만으로는 모델을 추론·학습하는 것이 불가능하다. 같은 이유로 업계는 대규모 AI 모델이 요구하는 메모리 용량을 제공하기 위해 GPU 여러 대를 연결하는 방식을 채택하지만, 이 방법은 고가로 거래되는 GPU 시장 특성상 총소유비용(TCO·Total Cost of Ownership)을 과도하게 높이는 문제를 야기한다.

산업계가 차세대 연결 기술인 ‘CXL’로 대용량 메모리를 GPU 장치에 직접 연결하는 ‘CXL-GPU’ 구조 기술을 활발하게 검토하는 이유도 다름 아니다.

CXL-GPU는 CXL로 연결된 메모리 확장 장치의 메모리 공간을 GPU 메모리 공간에 통합해 고용량을 지원한다. 통합된 메모리 공간 관리에 필요한 동작은 CXL 컨트롤러가 자동으로 처리해 GPU는 기존 로컬 메모리에 접근하던 방식과 동일한 방식으로 확장된 메모리 공간에 접근할 수 있다. 기존 메모리 용량을 늘리기 위해 고가의 GPU를 추가 구매하던 방식과 다르게 CXL-GPU는 GPU에 메모리 자원만 선택적으로 추가하면 돼 시스템 구축 비용을 획기적으로 절감할 수 있는 강점이 있다.

하지만 CXL-GPU의 고용량 특징만으로는 실제 AI 서비스에 활용되기 어렵다. 대규모 AI 서비스는 빠른 추론·학습 성능을 요구하기 때문에, GPU에 직접적으로 연결된 메모리 확장 장치로 메모리 읽기·성능이 기존 GPU의 로컬 메모리에 준하는 성능을 보장할 수 있을 때 실제 AI 서비스에 활용할 수 있다.

연구팀이 개발한 기술은 CXL-GPU 장치의 메모리 읽기·쓰기 성능이 저하되는 원인을 분석해 이를 개선했다는 점에서 의미를 갖는다. 메모리 확장 장치가 메모리 쓰기 타이밍을 스스로 결정할 수 있는 기술을 개발해 GPU 장치가 메모리 확장 장치에 메모리 쓰기를 요청하면, 동시에 GPU 로컬 메모리에도 쓰기를 수행하도록 설계한 방식이다.

메모리 확장 장치가 내부 작업을 수행하는 상태에 따라 작업을 하도록 함으로써 GPU는 메모리 쓰기 작업의 완료 여부가 확인될 때까지 기다릴 필요가 없게 돼 쓰기 성능이 떨어지는 문제도 해결할 수 있게 됐다.

연구진은 메모리 확장 장치가 사전에 메모리 읽기를 수행할 수 있도록 GPU 장치에서 미리 힌트를 주는 기술도 개발했다. 이 기술을 활용하면 메모리 확장 장치가 메모리 읽기를 더 빨리 시작하게 돼 GPU 장치가 실제 데이터를 필요로 할 때는 캐시(작지만 빠른 임시 데이터 저장 공간)에서 데이터를 읽어 보다 빠른 메모리 읽기 성능을 달성할 수 있게 된다.

이번 연구는 반도체 팹리스 스타트업인 파네시아(Panmnesia)의 초고속 CXL 컨트롤러와 CXL-GPU 프로토타입을 활용해 진행됐다.

CXL-GPU 이미지 사진. KAIST 제공

파네시아는 업계 최초로 CXL 메모리 관리 동작에 소요되는 왕복 지연시간을, 두 자리 나노초(nanosecond) 이하로 줄인 자체 CXL 컨트롤러를 보유하고 있다. 이는 순수 국내 기술로 개발돼 세계 각국이 내놓은 최신 CXL 컨트롤러보다 3배 이상 빠른 속도를 낼 수 있다.

파네시아는 고속 CXL 컨트롤러를 활용해 여러 개 메모리 확장 장치를 GPU에 바로 연결함으로써 단일 GPU가 테라바이트 수준의 대규모 메모리 공간을 형성할 수 있도록 했다.

연구팀은 파네시아의 CXL-GPU 프로토타입을 활용한 기술 실효성 검증에서 기존 GPU 메모리 확장 기술보다 2.36배 빠르게 AI 서비스를 실행할 수 있음을 확인했다.

연구팀의 연구성과는 이달 샌타클래라 USENIX 연합 학회와 핫스토리지의 연구 발표장에서 공개될 예정이다.

정명수 교수는 “대규모 언어모델은 학습을 위해 수에서 수십 테라바이트의 메모리를 요구하며, AI 서비스 제공 최전선에 있는 빅테크 기업은 이러한 요구에 부응하기 위해 경쟁적으로 모델 및 데이터 크기를 증가시키는 추세”라며 “연구팀은 현재 AI 가속기 시장을 독점하는 엔비디아에 맞설 차세대 인터페이스 기술을 활성화한 고용량·고성능 AI 가속기를 개발했다는 점에 의미를 부여한다”고 말했다.