'연합학습(Federated Learning)'은 여러 기관이 데이터를 직접 주고받지 않고도 공동으로 인공지능(AI)을 학습시킬 수 있는 방식으로 고안됐다. 환자 진료기록이나 금융 데이터처럼 개인정보를 한곳에 모으기 어려운 문제를 해결하기 위해서다.

하지만 이 과정에서 AI가 특정 기관 데이터에만 과도하게 적응해 새로운 데이터에는 취약해지는 한계가 드러났다. 국내 연구진은 연합학습의 이러한 고질적 문제를 해결할 수 있는 방안을 찾아 안정적 성능을 확보하는 데 성공했다.

(하단 왼쪽부터) KAIST 이윤호 박사과정, 김세인 석박통합과정,김성원 박사과정,이준석 박사과정,오윤학 박사과정, (상단 왼쪽부터) 이남경 박사과정, UNC 채플 힐 대학 윤석원 박사과정,이모리 대학 칼 양 교수, KAIST 박찬영 교수. KAIST 제공

KAIST는 산업 및 시스템공학과 박찬영 교수 연구팀이 연합학습의 고질적인 성능 저하 문제를 해결, AI 모델의 일반화(Generalization) 성능을 향상하는 새로운 학습 방법을 개발했다고 15일 밝혔다.

기존에 연합학습으로 완성한 공동 AI 모델은 기관별 현장 실정에 맞춰 최적화(파인 튜닝)하는 과정에서 주로 문제가 발생했다. 방대한 양의 지식이 한데 모여 희석되면서 AI가 특정 기관의 데이터 특성에만 과도하게 적응하는 '지역 과적합(Local Overfitting)' 현상이 생긴 까닭이다.

예컨대 여러 은행이 '공동 대출 심사 AI'를 구축한 후 특정 은행이 대기업 고객 데이터를 중심으로 파인튜닝을 진행했을 때 해당 은행의 AI는 대기업 심사에 강점을 보이지만 개인, 스타트업 고객 심사에서는 성능이 떨어지는 지역 과적합 문제가 발생한다.

연구팀은 이를 해결하기 위해 '합성 데이터(Synthetic Data)' 방식을 도입했다. 기관별 데이터에서 핵심·대표적인 특징만 추출해 개인정보를 포함하지 않는 가상 데이터를 생성하고, 이를 파인튜닝 과정에 적용한 것이다.

이를 통해 각 기관의 AI는 개인정보 공유 없이 자신의 데이터에 맞춰 전문성을 강화하면서도, 공동학습으로 얻은 폭넓은 시야(일반화 성능)를 잃지 않게 된다.

연구 결과 이러한 학습 방법은 데이터 보안이 생명인 의료·금융 등 분야에서 특히 효과적인 것으로 확인됐다. 여기에 소셜미디어, 전자상거래 등 새로운 사용자와 상품이 지속해 추가되는 환경에서도 성능을 안정적으로 유지·발휘할 수 있어 활용 범위가 클 것으로 기대된다.

무엇보다 새로운 기관이 추가로 협력에 참여하거나 데이터 특성이 급격히 변하더라도 AI가 혼란스러워하지 않고 안정적으로 성능을 유지할 수 있는 것은 연구팀이 개발한 새로운 학습 방법의 강점이 된다.

박 교수는 "이번 연구는 데이터 프라이버시를 지키는 동시에 각 기관의 AI가 전문성과 범용성을 동시에 갖출 수 있는 길을 열었다는 점에서 의미를 갖는다"며 "의료 AI, 금융사기 탐지 AI처럼 데이터 협업이 필수적이지만 보안이 중요한 분야에 기여하는 바가 클 것으로 기대한다"고 말했다.

연구팀은 최근 싱가포르에서 열린 AI 분야 학술대회 '국제표현학습학회(International Conference on Learning Representations 2025'에서 연구 결과(논문)가 구두 발표(Oral Presentation) 대상으로 채택되는 성과도 거뒀다. 구두 발표는 학술대회 상위 1.8% 우수 논문에 선정됐을 때 가능하다.





