구글 딥마인드, 19일 알파미센스 개발 발표
알파폴드 뼈대로 기계학습-생성형 AI 특성 도입
인체 내 질병 관련 DNA 변이 89% 확인
인공지능(AI)을 통해 질병을 일으키는 유전자 변이를 콕콕 짚어내 치료할 수 있는 시대가 열리고 있다. 지난해 알파폴드(AlphaFold)를 통해 약 2억개의 단백질 구조를 파악해 공개했던 구글 딥마인드가 이번엔 인간의 유전자 변이 중 질병 유발 관련성을 높은 확률로 확인할 수 있는 AI를 개발했다.
구글 딥마인드는 19일(현지 시각) 국제학술지 사이언스(Science)에 이같은 기능의 혁신적 AI 네트워크 알파미센스(AlphaMissense)를 개발했다는 내용의 논문을 실었다.
인간이 겪는 질병 중 상당수는 유전적 요인에 의해 초래되는 경우가 많다. DNA는 아데닌(Adenine) 시토신(C), 구아닌(G) 및 티민(T) 등 네 가지 염기들이 일정한 순서대로 꼬여 있으면서 특정한 역할을 한다. 그런데 한 두 개가 빠지거나 순서가 뒤바뀌면, 즉 돌연변이가 생기면 질병의 원인이 될 수 있다. 백인에게서 흔한 유전병인 낭포성 섬유증이나 흑인에게서 자주 발생하는 겸상 적혈구 빈혈증 같은 것이 대표적이다. 이같은 유전적 질병을 일으키는 변이는 약 7000만개 이상일 것으로 예상되는데, 아직까지 과학자들은 이중 수백만개 정도만 알아냈을 뿐이다. 이에 따라 전 세계적으로 특정 유전자 변이가 질병을 일으키는지 여부를 예측하기 위한 다양한 계산 도구들이 존재한다.
구글 딥마인드의 알파미센스는 이같은 기존 도구들의 방법론에 기계 학습법을 추가해 뛰어난 능력을 가졌다. 기존에 인간의 전체 유전자 변이 중 약 0.1%만 질병 유발 여부를 파악했었는지만, 알파미센스는 이 비율을 89%까지 획기적으로 높였다는 게 연구팀의 설명이다. 국제학술지 네이처(Nature)는 "알파미센스는 질병을 일으키는 유전자 변이와 그렇지 않은 것을 구분하는 데 다른 도구들보다 뛰어난 능력을 가진 것으로 보인다"면서 "한 번에 수천개의 유전자 변이를 측정해 문제가 되는 곳을 찾아내는 실험에서 매우 잘 작동했다"고 전했다. 실제 구글 딥마인드 연구팀은 알파미센스를 이용해 인간의 유전체에서 발생 가능한 과오 돌연변이(missense mutation)를 모두 상정해 계산해 보니 약 57%는 질병과 관련이 없고 약 32%가 질병을 일으킬 수 있다는 사실을 확인했다.
푸시미트 콜리 구글 딥마인드 연구 부회장은 "알파미센스는 알파폴드의 단백질 구조 예측 능력을 활용해 유전자 단백질 내부에 질병의 원인이 되는 변이가 발생할 곳을 구분해 낼 수 있었다"고 설명했다.
구글 딥마인드는 알파미센스 개발에 알파폴드 네트워크 외에도 챗GPTㆍ거대언어모델(LLM) 등과 같은 생성형 AI의 특성도 활용했다. 챗GPT가 인간이 사용하는 수많은 문장을 학습해 특정 단어 다음에 나올 단어를 예측해 내듯, 수백만개의 단백질 서열에 대한 학습을 통해 질병이 발생할 가능성이 높은 변이를 찾아내도록 훈련됐다는 것이다. 이른바 단백질 언어 모델(protein language model)로, 단백질 구조를 예측하거나 새로운 단백질을 설계하는데 뛰어난 능력을 발휘하는 것으로 입증됐다. 지가 아브섹 구글 딥마인드 연구원은 네이처에 "알파미센스는 어떤 단백질 서열이 타당하고 어떤 것은 그렇지 않은지 학습했기 때문에 다양한 예측에 능숙하다"고 말했다.
김봉수 기자 bskim@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>