대전=정일웅기자
KAIST가 바이오 경로 정보를 자동 추출할 인공지능 프레임워크를 개발했다. 유전자·단백질·대사물질 등 정보를 표현하는 바이오 경로 이미지는 중요한 연구 결과를 내포하지만, 그간 이미지 기반 정보를 추출하는 것에 관한 연구는 충분히 이뤄지지 않았던 실정이다. 이번 연구에 의미를 부여할 수 있는 대목이다.
KAIST는 생명화학공학과 김현욱 교수 연구팀이 바이오 경로 이미지에서 유전자와 대사물질 정보를 자동으로 추출하는 기계학습 기반의 ‘바이오 경로 정보 추출 프레임워크(Extraction of Biological Pathway Information·이하 EBPI)’를 개발했다고 28일 밝혔다.
EBPI는 문헌에서 추출한 이미지 속 화살표와 텍스트를 인식하고, 이를 기반으로 바이오 경로를 편집 가능한 표의 형태로 재구성한다. 객체 감지 모델 등 기계학습으로 경로 이미지 안에서 화살표의 위치와 방향을 감지한 후 이미지 속 텍스트를 유전자·단백질·대사물질로 분류하는 것이다. 또 추출된 정보를 통합해 경로 정보를 표 형식으로 제공하는 것이 EBPI의 주된 기능이다.
연구팀은 7만4853편의 논문에서 추출한 바이오 경로 이미지와 기존 수작업으로 작성한 경로 지도를 비교해 EBPI의 성능도 검증했다. 이 결과 높은 정확도로 바이오 경로 정보가 자동으로 추출됐음을 확인했다.
특히 EBPI로 대표적인 바이오 경로 데이터베이스에 포함되지 않은 생화학 반응 정보를 대량의 문헌 내 바이오 경로 이미지로부터 추출하는 데도 성공했다. 산업적 가치를 가진 대사물질의 생합성 관련 문헌을 EBPI로 분석한 결과, 문헌에서는 보고가 됐지만 기존 데이터베이스에서는 누락된 생화학 반응이 확인된 것이다.
연구를 총괄한 김현욱 교수는 “EBPI는 대규모 문헌 데이터 분석과정에서 중요한 도구가 될 것”이라며 “이는 생명공학, 대사공학 및 합성생물학 분야에서 바이오 경로 이미지를 인공지능으로 분석한 최초의 사례로 관련 연구의 실험 디자인 및 분석 시 유용하게 활용될 수 있을 것으로 기대한다”고 말했다.
한편 연구팀은 과학기술정보통신부 한국연구재단 및 농촌진흥청의 농업미생물사업단의 지원을 받아 연구를 수행했다.
KAIST 생명화학공학과 권문수 박사과정생과 이준규 박사과정생이 공동 제1 저자로 참여한 이번 연구는 대사공학 및 합성생물학 분야 대표 국제학술지 ‘대사공학(Metabolic Engineering)’ 11월호에 게재됐다.