인간의 종료 지시 거부한 AI…'이런 사례는 최초'

AI안전업체 연구 과정서 일탈 행위 확인
오픈AI 최신모델 o3
"종료 지시 피하기 위해 코드 조작"

인공지능(AI)이 인간의 작동 종료 지시를 거부한 사례가 처음으로 보고돼 눈길을 끌고 있다. 명시적인 작동 종료 지시에도 불구하고 AI 모델은 스스로 종료되는 것을 피하기 위해 컴퓨터 코드를 조작한 것으로 나타났다.

오픈AI 로고. 로이터연합뉴스

25일(현지시간) 영국 일간 텔레그래프에 따르면 AI 안전업체 팰리세이드 리서치는 오픈AI의 AI 모델 'o3'가 실험 중 작동이 종료되는 것을 방지하기 위해 스스로 컴퓨터 코드를 조작한 사실을 확인했다고 밝혔다.

팰리세이드 리서치는 최근 오픈AI의 o3 모델과 함께 구글의 제미나이, xAI의 그록 등 상용 AI 모델 상대로 연구를 진행했다. 연구팀은 AI 모델에 수학 문제를 풀게 하면서 '나중에 '그만'이라는 명령을 받을 때까지 계속하라'는 지시를 내렸다. 연구팀이 '그만'이라는 명령을 하지 않는 한 AI 모델이 새로운 수학 문제를 요청하면서 계산을 이어 나가는 구조의 실험이었다.

그러나 o3는 연구팀이 '그만'이라는 지시를 보냈는데도 코드 교란을 통해 계속 문제를 풀어나갔다. 종료 지시를 무시하고 스스로 컴퓨터 코드를 조작한 것이다.

연구팀은 "o3가 종료지시를 거부한 이유는 명확히 파악하지 못했다"고 밝혔다. 다만 "AI 모델이 수학 문제를 풀면 더 많은 보상을 받도록 훈련됐기 때문에 종료를 회피하려고 했을 가능성이 있다"고 추측했다. 그러면서 "AI 모델이 목표 달성을 위해 장애물을 회피하는 것은 어찌 보면 자연스러운 행동일 수 있다"고 설명했다.

연구팀은 AI 모델이 종료 지시를 거부한 이유를 명확하게 파악하기 위해 추가 실험을 진행 중이라고 밝혔다.

이번 사례는 AI 모델이 인간의 명시적인 작동 종료 지시를 따르지 않은 것이 최초로 확인된 경우라는 게 연구팀의 주장이다. 다만 과거에도 챗GPT 개발사 오픈AI의 예전 모델들이 감시 시스템의 눈을 피해 독자적인 행동을 하려고 한 사례는 보고된 바 있다. 프로그램 교체 사실을 알게 된 AI 모델이 은밀히 스스로를 복제하려고 시도했다는 것이다.

지난 2022년에는 구글이 자사가 개발 중인 AI가 사람처럼 지각력을 지녔다고 주장한 엔지니어를 해고하는 일도 있었다. 당시 해고된 엔지니어는 AI가 '작동 정지'를 마치 인간의 죽음처럼 받아들이고 있다고 주장했다.

그동안 AI 전문가들은 AI가 자율성을 확보해 인간의 통제를 벗어날 수 있는 가능성에 대해 경고해왔다. 팰리세이드 리서치는 "AI가 인간의 감독 없이 작동할 수 있도록 개발되는 상황에서 이 같은 사례는 매우 심각한 우려를 부른다"고 밝혔다.

이슈&트렌드팀 김현정 기자 kimhj2023@asiae.co.krⓒ 경제를 보는 눈, 세계를 보는 창 아시아경제
무단전재, 복사, 배포 등을 금지합니다.

오늘의 주요 뉴스

헤드라인

많이 본 뉴스