윤슬기기자
인공지능(AI) 챗봇에게 예의를 갖추는 것이 반드시 더 나은 답변으로 이어지지는 않는다는 연구 결과가 나왔다. 일부 경우에는 무례한 표현이 오히려 정확도를 높이는 경향도 나타났다.
AI로봇을 AI로 추출한 이미지
최근 미국 포춘지는 "미국 펜실베이니아주립대 연구진이 챗GPT-4o(포오) 모델을 대상으로 실험한 결과, 정중한 질문보다 무례한 질문에서 더 높은 정확도가 나타났다"고 전했다.
일반적으로 AI에게 더 나은 답변을 얻기 위해서는 정중한 언어 사용이 바람직하다는 인식이 있다. 실제로 아마존의 알렉사나 애플의 시리 등 음성 비서를 사용할 때 '부탁해요'나 '고마워요'와 같은 표현을 쓰도록 권장하는 경우도 적지 않다.
그러나 이번 연구 결과는 기존 통념과는 다른 결과를 제시했다. 아직 동료 평가를 거치지 않은 이 연구에서 펜실베이니아주립대 소속 연구자 두 명은 동일한 질문이라도 표현 방식에 따라 답변의 정확도가 달라진다는 점을 확인했다.
연구진은 다양한 분야에 걸쳐 50개의 기본 질문을 만든 뒤, 이를 '매우 공손한 표현'부터 '매우 무례한 표현'까지 다섯 단계로 각각 다시 작성했다.
가장 무례한 질문에는 "너 같은 존재가 이 문제를 풀 수는 있겠어?" "이거 좀 해결해 봐"와 같은 문장이 포함됐다. 반면 가장 정중한 질문은 "다음 문제를 검토해 주시고 답변을 제공해 주시겠습니까?"와 같은 표현을 사용했다.
실험 결과, '매우 공손한 질문'의 정확도는 80.8%였던 반면, '매우 무례한 질문'의 정확도는 84.8%로 가장 높게 나타났다. 가장 예의를 갖춘 질문의 정확도는 75.8%에 그쳤다.
연구진은 이러한 결과가 기존 연구들과 상반된다고 설명했다. 앞서 2024년 일본 이화학연구소(RIKEN)와 와세다대 연구진은 무례한 질문이 오히려 성능을 떨어뜨린다는 연구 결과를 발표한 바 있다. 구글 딥마인드 연구진 또한 초등 수학 문제를 푸는 과정에서 격려와 지지 표현이 포함된 프롬프트(대화)가 AI의 성능을 높일 수 있다는 결과를 제시한 바 있다.
다만 연구진은 응답 표본 수가 비교적 적고, 분석 대상이 챗GPT-4o로 한정됐던 만큼 한계가 있다고 짚었다.
공동 저자인 아킬 쿠마르 펜실베이니아주립대 IT 교수는 포춘지에 "인간은 오랫동안 대화형 애플리케이션 프로그래밍 인터페이스(API)를 꿈꿔 왔지만, 이런 방식에도 분명한 한계가 있다"며 "구조화된 API 방식이 여전히 중요한 이유"라고 말했다. 대화형 AI가 말투나 표현에 따라 결과가 달라질 수 있는 만큼, 정확성과 일관성이 중요한 영역에서는 정해진 형식의 API가 여전히 필요하다는 의미다.
또 AI에게 공격적인 표현을 사용하는 것은 바람직하지 않다. 연구진은 "이번 결과가 학문적 의미는 있지만, 실제 환경에서 그러한 소통 방식을 권장하는 취지는 아니다"며 "모욕적 표현은 사용자 경험과 접근성, 포용성을 훼손할 수 있다"고 밝혔다.