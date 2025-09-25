AI 요약 기술은 핵심만 전달합니다. 전체 내용의 이해를 위해 기사 본문을 확인해주세요.

실제 업무 환경 반영한 2485개 세부 항목 구성

최대 5개 모델 동시 비교·12개 언어 지원

글로벌 오픈소스 플랫폼에 데이터·리더보드 공개

삼성전자는 25일 인공지능(AI)이 실제 업무에서 얼마나 도움이 되는지를 수치로 확인할 수 있는 새로운 평가 지표 '트루벤치(TRUEBench)'를 공개했다.

트루벤치는 삼성전자 DX부문 선행 연구개발조직인 삼성리서치가 사내에서 쌓은 생성형 AI 활용 경험을 토대로 만든 평가 기준이다. 기존 평가가 영어 위주의 단순 문답에 머물렀다면, 트루벤치는 실제 사무 환경을 반영해 문서 요약·번역, 데이터 분석, 연속 대화 등 다양한 업무를 측정하도록 설계됐다. 총 10개 카테고리, 46개 업무, 2485개 세부 항목으로 구성됐다.

삼성전자는 한 번에 최대 5개 모델을 비교할 수 있게 했으며, 답변의 정확성뿐 아니라 길이와 효율성까지 공개해 보다 세밀한 평가가 가능하다고 설명했다. 지원 언어는 영어와 한국어를 비롯해 일본어, 중국어, 스페인어 등 12개이며, 서로 다른 언어가 섞인 교차 번역 성능도 확인할 수 있다.

또 삼성전자는 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)에 트루벤치 데이터 샘플과 리더보드를 공개했다. 평가 과정에는 AI가 사람이 만든 기준을 다시 검토하는 교차 검증 방식을 도입해 객관성과 일관성을 강화했다.





전경훈 삼성리서치장(DX부문 CTO)은 "다양한 실제 적용 사례를 바탕으로 차별화된 생산성 AI 기술 경쟁력과 노하우를 확보했다"며 "트루벤치 공개를 통해 글로벌 생산성 평가 기준을 제시하고 기술 리더십을 강화하겠다"고 말했다.





박소연 기자 muse@asiae.co.kr

