본문 바로가기
bar_progress

글자크기 설정

닫기

[AI혁명](98)"학습데이터 품질이 AI 성능 좌우"…최적 솔루션 찾는 셀렉트스타

시계아이콘읽는 시간1분 5초
뉴스듣기 글자크기

학습데이터 기획에서 구축·관리까지
누적 작업 데이터 1억7000만건 기록
"AI 기업 차이 만드는 것은 결국 데이터"

[AI혁명](98)"학습데이터 품질이 AI 성능 좌우"…최적 솔루션 찾는 셀렉트스타 김세엽 셀렉트스타 공동대표가 인공지능(AI) 학습 데이터에 대해 설명하고 있다. 사진=허영한 기자 younghan@
AD

"인간과 마찬가지로 인공지능(AI)도 '누구에게 무엇을 배웠느냐'가 굉장히 중요합니다."


스스로 학습하고 인간과 유사한 사고를 하자 생성형 AI를 산업 현장에 도입하려는 움직임이 활발하다. 하지만 모든 AI가 최상의 성능을 뽐내진 못한다. 데이터와 상호작용하고 이를 바탕으로 발전하도록 설계된 생성형 AI의 경우 학습 데이터의 양과 품질이 곧 성능을 결정한다.


셀렉트스타는 AI 학습 데이터 기획에서 시작해 선별, 구축, 분석, 관리 서비스까지 제공하는 플랫폼 기업이다. 생성형 AI 중 큰 관심을 받는 거대언어모델(LLM)은 방대한 양의 정보를 학습할 때 적절한 답을 할 수 있는 확률이 높아지게 된다. 특정 문장의 빈칸에 들어갈 말을 AI가 추론하도록 할 경우 수많은 자료를 반복, 최적의 답이 나올 때까지 배우게 된다. 확률적으로 어떤 단어가 빈칸에 적절할 것인지 AI가 학습을 하는 것인데 많은 양의 데이터를 습득할수록 적절한 단어를 추론할 확률이 높아진다. 셀렉트스타는 얼마나 많은 양의 자료를 학습시키고 어떻게 구성했을 때 최적의 성능을 낼 수 있는지 분석하고 각 기업에 필요한 데이터를 제작해 제공한다. 양뿐만 아니라 질적인 측면도 중요한 만큼 '최적'의 솔루션을 찾는 것이다.


김세엽 셀렉트스타 공동대표는 "AI를 학습시키기 위한 자료를 만드는 게 중요한데 각 산업에 특화된 데이터를 구축해야 한다"며 "특정 분야에 경력이 있는 데이터 작업자들이 수집한 자료를 가공해서 AI가 배울 수 있도록 돕고 있다"고 설명했다. 이어 "각각의 케이스에 따라 제한된 리소스에서 '무엇이 가장 최적일까'를 찾아주는 것이 우리의 역할"이라며 "AI 데이터는 학습과 이를 평가하는 것에도 활용되는데 평가 데이터를 설계·제작하는 비즈니스도 진행하고 있다"고 덧붙였다.


[AI혁명](98)"학습데이터 품질이 AI 성능 좌우"…최적 솔루션 찾는 셀렉트스타 AI 학습데이터 서비스 도식도 [이미지 출처=셀렉트스타]

셀렉트스타는 LLM 관련 데이터 학습에 강점을 보인다. 경험과 사례가 압도적이다. 또 전문성도 갖추고 있다. 2018년 11월 설립된 이후 누적 작업 데이터는 1억7000만건을 기록했고 고객사도 삼성전자, SK텔레콤, LG CNS 등 230곳에 달한다.


AI 학습 과정에서 발생할 수 있는 저작권 문제에 대한 해결책도 제공한다. 김 대표는 "인터넷상 정보를 그냥 가져오는 크롤링으로 인해 저작권과 관련된 소송이 제기되고 있다"며 "라이선스를 가진 곳에서 데이터 판매권을 얻어 기업에 공급하는 역할도 하고 있다"고 말했다. 이 외에도 AI 영상통화 서비스 등을 통해 기업이 아닌 일반 대중으로 서비스 확장을 시도하고 있다.



셀렉트스타는 내년 말을 목표로 기업공개(IPO)도 추진 중이다. 김 대표는 "AI 모델은 빅테크(대형 정보기술기업)가 제공하고 있는데 그 모델을 차용하는 기업과 스타트업 입장에서 차이를 만들어낼 수 있는 것은 결국 데이터"라면서 "AI를 개발하려는 이들이 항상 찾는 회사가 되도록 고민하겠다"고 했다.




이정윤 기자 leejuyoo@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

AD
AD

당신이 궁금할 이슈 콘텐츠

AD

맞춤콘텐츠

AD

실시간 핫이슈

AD

위로가기