[K바이오 빅데이터 대상] 국내 포털 기사 수집 단어별 중요도 측정

[아시아경제 서소정 기자] 전 세계가 신종 코로나바이러스감염증(코로나19) 사태로 전대미문의 위기를 겪고 있는 가운데 대한민국은 위기상황을 잘 극복하면서 'K바이오의 위상'을 드높이고 있다. 이에 아시아경제는 'K바이오 빅데이터 브랜드 대상'을 신설해 대한민국 제약 바이오 산업의 글로벌 경쟁력을 견인하고자 한다.

특히 이번 대상은 각 언론사 뉴스를 토대로 '빅데이터 분석'을 실시해 바이오 브랜드에 대한 시장의 다양한 평가를 도출했다는 점에서 의미가 크다. 이를 위해 아시아경제는 숙명여대 웹발전연구소(문형남 교수), 빅데이터 분석 전문기업인 비플라이소프트와 함께 빅데이터를 분석하고 수상기업을 선정했다.

어떻게 분석했나

K바이오 빅데이터 브랜드 수상 기업은 텍스트 마이닝 기법을 활용해 선정됐다. 올해 1월 1일부터 10월 30일까지 네이버 등 국내 주요 인터넷 포털사이트에서 바이오ㆍ제약 기업에 대한 기사 등을 수집한 뒤 TF-IDF 값을 기준으로 단어별 중요도를 측정해 주요 키워드를 선정했다.

TF(Total Frequency)는 특정 단어가 전체 문서에서 얼마나 자주 등장하는지를 나타내며, IDF(Inverse Document Frequency)는 특정 단어가 등장한 문서의 역수 값이다. TF-IDF는 TF값과 IDF를 곱해 산출하며, 이 값이 높을수록 특정 문서에서 자주 등장한 주요 단어라는 뜻이다. 선정된 각 주요 단어들 사이의 연관성을 동시 등장 빈도를 기준으로 관계를 정의한 뒤 키워드 네트워크 분석을 통해 주요 단어들 사이의 전체적인 의미 구조를 파악한 결과를 통해 최종적으로 수상 기업을 선정했다.

보건복지부 장관상에 삼성바이오로직스, 식품의약품안전처장상에 셀트리온, 아시아경제대표상에 SK바이오사이언스와 GC녹십자가 선정돼 수상의 영예를 안았다. 이들 바이오ㆍ제약 기업은 공통적으로 해외 수출이 활발했고, 신종 코로나바이러스감염증(코로나19) 치료제와 밀접한 연관성을 보이면서 주목 받은 기업들이다. 또 코로나19 상황 속에서도 올해 해외 수주를 늘리고 호실적을 기록하면서 K바이오의 위상을 높였다는 평가를 받았다.

서소정 기자 ssj@asiae.co.kr<ⓒ경제를 보는 눈, 세계를 보는 창 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

4차산업부 서소정 기자 ssj@asiae.co.krⓒ 경제를 보는 눈, 세계를 보는 창 아시아경제
무단전재, 복사, 배포 등을 금지합니다.

오늘의 주요 뉴스

헤드라인

많이 본 뉴스