과학기술정보통신부(이하 과기정통부)는 18일 인공지능 학습용 데이터 170종(4억8,000만건)을 인공지능(AI) 허브(aihub.or.kr)를 통해 개방한다고 밝혔다. 이번에 공개되는 데이터는 국내 인공지능 기술 및 산업 발전의 촉진제가 될 것으로 기대된다./ 사진=Gettyimages, 시사위크DB, 편집=박설민 기자

시사위크=박설민 기자  과학기술정보통신부(이하 과기정통부)는 18일 한국지능정보사회진흥원(이하 지능정보원)과 함께 국내 인공지능 기술 및 산업 발전의 촉진제가 될 인공지능 학습용 데이터 170종(4억8,000만건)을 인공지능(AI) 허브(aihub.or.kr)를 통해 개방한다고 밝혔다.

18일부터 개방되는 8대 분야 170종의 인공지능 학습용 데이터는 △음성·자연어(39종) △헬스케어(32종) △자율주행(21종) △비전(15종) △국토환경(12종) △농축수산(14종) △안전(19종), 기타(18종)으로 구성됐다.

이번 데이터댐의 특징은 데이터 기획부터 구축까지 산업계, 전문가뿐만 아니라 많은 국민들이 참여한 결과물이라는 점이다. 민간의 광범위한 수요를 바탕으로 분야별 산·학·연 전문가, 주요 활용기업 등이 직접 참여했다.

데이터 구축에는 국내 주요 인공지능·데이터 전문기업과 서울대학교, 카이스트 등 48개의 주요 대학, 서울대병원, 아산병원 등 총 674개 기업·기관이 대거 참여했다. 

데이터 수집·가공 등 구축 과정에는 ‘크라우드 소싱’ 방식을 도입, 경력단절여성, 취업준비청년 등 4만명의 국민들이 참여할 수 있었다 여기서 크라우드 소싱이란  기업활동의 전 과정에 소비자 또는 대중이 참여할 수 있도록 일부를 개방하고 참여자의 기여로 기업활동 능력이 향상되면 그 수익을 참여자와 공유하는 방법이다.

또한 과기정통부는 데이터의 품질과 활용성 검증을 위해 분야별 전문가와 전문기관, 활용기업 등의 힘을 모았다. 지난해 9월부터 8대 분야별 산·학·연 전문가 80여명이 참여하는 ‘품질자문위’를 운영해 전문적 품질관리 지원체계를 구축했다. 

△삼성전자 △LG △KT △네이버 △현대자동차 등과 같은 주요 대기업들과 대학 및 연구기관 등 20여개 기업·기관이 참여해 데이터 개방 전, 활용성 검토를 진행(5~6월)하여 실제 수요자가 요구하는 데이터 품질을 확보했다.

과기정통부와 지능정보원은 “데이터 개방 후에도 이용자 참여형 집중개선기간 운영(~9월) 등을 통해 이용자의 요구사항을 적극 반영하는 등 민·관 협력을 기반으로 데이터를 지속적으로 개선해나갈 계획”이라고 밝혔다.

이번에 인공지능(AI) 허브에 개방되는 인공지능 학습용 데이터로 기대되는 효과는 ‘데이터 갈증’ 해소 효과다. 비용과 인력 확보 등의 문제로 데이터를 직접 구축하기 어려운 중소기업이나 스타트업뿐 아니라, 대기업도 자체 확보하기 어려운 대규모 데이터를 제공할 수 있기 때문이다.

과기정통부 관계자는 “그간 국내 인공지능 기업들은 인공지능 개발에 필요한 데이터 확보를 위해 해외 오픈데이터를 많이 활용해왔다”며 “그러나 한국어, 국내 도로환경 등 국내 실정을 반영하지 못한 오픈데이터는 국내 AI 서비스 개발에 활용되기 어려운 문제가 있었다”고 설명했다.

이어 “이번에 공개되는 데이터댐에는 지역별 방언을 포함한 한국어, 국내 주요 도로와 국내 환자 의료영상 데이터 등 ‘한국형 인공지능 학습용 데이터’가 대폭 확충됐다”며 “국민이 체감할 수 있는 인공지능(AI) 서비스 개발이 가속화될 수 있을 것”이라고 기대했다.

과기정통부 임혜숙 장관은 “댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이, 이번에 공개되는 데이터들이 산업 곳곳에서 널리활용되어 혁신의 열매를 맺을 수 있기를 기대한다”며 “정부도 고품질의 인공지능 학습용 데이터를 지속적으로 제공하고, 누구나 데이터를 쉽게 활용하고 성과를 공유할 수 있는 환경을 조성하는 데 지원을 아끼지 않겠다”라고 전했다.

한편 과기정통부와 지능정보원(NIA)은 2020년에 구축한 8대 분야 170종의 데이터를 6월 18일 60종을 시작으로 6월말까지 순차적으로 개방할 예정이다. 특히, 헬스케어 데이터(27종) 등 개인정보 및 민감정보가 포함될 우려가 있는 59종의 데이터는 최종검증을 거쳐 6월 30일에 개방할 계획이다. 

이번 개방은 데이터 제공과 더불어, 이용자와 함께 더 나은 데이터 제공을 위한 개선점을 찾기 위해 9월말까지 3개월간의 참여형 데이터 집중 개선기간을 운영한다.
 

저작권자 © 시사위크 무단전재 및 재배포 금지
이 기사를 공유합니다