KAIST, 재레이블링용 ‘핵심 집합 선별법’ 개발

이재길 KAIST 전산학부 교수팀은 AI 심층신경망(DNN, 딥러닝) 훈련 비용을 최소화할 수 있는 데이터 선택 기술을 개발했다고 2일 밝혔다. 사진은 이번 연구를 진행한 KAIST 연구진. 왼쪽부터  최설아 연구원, 박동민 연구원, 이재길 교수, 김도영 연구원./ KAIST
이재길 KAIST 전산학부 교수팀은 AI 심층신경망(DNN, 딥러닝) 훈련 비용을 최소화할 수 있는 데이터 선택 기술을 개발했다고 2일 밝혔다. 사진은 이번 연구를 진행한 KAIST 연구진. 왼쪽부터  최설아 연구원, 박동민 연구원, 이재길 교수, 김도영 연구원./ KAIST

시사위크=박설민 기자  최근 전 산업 분야에서 인공지능(AI)기술의 활용도가 급격히 증가하고 있다. 하지만 중견기업과 스타트업들에겐 그림의 떡일 뿐이다. AI모델 개발에 필요한 비용이 상당하기 때문이다. 실제로 AI서비스의 핵심인 거대 언어 모델(LLM)을 훈련하기 위해서는 수백 대의 그래픽처리장치(GPU)와 몇 주 이상의 시간이 필요하다. 오픈AI의 초거대 AI ‘GPT-4’의 경우, 하루 구동 비용이 9억원에 달한다.

이 같은 부담스러운 AI학습비용의 획기적 절감이 가능한 기술을 국내 연구진이 개발하는데 성공했다. 이재길 KAIST 전산학부 교수팀은 AI 심층신경망(DNN, 딥러닝) 훈련 비용을 최소화할 수 있는 데이터 선택 기술을 개발했다고 2일 밝혔다.

일반적으로 대용량 AI학습에는 리레이블링(Re-labeling) 학습법을 사용된다. 이는 훈련 도중 레이블 오류를 스스로 수정하면서 높은 딥러닝 성능을 달성하는 방법이다. 이때 레이블 오류를 수정하기 위한 추가적인 과정들로 인해 훈련에 필요한 시간이 더욱 증가한다는 단점이 있다. 

해당 문제를 해결하고자 이재길 교수팀은 재레이블링 학습법을 위한 ‘핵심 집합 선별(coreset selection)’ 기술을 새롭게 고안했다. 핵심 집합 선별은 훈련 데이터 크기를 줄이는데 효과적이다. 레이블 오류를 스스로 수정하는 최신 재레이블링 학습법을 위해 핵심 집합 선별을 수행하는 방법으로 작동한다. 이렇게 하면 딥러닝 훈련 비용을 최소화할 수 있다.

연구팀에서 개발한  재레이블링을 위한 핵심집합 선별 방법론의 동작 개념도
연구팀에서 개발한  재레이블링을 위한 핵심집합 선별 방법론의 동작 개념도

또한 이 교수팀은 특정 데이터의 레이블 오류 수정 정확도가 해당 데이터와 관계가 높은 이웃 데이터의 신뢰도와 높은 상관관계가 있음도 발견했다. 쉽게 말해 어떤 A데이터와 연관성이 높은 이웃데이터인 B데이터의 신뢰도가 높으면 A데이터의 오류 수정 정확도가 높아진다는 뜻이다. 이웃 데이터의 신뢰도는 딥러닝  훈련 전에도 측정할 수 있다. 따라서 각 데이터의 레이블 수정 가능 여부를 학습 전에 미리 예측할 수 있게 된 것이다.

이 현상을 기반으로 연구진은 총합 이웃 신뢰도를 최대화하는 부분 집합을 찾는 조합 최적화 문제의 효율적인 해법으로 ‘탐욕 알고리즘(greedy algorithm)’을 고안했다. 이는 총합 이웃 신뢰도를 가장 증가시키는 데이터를 차례차례 선택하는 AI알고리즘이다.

이재길 교수팀은 새롭게 고안한 재레이블릭 학습법을 위한 핵심 집합 선별 기술 실증에도 나섰다. 실증은 이미지 분류 문제에 대해 다양한 실세계의 훈련 데이터를 사용해 방법론을 검증으로 이뤄졌다.

그 결과, 레이블 오류가 없다는 가정에 따른 표준 학습법에서는 최대 9%, 재레이블링 학습법에서는 최대 21% 최종 예측 정확도가 기존 방법론에 비해 향상됐다. 모든 범위의 데이터 선별 비율에서 일관되게 최고 성능을 달성했다. 또 총합 이웃 신뢰도를 최대화한 효율적 탐욕 알고리즘을 통해 기존 방법론에 비해 획기적으로 시간을 줄였다. 수백만 장의 이미지를 포함하는 초대용량 훈련 데이터에도 쉽게 확장될 수 있음도 확인했다.

연구팀을 지도한 이재길 교수도 “이 기술이 파이토치(PyTorch) 혹은 텐서플로우(TensorFlow)와 같은 기존의 딥러닝 라이브러리에 추가되면 기계 학습 및 심층 학습 학계에 큰 파급효과를 낼 수 있을 것”이라고 기대했다.

이번 연구 성과는 AI 최고 권위 국제학술대회인 ‘신경정보처리시스템학회(NeurIPS) 2023’서 올 12월 발표될 예정이다. 연구는 과학기술정보통신부 재원으로 정보통신기획평가원의 지원을 받은 ‘SW컴퓨팅산업원천기술개발사업 SW스타랩’ 과제의 일환으로 진행됐다.

키워드

#KAIST #인공지능
저작권자 © 시사위크 무단전재 및 재배포 금지
이 기사를 공유합니다