[통계 INSIDE] 베이지안의 화려한 부활

베이즈통계는 연구자가 갖고 있는 주관과 새로 얻은 객관적 정보를 결합해가는 통계적 추론방식을 뜻한다. <픽사베이>

[시사위크=현우진 기자] 새로 접한 정보가 오랫동안 쌓아온 자신의 사고방식과 일치하지 않는다는 것을 깨닫는 것은 상당히 당혹스런 순간이다. 객관성을 중시하는 사람이라면 자신의 오랜 신념을 편견으로 치부하며 수치화된 자료를 맹신할지도 모른다. 반대로 더 이상 부정할 수 없을 만큼 증거가 명확해질 때까지 개인적인 믿음을 간직할 사람들도 많다. 그렇다면 양자를 적절히 맞춰나갈 방법은 없을까? ‘베이지안’이라고 불리는 통계학자들은 지난 250년간 이 세 번째 선택지를 좇아왔다.

◇ 베이즈 통계란 무엇인가

베이지안(Bayesian)이란 18세기 영국의 장로교 목사였던 토마스 베이즈가 만든 ‘베이즈 정리’를 신봉하는 사람들을 가리키는 말이다. 베이즈 목사가 살아생전 결코 발표하지 않았던 이 정리는 사후 그의 친구에 의해 발표됐으며, 이후 수많은 통계학자들의 끊임없는 연구 대상이 됐다.

전통적 통계학과 베이지안을 구분하는 가장 큰 차이는 주관을 대하는 태도다. 전자를 대변하는 빈도주의자(frequentist)들이 확률을 객관적으로 발생한 빈도수로 규정하는 반면, 베이지안들은 연구자의 주관적 신념을 사전분포라는 이름으로 받아들인다.

임의로 고른 문 뒤에 자동차가 있을 확률은, 다른 문에서 염소가 모습을 드러내기 전까지만 3분의 1이다. <픽사베이>

유명한 수학 수수께끼인 ‘몬티 홀 문제’는 베이지안식 사고방식을 엿볼 수 있는 사례 중 하나다. 퀴즈 쇼에 출연한 당신은 세 개의 문 중 하나를 택해야 한다. 이 중 한 곳에는 고급 승용차가, 다른 두 문 뒤에는 염소들이 기다리고 있다. 도전자가 문 하나를 선택하면(예시: 1번 문) 승용차가 어디 있는지 알고 있는 사회자는 2번과 3번 문 중 염소가 있는 어느 한 쪽을 공개한다. 그리고 도전자는 자신이 골랐던 문을 아직 열리지 않은 문으로 바꿀 수 있는 기회를 얻게 된다.

약간의 수학적 증명을 거치면, 처음에 어느 문을 골랐든 두 번째 기회에서 선택을 바꾸는 것이 승용차를 얻게 될 확률이 높다는 것을 알 수 있다. 그러나 보다 직관적으로 문제를 푸는 방법도 있다.

염소가 있는 문 하나의 정보를 알았다고 해서 승용차가 1번 문 뒤에 있을지 없을지는 여전히 알 수 없다. 그러나 1번 문 뒤에 승용차가 없다면(사전확률 3분의 2), 염소가 있는 문 하나를 공개하는 행위는 도전자가 선택을 바꿨을 때 실패할 선택지를 하나 줄이게 된다. 즉 ‘1,2,3번 중 어느 문을 선택하느냐’는 기존의 질문이 사회자가 연 문에 자동차가 없다는 새 정보를 수용함으로서 ‘1번을 선택하느냐, 2번과 3번을 선택하느냐’는 질문으로 바뀐 셈이다. 당연히 후자의 당첨 확률이 더 높다

◇ 활동영역 넓어진 베이지안들… 인공지능 산업에 주목

알파고의 자가학습방식인 딥러닝에도 베이지안식 사고방식이 담겨있다. <뉴시스/신화>

베이즈 정리가 발표된 것은 1763년의 일이지만, 본격적으로 연구된 것은 그리 오랜 일이 아니다. 문제는 베이즈 정리의 분모를 담당하는 적분함수였다. 선택지가 단 둘뿐인 몬티 홀 문제와 달리 복잡한 상호작용들이 반복되는 현실세계를 설명하는 사전분포를 만들어내는 것은 매우 어려운 일이다. 더구나 실생활에서 접해야 하는 수식들은 풀이공식을 적용하기 좋게 설계된 대학 교재의 함수들처럼 친절하지 않다. 보다 정교한 분석기법이 마련될 때까지 베이지안들은 몸을 낮추고 때를 기다렸다.

컴퓨터 기술의 발전으로 더 복잡한 함수들을 적분할 수 있는 능력이 갖춰진 지금 베이즈 통계의 활동범위는 빠르게 넓어지고 있다. 천체의 시선속도를 이용해 태양계 바깥의 행성을 찾는 천문학자들부터 새로운 입자를 발견하길 원하는 물리학자들까지, 베이즈 확률론은 통계적 추론이 필요한 모든 학문영역에서 활용되는 중이다. 뿐만 아니라 지난 2015년, 승객 239명을 태운 말레이시아 항공기 ‘MH370’이 실종된 사건에선 기체의 추락지점을 수색하기 위해 베이즈 분석기법이 사용되기도 했다.

최근 베이즈 통계가 가장 각광받고 있는 분야는 다름 아닌 인공지능(AI) 기술이다. 사전분포를 바탕으로 새로 취득한 정보를 더해가는 베이즈통계의 분석방식은 인공지능의 핵심인 자가학습과 연관성이 깊다. 이 분야의 선구자인 주디아 펄 UCLA 교수가 고안한 ‘베이즈 네트워크’는 확률적 추론과 학습을 수행하는 알고리즘을 일컫는 개념이며, 주관적 정보를 바탕으로 갱신되는 특성 때문에 ‘신념 네트워크’라는 별칭으로도 불리고 있다.

4차 산업혁명의 꽃이라 불리는 인공지능 산업계에선 이제 베이지안들의 활약을 어렵지 않게 찾아볼 수 있다. 구글의 컴퓨터과학자들은 대표적인 기계학습방식인 딥 러닝 기술의 불확실성을 줄이기 위해 베이즈 통계를 접목한 ‘베이지안 딥 러닝(BDL)'을 제안했다. 경제전문지 블룸버그에 따르면 금융기업 골드만삭스의 보안과가 작년 초 신규 채용한 160명 중 절반 이상은 기술전문가였으며, 이들이 맡은 일 중 하나는 베이즈 추론을 적용해 투자자들을 상담할 수 있는 채팅로봇 프로그램을 제작하는 일이었다.

현우진 기자 hwjin0216@naver.com

다른기사 보기

이 기사를 공유합니다

상단영역

본문영역

[통계 INSIDE] 베이지안의 화려한 부활

개의 댓글

댓글 정렬

내 댓글 모음

본문영역

SNS 기사보내기

내 댓글 모음