티스토리 뷰

펌 글들

베이즈 이론

chauchau0 2007.03.26 16:16

오늘날의 컴퓨팅을 이끈 수학 천재 가운데 한 사람인 토마스 베이즈는 여러가지 면에서 보통 수학자들과는 다르다. 올해로 타계한 지 241년째인 그는 방정식으로 신의 존재를 증명할 수 있다고 주장했으며, 그의 핵심 이론은 다른 사람에 의해 출간됐다.

성직자였던 토마스 베이즈의 이론은 오늘날 애플리케이션 개발에 있어서 중요한 수학적 기반을 이루고 있다.

정보 검색 툴을 판매하는 유력 검색업체인 구글과 오토노미는 베이즈의 원리를 이용해 사용자의 요구에 최대한 부합하는(하지만 기술적으로 정확하지는 않지만) 검색 결과를 제공한다. 베이즈의 원리는 또 특정 증상과 질병 사이의 상호관계를 파악하거나, 개인용 로봇 제작, 사고능력을 갖춘 인공 지능을 개발하는 데도 적용된다.

MS는 특히 베이즈의 이러한 확률이론을 신봉하는 업체중 하나이다. MS의 ‘노티피케이션(Notification) 플랫폼’은 확률 원리에 기반하고 있다. 앞으로 MS에서 발표할 소프트웨어에는 이 기술이 적용돼 메시지를 필터링하고 회의 일정을 계획하며, 사용자를 위한 대인관계 전략까지도 제시하게 된다.

만일 이 단계까지 성공적으로 진행된다면, 다음 단계는 ‘컨텍스트(context) 서버’이다. 컨텍스트 서버는 사람들의 일상 습관을 분석해 다양한 상황에서 생활을 도와주는 ‘전자 비서’개념이다.

MS 연구소 수석 연구원인 에릭 호비츠는 “나는 베이즈의 확률이론을 이용해 작업의 우선순위를 정한다. 개인적인 생각이지만, 모든 것을 알 수는 없는 불확실성의 세계에서 지적 활동의 토대는 바로 확률이라고 생각한다”고 말했다.

인텔 역시 올해 말쯤 베이즈 방식의 애플리케이션 구축용 툴을 발표할 예정이다. 실험에 의하면, 베이즈의 확률 이론을 응용하면 카메라가 의사에게 뇌졸중이 일어날 환자를 미리 알려주는 것도 가능하다. 인텔의 개발자 포럼에서도 이에 대한 토론이 예정돼 있다.

베이즈 이론이 요즘 인기를 끌고있긴 하지만, 처음부터 인정받은 것은 아니다. 10년 전만 해도 베이즈를 연구하는 학자들은 별로 주목받지 못했다. 이후 수학 모델의 개선과 컴퓨터의 발전, 실험으로 밝혀진 결과들로 비로소 베이즈의 생각이 인정받게 된 것이다.

인텔 마이크로프로세서 연구소의 애플리케이션 소프트웨어 담당자인 오미드 모해담은 “베이즈 이론의 문제는 너무 과대 포장됐다는 점”이라며 “사실 베이즈 이론을 적용해서 할 수 있는 것이 없었다. 이 이론이 실제로 적용되기 시작한 것은 불과 지난 10년 사이의 일”이라고 말했다.

수학 문외한을 위한 베이즈 강의

베이즈의 이론은 한 문장으로 요약할 수 있다. “미래를 보려면 과거를 봐야 한다”는 것이다. 베이즈는 미래에 어떤 일이 일어날 확률은 과거 같은 일이 발생한 빈도수를 알면 계산할 수 있다는 것을 이론화했다. 동전을 던지면 떨어질 때 앞면이 나올 것인가? 실험에서 나온 데이터에 의하면 확률은 0.5이다.

스탠포드 대학 경영과학 및 엔지니어링 학과 교수인 론 하워드는 “베이즈의 이론은 모든 것이 본질적으로 불확실하며, 확률 분포도는 항상 다르게 나타난다는 것”이라고 설명했다.

예를 들면, 한 연구자는 동전 대신 플라스틱 압정을 던져 뾰족한 핀 부분이 위로 나올 확률은 얼마나 되는지, 또는 옆으로 떨어질 때 뾰족한 핀은 어느 방향을 향하게 되는 지 등을 실험했다. 이런 경우 핀의 모양과 가공시 오차, 무게 분포 등 여러가지 요인들로 인해 결과가 달라지게 된다.

베이즈 이론의 매력은 파격적일 만큼 단순하다는데 있다. ‘현실에서 얻은 데이터를 토대로 미래를 예측한다’가 전부다. 데이터가 많을수록 예측은 더 정확해진다. 베이즈 이론의 또 다른 장점은 자가 수정적이라는 것이다. 데이터가 바뀌면 저절로 결과도 수정된다.

확률적인 사고는 컴퓨터의 사용방법을 바꾸기도 한다. 구글의 보안 책임자인 피터 노빅은 “컴퓨터도 하나의 수단일 뿐이다. 컴퓨터에서 찾는 것은 일종의 참고 자료이지 결코 정답은 아니다”라고 말했다.

이같은 변화는 검색엔진의 발전에 큰 공헌을 했다. 몇 년 전 ‘불린 검색 엔진’은 검색어와 일치하는 정보를 찾기 위해 ‘만약, 그리고, 또는, 그러나’같은 말들을 검색어와 함께 사용해야 했다. 하지만 최근의 검색 엔진들은 좀더 복잡한 알고리즘을 이용해 데이터베이스를 샅샅이 뒤져 적당한 검색 결과를 보여준다.

압정에 대한 예에서 알 수 있듯이, 베이즈의 이론에서는 결과의 정확성을 높이기 위해 더 많은 데이터가 필요한데, 동시에 계산도 그만큼 복잡해진다. 이렇게 ‘그럴듯한 추측’을 ‘믿을 만한 결과’로 바꾸기 위해 필요한 복잡한 계산은 고성능 컴퓨터의 출현으로 가능하게 됐다.

베이즈 이론의 광범위한 사용에는 UCLA의 주디어 펄과 같은 학자들도 중요한 역할을 했다. 이들은 서로 전혀 다른 현상 사이에 존재하는 조건적 상관관계를 효과적으로 연구하기 위해 베이즈의 이론을 적용하는 방법을 밝혀냈는데, 이는 기존의 계산 횟수를 상당히 줄였다.

예 를 들어, 폐암의 원인을 밝히기 위해 모든 사람들을 조사한다면, 폐암이 소수의 질병이라는 단순한 결론 외에는 아무것도 얻을 수 없을 것이다. 그러나 만일 흡연자들만을 대상으로 연구하게 되면 어떤 종류의 상관관계가 드러날 것이다. 또 흡연자와 함께 폐암 환자들을 조사해서 폐암과 흡연 사이의 관계에 대한 가설을 정립할 수도 있다.

스탠포드 대학 전산공학과 부교수인 대프니 칼러는 “증세나 조짐이 나타나는 원인은 다양할 수 있지만, 그 증세에 대한 직접적인 원인은 보통 몇 가지로 압축된다. 한 사람을 보고도 그가 속한 사회의 다수를 알 수 있는 혁신적인 발전이 지난 15년간 이뤄졌다”고 말했다.

칼러는 질병과 증세 간의 관계, 유전자와 특정 세포 현상과의 관계 등을 밝히는 다양한 연구에서 확률 기술을 사용하고 있다.

확률은 어떻게 활용되나

통 계적 처리방법(HMM : Hidden Markov model)을 이용하면 확률을 보고 결과를 예상할 수 있다. 예를 들어 음성 인식 애플리케이션은 ‘q’ 뒤에 따라오는 소리는 ‘u’일 확률이 상당히 크다는 사실을 알고 있다. 따라서 Qagga(지금은 멸종한 얼룩말)의 발음을 예측할 수 있는 것이다.

MS는 이미 이런 확률적 기술을 실제 제품에 적용했다. MS에서 1998년에 선보인 실험적 시스템인 프라이오러티즈(Priorities)에서 탄생한 아웃룩 모바일 메니저는 데스크톱으로 가야할 이메일을 언제 모바일 기기로 보낼지 결정한다. 윈도우 XP의 트러블슈팅 엔진 역시 확률을 이용한 계산법을 사용한다.

MS의 호비츠는 “노티피케이션 플랫폼이 제품에 적용됨에 따라 앞으로 좀더 많은 관련 애플리케이션이 나올 것”이라고 밝혔다.

노 티피케이션 플랫폼의 핵심 애플리케이션인 ‘코디네이트’는 사람의 생활 습관을 모자이크처럼 짜맞추기 위해 스케줄러와 키보드, 감지 카메라를 비롯한 다양한 기기를 통해 데이터를 수집한다. 이렇게 모인 데이터에는 사용자의 평균 출근 시간, 점심을 먹으러 나가는 시간, 점심 먹는데 걸리는 시간, 메시지나 전화의 저장·삭제 패턴, 특정 시간동안 키보드의 사용빈도 등이 포함된다.

모 인 데이터들은 사용자의 메시지 전송이나 정보 관리에 사용된다. 관리자가 한 직원에게 오후 2시 40분에 이메일을 보낸다고 가정해보자. 코디네이트는 이메일을 받을 직원의 스케줄러를 검색해 오후 2시에 회의가 있었다는 사실을 알게 된다. 습관에 관한 데이터를 훑어보고 이 직원이 회의 시작 한 시간 후에는 키보드를 많이 사용한다는 사실도 알아낼 수 있으며, 관리자에게서 온 이메일에 대해서는 대체로 5분 안에 답장을 보낸다는 사실도 알아낼 수 있을 것이다. 이런 모든 데이터에 적어도 앞으로 20분간은 직원이 컴퓨터를 보지 않을 확률이 크다는 사실까지 덧붙여, 코디네이트는 결국 이메일을 직원의 휴대폰으로 보내기로 결정하는 것이다. 이 과정에서 이메일의 중요까지 판단, 다른 사람들이 보낸 이메일들은 휴대폰으로 보내지 않을 수도 있다.

호 비츠는 “우리가 할 일은 어떤 정보가 지금 하고있는 일을 방해하면서까지 전달해야 할 만큼 가치있는 것인가 판단하는 것”이라고 설명했다. 그는 “이 같은 애플리케이션이 활성화된다면, 사람들은 더 많은 일을 할 수 있고, 정보의 홍수에서 벗어날 수도 있을 것”이라고 강조했다.

호비츠는 또 이같은 기능에는 사생활 보호와 사용자에 의한 통제가 보장된다고 덧붙였다. 메시지를 보낸 사람들은 왜 자기 메시지에 우선순위가 주어졌는지, 또는 왜 중요하지 않은 메시지로 처리됐는지에 대해서 결코 알 수 없다.

MS 에서 개발중인, 베이즈의 이론을 적용한 시제품에는 '딥리스너(DeepListener)'와 '쿼텟(Quartet)', '스마트우프(SmartOOF)', '타임웨이브(TimeWave)' 등이 있다. 호비츠는 이같은 프로토타입 개발이 소비자용 멀티미디어 애플리케이션의 기능도 향상시킬 것이라고 예측했다.

베이즈 기술이 PC에만 적용되는 것은 아니다. 로체스터 대학 연구자들은 뇌졸중이 오기 전에는 걸음걸이가 달라진다는 사실을 밝혀냈다. 이같은 변화는 사람의 눈으로 알아채기 힘들정도로 미미하지만, 컴퓨터는 카메라를 통해 잡아낼 수 있다. 걸음걸이에 뇌졸중을 예고하는 움직임이 나타나게 되면 경고 메시지를 보낸다.

이같은 원리는 또 보안 카메라 실험에서도 사용됐다. 대부분의 공항 이용객들은 주차한 뒤에 비행 터미널로 간다. 따라서 어떤 사람이 자기 차를 주차한 뒤 터미널로 가지않고 다른 사람의 자동차로 간다면, 카메라가 이를 감지해 경고 신호를 보내게 된다. 베이즈 모델을 만드는 엔진과 기술적인 정보는 올 가을 인텔의 개발자 사이트에 게재될 예정이다.

학계의 몰이해

지 금은 무척 단순하고 간단해보이지만, 베이즈 이론을 적용한 기술이 컴퓨팅에 도입되기까지는 오랜 시간이 걸렸다. 호비츠는 1980년대에 스탠포드 대학에서 확률과 인공지능을 공부했는데, 대학원에서 이 분야를 공부하는 학생은 그를 포함해 단 2명 뿐이었다. 대부분의 다른 학생들은 논리 시스템을 연구하며 ‘만약, 그리고, 그러므로’의 연역적 논리를 통해 세상만사를 해석하는데 열중했다.

호비츠는 “당시 확률은 확실히 유행에 뒤쳐진 분야였다”고 말했다. 하지만 논리 시스템으로는 예상외의 일들을 모두 설명할 수 없다는 것이 분명해지면서, 확률 분야가 부상하게 됐다.

또한 많은 연구자들은 인간이 ‘결정을 내린다’는 행위가 기존에 생각했던 것 보다 훨씬 더 신비로운 과정이라는 것을 인정했다. 칼러는 “인공지능을 연구하는 사람들은 숫자놀음을 꺼리는 편견이 있었다”고 말했다.

베 이즈의 삶도 평범하진 않았다. 1702년에 런던에서 태어난 그는 훗날 장로교 목사가 됐다. 그의 논문 가운데 2편이 출판되긴 했지만, 가장 핵심적인 논문인 ‘우연이라는 원칙으로 문제를 해결하는 방법에 관한 논문’은 베이즈가 죽고난 뒤 3년이 지난 1762년에서야 공개됐다.

최근에는 그가 당시 영국의 유명한 사상가들과 개인적인 서신을 교환했다는 사실을 증명하는 여러 통의 편지들이 발견됐다. 이 편지가 발견되기 전까지는 베이즈가 어떻게 유명한 왕족 모임의 회원이 될 수 있었는지 아무도 알 수 없었다.

하워드는 수학 공식에 대해 말하면서 “내가 아는 바로는 그는 한번도 ‘베이즈의 이론’이라는 말을 직접 쓰지는 않았다”고 주장했다.

신 학자인 리처드 프라이스와 프랑스의 수학자 피에르 시몽 라쁠라스는 일찍부터 베이즈를 옹호했다. 그러나 베이즈의 이론은 이후 부울 수학의 창시자인 조지 부울의 이론과 충돌하게 된다. 부울 수학은 대수 논리에 기반한 것으로, 이후 이분법을 탄생시켰다. 부울 역시 왕족 모임의 회원이었으며, 1864년에 숨졌다.

요즘은 확률의 중요성에 대해 별 이론이 없지만, 적용방법에 대한 논쟁은 간혹 있다. 비평가들은 베이즈의 모델이 본질적으로 주관적인 데이터에 기초하고 있으며, 그 답이 정확한지 여부는 결국 인간 스스로 판단해야 한다고 주장한다. 인간의 사고 과정에서 일어나는 미묘한 감정을 확률적인 모델로는 완전히 설명할 수 없다는 것이 그들의 주장이다.

IBM 리서치 사업부 부사장인 앨프레드 스펙터는 ‘조합 가정’이라고 하는 논리 시스템에 통계적 방법을 같이 사용할 것을 제안하며 “어린이들이 어떻게 학습하는지 정확하게 알 수는 없다. 처음에는 통계적인 방법일 것이다. 하지만 3살 이후가 되면, 통계적 방법외의 다른 방법으로도 학습한다”고 말했다.

어쨌든, 확률은 역시 중요한 개념이다.

호비츠는 “확률은 근본적인 것이다. 한때 확률을 대수롭지 않게 생각했던 시기도 있었지만 확률은 모든 논리의 기초”라고 말했다.

베이즈 이론은 과연 무엇인가?

기 호들이 난해해 보이지만 기본 개념은 무척 간단하다. 즉 어떤 일이 일어날 가능성은 그 일이 과거에 일어난 빈도를 보면 어느 정도 계산할 수 있다는 것이다. 최근의 연구자들은 유전자 연구에서 이메일 필터링에 이르기까지 광범위한 분야에 이 원리를 적용하고 있다.

더 자세한 설명은 미네소타 대학 웹사이트에 가면 볼 수 있다. 혹시 “어떤 질병에 대한 검사에서 결과가 긍정적으로 나왔을 때 나는 과연 얼마나 그 결과를 믿어야 하는가”라는 식의 질문이 있을 때는 Gametheory.net에서‘베이즈 법칙 애플릿’을 찾아보기 바란다.
신고
댓글
댓글쓰기 폼