관찰로부터 진짜 모습 추정하기
통계학을 전공하지는 않았지만 통계학적인 사고가 필요한 일을 하다 보니 통계적으로 생각하는 방법을 배우고 있다. 여러모로 유용한 개념이 많은데, 그중 하나는 우리에게 관찰된 현상이 전부가 아니라는 관점이다. 직접 측정하기 어려운 어떤 진실(Truth)이 있고, 관찰된 현상은 그로부터 발생한 일부 샘플에 불과하다는 얘기다. 식상한 예이지만, 대한민국에 사는 사람들의 평균 키를 측정하는 문제를 생각해보자. 현실적으로 특정 순간에 모든 사람의 키를 잴 수는 없다. 그러나 사람의 키는 정규분포를 따른다는 사실을 알고 있으므로 적절한 방법으로 샘플을 뽑아서 그들의 키를 측정한 뒤 이로부터 전체의 모습을 추정할 수 있다. 측정된 샘플의 평균 키와 “추정된” 전체의 평균 키의 차이를 이해하면 두 집단 중 한쪽 샘플의 평균이 조금 더 크더라도 두 집단 간의 키 차이는 통계적으로 유의하지 않다는 말을 받아들이기 쉽다.
이때 중요한 것은 샘플을 얼마나 잘 고르냐는 것이다. 전체 집단을 잘 대표하지 못하는 일부를 샘플로 쓴다면, 즉 편향된 샘플을 가지고 작업한다면, 그 결론은 신뢰하기 어렵다. 내 친구가 모두 싱글이라고 젋은이들이 애인이 없다고 하면 안 되고, 내 주변 사람이 모두 특정인에게 투표했다고 그가 당선되는 것도 아니다. 그래서 큰 데이터를 다루는 실험을 할 때는 샘플링에 많은 주의를 기울인다.
키를 잴 때만 샘플로부터 전체를 추정하는 것이 아니다. 가령, 어떤 사람을 새로 만나서 그의 성격을 파악하려는 상황을 생각해보자. 직접 들여다볼 수 없는 그의 진실된 성격이 있고, 그 성격으로부로 발생하는 행동이 있고, 우리는 그중 일부를 경험하게 된다. 얼마나 오래동안 많은 행동을 관찰하면 한 사람의 성격을 알기에 충분한 데이터를 모았다고 할 수 있을까? 설사 양이 많더라도 그 사람을 대표하는 샘플이라기보다는 그냥 우연히 발견한, 나에게만 편향된 모습은 아닐까? 어떤 사람에 대해서 단정적으로 판단을 내리고 싶어지면 이런 한계를 얼마나 인식하면서 신중하게 생각했는지 되돌아볼 필요가 있다.
물론, 항상 판단을 내릴 때마다 처음부터 새로 해야 하는 것은 아니다. 오늘 처음 본 사람이라도 내가 아는 A의 친구라면, 그리고 A가 어떤 사람인지 안다면, 많은 부분을 추측할 수 있다. 기계학습에서도 유사한 아이디어를 찾을 수 있는데, Nearest Neighbor라는 알고리즘이다. 새로운 샘플 A가 나타났을 때, 기존에 내가 아는 녀석 중에서 가장 비슷한 B를 찾고(그래서 이름이 가장 가까운 이웃이다), B에 대해서 아는 정보를 A에도 적용하는 것이다.
그렇다면 A와 가장 비슷하다는 것은 어떻게 정의할까? 키? 학력? 손톱 길이? 떠올릴 수 있는 요소는 무척 많을 것이고 사람마다 저마다의 가중치를 마음 속에 갖고 있을 것이다. 이 가중치가 정말 합리적이고 예측력이 높다면 노하우나 경륜이라고 부를 수도 있겠으나, 작은 경험에 오버피팅된 나머지 일반화하기 어려운 경우라면 아집이나 편견으로 치부해도 할말이 없다.
대상이 사람이 되었건 뭐가 되었건 간에 그와 관련하여 우리가 관찰할 수 있는 것은 진정한 모습의 일부분이다. 잘 알지 못하는 대상에 대한 모호함을 효과적으로 없애기 위해 각종 도구를 동원하기도 하지만 그렇다고 문제가 근본적으로 해결되지는 않는다. 관찰로부터 결론을 도출할 때는 항상 이런 한계를 염두에 두고 조심스럽게 접근해야 할 것이다.