충분히 설명되었는가?

세스 스티븐스 다비도위츠의 『모두 거짓말을 한다』는 데이터 분석으로 발견한 사실을 쉽고 흥미롭게 이야기해주는 책이다. 구글 시대의 『괴짜경제학』 이라고나 할까. 여기서 책을 소개하려는 것은 아니고, 그냥 읽다가 떠올린 생각 한 꼭지를 적어본다.

“혈통은 말이 훌륭한 경주마가 될 가능성 중 아주 적은 부분을 말해줄 뿐입니다. 그 말이 좋다는 것을 알 수 있다면, 어디서 그 자질을 얻었는지까지 신경 쓸 필요가 있을까요?”, 90p

데이터를 기반으로 경주마를 평가하는 방식을 도입해 성공을 거둔 제프 세이더의 말이다. 기존에는 주목하지 않았던 말의 좌심실과 비장의 크기가 중요하다는 점을 발견해서 시장의 비효율을 혁신했다는, 이제는 식상할 정도로 넘쳐나는 이야기지만 그럼에도 저 말이 왠지 뇌리에 꽂혔다.

그냥 생각해도 혈통보다는 좌심실(그냥 단순하게 심장이라고 하자)의 크기가 달리기에 중요할 것 같지만, 내장 기관의 크기를 측정할 수단이 없던 시절에는 혈통이 그나마 유의미한 피처(Feature)였을 것이다. 부모 말의 심장이 크면 자손도 그럴 가능성이 높으니까. 그 시절에 회귀분석을 돌렸다면 혈통이 통계적으로 유의하다고 나왔을지도 모른다.

하지만, 직접적인 인과관계를 설명하면서 예측 정확도까지 높이는 요인이 새로 발견되었다면 굳이 과거의 유물을 사용할 이유는 없다. 예측 모델링을 할 때 이런 점을 유념해서 상관관계와 인과관계를 구분하고, 설명력이 높아지도록 피처 선택에 신경쓰자. 오케이. 생각 끝.

그런데 흥미롭게도, 저자는 세이더에게서 배울 수 있는 교훈 중 하나로 “어떤 모델이 예측에 효과적인 이유에 관해서는 지나치게 많이 생각할 필요가 없다는 점”을 꼽았다. “예측을 할 때는 어떤 것이 효과가 있는지만 알면 되고 그 이유까지 알 필요는 없다”는 것이다.

즉, 말의 심장이 클수록 달리기를 잘 한다는 것은 예측에 유용한 발견이지만, 이유를 충분히 설명하지는 못한다는 말이 된다. 이유를 안다고 말하려면 어느 정도까지 이해해야 할까? 효과적인 이유를 지나치게 많지는 않지만 충분히 생각하는 건 어느 정도일까? 딴지가 아니고 진짜 평소에도 종종 고민하던 문제다.

잠깐 다른 사례를 보자.

미국에서 야구 팬의 나이와 그가 응원하는 팀 사이에는 특별한 관계가 있을까? 아니면 서로 독립일까? 본인의 직관을 테스트할 겸 한 번 생각해보자.

… (기다리는 중) …

답이 나왔는가? 저자의 분석에 따르면, 둘은 관계가 있다. 어린이 야구 팬은 자기가 8살이 될 무렵에 우승한 팀의 팬이 되는 확률이 상대적으로 높다고 한다. 어떤 분야에 입문하는 시기에 받은 인상이 오래 간다는 건데, 오호! 그럴 듯한 설명이다. 경험적으로도 납득이 된다.

이것으로 나이와 응원하는 팀의 관계가 충분히 설명되었다고 생각할지 모르겠지만, 누군가에겐 새로운 질문의 시작이다. 특정 나이대의 경험이 평생 지속되는 팬심을 만드는 뇌의 메커니즘은 무엇인가? 같은 나이에 동일한 경험을 했는데도 팬이 되지 않는 사람은 왜 그런가? 야구가 아닌 다른 분야에도 유효한가? 이런 질문이 꼬리를 물고 계속 나올 수 있다.

저자 또한 야구에서 그치지 않고, 유권자의 지지 정당과 그가 성인이 되는 시기에 인기 있었던 정치인/정당의 관계를 분석하는 데까지 나아간다. 나이라는 요소가 예측에 효과적인 이유에 대해 “지나치게 많지” 않은 범위 내에서 많이 고민하며 일반화하려고 노력한 결과일 것이다.

경주마의 능력을 평가하는 사람에게는 말의 심장 크기가 중요하다는 사실만으로도 충분할 수 있다. 그 이상의 탐구는 가성비가 안 나온다. 반면, 말을 키워내야 하는 쪽에서는 구체적인 메커니즘을 밝혀내는 일도 도전해볼 만하다. 어쩌면 심장 좌심실의 크기는 (혈통처럼) 그저 겉으로 드러난 상관관계일 뿐이고, 사육사가 조절할 수 있는 직접적인 요소를 알아내서 실제 사육에 활용한다면 큰 부가가치를 만들 수도 있다.

‘충분히 설명되었는가’에 대한 답은 그 문제를 바라보는 관점과 목적에 따라 다르다. 이 모델로 문제가 충분히 설명되었다고 느끼는지에 대한 스스로의 판단이 그 문제를 대하는 나의 관심사와 역할을 알려준다. 특정 문제 영역에서 데이터 과학자와 도메인 전문가를 굳이 나눠야겠다면, 이 질문에 어떤 답을 하는지 물어보는 것도 한 방법이겠다는 생각이 문득 들었다.

blog built using the cayman-theme by Jason Long. LICENSE