계량경제학을 읽으면서 1
계량경제학에 대한 책을 읽고 있다. 경제 요소 간의 관계를 분석해서 한 요소 값의 변화가 어떤 영향을 끼치는지를 정량적으로 추정하는 것이 목표인데, 여기서 말하는 경제 요소란 학업 성취도나 범죄율, 집값 같은 것들이다. 통계적인 도구로 선형회귀분석을 이용하는데, 회귀분석은 기계학습 분야에서도 사용하는 일반적인 방법이지만 그쪽의 맥락에서 공부했을 때와는 조금 다른 느낌이 들었다. 특히 예측 정확도 자체보다도 개별 요소의 효과 측정과 의미 해석에 중점을 둔다는 점에서 배울 거리가 많았다.
개발도상국에서 농민의 살충제 사용이 가구의 의료비 지출에 미치는 영향을 연구한다고 생각해보자. 살충제 사용 여부와 의료비 데이터만 구해다가 회귀분석을 하면 될까?
아니다. 부유한 사람은 살충제를 살 돈이 충분하고 아프면 병원에 갈 여유도 있지만 가난한 사람은 그 반대일 것이다. 따라서 정확한 관계를 알고 싶다면 영향을 끼칠 만한 다른 요소들을 통제변수로 넣어야 한다. “살충제 사용 여부” 외에 “재산”, “교육수준”, “병원 방문 횟수”, “가족수”를 추가했다. 이제는 괜찮을까?
아니다. 이번에는 “병원 방문 횟수”가 문제다. 변수를 통제한다는 것은 말 그대로 통제변수의 값이 동일할 때 관심변수의 변화가 종속변수에 끼치는 영향을 살피겠다는 것이다. “병원 방문 횟수”를 통제변수로 넣으면 “살충제 사용 여부”의 회귀계수의 의미는 “살충제를 사용했을 때 병원 방문을 제외한 의료비 지출에의 영향”이 될 것이다.
연구 의도에 맞추려면 “병원 방문 횟수”는 변수에서 제거하는 것이 적절하다. 만약 연구 목표가 변수의 효과 분석이 아니라 의료비 지출액을 예측하는 것이었다면 “병원 방문 횟수”는 핵심적인 변수가 되었을 것이다. 너무 당연한 거 아니냐고 할 수도 있지만 소득과 학업성취에서 지적하는 것처럼 자칫하면 과잉 통제 때문에 변수 효과를 확대하거나 축소할 수 있다.
과잉 통제 못지않게 중요한 변수의 누락도 문제다. 교육수준이 임금(wage)에 끼치는 영향을 분석한다고 해보자. 경력 기간이나 업장의 규모 등을 모두 통제했다고 가정하면, 교육의 효과를 정확하게 알아낼 수 있을까?
우리가 직접 측정할 수는 없지만, 교육수준과 임금에 영향을 끼치는 “재능/능력”이라는 요소의 존재를 부정하는 사람은 없을 것이다. 교육만의 효과를 측정하려면 바로 이 “재능/능력”을 통제해야 하지만 현실에서는 가능하지 않다. 그 대신 “재능/능력”을 통제했을 때와 통제하지 않았을 때 교육수준의 회귀계수가 어떻게 달라지는지는 계산해볼 수 있고, 그 결과는 다음의 수식과 같다.
통제하지 않았을 때 "교육수준"의 회귀계수 = (
통제했을 때 "교육수준"의 회귀계수
+ 통제했을 때 "재능/능력"의 회귀계수·("교육수준"을 "재능/능력"에 회귀했을 때 기울기))
“재능/능력”이 임금과 양의 관계이고 교육수준과 “재능/능력”이 양의 관계라면 (대부분 동의할 만한 가정이다) “재능/능력”을 통제하지 않았을 때 교육수준의 회귀계수는 실제보다 더 크게 추정되는 편향이 있다는 사실을 이 식이 보여준다. 이런 점을 고려하지 않고 수식의 결과를 맹신해서 교육을 더 받기로 결정한다면, 임금의 상승분에 실망하게 될 가능성이 높다.
2부에서 계속