인과관계 밝힐 수 있나… 빅데이터가 놓치고 있는 것들

    • 전성재(미 펜실베이니아대 교수)

입력 2016.04.16 03:06

통계는 단순한 패턴만 찾아내… 경제 평가하고 정책 결정하려면 경제학 모델로 구조적인 분석을

전성재(미 펜실베이니아대 교수)
전성재(미 펜실베이니아대 교수)

몇 년 전 폴 크루그먼 뉴욕시립대 교수와 하버드대의 케네스 로고프 교수, 카르멘 라인하트 교수가 정부 부채와 관련된 논쟁을 벌인 일이 있다. 라인하트 교수와 로고프 교수는 여러 나라의 데이터를 인용, 정부 부채가 많으면 성장률이 저하된다고 주장하는 수편의 논문을 발표했다. 논문들은 정부 긴축을 요구하는 쪽에 인용되기 시작했고, 실제 미국과 유럽에서는 국가 예산 삭감의 논리를 뒷받침하는 근거로 많이 사용됐다. 하지만 노벨 경제학상 수상자인 크루그먼 교수가 로고프 교수와 라인하트 교수의 연구 결과를 공개적으로 비난하기 시작하면서, 논쟁에 불이 붙었다.

몇몇 계산상의 실수도 있었지만, 논쟁의 핵심은 과도한 정부 부채와 낮은 경제성장률 사이의 상관관계(correlation·A란 일이 벌어지면 B란 일이 벌어지는 경우가 많은 것)가 꼭 인과관계(causation·A란 일이 벌어졌기 때문에 B란 일이 벌어지는 것)를 증명하는 것은 아니라는 데 있었다. 크루그먼 교수는 잘못된 연구 결과가 잘못된 정책을 불렀고, 너무나 큰 비용을 지불하게 됐다며 공개적인 비판이 필요하다고 주장했다.

누구의 주장이 더 설득력 있는지 대답하는 것은 거시경제학자들의 몫이지만, 이 논쟁은 상관관계와 인과관계를 구분하는 것이 정책적 의사결정에 얼마나 중요한지를 보여준다. 실제로 상관관계와 인과관계를 구분하는 것은 쉽지 않다.

예를 들어 홍길동씨는 술을 마시면 이를 닦지 않고 잠을 자는 습관이 있다. 그는 술을 마신 다음 날 아침에는 속쓰림과 두통으로 고생한다. 홍씨의 수면 전 습관과 다음날 아침의 컨디션을 매일 기록한 데이터를 살펴보자. 3월 10일 밤 이를 닦지 않고 잤고, 11일 아침에는 속쓰림과 두통으로 고생했다. 11일 밤에는 이를 닦고 잠자리에 들었고, 12일 아침에는 상쾌한 아침을 맞이했다. 홍씨의 부모님은 이를 닦지 않고 잘 때마다, 다음날 두통과 속쓰림으로 고생하는 것이 데이터에서 일정하게 나타났기 때문에, 다음날 좋은 컨디션을 위해 반드시 이를 닦고 자야 한다고 결론을 내렸다.

대부분의 사람들은 이 이야기를 듣고 웃는다. 이를 닦고 자느냐가 중요한 것이 아니라 전날 밤의 음주 여부가 중요한 것을 알기 때문이다. 하지만 음주가 원인인지 여부를 어떻게 아느냐고 물으면 다양한 대답이 나온다. 경험상 그렇다는 대답부터, 음주와 숙취의 관계는 의학적으로 증명된 사실이라는 설명을 듣게 되는 경우도 있다. 이것이 과연 뻔한 사실일까. 음주와 숙취의 관계는 단순한 상관관계가 아니라 인과관계라는 것을 어떻게 확신할 수 있을까.

상관관계와 인과관계를 혼동하는 예는 현실에서도 쉽게 찾아볼 수 있다. 미국 메이저리그에선 나이가 많은 선수들의 타율이 더 높게 나타나는 경향이 있다. 물론 나이가 많아서 타율이 높은 것이 아니다. 타율이 높은 선수일수록 선수 생활을 길게 하기 때문에 나타나는 현상이다. 남녀 간의 임금 격차, 고용률 차이를 단순 비교하는 것 역시 위험하다. 거주 지역과 명문대 진학률 사이의 상관관계를 이해하는 것도 마찬가지다. 어떤 사람들이 어떤 이유로 특정 거주 지역을 선택했는지에 대한 이해가 먼저다.

요즘 경제학에서는 빅데이터가 많이 거론된다. 빅데이터가 경제학의 방법론을 송두리째 바꾸리라 생각하는 이들도 있는 듯하다. 하지만 빅데이터가 경제학 모델에 기반한 데이터 분석을 완전히 대체하리라 믿는 경제학자는 거의 찾기 힘들다. 데이터에만 의존하면 숨겨진 인과관계를 이해하기가 거의 불가능하기 때문이다.

인과관계와 상관관계는 이론적 배경지식 없이 관측만으로 분별할 수 있는 것이 아니다. 이론과 모델, 그리고 이에 기반한 가설이 있어야만 비로소 실험을 디자인하고 그 결과를 평가할 수 있다. 경제학과 경제 데이터 사이에도 같은 원리가 적용된다. 경제학 모델에 기반하지 않은 데이터 분석에는 많은 주의가 필요하다. '아침 컨디션 향상'이라는 정책목표를 위해 '이를 닦고 잘 것'이라는 정책은 아무리 데이터에 기반하고 있어도 근본적인 해결책이 되지 않는다.

기업의 입장에서 제품의 지역별 시장점유율과 가격, 제품 사양, 지역 특성 등과 같은 변수들 사이의 상관관계가 제품에 대한 수요를 완전히 설명해주지 않는다는 것을 알아야 한다. 데이터로는 알 수 없는 제품에 대한 평판, 전반적인 품질, 타 기업 제품의 평판이나 품질까지도 가격과 시장점유율에 영향을 미치기 때문이다.

이론적 배경 없이 데이터에만 의존해 다양한 패턴을 찾아내고 유의미한 상관관계를 찾아내는 일이 아주 의미가 없는 것은 아니다. 예를 들어 단순한 예측이 데이터 분석의 목표라고 한다면 데이터의 패턴은 유용한 정보를 제공한다. 하지만 근본적인 인과관계를 밝혀내고 그에 따른 정책적 처방과 평가가 목표라면 이야기가 다르다. 전자의 경우 빅데이터를 이용한 '데이터 마이닝(Data Mining)'이 유용한 접근법일 수 있지만, 후자의 경우라면 경제학 모델에 기반한 구조적 분석(Structural Analysis)이 더 적절하다.

'아는 만큼 보인다'는 말이 있다. 경제 데이터를 분석하는 데 있어서도 비슷한 말을 할 수 있다. 데이터에 아는 만큼 물어볼 수 있고, 데이터는 묻는 만큼 대답한다. 온갖 데이터와 통계적 주장이 넘쳐나는 시대에 살고 있는 이들이라면 반드시 기억해야 할 교훈이다.



놓치면 안되는 기사

팝업 닫기

WEEKLY BIZ 추천기사

내가 본 뉴스 맨 위로

내가 본 뉴스 닫기