본문 바로가기

공부기록/Data Science

[Causal Inference] 1. Introduction To Causality 인과추론이란 | 심슨의 역설

반응형

인과추론이란 무엇인가 

Correlation Does not Imply Casation

https://tylervigen.com/spurious-correlations

Spurious correlations

Spurious correlations

tylervigen.com

위의 사이트는 가짜 인과관계(spurious-correlations)를 모아놓은 사이트입니다. 

Nicolas Cage의 영화 수와 익사한 사람의 수의 상관관계 등.. 다양하게 말이 안되는 예시들이 존재합니다. 
 
이렇게 명확하게 가짜 상관관계임을 알기 쉬운 예시도 있지만, 현실에서의 문제는 직관적으로 판단하기 어려운 경우가 많습니다.

 
비슷한 유저에게 비슷한 상품을 추천해주는 협업필터링 알고리즘의 효과를 측정해 본다고 했을 때, 
다음과 같은 질문을 할 수 있습니다.
 

  • 특정 유저의 구매는 추천시스템 효과로 일어난 구매일까
  • 원래 A가 이런사람이었고, 추천시스템이 없어도 그런 물건을 구매했을까

 
단순히 구매의 인과를 추천시스템라고 가정하면 추천시스템의 효과를 과대 해석하고, 잘못된 의사결정을 할 수 있습니다.
 
때문에 많은 기업들이 특정 알고리즘을 도입하기에 앞서
그것이 비즈니스 성과로 이어질지에 대해 A/B Test 같은 실험을 통해 성과지표에 미치는 인과적인 효과를 추론합니다.
 

Confounder, lurking variable

However, “correlation” is technically only a measure of linear statistical dependence. We will largely be using the term association to refer to statistical dependence from now on.
...
Rather, it is possible to have a large amount of association with only some of it being causal. The phrase “association is not causation” simply means that the amount of association and the amount of causation can be different. Some amount of association and zero causation is a special case of “association is not causation.”

Introduction to Causal Inference from a Machine Learning Perspective, Brady Neal

Correlation을 큰 범주에서 association이라고 하면.. association은 causation이 아닙니다.

위와 같은 예시를 생각해보면 그 이유를 알 수 있습니다. 침대에 신발을 신고자는 사람은 두통을 많이 느낀다는 데이터가 존재합니다.
그 결과만 본다면 침대에 신발을 신고자는 것과 두통의 association을 가정해 볼 수 있습니다.
하지만, 침대에 신발을 신고자는 사람이 술을 많이 마시는 사람이라면 이 상관관계에서 놓친 부분이 있음을 알 수 있습니다.
이때 이 술을 우리는 Confounder 또는 lurking variable라고 합니다.
 
모든 association이 causation은 아닌 이유는 confounding association이 존재하기 때문입니다.

The total association observed can be made up of both confounding association and causal association.

 
여기서 인과추론의 Motivation을 이야기해 볼 수 있습니다.
 
만약 모든 문제가 association으로 해결되엇다면 전통 통계방법과 머신러닝으로 충분했을 것입니다. 인과추론의 Main motivation은 association이 causation이 아니기 때문이라는 것에서 시작됩니다.
 

Simpson's Paradox

심슨의 역설은 전체집단의 경향성과 세부집단의 경향성이 다르다는 것을 보여줍니다.
왜 심슨이냐.. 영국의 통계학자 에드워드 심슨이 정리했기 때문입니다! 
심슨의 역설이 나타나는 이유는 각 부분에 대한 평균이 크다고해서 전체 평균이 크지 않기 때문 입니다.
 
아래 표은 어떤 질병의 관한 사망률 통계 자료입니다. 치료법 A, B 에 대해 subgroup인 경증과 중증 환자들에 대한 사망률이 나와있습니다. 
표를 살펴보면 전체 집단의 사망률은 치료법 A가 더 낮은 반면, 세부 집단의 사망률은 치료법 B가 더 낮습니다. 전체집단의 사망률만 살펴보았을 때는 치료법 A가 더 좋아 보였지만, 증상에 따른 사망률을 살펴보았을 때는 치료법 B가 더 좋아 보입니다.

그럼 이런 심슨의 역설을 만났을 때
결정권자라면 아래의 데이터를 통해 어떤 처방을 내리는 것이 합당할까요? 
 
이것은 인과추론의 의사결정은 데이터가 나타나게 된 요인, Causal Structure에 따라 달라질 수 있습니다.
먼저, 두 가지 시나리오를 바탕으로 인과모형을 생각해 볼 수 있습니다.
 
시나리오 1. 환자의 condition이 Treatment의 원인이라면

만약 병원에서 처방약 B가 희소하기 때문에 환자의 증상에 따라 처방을 내려주어서
증상이 약한 사람에겐 A처방을 내리고, 증상이 심각한 사람에겐 B처방을 내렸다면?
 
위와 같은 인과모형을 생각해 볼 수 있습니다.
즉, 증상이 덜 심각했기 때문에 A를 처방받았고, 증상이 심각했기 때문에 B를 처방받은 것입니다. 
그렇기 때문에

  • 처방 그룹 A에는 다수의 경증환자 (1400명)가 존재하고, 비교적 적은 중증 환자(100명)가 존재합니다.
  • 처방 그룹 B에는 50명이 되는 경증환자가 존재하고, 500의 중증 환자가 존재합니다.

이 상황에선 처방약 B가 중증에 효과적이어서 처방이 되었고, 좀 더 효과가 좋은 백신이라고 볼 수 있습니다.
따라서 이 경우엔 'Mild'와 'Severe'로 subgroup을 나누어 사망률을 보는 것이 효과적입니다. 
 
 
시나리오 2. Treatment에 따라 condition이 달라졌다면

다음으로 처방에 따라 환자의 상태가 달라진다는 시나리오를 가정해 볼 수 있습니다.
백신 B약이 희소하여 대기시간이 길어 대기하는 동안 mild 한 환자도 Severe 한 상태가 되었다는 시나리오입니다.
 

  • 이 경우 A를 처방받은 사람은 증상이 경증이 된 것이고 그렇기 때문에 A 처방 그룹에 경증환자가 많은 것이고,
  • B를 처방받은 사람은 증상이 B를 기다리다 경증이 중증이 되어 B처방 그룹에 중증 환자가 많게 된 것입니다.

이 경우엔 A처방을 내리는 것이 더 합당해 보입니다.
 
 
 
시나리오 1과 2를 검토해 본 결과 같은 데이터라도 인과모형에 따라 의사결정이 달라질 수 있음을 알 수 있습니다.
심슨의 역설은 인과추론이 필요한 이유를 보여주는 대표적인 예시입니다.
 
그렇다면...

인과추론 왜 필요할까?

Causal inference is essential for rigorous decision-making.

 
인과추론은 의사 결정을 위해 필요합니다. 
상식을 통해서 해결할 수 없는 사례의 인과관계를 추론하거나
정책을 결정하거나
알고리즘의 비즈니스 성과를 측정하는 등 ..
 
causal claims을 하기 위해 Causal inference를 사용할 수 있습니다.
 
 

인과추론의 목표

머신러닝이 해결할 수 있는 문제 중 예측은
output에 만 관심을 갖는 solution-oriented research입니다.
 
어떤 변수를 넣든.. 상관관계가 존재하는 변수를 적절히 사용하여 결과를 도출하는데 관심을 가집니다.
 
반면, 인과추론은 원인을 적절하게 조작하는 것("No causation without manipulation") 이 필요한 intervention-oriented research입니다.
 

인과추론의 주요 주제

1. Statistical vs. Causal
통계에서는 데이터의 양이 많아질수록, 즉, infinite data를 일수록 uncertainty가 줄어듭니다.
하지만, 인과추론에선 infinite data에서 시작해 인과관계를 추론하기 위해 몇 가지 시도들이 더 필요합니다.
 
2. Identification vs. Estimation

  • identification : 인과추론이 어떤 조건과 가정에서 가능한지 여부를 결정
  • estimation : 실제 데이터를 통해 인과관계를 추론

-> 이런 인과추론을 이해하는 체계적인 틀을 제공하는 것 : causal model, causal inference framework
 
3. Interventional vs. Observational
intervention을 통해 인과적 효과를 identification 하는 것은 비교적 쉽지만, Observational data는 confounding 요소가 있을 수 있기 때문에 복잡
 
4. Assumptions
인과추론을 위한 가정들
 

참고자료

https://www.bradyneal.com/Introduction_to_Causal_Inference-Dec17_2020-Neal.pdf
https://www.youtube.com/watch?v=Ku3eDeZrD28&list=PLKKkeayRo4PUyqxgszL-biEZOOA9j61HT&index=2
https://matheusfacure.github.io/python-causality-handbook/01-Introduction-To-Causality.html
https://causalinferencelab.github.io/Causal-Inference-with-Python/01-Introduction-To-Causality.html
 

반응형