통계 : 심슨의 역설

2021. 12. 8. 04:59requirement fot AI/기초 수학 (AI)

모 대학에 지원한 남녀 학생들의 합격률

남자와 여자의 합격률(합격자 / 지원자)이 다르다. 그렇다면 학생 선발 과정에 문제가 있는 걸까?

하지만 대학 측은 오히려 여자의 합격률인 높다고 주장한다.

학과의 변수가 추가되었다. 지원자가 세분화되면서 합격률이 전혀 달라졌다!

이것이 심슨의 역설. 자세히 보면 A학과와 B학과의 전체 합격률에서 차이가 나는 것을 알 수가 있다.

 

A학과는 82명, B학과는 28명. 여자가 지원한 B학과의 합격률이 현저히 낮다!

그래서 심슨의 역설이 발생하게 된다.

학과와 성별(지원자)의 교차표를 만들어보면 성별에 따른 학과의 선호도를 파악할 수 있음.

 

데이터 분석은 차이를 확인하고 설명하는 과정이다. 평균이나 교차표를 계산한다면 관심 변수의 특징을 잘 설명할 수 있다고 생각하지만, 중요한 내용은 데이터에 숨어 있음.

숨어 있는 정보를 찾기 위해서 설명 변수를 활용해 조건을 추가하자!

 

반응형

'requirement fot AI > 기초 수학 (AI)' 카테고리의 다른 글

통계 : p-value  (0) 2021.12.08
통계 : ABtest  (0) 2021.12.08
통계 : 의사결정나무  (0) 2021.12.08
2. 벡터 개념 정리  (0) 2021.12.02
1. 딥러닝 기본 용어 설명  (0) 2021.12.01