통계 : 다양한 분포들을 간단히 알아보자.

2022. 1. 2. 20:01requirement fot AI/기초 수학 (AI)

분포

표본통계량 분포가 어떤 일정한모양이 있다는 사실은 이 분포를 근사화하는 수학 공식을 개발하는 데 강력한 도구가 된다.

정규 분포

종 모양의 정규분포는 전통적인 통계의 상징이다. 

정규분포에서 데이터의 68%는 평균의 표준편차 내에 속하며 95%는 표준편차 두 배수 내에 있다.

실제로 대부분의 원시 데이터는 전반적으로 정규분포를 따르지 않는다. 표본분포에서 대부분의 통계량이 정규분포를 따른다는 점에서 정규분포의 유용함이 드러날 뿐이다. 그렇다 해도 일반적으로 경험적 확률분포나, 부트스트랩 분포를 구할 수 없는 경우 사용되는 최후의 수단이다.

표준 편차의 1배수 안에 68.3%의 데이터가 존재하고, 2배수 안에 95.4%가 존재한다.

3배수 안엔 99.7%가 존재한다.

 

info:

1. 원시 데이터 자체는 대개 정규분포가 아니지만, 표본들의 평균과 합계 그리고 오차는 많은 경우 정규분포를 따른다.

2. 데이터를 z 점수로 변환하려면 데이터의 값에서 평균을 뺴고 표준편차로 나눈다. 그러면 데이터를 정규분포와 비교할 수 있다.

 

긴 꼬리 분포

이름에 있는 꼬리란 적은 수의 극단값이 주로 존재하는 도수분포의 길고 좁은 부분이다.

긴 꼬리 분포의 그래프는 한 쪽으로 치우쳐진 모양(꼬리가 긴 부분)을 띄는데, 이 치우쳐진 정도를 왜도라고 합니다.

때로는 분포가 소득 데이터와 같이 비슷하거나, 이항 데이터와 같이 이산적이라면 모두 긴꼬리를 가질 수 있다.

주가수익률은 데이터의 긴 꼬리 특성을 설명하기 위한 좋은 예이다.

분포의 꼬리는 양 극한값에 해당한다. 실무에서 긴 꼬리를 잘 들여다보는 것이 중요하다.

(정규분포를 따를 것이라는 가정은, 자주 일어나지 않는 예외에 관한 과소평가를 가져올 수 있다.)

 

(그림은 찾아보세요.)

 

스튜던트의 t 분포

t분포는 표본통계량의 분포를 설명하는 데 광범위하게 사용된다. 

표본평균이 분포는 일반적으로 t분포와 같은 모양이며, 표본 크기에 따라 다른 계열의 t분포가 있다.

 

표본 통계량의 상태를 묘사할 때 t 분포의 정확도는 표본에 대한 통계량의 분포가 정규분포를 따른다는 조건을 필요로 한다. 원래 모집단이 정규분포를 따르지 않을 때조차도, 표본통계량은 보통 정규분포를 따르는 것으로 나타났다.

그렇기 때문에 t 분포가 적용되는 것이다. 이 현상은 중심극한정리라고 부르기도 한다.

 

t 분포는 표본 평균, 두 표본평균 사이의 차이, 회귀 파라미터 등의 분포를 위한 기준으로 널리 사용된다.

그렇다면 데이터 과학자가 t분포와 중심극한정리를 잘 알아야 할까? 그것은 아니다. 데이터 과학자는 불확실성과 변동성을 이해하고 정량화하는 것이 중요하다. 경험적 부트스트랩 표본추출을 통해 표본 오차에 대한 대부분의 질문에 답을 얻을 수 있다.

하지만 통계 소프트웨어, AB 검정이나 회귀분석 같은 통계 절차를 통해 나온 t 통계량을 매일 만나게 될테니 알아두면 도움이 된다.

이항분포

이항식의 결론은 구매/구매하지 않음, 클릭/ 클릭하지 않음, 생존/ 사망 등 의사 결정 과정에서 아주 중요하기 때문에, 분석에서 핵심이라고 할 수 있다. 

이항분포를 이해할 때 핵심은 일련의 시행(독립된 결과를 가져오는 하나의 사건)들이라는 아이디어인데, 각 시행은 정해진 확률로 두 가지 결과를 갖는다.

이항분포란 n번 시행에서 성공한 횟수에 대한 분포이다. 이항시행은 두 가지 결과, 즉 하나는 확률 p, 다른 하나는 확률 (1-p)인 실험을 말한다.

위 과정을 통해서 확률이 p이고 시행 횟수 n번으로 특정 횟수 x가 주어진다면 x번 시행 될 확률을 구할 수 있다.

(예를 들어 한 번의 클릭이 판매로 이어질 확률이 0.1일 때 5번 클릭이 된다면 2번 판매가 될 확률은 0.0729의 확률을 가진다.) 

n이 크고 p가 0 또는 1에 너무 가깝지 않은 경우, 이항분포는 정규분포로 근사할 수 있다!!

위 그림처럼 n이 커질 수록 정규분포에 가까워 진다.

 

카이제곱분포

카이제곱분포를 설명하기 앞서 귀무가설의 개념을 간단히 알아보자.

귀무가설이란 두 변수 혹은 패턴사이에 상관관계가 없음, 즉 데이터에서 특이하거나 주목할 만한 것이 없다로 표현할 수 있다. 예를 들어 흡연 여부와 암 발생 증가에 영향을 미치는지에 대한 연구를 한다면, 흡연 여부는 암 발생 증가에 영향을 미치지 않는다라는 것이 귀무 가설이다. 

카이제곱분포 위 귀무 가설에서 벗어난 정도를 측정할 수 있다.

 

나중에 더 많이 다루겠슴.

 

F 분포

여러 그룹에 걸쳐 서로 다른 처리를 테스트하는 것, 예를 들어 어떤 밭에 구역별로 다른 비료를 사용하는 것, 이것을 카이제곱분포에서 말한 것과 유사하지만 횟수가 아닌 연속된 관측값을 처리한다. 이 경우 밭에 해당하는 그룹간의 차이가 비료에 따라 정규 무작위 변동에서 예상할 수 있는 것보다 얼마나 큰 지 측정하는 것이, F 통계량이다.

이는 ANOVA라는 분산분석을 할 때나 회귀무델에 의해 설명된 변동성과 데이터 전체의 변동을 비교하기 위해 선형회귀에도 요구된다.

즉 F 분포는 측정된 데이터와 관련한 실험 및 선형 모델에 사용된다.

F 통계량은 관심 요인으로 인한 변동성과 전체 변동성을 비교한다. 라고 볼 수 있다.

 

푸아송 분포와 그 외 관련 분포들

푸아송 분포, 지수 분포, 고장률 추정, 베이불 분포 등등

알아서 찾아보세연

반응형