2021. 12. 8. 08:53ㆍrequirement fot AI/기초 수학 (AI)
사람들이 뭘 좋아할지 모르는 상황에서 콘텐츠 제작자가 내릴 수 있는 선택은 다작.
일단 여러 개를 만들고 사람들의 반응을 살피는 것이다.
이 과정을 AB테스트라고 한다.
예를 들어, 광고 배너를 A안과 B안 두 개로 나눈 다음 랜덤으로 사람들에게 노출하고, 어느 쪽 배너가 더 관심을 끄는지 사람들의 반응을 분석하는 테스트 방식인 것이다.
AB 테스트라고 해서 굳이 A와 B 두 개의 콘텐츠만 만들 필요는 없다.
3개든 100개든 상관 없이 평가해줄 사람들만 충분하다면 나머지는 통계가 해결해준다.
이 테스트가 어떤 방법으로 작동하는 지 살충제 성능 테스트 데이터를 살펴보자.
살충제 A, B, C, D, E, F가 있다. 6개의 방에다가 살충제를 뿌리고 몇 마리가 죽는 지 확인 함.
(성능을 측정하기 위해 12번을 반복한다. 12 행의 데이터가 나옴.)

우리의 관심 변수는 죽은 벌레의 수, 따라서 어떤 살충제가 벌레를 가장 많이 죽였는지 확인하면 됨.

살충제 A, B, F는 공중에 떠 있고, 살충제 C, D, E는 아래쪽에 깔려 있다. 그림으로만 봤을 때는 성능의 차이를 확인할 수 있다.
여기서 잠깐 분산을 짚고 넘어가야 한다.
관심 변수의 분산은 관측치간의 차이의 정도를 의미한다. 이 정도로 넘어가자.

이제 위에서 확장해서 72번 살충제를 뿌리고 죽은 벌레의 개수를 측정했다고 보자. 아래의 과정으로 관심변수의 분산이 가지는 의미에 대해서 알아보자
1. 전체 데이터에 전체 데이터의 평균을 빼준 제곱합
위 모든 데이터 72개의 데이터의 분산을 구해보자.

각 데이터에 9.5 (데이터의 평균)을 빼주고 제곱을 해준 뒤, 모두 더해주면 3684라는 숫자가 나온다. 여기서 (72(모든 데이터의 개수) - 1)를 나눠주면 51.9가 나온다.
분산 분석을 할 때는 나눠주지 않고 제곱합(3,684)를 사용해서 설명을 할 수 있다.
이 숫자의 정확한 의미는 알기 어렵지만, 죽은 벌레 수라는 변수의 차이의 정도로 생각하자.
2. 각 그룹의 평균 데이터에 전체 데이터의 평균을 빼준 제곱합

각 데이터를 그룹이 가지는 평균값으로 치환해주고 제곱합을 계산해보자

2,699가 나온다!
3. 모든 데이터에 각 그룹의 평균을 빼준 제곱합
모든 데이터에 자신의 그룹의 평균을 빼주고 제곱합을 구해보자. 신기한 결과를 얻을 수 있다.

1015가 나온다!
여기서 처음 구한 제곱합 3,684는 두 번째, 세 번째 제곱합의 합과 같다!

수식으로 살펴보면 이와 같다.
첫 번째 우리가 구한 제곱합은 관심 변수(죽은 벌레의 수)의 분산, 바로 정보량이다. 이 분산은 정확히 정확히 2개로 나누어진다.
두 번째 제곱합은 각 관측치의 실제값 대신 그룹의 평균을 사용해서 계산 했다. 이 것이 의미하는 부분은 관심 변수(죽은 벌레의 수)에 대한 정보 중에서 현재 그룹(살충제)에 따른 차이를 의미한다.
세 번째 제곱합은 각 데이터에 그룹 평균을 빼주었다. 그러면 그룹이 설명할 수 없는 즉 개인차를 의미하는 수치가 된다.
크 아름답다. 데이터 공간이 변수로 설명할 수 있는 공간과 전혀 관련이 없어 알 수 없는 공간으로 나누어지는 것이다.
하지만 우리는 살충제에 따라 결과가 큰 차이가 충분히 있는지 없는지를 판단하는 것이다. 아직까지 계산 한 세 제곱합으로 바로 판단할 수 없다.
살충제는 잠시 접어두고 AB테스트로 다시 돌아와보자. AB테스트는 각 개인에게 A와 B라는 선호도를 묻는 것이다.
그래서 위의 개념을 활용하면 그룹에 따른 차이(두 번째 제곱합)와 그룹으로는 알 수 없는 개인의 차이(세 번째 제곱합)을 알 수 있게 되어서 객관적으로 어떤 그룹이 사람들이 선호할 확률이 높을 때 이 정보를 정말 신뢰할 수 있는 지에 대
해 파악(이를 검정이라고 함)할 수 있다.
이는 다음 시간에 알아보자!
'requirement fot AI > 기초 수학 (AI)' 카테고리의 다른 글
| 3. 행렬 개념 정리 (0) | 2021.12.08 |
|---|---|
| 통계 : p-value (0) | 2021.12.08 |
| 통계 : 의사결정나무 (0) | 2021.12.08 |
| 통계 : 심슨의 역설 (0) | 2021.12.08 |
| 2. 벡터 개념 정리 (0) | 2021.12.02 |