ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 빅데이터를 지배하는 통계의 힘 - 니시우치 히로무
    2023. 1. 8. 21:52

    제 2장 정보비용을 대폭 줄여주는 통계
    07 의미 있는 오차범위와 비용

    정확하게 알기 위해서는 반드시 전수조사를 해야 한다는 생각을 가지고 있는 사람들이 아직도 많다.

    앞에서 언급한 실업률 조사 이야기로 돌아가 보자. 만약 무작위로 뽑힌 전 인구의 0.5%를조사한 결과 그 100%가 실업자였다고 해도 나머지 99.5% 전원이실업자가 아니라면 전체 실업률은 불과 0.5%밖에 되지 않는다. 그런데도 왜 표본조사 결과만 놓고 전체가 실업자라는 결론을 내려야 하는가 하는 점이 흔히 하는 반론'이다.

    정말 이런 상황이 생길 수 있는지 없는지 묻는다면 통계학자의대답은 없을 리는 없다'이다. 다만 그렇게 말하고 끝이 아니라 '그런 일이 생길 가능성은 얼마인가'에 대해서도 반드시 대답한다.

    실제 실업률이 0.5%이고 전 인구 1억 2000만 명의 0.5%인60만 명을 조사한 결과, 전체 인원이 우연히 실업자일 확률은 물론 0은 아니다. 1이라는 수를 64조라는 수로 10만 번 이상 나눈수를 수학에서는 0으로 수렴한다고 하지 '0'이 된다고 말하지는 않기 때문이다. 이것을 여기서 정확히 표현한다면 최소한 100만개 이상의, 0이 계속 나열된 종이를 마냥 넘겨야 하는 상황이 벌어진다.

    다른 예를 생각해보자. 불과 0.5%의 확률, 즉 200번 중 단 한번밖에 당첨되지 않는 제비를 60만 번 뽑는 동안 단 한 번도 꽝이 되지 않을 확률은 어느 정도일까?

    당첨된 제비를 뽑을 때마다 상자로 다시 넣는 방법(통계학 전문용어로 복원추출이라 한다)은 다시 넣지 않는 방법(비복원추출)과 비교할 때 미세하나마 확률이 높아지지만 그래도 '200분의 1의 60만 제곱'이라는 기적이 필요하다.

    참고로 복원추출에서는 60만 번 도전할 때 '200분의 1'이라는 일정한 당첨확률이 줄곧 유지되지만 실제의 실업률 조사는 비복원추출이며 마지막 60만 번째 사람도 실업자일 확률은 나머지 1억 1940만 명 중 한 명이니 그것만으로도 기적에 해당하는 수치이다. 실제로는 이 64조의 10만 제곱분의 1이라는 천문학적인 값조차 아득하게 느껴질 것이다.

    이런 설명을 듣고도 진정 기적 같은 일이 벌어질 것을 걱정한다면 너무도 비관적인 사람이다. '거대한 운석이 지금 이 순간 이곳으로 떨어질 위험'이 없는데도 왜 극단적으로 표본조사에 한해'조사가 올바르지 않을 확률을 걱정하는 것일까.



    '' 카테고리의 다른 글

    Log  (0) 2022.06.18
    New trading for a living - Alexander elder  (0) 2022.06.18
    Trading for a living - Alexander elder  (0) 2022.06.11
    자제력 수업 - 피터 홀린스  (0) 2022.05.22
    신호와 소음 - 네이트 실버  (0) 2022.05.16
Designed by Tistory.