▷▶ 통계의 Paradox (1) - 잘못된 평균
[이 회사의 이사회는 배나와씨와 그의 동생, 그리고 여섯 명의 친척들로 구성되어 있다. 사원으로는 5명의 작업반장과 10명의 직공이 있다. 그런데 일손이 딸려 한사람의 직공이 더 필요하게 되었다.
노동해 : 저는 '배나와' 회사에서 일하고 싶습니다. 이 곳의 보수가 괜찮다고 들었거든요.
배나와 : 우리 회사의 보수는 아주 높은 편이지. 1인당 평균 월급이 60 만원이나 되니까. 단 수습기간 동안에는 15만원을 받지만, 임금은 매우 빠른 속도로 오르지.
[ 근무를 시작한지 며칠 후 노동해는 사장을 찾아갔다. ]
노동해 : 당신은 나를 속였어요. 다른 직공들에게 물어 보았는데, 월급이 20 만원이 넘는 사람은 한 사람도 없었어요. 그런데 어떻게 평균 월급이 60 만원이라는 거요?
배나와 : 그렇게 흥분하지 말게. 1인당 평균 월급은 분명히 60 만원일세. 내 그것을 자네에게 설명해 줌세.
배나와 : 나는 매달 480 만원을 , 내 동생은 200 만원을 받지. 그리고 6명의 내 친척들은 각각 50 만원씩, 5명의 작업반장 들은 각각 20 만원씩 받지. 따라서 매월 지급되는 월급의 총액은 1,380만원이야. 이것을 23명으로 나누면 60 만원이 되지. 이제 이해하겠나?
노동해 : 물론, 물론 이해하죠. 그것도 분명히 하나의 평균이죠. 그렇지만 그래도 당신은 나를 속였어요.
배나와 : 천만에 ! 자넨 아직도 이해를 못하는군. 물론 가장 높은 월급과 가장 낮은 월급의 중앙에 위치하는 40만원을 택하는 방법도 있겠지만, 그것은 평균이 아니고 중앙값이라 하는 거야. !
노동해 : 그럼 변변치 못한 우리의 월급 20만원은요 ?
배나와 : 그건 최빈수라 하지. 즉, 가장 많은 사람들이 만지는 월급을 말하지. 모든 문제는 자네가 평균과, 중앙값, 최빈수를 구별하지 못하는 데서 생기는 거네.
노동해 : 좋습니다. 이제 나도 사장님이 하시는 말씀이 무엇인지 이해가 갑니다. 이해시켜준 건 고맙지만, 나는 회사를 그만두겠어요.
ː 해설 ː
통계의 결과는 역설적일 수 있고, 거기에 속기가 쉽다. 배나와 씨의 해학은 평균과 중앙값과 최빈수의 차이가 자주 오해의 원인이 됨을 잘 드러내고 있다. 산술평균의 준말인 평균은 정확한 하나의 통계 척도이다. 그렇지만 불행하게도 배나와 씨와 그 동생의 임금이 너무 높게 책정되어 있기 때문에 평균의 개념이 완전히 왜곡되고 말았다. 신문에서 어떤 사람이 평균 수심이 60㎝ 인 연못에 빠져 죽었다는 기사를 읽는다면 당신은 매우 의아스럽게 생각할 것이다. 그러나 실제로 그 사람이 익사한 지점은 수심이 2m 쯤 되는 곳이다.
50 명의 주주에 의해 민주적으로 운영된다고 하는 어떤 회사의 경우를 살펴보자. 50 명의 주주가 총 600표의 의결권을 행사하므로, 한 사람이 행사하는 평균 표수는 12 표이다. 그렇지만, 그 중에서 45 명은 각각 4 표씩만 가지고, 나머지 5 명이 각각 84 표씩을 가진다면 , 1인당 평균 표수는 12표일지라도 다섯 사람이 사실상 회사를 좌지우지하고 있는 셈이다. 소도시 돈두천의 소매업을 부추기기 위해 경제기획처는 그 도시의 1인당 GNP 가 높음을 선전하였다. 대부분의 사람들은 그 도시민들의 소득수준이 높다고 생각하겠지만, 그 도시에 억만장자가 한 사람만 포함되어 있다고 한다면 대부분의 시민들은 실제 소득이 대단치 않은데도 1인당 GNP 는 높은 것으로 나타난다.
통계 계산은 특히 평균이라는 말이 산술평균이 아니라, 중앙값이나 최빈수라는 의미로 사용될 때 명확성을 결여하게 될 때가 많다. 중앙값은 어떤 그룹의 계급을 크기 순으로 늘어놓았을 때 가장 중앙에 위치하는 값이다. 만약 어떤 그룹의 원소의 개수가 홀수라면, 중앙값은 가장 한가운데 위치하는 원소의 값이다.
또, 원소의 개수가 짝수라면, 중앙값은 중앙에 위치하는 두 원소의 값의 산술평균이 된다. 노동해 에게는 중앙값이 산술평균보다 더 유리한 값이긴 하지만, 그것 역시 평균 월급의 왜곡된 이미지를 보여준다. 실제로 노동해가 원하는 것은 그 그룹 내에서 가장 많이 나타나는 값인 최빈수 (이 경우에는 가장 많은 사원들이 받는 월급) 일 것이다. 이 값은 다른 어떤 값보다 더 많이 나타나기 때문에, '대표값'이라 부르기도 한다. 돈두천시에서의 대표적인 가정의 GNP, 즉 최빈수는 가난한 수준인데도 불구하고 극소수의 백만장자들 때문에 1인당 평균 GNP 는 격상되어 나타날 수 있다.
어떤 상황에서 얻어진 자료의 집합은 통계처리의 방식에 따라 서로 다른 해석을 낳을 수 있다. 예를 들면, 매스컴에서의 통계결과는 위의 세 가지 방식 중 어느 하나를 채택하므로써 얼마든지 현실을 번지르르 하게 왜곡시킬 수 있다.
... <이야기 파라독스 - 통계의 파라독스 편>에서




댓글