본문 바로가기

Previous (20-22)/Society

더플랜(The Plan) 1.5에 대한 단상

어제 와이프하고 더플랜(The Plan) 유튜브 풀영상 봤습니다.

영화 내용이야 뭐 여기 말고 수많은 블로그나 자료 등을 통해서 접하시면 될 것입니다.

그런 관계로 제가 다루고자 하는 내용은, 더플랜에 대한 내용보다는 1.5라는 숫자에 대한 분석을 간단히 해보고자 함입니다.


한가지 주의할 점은, 영화 다른 부분에는 노년층 투표비율이 뭐다 재분류표가 3%이상인것이 이상하다 이런 내용도 있는데.

사실 해당 부분은 원인분석과정에서 추론하기 위한 하나의 과정이였을 뿐이지, 영화의 핵심은 전혀 아니라는 점에서

이 부분들은 글 본문에선 일체 다루지 않겠습니다.




더플랜을 아직 보지 않으신 분들은 이 글의 내용에 대한 이해가 어려울 수 있으니 사전 양해를 바라겠습니다.



제가 올해 초까지 연구했던 부분은 카테고리에도 보셨듯이, Machine Learning과 R Programming이였습니다.

다만 해당 연구를 중단했던 이유(혹은 쉬고 있는 이유)는 연구 좀 하다가 때려친 것이 아니라,

최근에 IT Marketing 관련 부분을 중점적으로 하고 있어서 잠시(?) 쉬고 있는 것입니다.


머신러닝(Machine Learning)의 기본은 결국 빅데이터분석을 통한 기계학습이며,

빅데이터 분석을 위해서 선형회귀, 정규분포 등 여러가지 통계적 기법에 대한 연구가 선행되어야 합니다.


그런 점에서 더플랜에서 나타낸 정규분포 및 1.5는 잠시 중단했던 연구와 관련지었을 때 매우 흥미로운 분석이 아닐 수 없었습니다.


먼저 1.5가 무엇인지를 보겠습니다.




1.5라는 숫자는, 이미 보신 분들은 아시겠지만,

전자개표기에 개표용지를 분류했을 때 정상표에 대한 X후보와 M후보의 비율 대비, 미분류표에 대한 X후보와 M후보의 비율입니다.


아직 안 보신 분들을 위해서는 간단한 캡쳐화면 정도만 추가해 보겠습니다.


사진출처: 더플랜 유튜브 동영상 중 일부 캡쳐



위가 정상표에 대한 X후보와 M후보 득표비율이고, 아래가 미분류표에 대한 X후보와 M후보 득표비율입니다.

이게 문제가 되는 이유는, 정상표의 차이비율과 미분류표의 차이비율이 1.5가 나온다는 것이 

굉장히 말도 안되는 일이기 때문이죠.




말도 안되는 이유 역시 아래 사진을 통해서 살펴볼 수 있습니다.


사진출처: 더플랜 유튜브 동영상 중 일부 캡쳐



수많은 표가 있다면

정상표는 왼쪽 큰 통으로 구슬이 내려갈 것이고, 미분류표는 오른쪽 작은 통으로 구슬이 내려갈 것입니다.

그랬을 때 그 비율은 일반적인 경우라면 일정해야 정상이라는 것이죠.


물론 모든 개표소 별로 동일한 비율이 나온다는 것은 거의 말도 안되는 일일 것입니다.

하지만 251개 개표소에 대해서 정상표 대비 미분류표에 대한 정규분포 비율을 따져봤을 때. 


사진출처: 더플랜 유튜브 동영상 중 일부 캡쳐



정규분포 비율이 1.5가 나온다는 것이죠.



그래서 영화에서는 이렇게 언급을 했었죠.

1. 정규분포가 1.5가 나온다는 것은 일반적인 경우면 절대로 나올 수가 없다.
2. 미분류표는 수기로 분류하기 때문에 조작을 하면 가능하지만, 수많은 참관인과 개표인을 전부 매수하는것은 불가능하다.
3. 그렇다면 기계시스템의 조작이 있기 때문에 이런 결과가 나온 것이다.



그래서 어떤 식으로 조작되었는지를 알려주는 부분도 있었는데.

아마 이 부분을 이해하는 데 어려움이 좀 있었을 것입니다.


저도 사실 한번에 이해 못했고요.


그래서 이해하기 조금 쉽도록 한가지를 준비해봤습니다.

(사실 이것때문에 글을 작성했다고 봐도 될 것입니다.)


바로 아래 그림입니다.









먼저, 정상-비정상이라고 쓴 것은 개표기를 기준으로 쓴 것입니다.



1. 만약 개표기가 정상일 경우(첫번째 그림)


면적이 큰 부분은 정상분류표, 면적이 작은 부분은 미분류표입니다.


1) 정상분류표의 비율을 1:1 이라고 가정해 보고, 득표율 또한 동일하다고 가정해 봅니다.

2) 미분류표의 비율을 1.5:1 이라고 가정해 봅니다.

3) 그렇다면 정상분류표 대비 미분류표 비율은 1.5가 나오겠지요?

4) 하지만 251개 개표소에서 정규분포 상으로 1.5가 나온다는 것은 거의 불가능에 가까운 일입니다.


그러므로 개표기가 정상일 경우에는 저런 결과가 나와서는 안됩니다.




2. 만약 개표기가 비정상일 경우(두번째 그림)


면적이 큰 부분은 정상분류표, 면적이 작은 부분은 미분류검표입니다.

이 부분은 실제 투표를 했을 때 결과를 먼저 동률, 즉 50:50이라고 가정해 보겠습니다.


1) 프로그램 조작으로 인해서 파란색 표가 빨간색으로 갔습니다.
2) 그렇게 하면 정상분류표의 비율을 1:1로 맞출 수 있습니다.
3) 그리고 미분류표를 보니, 빨간색의 비율이 1.5:1 인 관계로 당연히 X가 승리를 할 수 있습니다.
4) 하지만 보시다시피, 저건 명백한 거짓말이죠. 실제 투표를 했을 때 결과는 동률로 이미 가정했기 때문입니다.
5) 오른쪽 비교그림을 볼까요. 개표기가 비정상이라고 판단해서 수기로 전부 다 분류를 했을 때의 결과라고 해봅시다.
6) 오른쪽 그림과 같이 되면 최종 결과는 X:M이 1:1이 가능합니다.

하지만 수기로 분류를 하지 않는다면 결국은 왼쪽 결과와 같이 나타나게 되겠지요.

즉 개표기가 비정상일 경우에는 저런 결과가 나올 수 있습니다.





여기까지입니다.

결론은 매우 간단합니다.

개표기가 정상이라면 정규분포 1.5는 절대로 나올 수 없는 결과이나,
개표기가 비정상이라면 정규분포 1.5는 당연히 나올 수 있는 결과입니다.

그래서 영화에서도 조작임을 언급하고 시뮬레이션까지 조작이 가능하다로 결론이 나온겁니다.


여기서는 정치적 성향을 담은 이야기를 하면 안되기에 전 누구 지지하고 그런것 말은 못합니다.

김어준 라디오방송 들어본적도 없고, 어떤 사람인지도 잘 모릅니다.

다만 한가지 확실한것은.


통계학적, 과학적으로 개표는 조작이 가능하며, 그렇기 때문에

이번 대선때부터는 전자개표분류를 절대로 하면 안된다고 생각합니다.