Book

새빨간 거짓말, 통계 - 대럴 허프 4 ~ 8장 리뷰

sooyeoon 2024. 4. 14. 20:26

2024.04.04 - [Book] - 새빨간 거짓말, 통계 - 대럴 허프 1 ~ 3장 리뷰

 

새빨간 거짓말, 통계 - 대럴 허프 1 ~ 3장 리뷰

데이터넥스트레벨챌린지 3기 공개 모집 (신청 마감) 데이터 분석가의 추천 도서 함께 읽어요! datarian.io 꾸준히 책을 읽어왔지만 소설만 읽어온 편독쟁이로서 올해는 소설 외에 다른 분야의 책도

sooyeon.tistory.com

 

지난 1~3장에 이어, 4장에서는 평균이 신뢰할만한 값인지를 다루고 있다.

이때, 추출된 표본이 전체를 얼마나 정확하게 대표할 수 있는지를 숫자로 나타내는

예상오차와 표준오차에 대해서 소개하는데, 각 기준은 다음과 같다.

예상오차 (probable error)
전체 경우의 수 중에서 절반을 오차 범위에 포함

표준오차 (standard error)
전체 경우의 수 중 3분의 2를 오차 범위에 포함, 수학적으로 다루기 훨씬 쉽다.

 

이러한 오차 범위라는 것이 존재하기 때문에, 평균과 차이가 난다고 하더라도 

범위 내의 값을 가졌다면 그것이 얼마나 차이가 나는지 비교하는 것은 큰 의미를 갖지 못한다.

 

5장과 6장에서는 그래프와 시각적 효과로 인한 눈속임에 대해 다루고 있다.

그래프는 숫자와 글보다 더 강력한 인상을 줄 수 있으며, 그만큼 왜곡을 주기 쉽다는 것을 알려준다.

막대그래프의 중간을 잘라 보여주거나, 그래프의 눈금 단위를 더 작게 나타내는 것과 같이,

그래프에서 약간의 변화를 주는 것 만으로도 차이를 극대화시키고

시각적으로 엄청난 효과를 주는 예시들을 다양하게 확인해볼 수 있었다.

 

012

 

그림이 그려진 도표는 정말 유용하다. 그러나 도표가 갖는 이목을 끄는 힘 즉 시각적 호소력이 내 마음에 항상 걸려 걱정스럽다. 그런 까닭에 도표는 매우 자연스럽게 우회적으로 남을 속이는 능수능란한 거짓말쟁이이다. - 94p

 

또한, 값의 차이를 단지 그림도표로 나타낼 때, 그림의 크기도 과장될 수 있는 위험성을 배울 수 있었다.

길이 뿐만아니라, 폭, 두께에도 몇배로 늘려 그린다면 값의 차이보다 훨씬 증가한 것처럼 보이게 만들 수 있으며

성급한 판단으로 도표만 확인한다면, "개체 수의 변화"를 표현하고자 했음에도 "요즘 개체 크기의 변화"로 오인할 수 있는 경우도 생길 수 있다.

 

7장과 8장에서는 통계 숫자가 가진 논리성에 대해 다루고 있다.

 

"어떤 무엇인가를 계산해 놓고 나서 그 결과를 마치 다른 것에 관한 숫자처럼 발표하는 방법은 이밖에도 얼마든지 있다. 일반적으로 겉보기에는 같아 보이지만 실제로는 같지 않은 두 개의 사물을 선택하는 것부터 시작된다." - 113p

 

비교 대상이 정말 동일한 조건을 가진 대상인지, 혹은 비교하려는 값이 정확히 어떤 값을 의미하는지 파악해야한다.

 

이 숫자가 실상을 옳게 반영하는 것이 아니라는 사실을 간파하는 사람은 거의 없다고 믿어도 좋다.

수많은 통계들이 원천자료의 일관성 부족으로 왜곡되어 있는 경우가 허다하다. - 117p

 

0123

또한 비교 대상간에는 원인과 결과가 분명하게 드러나지 않는 경우가 존재하며 특히, 어떤 변수도 다른 변수에 대하여 아무런 영향을 주지 않더라도 두 변수 사이에 어떠한 상관관계가 존재하는 경우에는 가장 주의가 필요하다고 설명한다. 

 

문제는 논리정연하고 그럴듯하게 여러 가지 해석을 할 수 있을 때 그 중에서 자기의 취향에 알맞은 것만을 골라내어 그것만 주장해서는 안 된다는 사실이다. 전후관계와 인과관계를 혼동하는 오류(post hoc fallacy)를 범하지 않도록, 그리고 또 사실이 아닌 여러 현상을 사실이라고 믿는 일이 없도록 하기 위해 상관관계에 관해 언급할 때는 각별한 주의를 기울여야 한다. -127p

 

상관관계라 해서 모두 다 1대 1의 이상적인 관계라 할 수 없으며 오히려 그렇지 않은 경우가 더 많다. -132p

 

마찬가지로, "우유가 암의 발병원인이다." 혹은 "나이가 많아지면 팔자걸음을 하게 된다." 와 같은 예시에서 인과관계를 파악하고자 할 때는 시간의 경과나 시대적인 경향에 의해 생겨난 것인지를 조사해야 할 필요가 있다. 상관관계가 있다고 해서 반드시 그것이 인과관계를 의미하는 것은 아니라는 사실을 다시 한 번 깨닫게 되었다.

 

또한 인과관계를 이해하고자 한다면, 적절한 대조군과 조사 방법이 필요하며, 결국 오류 요인을 배제하여야 정확한 결론을 도출할 수 있다는 점을 깨닫게 되었다.