🔗 이 글은 SalRite님이 미디엄에 올린 아티클을 번역, 요약한 글입니다.
잘못된 해석을 유도하는 통계 자료. 어떤 상황에서 통계 자료를 잘못 해석할 수 있을까요?
-
통계적 유의성이 있다는 것이 실제로 유의미한 내용이라는 말은 아닙니다. 분석 결과가 통계적 유의성을 확보했더라도 샘플이 모집단을 적절히 대변하지 못할 수도, 리스크가 너무 커서 1%의 오차라도 용납할 수 없을수도 있습니다.
-
잘못된 도표를 사용하는 경우. Y축이 전체가 보여야 할 때 숨기거나 숨겨야 할 때 전체를 보이도록 하거나, 오르내리는 변동을 트렌드처럼 표시하지 않아야 합니다.
-
연관 관계는 인과관계가 아닙니다. 아이스크림 판매량과 상어 공격으로 인한 사상자는 여름에 동시에 오르지만 서로 인과관계가 있는것은 아닙니다.
-
심슨의 역설. 1973년 버클리 대학교는 전체 지원자 대비 남여 입학 비율(남: 44%, 여: 35%) 차이에 대한 자료를 바탕으로 성차별로 고소되었습니다. 추가 조사 결과 각 학과별 지원자 대비 입학 비율에서는 여성이 더 높은 비율임이 밝혀졌습니다. 이 통계에서는 남여 지원 모수가 차이가 있었고, 전체를 평균했을 때 발생하는 대표적인 통계적 역설입니다.
-
샘플링 방식. 샘플링은 전체 모수를 대변할 수 있는 일부를 수집하고, 통계적으로 분석해 전체 모수를 해석하기 위한 방법입니다. 따라서 샘플링 된 데이터는 전체 모수를 대변할 수 있다는 점을 확신할 수 있어야 합니다. 샘플링 할 때는 일관성, 다양성, 투명성을 유지할 수 있도록 유의해야 합니다. 또 샘플링에는 여러 방식(Random, Systemic, Stratified 등)이 있으니 각 장단점을 고려해 선택해야 합니다.
통계는 결국 숫자일 뿐이고, 전달하고자 하는 이야기의 일부일 뿐입니다. 통계 자료를 만드는 사람은 해결하고자 하는 문제에 대해 잘 알고, 자료를 바탕으로 어떤 결론을 내리기 전에 데이터를 잘 다뤄야 합니다. 다음번 통계 자료를 바라볼 땐 해석을 잘못할 수 있는 여지가 있는지 스스로에게 잘 질문할 수 있어야겠습니다.