[인포그래픽] 데이터 해석 및 분석에서 피해야 하는 실수 15가지

[인포그래픽] 데이터 해석 및 분석에서 피해야 하는 실수 15가지

  • 한수경 기자
  • 승인 2021.11.06 00:00
  • 댓글 0
이 기사를 공유합니다

[ 매드타임스 한수경 기자] 오늘날 데이터는 새로운 통찰력을 얻고, 의사결정을 내리고, 제품을 개발하는 데 필수적이다. 

특히 요즘 데이터는 2년 마다 양이 두 배씩 증가하고, 2025년에 데이터는 175,000엑사 바이트가 될 것으로 예측한다. 1엑사 바이트는 1백만 기가 바이트다. 5엑사 바이트는 "인류가 말해온 모든 단어"와 거의 같다고 알려져 있다.

따라서 이 모든 데이터를 모두 조사하고 분석할 수 없다. 설사 모두 조사할 수 있다하더라도 데이터는 다양한 형태로 존재하기에, 분석하는 것은 쉽지 않다. 그렇지만, 우리가 데이터를 분석할 때 피해야 하는 실수는 있다. Geckoboard는 데이터를 분석할 때 흔히 저지르는 실수 15가지를 발표했다.

Geckoboard가 지적한 실수 15가지는 다음과 같다. 

체리피킹(Cherry Picking)

사례를 만들 때 데이터는 연구, 실험 또는 읽은 내용에 무게를 더한다. 그러나 사람들은 전체 결과가 아니라 자신의 주장을 뒷받침하는 데이터만 강조하는 경우가 많다. 이는 양측이 자신의 입장을 뒷받침하는 데이터를 제시할 수 있는 공개 토론과 정치에서 널리 퍼져 있다. 체리피킹은 고의적일 수도 있고 우발적일 수도 있다. 일반적으로 간접적으로 데이터를 수신할 때 공유할 데이터를 선택하는 사람이 어떤 의견을 퍼뜨리든 진실을 왜곡할 기회가 있다. 데이터를 수신할 때 '내가 듣지 못한 것은 무엇인가?'라고 자문해 보는 것이 중요하다.

데이터 준설(Data Dredging)

통계적 유의성에 대한 테스트는 가설을 미리 정의한 경우에만 작동한다. 역사적으로 이것은 연구자들이 결과를 '데이터 준설'하고 테스트 대상을 전환한 임상 시험에서 문제였다. 과학 저널에 발표된 그토록 많은 결과가 이후에 잘못된 것으로 판명된 이유를 설명한다. 이를 피하기 위해 임상 시험을  주요 엔드포인트 측정값이 무엇인지 미리 명시하는 것이 이제 표준 사례가 되고 있다.

생존 편향(Survivorship Bias)

데이터를 분석할 때는 어떤 데이터가 없는지 자문하는 것이 중요하다. 어떤 종류의 선택에서 살아남은 데이터가 남아 있기 때문에 전체 그림이 흐려지는 경우가 있다. 예를 들어, 세계 2차 대전 때, 한 팀은 비행기에 장갑을 장착하기에 가장 좋은 장소가 어디냐는 질문을 받았다. 전투에서 돌아온 비행기들은 엔진과 조종석을 제외한 모든 곳에 총알 구멍이 있었다. 그 팀은 총알 구멍이 없는 곳에 갑옷을 장착하는 것이 최선이라고 결정했다. 왜냐하면 그 곳을 맞은 비행기들이 돌아오지 않았기 때문이다.

코브라 효과(Cobra Effect)

역사적인 사실에서 이름을 딴 코브라 효과는 문제를 해결하기 위한 동기가 의도하지 않은 부정적인 결과를 만들어 낼 때 발생한다. 1800년대에 대영제국은 인도에서 코브라에 의한 죽음을 줄이기를 원했다고 한다. 그들은 코브라 사냥에 동기를 부여하기 위해 그들에게 가져온 모든 코브라 가죽에 대한 재정적 인센티브를 제공했다. 처음엔 효과를 보이는 듯했지만, 얼마의 시간이 흐른 후에는 많은 인도인들이 오히려 보상금을 받기 위해 코브라를 집마다 사육해 그 수가 더 늘었다. 인센티브나 목표를 설정할 때, 실수로 잘못된 행동을 부추기는 것이 아닌지 확인해야 한다.

거짓 인과관계(False Causality)

지구 온도는 지난 150년 동안 꾸준히 상승했고, 해적의 수는 비슷한 속도로 감소했다. 아무도 해적의 감소가 지구 온난화를 일으켰거나 더 많은 해적들이 지구 온난화를 역전시킬 것이라고 합리적으로 주장하지 않을 것이다. 그러나 종종 두 가지 사이의 상관 관계있다고 믿도록 유혹한다. 종종 우연의 일치이거나 보고 있는 두 가지 효과를 모두 일으키는 세 번째 요인이 있다. 해적과 지구 온난화의 예에서 둘 다의 원인은 산업화다. 이처럼 상관관계만으로 인과관계를 가정해서는 안된다. 항상 더 많은 증거를 수집해야 한다.

게리맨더링(Gerrymandering)

많은 정치 시스템에서 선거구를 정해서 한 정당이 다른 정당보다 유리하게 할 수 있다. 선거구에 많은 농촌 지역을 포함하면, 도시 등에서 더 인기 있는 정당에 불리한 영향을 미친다. 데이터를 분석할 때 수정할 수 있는 면적 단위 문제(MAUP)라고 하는 유사한 현상이 발생할 수 있다. 데이터를 집계하기 위해 영역을 정의하는 방법(예: '북부 카운티'로 정의하는 항목)은 결과를 변경할 수 있다. 데이터를 그룹화하는 데 사용되는 규모도 큰 영향을 미칠 수 있다. 결과는 우편번호, 카운티 또는 주를 사용하는지 여부에 따라 크게 다를 수 있다.

편향된 샘플링(Sampling Bias)

투표에 참여하는 사람들이 자기 선택이나 분석가의 편견으로 인해 전체 인구를 대표하지 못하는 선거 투표의 고전적인 문제다. 유명한 예가 1948년에 시카고 트리뷴이 전화 설문조사를 바탕으로 Thomas E. Dewey가 차기 미국 대통령이 될 것이라고 잘못 예측했을 때 발생했다. 그들은 설문 조사에서 인구의 전체 세그먼트를 제외하고 특정 인구층만 전화를 살 수 있다고 생각하지 않았다. 연구 참가자가 진정으로 대표성이 있고 샘플링 편향이 없는지 고려해야 한다.

도박사의 오류(Gambler's Fallacy)

1913년 룰렛 테이블에서 발생한 악명 높은 사례 때문에 몬테카를로 오류라고도 알려져 있다. 공은 26번 연속으로 검은 색으로 떨어졌고 도박꾼은 연속해서 검은 색이 나올 수 없다 생각해서 빨간 색에 대해 베팅해서 수백만 달러를 잃었다. 그러나 기본 확률은 변하지 않기 때문에 과거에 무슨 일이 있었는지에 관계없이 검정의 확률은 항상 빨강과 동일하다. 룰렛 테이블에는 메모리가 없다. 이 오류의 유혹을 받을 때, 우주에는 '균형을 맞추는' 작용을 하는 교정하는 힘이 없다는 것을 스스로 상기해야 한다.

호손 효과(Hawthorne Effect)

1920년대 일리노이 공장인 호손 웍스에서 이루어진 사회 과학 실험이다. 이들은 근무 시간, 조명 수준 및 휴식 시간과 같은 환경의 다양한 변화에 따라 근로자가 더 생산적이 될 것이라고 가정했다. 그러나 실험이 진행되는 동안 근로자들은 연구자가 자신을 관찰하고 있다는 것을 의식하고 있었고, 그 결과 근무 환경 조건에 상관없이 높은 생산성을 보였다. 인간 연구 대상을 사용할 때는 호손 효과를 고려하여 결과 데이터를 분석하는 것이 중요하다.

심슨의 패러독스(Simpson's Paradox)

심슨의 패러독스란 '부분'에서 성립한 대소 관계가 그 부분들을 종합한 '전체'에 대해서는 성립하지 않는 모순적인 경우를 말한다. 1973년 버클리 대학원 합격자 수치에 따르면 대학원에 지원하는 남성이 여성보다 합격할 가능성이 더 높다는 통계가 나왔다. 그런데 합격률을 전공별로 보면 6개의 전공중 4개의 전공에 대해 여성 지원자가 더 높았다. 이 패러독스는 남성과 여성이 지원하는 과목이 다르기 때문에 발생한 것이다. 이렇듯 전체에서는 남성이 더 합격률이 높고, 부분에서는 여성이 더 합격률이 높은 패러독스를 볼 수 있다. 

맥나마라의 오류(McNamara Fallacy)

진실은 데이터와 통계적 엄격함에서만 찾을 수 있다고 믿었던 미국 국방부 장관 로버트 맥나마라(Robert McNamara)의 이름을 따서 명명됐다. 이 오류는 베트남 전쟁에서 적의 숫자를 성공의 척도로 삼는 그의 접근 방식을 나타낸다. 그것에 집착한다는 것은 미국 대중의 변화하는 분위기와 베트남 사람들의 감정과 같은 다른 관련 통찰력이 대부분 무시됐다. 복잡한 현상을 분석할 때 우리는 종종 측정기준을 성공의 프록시로 사용해야 한다. 그러나 이 수치를 독단적으로 최적화하고 다른 모든 정보를 무시하는 것은 위험하다.

과적합(Overfitting)

데이터를 볼 때 기본 관계가 무엇인지 이해해야 한다. 이를 위해 수학적으로 설명하는 모델을 만든다. 문제는 더 복잡한 모델이 단순한 모델보다 초기 데이터에 더 잘 맞는다는 것. 그러나 그것들은 매우 부서지기 쉬운 경향이 있다. 이미 가지고 있는 데이터에는 적합하지만, 랜덤 변동을 설명하려면 너무 많은 노력을 필요로 한다. 따라서 더 많은 데이터를 추가하는 즉시 분해된다. 더 단순한 모델은 일반적으로 더 강력하고 미래 추세를 더 잘 예측한다.

출판 편향(Publication Bias)

통계적으로 유의미한 결과를 보여주는 모든 연구에 대해 결론을 내리지 못한 유사한 테스트가 많이 있었을 수 있다. 그러나 중요한 결과는 더 흥미롭게 읽을 수 있으므로 출판될 가능성이 더 크다. 얼마나 많은 '지루한' 연구가 삭제되었는지 모르는 것은 우리가 읽은 결과의 타당성을 판단하는 능력에 영향을 미친다. 회사가 특정 활동이 성장에 긍정적인 영향을 미쳤다고 주장할 때, 다른 회사는 같은 일을 시도했지만 성공하지 못했을 수 있고 그것에 대해 이야기하지 않는다.

ⓒgeckoboard

 

 


관련기사

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.