데이터 분석에서 가설을 설계하는 방법

데이터 분석에서 가설을 설계하는 방법

  • 박경하
  • 승인 2023.08.30 00:00
  • 댓글 0
이 기사를 공유합니다

데이터 분석은 결국 질문에 대한 대답을 찾는 과정
데이터 분석에서의 가설은 결론이 아니라 과정에 대한 것이어야
첫 질문을 시작으로, 다양한 관점에서 데이터를 분석하며 계속해서 새로운 질문을 던져야
질문이 중요한 시대, 데이터 분석자는 끊임없이 질문의 기술을 연마해야
사진: Vadim Bogulov / Unsplash
사진: Vadim Bogulov / Unsplash

데이터 분석에서의 가설은 첫째 ‘호기심’이고, 둘째 결론이 아닌 ‘과정’에 대한 것이어야 한다. 데이터를 분석할 때 가설은 필수적이다. 데이터 분석은 대답을 듣기 위한 목적인 만큼 무엇보다 질문이 필요하다. 만약 결론에 대한 가설만 세운 채 데이터 분석을 시작하면 다양하게 보기 어렵다.

예를 들면, 인테리어 시장에 대한 분석을 시작하면서 결론을 ‘인테리어 시장은 꾸준히 성장 중’이라고 염두에 두고 “인테리어 시장에 관한 관심이 높아지고 있을 거야!”라는 가설만을 제시했다고 해보자. 가설에 따라 열심히 이것저것 데이터를 찾아보고, 뽑아보며 차트도 그렸는데 어느 순간 더는 어떤 데이터를 봐야 할지, 무엇을 분석해야 할지 아이디어가 떠오르지 않는다. 아이디어가 떠오르지 않으니 야근을 해야 한다. 하지만 야근을 해도 아이디어는 떠오르지 않는다. 구글링을 통해 이것저것 자료들을 끌어모은다. 검색 키워드는 ‘인테리어 시장’, ‘인테리어 통계’ 등이다. 어찌어찌 모은 자료를 보고 있다 보니 그제서야 아이디어가 떠오른다. 밤을 새우지 않아도 될 것 같다. 그런데 뒤늦게 아이디어를 뒷받침할 데이터가 없다는 것을 알게 된다. 데이터는 있더라도 내 생각대로 결과가 나오지 않는다. 또다시 멘붕. 점점 문서 작성이 두려워진다. 문서 작성만 없어도 회사 다닐 맛 나겠는데.. 자, 무엇이 문제일까?

애초에 가설을 잡을 때 보고서의 결론으로 쓸 문구를 고려하여 대표 가설로 잡았기 때문이다. “이 보고서를 다 읽고 나면 정말 관심이 높아지고 있는지 아닌지 알 수 있을 거야”라는 생각이 지배적이었을지도 모른다. 그러니 인테리어 시장 규모가 늘고 있다는 자료를 하나 찾고 나면 멍해지는 것이다. 이제 또 무슨 데이터를 봐야 하지? 갈피를 못 잡게 될 테니까.

가설은 ‘과정’에 대한 것이어야 한다. 애초에 결론으로 도출될 내용만 생각하고 분석에 임해서는 안 된다. 예를 들어 “인테리어 시장이 정말 코로나 전후로 많이 성장했을까?”라는 첫 번째 호기심으로 데이터를 찾아봤다면, 해당 데이터를 보면서 “그런데 이건 전체 품목이 다 같이 올랐을까, 아니면 특정 품목이 주도했을까?”라는 두 번째 질문이 생길 수 있어야 하고, 그에 따라 찾아본 데이터를 보면서 “이 품목이 다른 품목보다 성장률이 높은데, 타깃의 차이가 있는 건가?”라는 식으로 연이어 궁금한 점이 생겨야 한다. 질문에 질문을 거듭하는 것이다.

여기서 데이터를 보며 갖게 되는 ‘질문’, 즉 호기심이 가설이다. 그래서 데이터를 분석함에서 가설은 ‘결론’에 대한 것이 아니라 ‘과정’에 대한 것이어야 한다. 혹자는 데이터를 분석할 때 사전에 어느 정도 접근 방향, 그러니까 목차를 정해두고 하나하나씩 데이터를 정복해 나가야 하는 것이 아닌가 반문할 수도 있을 것이다. 그 말도 맞다. 과거에 여론조사를 할 때는 실제로 그런 구조로 질문지를 설계했고 그 과정에서 결론에 대한 가설이 앞세워져도 무방했던 것 같다.

그런데 빅데이터는 여론조사의 설문지처럼, 이 내용은 시장 환경에 대한 것이고, 이 내용은 자사 위상에 대한 것이라는 식으로 명확하게 선이 그어진 데이터가 아니다. 빅데이터를 분석할 때는 오히려 질문에 질문을 거듭하며 데이터를 이리저리 분석하고 난 뒤에, 얻어진 결과 중 유의미한 내용들을 모아, 이 부분이 어떤 조사 항목에 해당하는 것인지 배열하는 게 더 나을 때가 많다.

어쨌든, 이렇게 질문을 거듭하는 과정을 일컬어, 나는 “꼬리에 꼬리를 무는 과정의 가설”로 정의하고 주장한다. 그런데 꼬리에 꼬리를 무는 과정으로 가설을 만들어내기가 사실 그렇게 쉽지만은 않다. 우리는 우선 질문을 하는 것 자체에 익숙하지 않다. 우리에게 질문은 용기이자 지식수준의 노출이다. 이게 사람이 많은 공간에서 손을 드는 것만 어려울 줄 알았는데, 혼자 하는 질문도 마찬가지일 때가 많다.

또 질문을 잘 던지려면 해당 산업을 어느 정도 이해하고 있어야 가능하다. 물론 무지한 질문이 때로는 신선한 해답을 줄 때도 있지만, 여러 내용을 분석하려면, 즉 아이디어가 고갈되지 않으려면 어느 정도는 시장을 이해하고 있는 편이 좋다. 여기에 더해 다른 사설을 통해 여러 번 강조했지만, 시장을 분석하는 이론이나 기법에 해박한 것도 너무 많은 도움이 된다.

지금은 바야흐로 질문의 시대다. 심지어 검색이 가고 질문(프롬프트)이 오는 것 아니냐는 얘기도 있다. 데이터 분석에서의 질문은 호기심이고, 호기심은 데이터를 보는 중에도 생겨야 한다. 데이터를 보는 중에 아무 호기심이 들지 않는다면, 그건 데이터 분석이 제대로 되고 있지 않다는 증거다.

 


박경하 엠포스 빅데이터실 실장


관련기사

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.