이제는 더 미룰 수 없는 빅데이터 정의

이제는 더 미룰 수 없는 빅데이터 정의

  • 박경하
  • 승인 2023.06.20 00:00
  • 댓글 0
이 기사를 공유합니다

출처 픽사베이
출처 픽사베이

이 글은 여전히 빅데이터가 무엇인지 쉽게 답하기 어려운 사람들을 위한 나만의 정의법이다. 챗GPT가 하루가 다르게 세상을 바꾸는 와중에 뜬금없이 “빅데이터 정의”가 웬 말이냐 싶겠지만, 이럴 때일수록 기초 공사가 탄탄해야 한다.

원래 이런 단어를 설명하기가 가장 어렵다. 단어 자체의 뜻은 알겠는데 의미나 실체를 몰라서 “예를 들 수 없는” 말들 말이다. ‘4차 산업혁명’이나 ‘디지털 트랜스포메이션’ 같은 용어들이 그렇고, 넓게 보면 구조화, 도식화, 시각화, 콘셉트, 인사이트 같은 단어들이 그렇다. 누구나 익숙하게 사용하지만, 누구나 다른 정의를 하고 있어서 산업마다, 회사마다, 전문가마다 조금씩 사용하는 개념이 다르다. 그러니 처음부터 스스로 자기만의 개념을 잡지 않으면 오랜 시간 우리를 괴롭힐지도 모를 일이다.

빅데이터라는 단어의 직관적 의미는 분명하다. ‘Big’과 ‘Data’의 조합이니 “큰 데이터”겠지. 물론이다. 여기서 궁금한 게 있다. “그럼, 기존의 데이터는 작았다는 것인가?” “얼마나 커야 큰 데이터야?” 나는 심지어 “왜 굳이 ‘Big’이어야 할까”라는 의문을 가진 적도 있다. ‘Large’나 ‘Great’이라는 단어가 와도 되지 않을까. 그런데, 사실 데이터가 얼마나 많은지, 얼마나 큰지는 별로 중요하지 않다. 우리가 빅데이터를 설명하기 어려운 이유는 어쩌면, ‘Big’이라는 함정에 빠져서 인지도 모르겠다. 본질은 빅데이터라는 ‘이름’이 아니라, 녀석들이 갖고 있는 ‘특징’에 있다.

기존에도 데이터가 있었는데 왜 굳이 빅데이터라는 새로운 용어가 생겼을까? 엄밀히 말하면 큰 데이터가 갑자기 빵! 하고 나타난 게 아니라, 오랜 시간 축적되어 규모가 엄청 커진 데이터를 다룰 수 있도록 기술이 진화했고, 또 보편화되었기 때문이다. 보편화는 그 기술이 누구나 이용할 수 있도록 저렴해졌다는 의미다. 누구에게 저렴해졌을까? 기업이다. 기업에 저렴해졌으니 당연히 소비자의 접근성도 높아진 것이다.

포털사이트에 ‘빅데이터’라고 검색하면 나오는 세 가지 단어가 있다. 크기(Volume), 속도(Velocity), 다양성(Variety). 초기에는 이 세 가지 단어의 앞 글자를 따서 “빅데이터의 특징은 3V다!”라고도 얘기했는데 지금은 전혀 몰라도 상관없지만, 비교적 편하게 빗대서 설명할 수 있는 개념이니 활용해 보자.

크기(Volume)야 당연히 빅데이터니까 직관적으로 이해가 된다. 기술적으로는 페타바이트, 제타바이트 등으로 크기를 설명하기도 하지만, 우리에게는 어차피 체감되지 않으니까, “사람이 일일이 다 볼 수 없을 정도로 많은” 정도로 이해하는 게 가장 손쉽다. 다음으로 속도(Velocity)가 중요한데, 데이터를 처리하고 분석할 때 속도가 느리면 굉장히 답답하다. 그래서 기업에서는 서버를 늘리기도 하고, 서버의 운영 방식을 조절해 최대한 빠르게 처리할 수 있는 기반을 만든다. 고사양 게임을 예로 들면, 설치할 수 있는 하드 디스크 드라이브 용량도 늘리고 끊기지 않게 돌아가기 위해 CPU나 램 사양을 높이는 것이다. 데이터를 분석할 때 엑셀로 하던 것을 코딩으로 하는 이유도 결국에는 처리 속도를 위해서라고 해도 과언이 아니다.

마지막으로 가장 중요한 게 다양성(Variety)이라는 개념인데, 쉽게 얘기하면 빅데이터의 종류에 대한 것이고, 기존에 데이터라고 하면 거의 ‘숫자’로 이뤄지던 것을, 이제는 ‘문자’나 ‘이미지’, ‘영상’ 등도 데이터로써 활용할 수 있게 된 것을 의미한다. 즉, 데이터의 형태가 다양해진 것이다. 숫자로 된 정보만을 데이터로 연상하던 시대에서 문자나 이미지, 영상까지 데이터로 연상하는 시대로 넘어온 것이다. 그런데 문자나 이미지, 영상 정보는 어디에 가장 많이 있을까? 온라인이다.

SNS에 실시간으로 다양한 생각(글)들과 사진, 영상을 업로드하는가 하면, 쇼핑 사이트에서 구매 제품에 대한 후기를 남기고, 다른 사람의 글에 ‘좋아요’를 누르거나 별점을 남긴다. 그래서 현존하는 빅데이터의 70% 이상은 온라인 환경에 담겨 있다고 한다.

누군가 나에게 한 마디로 빅데이터를 정의해 보라고 하면, 나는 언제나 “새로운 종류의 데이터”라고 대답한다. 빅데이터는 기존의 데이터보다 규모가 커진 측면을 넘어, 글자, 이미지, 영상 등 “기존에는 깊게 다루지 못했던” 새로운 종류의 데이터가 출현했기 때문에 붙여진 이름이다.

빅데이터가 세상에 알려지기 시작했던 초기에는, 빅데이터를 단순히 규모가 큰 데이터로만 이해해 기존의 데이터를 ‘굳이’ 스몰데이터(Small Data)라고 부르기도 했지만, 지금은 빅데이터를 새로운 데이터로 이해하는 면이 강해지기도 했고, 거의 모든 데이터가 빅데이터화 되고 있으므로 이런 구분 자체가 무의미해져가고 있는 것도 같다. 마치 스마트폰이 처음 나왔을 때, 기존의 휴대폰을 피쳐폰으로 부르다가 피쳐폰도, 스마트폰도 다 사라지고 이제는 그냥 휴대폰으로 통합된 것처럼.

빅데이터가 빅데이터라는 이름 자체로 핫 했던 시기는 이제 점차 저물고 있는 게 아닌가 싶다. 빅데이터를 미래의 석유라고 하면서 떠들썩했던 게 엊그제 같은데, 지금은 벌써 ‘한 때’가 되는 것 같다. 하긴 석유를 발견했을 때도 여기 저기 땅을 파는 사람들이 넘쳐났다가 결국 석유로 옷을 만들고 자동차를 움직이게 하는 사람들이 세상을 열지 않았던가.

빅데이터를 다룰 줄 아는 사람들이 각광받던 시기를 지나 빅데이터를 통해 다른 세상을 그리는 사람들이 각광받는 시기가 오고 있다. 이제는 인터넷이 무엇인지, 스마트폰이 무엇인지 정의 내리지 않는 것처럼 빅데이터에 대한 정의도 곧 필요 없어질 테니, 혹시 이 때문에 스트레스를 받고 있었다면 이제 그만 여기서 끝내고, 새로운 세상을 그리는데 몰두해 보는 게 이득일 것 같다.

 


박경하 엠포스 빅데이터실 실장


관련기사

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.