빅데이터에 대해 사람들이 가장 많이 물어보는 것 중 하나가 "도대체 얼마나 커야 빅데이터인가요?"인 것 같다. 실제로 지난 8월 미국의 학술행사에 참석하여 발표를 했을 때도 이런 질문을 받았다. 정말 얼마나 커야 빅데이터라고 할 수 있을까? 한마디로 답변하자면 "그 때 그 때 달라요~"이다.

빅데이터를 정의할 때 3V+1C, 또는 4V+1C라는 것을 가장 널리 사용하고 있다. 3V는 Volume, Velocity, Variety이고 여기에 데이터의 불확실성인 Veracity가 추가되면 4V가 된다.

C 는 Complexity이다. 즉, 어떤 데이터가 빅데이터냐 아니냐는 단순히 그 크기만 가지고 결정할 수 없다는 말이다. 이는 빅데이터라는 어휘의 탄생에서도 엿볼 수 있다.

빅데이터라는 용어는 1997년 10월 미항공우주국의 연구원인 Michael Cox와 David Ellswoth가 IEEE 8th conference on visualization에 게재한 논문에서 처음 사용하였다. 단순히 데이터가 많아서가 아니라, 데이터의 용량이 너무 커서 일반적으로 사용하던 HW와 SW를 사용할 수 없게 되었고, 이러한 문제를 Big Data문제라고 부른 것이다. 즉, 빅데이터는 데이터 자체가 아니라 기존에 다루던 데이터에 비해 용량이나 복잡성이 너무 큰 데이터로 인해 야기되는 문제를 의미한다고 볼 수 있다.

실제로 다양한 영역의 사람들이 빅데이터를 이야기 할 때 서로 다른 규모의 데이터를 이야기 하는 것을 볼 수 있다.

가속기를 활용하는 고에너지 물리나 고성능 천체 망원경을 활용하는 천문학 분야의 경우 한 번의 장비 구동에서 수 테라 (1012)바이트에서 수 엑사(1018) 바이트까지의 정보가 얻어진다. 그러나 기업의 판매 데이터나 도서관의 문헌 데이터베이스의 경우 오랜 기간 축적하여도 수십억 건의 용량을 넘지 않는다.

빅데이터는 우리가 분석하여야 할 데이터의 분량이나 복잡도가 현재 우리가 보유하고 있는 장비와 기술만을 활용 할 때 너무 오랜 시간이 걸리거나, 더 심한 경우 분석이 불가능해서 대부분의 데이터를 활용할 수 없게 되는 경우를 의미한다.

이 때에는 빅데이터 문제 해결에 사용되는 다양한 기술들, 즉, 문제의 병렬화나 데이터 병렬화를 통해 빠른 시간에 문제를 풀 수 있게 해 주는 기술이나 시각화 기법을 통해 직관적으로 데이터의 성격을 파악할 수 있도록 하여 주는 기술 등을 적용하여 문제를 해결하여야 한다.

실제로 KISTI가 빅데이터 처리 기술을 활용해 극지 연구소와 함께 위성 영상 분석 프로그램을 개선한 사례를 보면, 데이터와 태스크의 병렬화 기법을 적용하여 기존에 극지연구소에서 사용하던 방법에 비해  1093.31%의 성능 향상을 보인 바 있다. 또한 슈퍼컴퓨터를 활용하여 기존의 컴퓨팅 장비로는 불가능했던 3750개의 입자에 대한 우주 거대 구조 시뮬레이션을 수행하기도 했다.

과학기술의 발전은 데이터의 획득 및 활용 방법에 의해 진화되어 왔다. 수천년 전 1세대 R&D에서 데이터는 관찰의 기록이었다. 자연 현상을 관찰하여 기록하고 탐구하는 것이 연구의 처음이자 마지막이었다.

이렇게 데이터가 축적되자 데이터로부터 세로운 이론을 도출해내는 2세대 R&D가 발생하게 되었다. 2세대 과학기술 연구는 탐구된 경험을 바탕으로 이 데이터를 설명할 수 있는 이론을 도출해 내는 것이 주요한 연구 사조를 이룬다.

스승인 티코 브라헤의 정밀한 천문 관측 데이터를 분석하여 지구가 태양을 '원'이 아닌 '타원'형 궤도를 돌고 있다는 것을 밝혀낸 케플러의 법칙이 대표적인 예이다. 컴퓨터가 발전하고 연구에 활용되기 시작하면서 데이터로 가설·이론·현상을 설명하는 3세대 R&D가 활성화 되었다.

이론적으로 도출된 모델을 컴퓨터 시뮬레이션을 통해 입증하고, 발전시키는 것이다. 지금은 방대한 분량의 데이터, 서로 다른 영역의 데이터를 융합하여 새로운 과학적 발견을 추구하는 4세대 R&D가 새로운 연구 사조로 각광받고 있다.

이른바 Data-driven 또는 Data-intensive 연구라고 불리는 이 연구는 문제의 정의를 내리고 이 문제를 풀기 위한 데이터를 수집하는 기존의 연구개발 방식을 완전히 뒤집어 방대한 데이터의 바다에서 연구가 출발하여 다학제적 협력과 컴퓨터를 활용한 데이터 분석을 통해 인류의 난제를 풀어내려는 방식이다. NSF에서는 이를 과학의 대변환이라고 명명하였다. 과학기술 빅데이터는 이런 변환점의 중심에 서 있다.

KISTI는 앞으로도 기존의 방법론과 보유 컴퓨팅 장비만으로 해결하기 어려운 크기와 복잡성을 가진 과학기술 빅데이터로 고민하는 여러 분야의 연구자들을 도와 보다 빨리, 보다 정확히, 보다 넓은 시야를 가지고 문제를 바라볼 수 있는 파트너가 될 것이다.

현재는 정보의 홍수시대입니다. IDC의 '디지털유니버스 보고서'에 의하면 올 한해동안 생성되어 유통된 디지털 데이터의 양은 2.8 제타바이트에 달한다고 합니다. 1제타바이트를 책으로 만들어 쌓으면 지구에서 태양까지 1억5000만km를 37번 왕복할 수 있는 양이니 그 규모가 얼마나 큰지 짐작할 수 있을 것입니다.

'한선화의 정보 프리즘'에서는 전세계에서 일어나는 흥미로운 사건, 사실을 데이터를 통해 재조명 해줄 예정입니다. 한 박사는 투명하게 보이는 햇빛이 프리즘을 통과하면 아름다운 무지개로 바뀌듯이 사물과 사건을 보는 또 다른 창이 되길 기대하고 있습니다.

한선화 박사는 한양대학교 화학공학과, 성균관대학교 정보공학과를 졸업하고, 카이스트에서 전산학을 전공했습니다. 1997년부터 한국과학기술정보연구원에서 근무하며 국내외 과학기술 정보와 관련 정보기술 개발을 총괄하는 정보통입니다. 현재 국가과학기술위원회 첨단융합분과 전문위원으로 활동 중이며, 대한여성과학기술인회 부회장, 과실연 대전·충청지역 대표 등 활발한 대외 활동도 겸하고 있습니다.
 

 

저작권자 © 헬로디디 무단전재 및 재배포 금지