1. 빅데이터 big data 의 정의
빅데이터는 다양하게 정의된다.
크기 관점에서 빅데이터는 데이터의 수용 한계를 초과하는 규모의 데이터라고 할 수 있다.
분석 관점에서 빅데이터는 대규모 데이터로부터 가치있는 자료를 추출하도록 수집, 발굴, 분석을 지원하는 기술 및 설계도(아키텍처)라고 볼 수 있다.
변화(가치) 관점에서 빅데이터는 대용량 데이터를 통해 기존의 데이터에서는 얻을 수 없었던 새로운 가치를 발견하여 사회에 영향(변화)을 끼치는 일이라고 볼 수 있다.
2. 빅데이터의 특징 : 3V volume, variety, velocity
데이터의 양 volume : 모든 데이터를 수집하기에 양이 많다.
데이터의 다양성 variety : 정형, 비정형 데이터를 모두 분석한다. 페이스북 댓글, 유튜브 영상 등
데이터의 속도 velocity : 데이터 수집과 처리 속도가 매우 빠르다.
3. 빅데이터의 영향
새로운 데이터 처리 기술, 저장 및 분석 기술, 클라우드 등의 기술이 빠르게 발전하고 있다. 이에 따라 과거에는 수집하지 못했거나 저장할 수 없었던 대용량 volume 의 데이터를 유형의 구분없이 variety 빠르게 velocity 분석할 수 있게 되었다. 이로 인해 데이터 사이언티스트와 같은 인재가 필요해지고 데이터 기반의 조직이 생겨나고 있다. 데이터의 변화가 기술의 변화를 이끌고 인재 및 조직의 변화로 점차 확대되고 있다.
4. 빅데이터의 역할
빅데이터에 대한 기대를 다양하게 비유하여 표현하곤 한다. 석탄과 철이 산업혁명에서 중심에 있었듯이 4차 산업혁명에는 빅데이터가 중심에 있을 것이다. 현재 인류의 주력 에너지원인 원유에 비유하기도 한다. 빅데이터는 공용으로 활용되기 때문에 플랫폼에 비유될 수도 있다. 현미경이 발명되고 보지 못했던 영역을 보게된 것에 비유하여 빅데이터를 렌즈에 비유하기도 한다. 아래는 렌즈 비유의 사례 중 하나인 구글의 N-gram 뷰어 화면이다.
5. 빅데이터로 인한 변화
정보는 넘쳐나는데 정보관리 시스템이 이를 따라가지 못하게 되면 필요한 내용을 사전에 정해놓고 정보를 수집하게 된다. 관리 비용을 줄여야 하기 때문이다. 기술의 발전으로 넘쳐나는 정보는 오히려 소중해지고 있다. 클라우드 컴퓨팅 기술 발달로 모든 데이터를 수집하고 저장해도 비용이 적게 들어간다. 빅데이터를 이용해 새로운 통찰을 얻어낼 수 있게 되었다. 우리는 사전처리 시대에서 사후처리시대로 넘어왔다.
데이터를 수집하고 저장하는데 비용이 문제가 되지 않고 있다. 데이터를 분석하는 기법도 점점 발전하고 있기 때문에 굳이 표본조사를 할 필요가 없다. 전수조사를 통해 표본조사에서는 얻을 수 없는 패턴을 찾을 수 있다.
빅데이터의 말 그대로 질보다 양으로 승부할 수 있다. 수집한 데이터의 양이 늘어날 수록 오류 데이터는 대세에 영향을 끼치기 어렵다.
인과관계 분석은 데이터를 얻는데 드는 비용이 매우 비싼 모델이다. 표본으로 모집단을 분석하고 원인과 결과를 찾아야 하기 때문이다. 기업은 상관관계 분석으로 충분하다. 패턴만 보이면 그걸로 충분하다. 특정 상황이 생기면 이에 상응하는 행동을 하도록 유도하거나 추천하면 된다. 인과관계가 중요하지 않다는 말은 아니다. 하지만 인과관계 보다는 상관관계가 주는 통찰에 더 무게가 실리고 있다.
(참고)
데이터 크기 단위 : 기가 < 테라 < 페타 < 엑사 < 제타
1 zetta byte = 1024 exa byte
1 exa byte = 1024 peta byte
1 peta byte = 1024 tera byte
1 tera byte = 1024 giga byte
'ADsP' 카테고리의 다른 글
ADsP 131 데이터 사이언스와 전략 인사이트 (0) | 2021.03.08 |
---|---|
ADsP 122 빅데이터의 가치와 활용 (0) | 2021.03.08 |
ADsP 113 데이터베이스 활용 (0) | 2021.03.07 |
ADsP 112 데이터베이스의 정의와 특징 (0) | 2021.03.06 |
ADsP 111 데이터와 정보 (0) | 2021.03.06 |