1. 빅데이터의 가치
빅데이터에서 특정 데이터의 가치를 산출하는 일은 어렵다. 데이터를 가공하고 다양한 목적으로 사용하는 일이 많아지면서 특정 데이터를 누가 언제 어디서 어떤 목적으로 사용했는지 파악하기 어렵다. 기존에 없는 새로운 가치를 창출한 경우 그 가치를 측정하는 것도 어렵다. 분석기법이 발달하면서 기존에는 쓸모없어 보이던 데이터도 훌륭한 자료가 될 수 있기에 데이터의 가치를 측정하는 것은 더욱 어려워졌다.
2. 빅데이터의 활용
빅데이터의 활용은 정부, 기업, 개인 모두의 생활을 스마트하게 만들었다. 정부는 빅데이터를 활용해 사회 변화를 추정하고 각종 정보를 추출할 수 있다. 이와 같은 환견탐색을 통해 상황을 분석하고 미래를 대비할 수 있다. 기업은 빅데이터를 활용해 경쟁력을 높이고 생산성을 향상시키는 혁신을 이룰 수 있다. 개인 역시 빅데이터를 활용하는 사례가 늘고 있다.
3. 빅데이터 활용 테크닉
데이터분석전문가가이드 공식수험서(한국데이터진흥원)에 따르면 총 7가지의 테크닉을 제시하고 있다.
1) 연관 규칙 학습 association rule learning : 변수들 간에 주목할 만한 상관관계를 찾아내는 방법을 말한다. A 물건을 사는 사람들이 B 물건도 많이 구매하는지를 알아보는 방법이다.
2) 유형분석 classification tree analysis : 사건이 속하게 될 범주를 찾아내는 일이다. 어떤 특성을 가진 집단에 속하는가? 에 대한 답을 찾는다.
3) 유전 알고리즘 genetic algorithms : 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법이다. 의류 비즈니스에서 많이 활용된다.
4) 기계학습 machine learning : 훈련 데이터로부터 학습된 알려진 특성을 활용해 예측하는 일이다.
5) 회귀분석 regression analysis : 독립변수(원인)와 종속변수(결과)의 변화를 파악하여 두 변수간의 관계를 파악하는 방법이다. 변수가 많아지고 있어서 변수를 줄이는 연구도 진행되고 있다.
6) 감정분석 sentiment analysis : 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 방법이다.
7) 소셜 네트워크 분석 social network analysis : 사회관계망 분석(SNA) 이라고도 한다. 영향력이 있는 오피니언 리더를 찾아낼 수 있으면 고객들 간의 사회적 관계 파악할 수 있다.
4. 위기요인과 통제방안 3 : 사생활 침해, 책임 원칙 훼손, 데이터의 오용
빅데이터 시대엔 장점만 있는 것은 아니다. 사행활 침해, 책임원칙 훼손, 데이터의 오용 등과 같은 부작용도 생긴다. 이런 단점을 어떻게 통제할 수 있을까?
1) 사생활 침해
개인정보가 노출될 수 있는 기기들이 점점 많아지고 개인정보의 가치가 늘어나고 있어 사생활 침해에 대한 논란은 끊이지 않고 있다. 또한 특정데이터가 본래 목적 외에 다른 목적으로 활용될 가능성이 있다. 이는 사행활 침해를 넘어서 사회 경제적인 위협이 될 수 있다.
이를 통제하기 위해서는 개인정보 이용에 대한 동의를 받는 것으로 그치면 안 된다. 개인정보를 사용하는 사용자에게 개인정보 사용으로 인한 피해에 대한 책임을 지도록 해야 한다. 이는 개인정보 사용자들에게 보다 적극적인 개인정보 보호 장치를 마련하도록 하는 효과가 있다.
2) 책임원칙 훼손
빅데이터의 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 수 있다. 영화 마이너리티 리포트를 보면 예측 알고리즘으로 범죄가 발생하기 전에 사람을 체포한다. 잠재적 위험으로 분류되는 특정 집단에 속한다는 이유로 처벌을 받거나 피해를 보게 될 수도 있는 것이다. 이는 민주주의의 원칙을 훼손하는 일이다.
이를 막기 위해서는 성향이나 예측을 통한 처벌을 하면 안 된다. 실제 일어난 결과에 따른 책임을 지우는 책임원칙을 지켜나가야 한다.
3) 데이터의 오용
빅데이터로 인한 통찰은 언제나 옳을 수 없다. 잘못된 결론에 이르러 직접적인 손실을 볼 수도 있다. 경험에 의한 결과를 예측하고 데이터를 다룸으로써 의도된 방향으로 빅데이터를 사용할 수도 있다. 알고리즘에 어떤 의도를 반영한다면 그 결과 역시 의도된 결과를 보일 수 밖에 없다.
데이터의 오용을 막기 위해서는 데이터 알고리즘에 대한 접근권을 허용해야 한다. 또한 누가 언제 어떻게 데이터에 접근했는지 알 수 있도록 객관적인 인증 방법을 마련하는 것도 필요하다.
5. 빅데이터 활용 3요소
빅데이터 활용에 필요한 기본적인 세 가지 요소는 데이터, 기술, 인력이다.
자동차, 의류, 신발 등에 부착되는 센서, 주위의 카메라와 CCTV, 포털사이트의 댓글, 로그인 이력 등 우리가 움직이고 생각하는 모든 것들이 데이터로 수집되고 축적되고 있다.
빅데이터 분석 알고리즘의 진화 속도도 매우 빨라지고 있다. 빅데이터는 알고리즘이 성장하는 영양분 역할을 하기 때문이다. 이는 인공지능의 발전과도 직결된다.
빅데이터와 인공지는 등의 기술 발전은 해당 분야의 인력을 필요로 한다. 데이터 사이언티스트, 알고리즈미스트 등의 역할이 증대될 것이다.
'ADsP' 카테고리의 다른 글
ADsP 311 데이터 분석 기획의 이해 (0) | 2021.03.09 |
---|---|
ADsP 131 데이터 사이언스와 전략 인사이트 (0) | 2021.03.08 |
ADsP 121 빅데이터의 이해 (0) | 2021.03.07 |
ADsP 113 데이터베이스 활용 (0) | 2021.03.07 |
ADsP 112 데이터베이스의 정의와 특징 (0) | 2021.03.06 |