1. 데이터의 정의
데이터란 무엇인지 부터 생각해보자. 공식수험서에는 옥스퍼드 대사전의 정의를 빌려 데이터를 '추론과 추정의 근거를 이루는 사실'이라고 말한다. 이론을 세우는데 근거가 되는 사실 즉, 자료를 뜻한다. 여기서 두 가지의 특성을 뽑아낼 수 있다. '객관적 사실 raw material (존재적 특성)'과 '근거 basis (당위적 특성)'다. 데이터 분석을 하는데 있어서 가장 기초가 되는 자료를 데이터라고 부르며 데이터는 객관적 사실을 기반으로 분석의 결과를 뒷받침 해주는 근거인 셈이다. 존재 그 자체로는 의미가 없고 다른 것과의 상호관계를 통해 가치를 갖는다.
데이터, 정보, 지식 등의 단어는 얼핏 비슷해 보인다. 이를 구분하기 좋게 만들어 놓은 피라미드가 있다. DIKW 피라미드인데 누가 언제 만들었는지는 모르기 때문에 인터넷에 검색해봐도 누가 만들었다는 말이 없다.
2. DIKW 피라미드
DIKW 는 순서대로 data, informaion, knowledge, wisdom 의 첫 글자다. data 는 위에서 정의한 것처럼 관찰하거나 측정해서 수집한 가공하기 전의 자료를 말한다. information 이란 데이터 중에서 사용자의 필요에 의해 가공한 데이터를 말한다. knowledge 란 information 에서 얻어낸 결과물이다. wisdom 이란 knowledge 를 바탕으로 도출되는 창의적 아이디어다. 가장 많이 드는 사례가 마트의 물건 가격 비교다.
wisdom | 창의적 아이디어 연필 이외에 다른 상품도 A 마트가 쌀 것이다. |
knowledge | 결과물 연필을 사려면 A 마트로 가는 것이 유리하다. |
informaion | 의미를 부여한 데이터 A 마트 연필 가격 < B 마트 연필 가격 |
data | 물건 가격 자료 A 마트 연필 가격, B 마트 연필 가격 ... |
3. 데이터의 종류
데이터는 양적(quantitative, 정량적, 수치형, 정형) 데이터와 질적(qualitative, 정성적, 범주형, 비정형) 데이터로 나눌 수 있다. 양적 데이터란 수치, 도형, 기호처럼 양(수치)으로 명확하게 나타낼 수 있으며 사칙연산이 가능한 데이터를 말한다. 질적 데이터란 언어와 문자처럼 값으로 나타내기 어려우며 범주로 나눌 수 있는 데이터를 말한다.
양적 데이터는 사칙연산이 가능하며 다시 연속형 continuous 과 이산형 discrete 으로 나눈다. 연속형 데이터는 시간이나 길이처럼 값이 연속되는 데이터이다. 반면 이산형 데이터는 차량 대수나 사과의 개수처럼 연속된 값이 아니며 소수점이 없다.
질적 데이터는 범주형 데이터라고도 불린다. 값의 수학 연산이 의미가 없으며 순서형 ordinal 과 명목형 nominal 으로 나눈다. 순서형은 랭킹이나 등급처럼 서열이 정해져 있는 데이터를 말한다. 명목형은 성별과 같이 서열이 없고 카테고리로 분류가 가능한 데이터를 말한다.
4. 암묵지와 형식지
마이클 폴라니(1891~1976, 헝기리 출신의 화학자이자 철학자)는 지식을 암묵적 tacit 지식 knowledge 과 형식적 explicit 지식 knowledge 으로 나누었다.
암묵지란 자동차 운전방법과 같이 말로 표현하기 어렵지만 학습과 체험을 통해서 개인이 습득한 지식을 말한다. 암묵지를 tacit knowledge 라고 하는데 tacit 은 '무언의'라는 뜻의 영단어다.
형식지란 말로 전달할 수 있는 지식을 말한다. 형식지를 explicit knowledge 라고 하는데 explicit 이란 '명백한' 이라는 뜻을 갖고 있다. 말로 전달할 수 있기 때문에 문서나 매뉴얼로 만들 수 있고 여러 사람이 공유할 수 있다. 암묵지가 운전면서 실기시험이라면 형식지는 운전면허 필기 수험서다.
요즘엔 인공지능이나 빅데이터와 같은 단어가 주류를 이루지만 기업들에게 지식경영이 화두가 된 적이 있었다. 일을 잘 하는 직원의 노하우를 매뉴얼로 만들어서 모든 직원이 일을 잘하게 만들고 싶은 게 기업이다. 이렇게 하기 위해서 지식을 암묵지와 형식지로 구분하고 이를 순환시키는 과정을 지식 순환이라고 한다. 간단한 예를 들어보자.
ㄱ. 일을 잘하는 직원은 내면화된 본인만의 노하우를 갖고 있다. (내면화 internalization)
ㄴ. 그 노하우를 찾아내서 남들도 다 할 수 있는 공통 요소를 뽑아낸다. (공통화, 사회화 socialization)
ㄷ. 위에서 뽑아낸 내용을 구체적인 글로 표현한다. (표출화, 외부화 externalization)
ㄹ. 이렇게 모인 문서들을 체계적으로 종합한다. (연결화, 종합화 combination)
ㅁ. 완성된 형식지를 직원들에게 전파하여 학습시킨다. (내면화)
ㅂ. ㄱ, ㄴ, ㄷ, ㄹ, ㄱ, ㄴ, ㄷ, ㄹ, ㄱ... 내면화, 공통화, 구체화, 체계화가 계속 반복되어 모든 직원들이 업그레이드 된다.
'ADsP' 카테고리의 다른 글
ADsP 122 빅데이터의 가치와 활용 (0) | 2021.03.08 |
---|---|
ADsP 121 빅데이터의 이해 (0) | 2021.03.07 |
ADsP 113 데이터베이스 활용 (0) | 2021.03.07 |
ADsP 112 데이터베이스의 정의와 특징 (0) | 2021.03.06 |
ADsP 시험 내용 및 접수 그리고 수험서 (0) | 2021.03.05 |