ADsP 36

ADsP 인공신경망

인공신경망 분석 ANN artificial neural network 생물학의 뇌는 신경세표 neuron 와 신경세포를 연결하는 시냅스 synapse 를 통해서 신호를 주고받음 이러한 신호의 교환으로 정보를 저장하고 학습 인공신경망은 뇌의 학습방법을 수학적으로 모델링한 기계학습 알고리즘 시냅스의 결합으로 네트워크를 형성한 신경세포가 학습을 통해 시냅스의 결합 세기를 변화시켜 문제를 해결하는 모델 전반을 가리킨다. 인공신경망 구조 인공신경망은 입력층 input layer, 은닉층 hidden layer, 출력층 output layer 으로 구성되어 있음 입력층에는 각각의 입력변수가 1:1로 매칭되는 뉴런이 존재 은닉층에는 입력층의 뉴련과 가중치 weight 의 결합으로 생성되는 뉴런이 존재하며, 은닉층에서..

ADsP 2021.05.18

ADsP 연관규칙

연관규칙 association rule 항목들간의 조건-결과 if-then 식으로 표현되는 유용한 패턴 이러한 패턴, 규칙을 발견해내는 것을 연관분석이라 함 흔히 장바구니 분석이라고 함 대용량 데이터 베이스에서 변수들 사이의 흥미로운 관계를 탐색하기 위해 고안된 방법 마케팅과 웹 마이닝 등 분야에서 사용 연관규칙 적용 예 맥주 구매는 과자 구매로 이어지는 경우가 많습니다. 남성이 금요일에 맥주를 구매할 때 소주를 같이 사는 경우가 많습니다. 맥주는 과자코너 다음에 배치하고 맥주와 소주는 동일한 위치에 배치합시다. 연관규칙 측정지표(반드시 출제) - 지지도 support : 상품 A 와 상품 B 를 동시에 구매할 확률 P(A∩B) 를 나타냄. 상품 A 와 B 가 동시에 포함된 거래수 / 전체 거래수 - 신..

ADsP 2021.05.17

ADsP 자기조직화지도

자기조직화지도 SOM self organizing map 코호넨이 개발한 알고리즘 비지도 신경망으로 고차원(n 차원)의 데이터를 저차원의 뉴런으로 정렬하여 지도형태로 형상화한것 입력변수의 위치관계(다차원이니까)를 그대로 보존하는 특징이 있음 즉, 실제공간의 입력변수가 가까이 있다면 지도상에서 가까운 위치에 존재하는 것을 의미 따라서 패턴발견이나 이미지 분석에 용이하다. 두 개의 인공신경망 구조로 변수와 동일하게 뉴런수가 존재하며 자료는 학습을 통해 경쟁층에 (맵)정렬하게 된다. 입력층은 입력벡터를 받는 층이고, 경쟁층은 2차원 격자구조로 입력벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층이다. 입력층의 뉴런들은 경쟁층에 각각의 뉴런과 연결되는 완전연결 형태를 띤다. - 입력층 input laye..

ADsP 2021.05.16

ADsP 가우시안 혼합모형

혼합군집 분석 (가우시안 혼합모형) 모형기반의 군집방법 데이터가 k개의 모수적 모형(정규분포 또는 다변량 정규분포 가정)의 가중합으로 표현되는 모집단 모형으로 나왔다고 가정 모수와 함께 가중치를 자료로부터 추정하는 방법 사용 k개의 모형은 군집을 의미하고 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집을 분류 혼합모형에서의 모수와 가중치의 추정(최대 가능도 추정)에는 EM 알고리즘 사용 혼합군집 모형의 장단점 장점 - 확률분포를 도입하여 군집을 수행하는 모형기반 군집방법 - 군집을 몇 개의 모수로 표현할 수 있고, 서로 다른 크기나 모양의 군집을 찾을 수 있다. 단점 - EM 알고리즘(복잡하다)을 통한 모수 추정에서 시간이 소요 - 군집 크기가 작으면 추정도가 저하 - 이상값에..

ADsP 2021.05.15

ADsP 군집분석

군집분석 각 개체에 대해 관측된 여러 개의 변수 값들로부터 n 개의 개체를 유사한 성격으로 군집화하고 형성된 군집들 사이의 관계를 분석하는 다변량 분석기법 별도의 반응변수 필요없음 개체 간의 유사성에만 기초하여 군집 형성 이상값 탐지에 사용 심리학, 사회학, 경영학, 생물학 등 다양한 분야 이용 계층적 군집, 분리군집, 밀도-기반 군집, 모형-기반 군집, 격자-기반 군집, 커널-기반 군집, SOM 군집분석 예 트위터에서 여행에 대하여 이야기하는 사용자 그룹과 음식에 대하여 관심이 있는 사용자 그룹을 군집분성을 통하여 분류. 이렇게 분류된 고객 그룹에 대해서는 다른 방식의 마케팅 활동 가능 군집분석 특징 군집 안의 객체들은 동질적 특성을 갖도록 하고, 다른 군집은 서로 이질적이 되도록 분류하는 것이 중요 ..

ADsP 2021.05.14

ADsP 성과분석

홀드 아웃 hold out 원본 데이터를 랜덤게 두 분류로 분리하여 교차 검증하는 방법 모형의 학습 및 구축을 위한 훈련용 자료로 하나는 성과 평가를 위한 검증자료로 사용 전체 데이터 중 70% 는 훈련용으로 나머지는 검증용으로 사용 검증용 데이터의 결과는 성과 측정만을 위하여 사용 교차검증 cross validation 주어진 데이터를 가지로 반복적으로 성과를 측정하여 그 결과를 평균한 것으로 분류 분석 모형을 평가하는 방법 대표적인 교차검증으로 K-fold 부트스트랩 bootstrap 평가를 반복한다는 측면에서 교차검증과 유사하나 훈련용 자료를 반복 재선정한다는 점에서 차이가 있음 관측치를 한 번 이상 훈련용 자료로 복원추출법에 기반한다. 전체 데이터의 양이 크지 않은 경우의 모형평가에 가장 적합 이..

ADsP 2021.05.13

ADsP 앙상블 기법

나무 모형의 불안정성. - 분기변수 선택의 문제. 유사한 예측력을 보이는 분기 변수가 존재 - 분기변수 변화에 따라 모형이 크게 달라진다. 즉, 분기변수의 기준에 따라 분류되는 데이터가 전혀 달라지게 되면서 불안정성을 야기하기 때문에 안정적인 학습방법, 모형의 안정화가 필요하다. 앙상블 기법의 기본형태 부트스트랩 표본추출로 다수의 훈련자료를 생성한다. 각 훈련 자료에 대해 동일한 알고리즘으로 모형을 생성한다. 결과를 결합하여 최종 예측치를 산출한다. 배깅 bagging 주어진 자료에서 여러 개의 bootstrap 자료를 생성 각 bootstrap 자료에서 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법 부트스트랩 bootstrap : 주어진 자료에서 동일한 크기의 표본은 무작위 복원추출로 뽑은 ..

ADsP 2021.05.12

ADsP 분류분석 성능평가

confusion matrix 데이터의 실제 클래스와 모델에 의해 예측된 클래스를 비교하는 행렬로, 각 클래스 별로 잘 분류된 포인트와 잘못 분류된 포인트의 수를 정리한 것 TP true positive : positive 로 잘 예측 FP false positive : positive 로 잘못 예측 TN true negative : negeative 로 잘 예측 FN false negative : negative 로 잘못 예측 accuracy : (TP + TN) / P+N. 전체 중에 정확하게 분류할 확률 error rate : (FP + FN) / P+N sensitivity (Recall or True Positive Rate) 민감도 : TP / (TP+FN). 원래 암일 확률에서 암이라고 판단..

ADsP 2021.05.11

ADsP 로지스틱 회귀분석

로지스틱 회귀 logistic regression 회귀모델에서 종속변수 값의 형태가 연속형 숫자가 아닌 범주형 값인 경우를 다루기 위해 만들어진 통계적 방법. 예, 품종. 모델링한 회귀모델을 이용하여 보다 편리한 방법으로 품종을 예측. 다수의 데이터에 대한 예측 : 예측 대상 데이터가 여러 개인 경우에도 유사한 방법으로 예측 단계 1. 모델을 이용한 예측 및 결과 값 출력 2. 예측 결과와 실제 결과 값 비교 3. 예측 정확도 계산 및 출력

ADsP 2021.05.10

ADsP 의사결정나무

의사결정나무 구현단계 1. 데이터 삽입 2. 학습(train, 모형 설정을 위한 데이터) / 실험(test, 모형의 정확성을 확인하는 데이터) 데이터 설정 3. 의사결정나무 모형 설정 4. 분류실시 5. 성과분석 6. 모형수정 과대적합 over fitting training set 이 정확한 결과를 보여주기 위해서 복잡하게 모델을 만드는 것. training data 에서는 정확도가 높지만 새로운 데이터가 입력되면 잘못 예측할 수 있다. 과소적합 under fitting 모델이 너무 간단해서 정확도가 낮은 모델. training data 조차도 정확도가 떨어진다. 과대적합과 과소적합의 문제점을 해결하기 위해서는 더 많고 다양한 데이터를 확보하고 확보한 데이터로부터 다양한 특징을 찾아내야 한다.

ADsP 2021.05.09