전체 글 415

ADsP 군집분석

군집분석 각 개체에 대해 관측된 여러 개의 변수 값들로부터 n 개의 개체를 유사한 성격으로 군집화하고 형성된 군집들 사이의 관계를 분석하는 다변량 분석기법 별도의 반응변수 필요없음 개체 간의 유사성에만 기초하여 군집 형성 이상값 탐지에 사용 심리학, 사회학, 경영학, 생물학 등 다양한 분야 이용 계층적 군집, 분리군집, 밀도-기반 군집, 모형-기반 군집, 격자-기반 군집, 커널-기반 군집, SOM 군집분석 예 트위터에서 여행에 대하여 이야기하는 사용자 그룹과 음식에 대하여 관심이 있는 사용자 그룹을 군집분성을 통하여 분류. 이렇게 분류된 고객 그룹에 대해서는 다른 방식의 마케팅 활동 가능 군집분석 특징 군집 안의 객체들은 동질적 특성을 갖도록 하고, 다른 군집은 서로 이질적이 되도록 분류하는 것이 중요 ..

ADsP 2021.05.14

ADsP 성과분석

홀드 아웃 hold out 원본 데이터를 랜덤게 두 분류로 분리하여 교차 검증하는 방법 모형의 학습 및 구축을 위한 훈련용 자료로 하나는 성과 평가를 위한 검증자료로 사용 전체 데이터 중 70% 는 훈련용으로 나머지는 검증용으로 사용 검증용 데이터의 결과는 성과 측정만을 위하여 사용 교차검증 cross validation 주어진 데이터를 가지로 반복적으로 성과를 측정하여 그 결과를 평균한 것으로 분류 분석 모형을 평가하는 방법 대표적인 교차검증으로 K-fold 부트스트랩 bootstrap 평가를 반복한다는 측면에서 교차검증과 유사하나 훈련용 자료를 반복 재선정한다는 점에서 차이가 있음 관측치를 한 번 이상 훈련용 자료로 복원추출법에 기반한다. 전체 데이터의 양이 크지 않은 경우의 모형평가에 가장 적합 이..

ADsP 2021.05.13

ADsP 앙상블 기법

나무 모형의 불안정성. - 분기변수 선택의 문제. 유사한 예측력을 보이는 분기 변수가 존재 - 분기변수 변화에 따라 모형이 크게 달라진다. 즉, 분기변수의 기준에 따라 분류되는 데이터가 전혀 달라지게 되면서 불안정성을 야기하기 때문에 안정적인 학습방법, 모형의 안정화가 필요하다. 앙상블 기법의 기본형태 부트스트랩 표본추출로 다수의 훈련자료를 생성한다. 각 훈련 자료에 대해 동일한 알고리즘으로 모형을 생성한다. 결과를 결합하여 최종 예측치를 산출한다. 배깅 bagging 주어진 자료에서 여러 개의 bootstrap 자료를 생성 각 bootstrap 자료에서 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법 부트스트랩 bootstrap : 주어진 자료에서 동일한 크기의 표본은 무작위 복원추출로 뽑은 ..

ADsP 2021.05.12

예금과 적금 그리고 대출이자 계산하기

예금과 적금 그리고 대출 이자를 계산해보자. 요즘엔 스마트폰에 계산기 어플도 많이 있지만, 간단한 계산기만 있으면 쉽게 계산할 수 있다. 단, 적금 이자는 예외다. 대신 적금은 이자를 어떻게 계산하는지 내용만이라도 알아두자. 우선 이자율에 대해서 알아둘 것이 있다. 보통 이자율을 말할 때는 기준이 되는 기간이 연(年)이다. 예를 들어 이자율이 2.3%라고 하면 연 2.3%를 말하는 거다. 그리고 예금과 적금의 차이도 알아두자. 예금의 '예'는 '맡길 예'이다. 예금은 목돈을 한 번에 맡기고 만기가 되면 원금과 이자를 찾아가는 상품을 말한다. 적금의 '적'은 '쌓을 적'이다. 조금씩 돈을 넣어서 불리고 만기에 원금과 이자를 찾아가는 상품을 말한다. 두 개는 상품 구조가 다르기 때문에 같은 이자율이라도 이자..

재테크 2021.05.11

ADsP 분류분석 성능평가

confusion matrix 데이터의 실제 클래스와 모델에 의해 예측된 클래스를 비교하는 행렬로, 각 클래스 별로 잘 분류된 포인트와 잘못 분류된 포인트의 수를 정리한 것 TP true positive : positive 로 잘 예측 FP false positive : positive 로 잘못 예측 TN true negative : negeative 로 잘 예측 FN false negative : negative 로 잘못 예측 accuracy : (TP + TN) / P+N. 전체 중에 정확하게 분류할 확률 error rate : (FP + FN) / P+N sensitivity (Recall or True Positive Rate) 민감도 : TP / (TP+FN). 원래 암일 확률에서 암이라고 판단..

ADsP 2021.05.11

ADsP 로지스틱 회귀분석

로지스틱 회귀 logistic regression 회귀모델에서 종속변수 값의 형태가 연속형 숫자가 아닌 범주형 값인 경우를 다루기 위해 만들어진 통계적 방법. 예, 품종. 모델링한 회귀모델을 이용하여 보다 편리한 방법으로 품종을 예측. 다수의 데이터에 대한 예측 : 예측 대상 데이터가 여러 개인 경우에도 유사한 방법으로 예측 단계 1. 모델을 이용한 예측 및 결과 값 출력 2. 예측 결과와 실제 결과 값 비교 3. 예측 정확도 계산 및 출력

ADsP 2021.05.10

읽어볼 만한 주식 책

허영만 작가의 '3천만원'을 읽기 시작했다. 주식을 잘 모르는 작가가 주식 투자 과정을 만화로 그리기 위해 관련 책을 마구 읽었다고 쓰여 있다. 아무 책이나 집히는 대로 읽지는 않았을 거라 생각한다. 총 36권이다. 먼저 간단히 정리해보자. 대부분 가치투자 위주의 책 들이다. 외국 고수의 책 피터 린치(전설로 떠나는 월가의 영웅), 랄프 웬저(작지만 강한 기업에 투자하라), 제시 리버모어(월 스트리트의 주식투자 바이블), 워런 버핏(워런 버핏의 주식투자 콘서트), 벤저민 그레이엄(현명한 투자자), 크리스토퍼 브라운(가치투자의 비밀) 국내 고수의 책 서준식(왜 채권쟁이들이 주식으로 돈을 잘 벌까), 최준철 외(한국형 가치투자 전략, 열정 가치투자 10년의 기록), 신진오(Value timer의 전략적 가치..

일상 2021.05.09

ADsP 의사결정나무

의사결정나무 구현단계 1. 데이터 삽입 2. 학습(train, 모형 설정을 위한 데이터) / 실험(test, 모형의 정확성을 확인하는 데이터) 데이터 설정 3. 의사결정나무 모형 설정 4. 분류실시 5. 성과분석 6. 모형수정 과대적합 over fitting training set 이 정확한 결과를 보여주기 위해서 복잡하게 모델을 만드는 것. training data 에서는 정확도가 높지만 새로운 데이터가 입력되면 잘못 예측할 수 있다. 과소적합 under fitting 모델이 너무 간단해서 정확도가 낮은 모델. training data 조차도 정확도가 떨어진다. 과대적합과 과소적합의 문제점을 해결하기 위해서는 더 많고 다양한 데이터를 확보하고 확보한 데이터로부터 다양한 특징을 찾아내야 한다.

ADsP 2021.05.09

ADsP 기술통계

기술통계 자료를 요약하는 기초적 통계 데이터 분석에 앞어 데이터의 대략적인 통계적 수치를 계산해 봄으로써 데이터에 대한 대략적 이해와 분석에 대한 통찰력을 얻기에 유리 데이터 마이닝에 앞서 데이터의 기술통계를 확인해보는 것이 좋음 범주형 자료 도수분포표 : 명목척도, 순서척도. 조사된 데이터를 도수(빈도)로 나타낸 표 바 차트 : 도수분포를 그래프로 표현 상대도수 분포표 : 도수를 총 도수로 나눈 비율의 분포표 파이차트 : 데이터 비율을 원의 각도로 변환, 원으로 표현한 방법 정량적 자료 히스토그램 : 연속된 데이터를 구간으로 나누어 도수를 계산하여 막대그림으로 그림 줄기-잎 그림 : 연속된 자료를 왼쪽을 줄기, 오른쪽을 잎으로 나타내며 데이터를 표현 상자그림 box plot : 5개 숫자요약에 기초한 ..

ADsP 2021.05.08

김중근의 1분 차트(김중근)

나는 주식 차트를 잘 모른다. 캔들 차트에 있는 시가, 종가, 고가, 저가, 음봉, 양봉 정도는 알고, 이동평균선이 며칠 동안의 주가를 평균내서 표시하는 선이라는 정도까지는 안다. 하지만 거기까지다. RSI, 볼린저 밴드, OBV.... 이런 건 찾아볼 생각도 하지 않았다. 차트를 공부한다는 건 기업의 가치를 파악하지 않고 투자하는 것이라는 생각이 들었기 때문이다. 하지만 기업의 가치란 무엇인가? 주가가 기업의 가치대로 움직이나? 결국 기업의 가치에 수렴한다고 하지만 언제? 많은 의문이 들었다. 게다가 코로나 이후 동학개미, 서학개미와 같이 많은 사람들이 주식시장에 들어오면서 전통적인 사업보고서와 재무제표 보다는 기업의 성장가능성과 미래가치에 더 많은 비중이 실리는 듯하다. 점쟁이가 예언을 하듯이 차트로..

일상 2021.05.08