전체 글 437

ADsP 기술통계

기술통계 자료를 요약하는 기초적 통계 데이터 분석에 앞어 데이터의 대략적인 통계적 수치를 계산해 봄으로써 데이터에 대한 대략적 이해와 분석에 대한 통찰력을 얻기에 유리 데이터 마이닝에 앞서 데이터의 기술통계를 확인해보는 것이 좋음 범주형 자료 도수분포표 : 명목척도, 순서척도. 조사된 데이터를 도수(빈도)로 나타낸 표 바 차트 : 도수분포를 그래프로 표현 상대도수 분포표 : 도수를 총 도수로 나눈 비율의 분포표 파이차트 : 데이터 비율을 원의 각도로 변환, 원으로 표현한 방법 정량적 자료 히스토그램 : 연속된 데이터를 구간으로 나누어 도수를 계산하여 막대그림으로 그림 줄기-잎 그림 : 연속된 자료를 왼쪽을 줄기, 오른쪽을 잎으로 나타내며 데이터를 표현 상자그림 box plot : 5개 숫자요약에 기초한 ..

ADsP 2021.05.08

김중근의 1분 차트(김중근)

나는 주식 차트를 잘 모른다. 캔들 차트에 있는 시가, 종가, 고가, 저가, 음봉, 양봉 정도는 알고, 이동평균선이 며칠 동안의 주가를 평균내서 표시하는 선이라는 정도까지는 안다. 하지만 거기까지다. RSI, 볼린저 밴드, OBV.... 이런 건 찾아볼 생각도 하지 않았다. 차트를 공부한다는 건 기업의 가치를 파악하지 않고 투자하는 것이라는 생각이 들었기 때문이다. 하지만 기업의 가치란 무엇인가? 주가가 기업의 가치대로 움직이나? 결국 기업의 가치에 수렴한다고 하지만 언제? 많은 의문이 들었다. 게다가 코로나 이후 동학개미, 서학개미와 같이 많은 사람들이 주식시장에 들어오면서 전통적인 사업보고서와 재무제표 보다는 기업의 성장가능성과 미래가치에 더 많은 비중이 실리는 듯하다. 점쟁이가 예언을 하듯이 차트로..

일상 2021.05.08

ADsP 분류분석

분류분석 데이터의 실체가 어떤 그룹에 속하는지 예측하는데 사용하는 데이터마이닝 기법 특정 등급으로 나눈다는 점에서 군집분석과 유사하나 각 계급이 어떻게 정의되는지 미리 알아야 함 분류 classification 객체를 정해놓은 범주로 분류하는데 목적 고객관계마케팅 CRM 에서는 고객행동예측, 속성파악에 응용 다양한 분야에서 활용가능 분류모델을 개발할 때는 train data, test data 구분하여 모델링함. 7:3, 8:2 등으로 나누어 훈련해서 최적 모델 확정지은 후 테스트 데이터로 검증 훈련용 데이터와 테스트 데이터간 편차가 없어야 하며 성능은 test 가 다소 낮게 나오는 경향 분류를 위해 사용되는 데이터 마이닝 기법 로지스틱 회귀, 최근접 이웃 nearest neighborhood, 의사결정..

ADsP 2021.05.07

ADsP 데이터 마이닝 개요

데이터 마이닝 대용량 데이터에서 의미있는 데이터 패턴을 파악하거나 예측을 위해 데이터를 자동으로 분석해 의사결정에 활용하는 방법 정보를 찾는 방법론에 따라 인공지능, 의사결정나무, K-평균군집화, 연관분석, 회귀분석, 로짓분석, 최근접 이웃 등 분석 대상이나 활용목적, 표현방법에 따라 사용하는 분야 매우 다양 : 시각화 분석, 분류, 군집화, 예측 데이터마이닝 도구가 매우 다양하고 체계화되어 있어 도입환경에 적합한 제품 선택 및 활용이 가능 데이터 마이팅을 통한 분석 결과의 품질은 분석가의 경험과 역략에 따라 차이. 분석대상의 복잡성이나 중요도가 높으면 풍부한 경험을 가진 전문가에게 의뢰할 필요 통계분석과 데이터 마이팅의 차이 가설이나 가정에 따른 분석이나 검정증, 통계학 전문가가 사용하는 도구가 아님 ..

ADsP 2021.05.06

습관의 디테일(Brian Jeffrey Fogg)

지금의 나에게 만족하는 사람이 얼마나 될까? 있긴 할까? 더 나은 사람이 되고 싶다. 솔직히 말해 더 열심히 사는 사람이 되어 돈도 더 많이 벌고 싶다. 꿈을 불어넣어주는 책, 아침에 일찍 일어나라는 책, 작은 습관으로 시작하라는 책... 시중에는 더 나은 사람으로 될 수 있다는 꿈과 희망을 주는 책들이 많다. 하지만 꿈꾸는 삶을 향한 열정은 피곤한 일상에 곧 파묻혔다. 아침에 일찍 일어나면 뭔가 많이 할 것 같지만 일어나는 게 어렵다. 작은 습관으로 시작하는 것도 좋았지만 곧 잊혀졌다. 변하려면 밥 먹고 양치질 하고 잠자듯이 큰 노력을 들이지 않고 습관적으로 꾸준히 할 수 있어야 한다고 생각했다. 피곤해도 반복할 수 있어야 했고, 일상 생활의 루틴에 녹여놔야 했다. 하지만 어떻게? 답을 찾지 못한채 그..

일상 2021.05.05

은행 대출금리와 우대항목

"우리은행이 전세대출 금리 우대 항목을 절반 이상 없앤다"는 기사(2021.5.5. 매일경제)가 나왔다. 오늘은 대출금리에 대해 글을 써보려 한다. 우리은행 홈페이지에서 전세대출을 하나 검색해봤다. 상품의 금리보기에 아래와 같은 설명이 나온다. 상품설명을 클릭하니 아래와 같이 우대금리에 대한 설명이 나온다. 내가 내야 할 이자는 대출금리로 계산한다. 대출금리는 기준금리와 가산금리의 합으로 결정된다. 위 상품의 경우 코픽스(COFIX)금리를 기준금리로 하고 있으며 작성일 기준으로 0.84%이다. 여기에 가산금리인 1.99%를 더해서 2.83%의 대출금리가 결정된다. 우대금리 항목에 해당하는 항목이 있으면 최대 0.2%의 금리를 낮춰서 2.63%의 금리로 대출을 받을 수 있다. 작은 글씨로 개인마다 적용되는..

재테크 2021.05.05

ADsP 시계열분석과 차원축소

시계열 자료 시계열 : 시간의 흐름에 따라 관찰된 값 시계열분석은 시간의 흐름에 따라 데이터가 따르는 패턴을 찾는 방법이다. 시계열분석을 위해서는 패턴을 확인하기 위해 그래프를 그려서 패턴 존재 유무를 먼저 확인한다. 시계열은 주파수 영역 frequency domain 정보와 시간영역 time domain 정보를 가지고 있음. 주파수 영역 정보 : 주기적으로 반복되는 정보 시간영역 정보 : 시간에 따라 전개되는 정보 시계열의 주파수 정보 어떤 주기의 변동이 존재하는지 여부 확인 주기도 periodogram : 시계열이 어떤 주기들을 갖고 움직이고 있는지를 나타내주는 도표 주기도에서 특정 주파수에 큰 값이 나타나면 시계열에 해당 주파수(또는 주기)의 변동이 큰 것을 알 수 있음 스펙트럼 밀도함수(스펙트럼)..

ADsP 2021.05.05

ADsP 회귀분석

회귀분석 regression analysis 독립변수와 종속변수의 관계식을 추론하여 두 변수간의 인과관계를 파악하는데 주 목적이 있음. 상관분석은 변수 사이의 단순한 관계만을 보여주고 인과관계를 파악할 수 없음. 단순회귀분석 simple regression analysis 두 개의 변수 중 다른 변수에 영향을 주는 독립변수 x 가 영향을 받는 종속변수 y 에 미치는 영향력의 크기를 측정. 더우면 x 아이스크림 판매량 y 이 늘어난다. 종속변수 x 가 독립변수 y 인 단순회귀분석의 경우 선형관계를 가정할 때 다음과 같은 모형을 이룬다. 이러한 식을 모집단의 회귀모형이라고 한다. 실제 관측된 값과 추정된 값의 차이를 잔차 residual 라고 한다. 잔차의 합은 0 이다. 에러의 평균은 0 이다. 최소자승법..

ADsP 2021.05.04

ADsP 분산분석

분산분석의 개념 두 개 이상의 평균(보통 3개 이상)을 동시에 비교하고자 할 때 분산분석 analysis of variance, ANOVA 을 이용한다. 분산분석을 위한 세가지 가정 1. 독립성 : 종속변수에 대한 각 표본의 관측치는 독립적이다. 2. 정규성 : 모집단들은 모두 정규분포를 따른다. 3. 등분산성 : 모집단들은 모두 동일한 분산을 가지고 있다. 일원분산분석 one way ANOVA 종속변수 평균 차이에 대한 단일요인 독립변수에 의한 분산분석 검정 방식 총편차 = 집단간 편차 + 집단내 편차 편차 : 평균과 관측치의 차이 0 가설 H0 : 기각시키고 싶은 가설 1 가설 H1 : 내가 주장하고 싶은 가설. 대립가설 총변동 SST = 집단간 변동 SSB + 집단내 변동 SSW (between, ..

ADsP 2021.05.03

ADsP 확률 및 확률분포

확률 특정 사건이 일어날 가능성의 척도 - 표본공간 : 나타날 수 있는 모든 결과들의 집합 - 원소 : 나타날 수 있는 개개의 결과 사건 : 표본공간의 부분집합 - 독립사건 : 한 사건의 발생여부와 관계없이 다른 사건이 발생. 교집합이 존재할 수 있음. A사건이 발생했을 때 B사건이 발생할 확률 P(B|A) = P(B) - 배반사건 : 교집합이 존재하지 않음 조건부 확률과 독립사건 확률이 0 이 아닌 사건 A가 일어났을 때 사건 B 가 일어날 확률을 사건 A가 일어났을 때의 사건 B 의 조건부 확률이라 하고 P(B|A) 와 같이 나타낸다. - 조건부 확률의 계산 P(B|A) = P(A∩B) / P(A), 단 P(A) ≠ 0. 확률변수 random variable 특정 값이 나타날 가능성이 확률적으로 주어..

ADsP 2021.05.02