파이썬에 seaborn 이라는 라이브러리가 있다. 여기에 penguins 라는 데이터셋이 있다. 이 데이터를 불러와서 결측치 처리하는 실습을 해보았다. penguins 는 7열 344행으로 펭귄에 대한 데이터다.
info 를 이용해 데이터를 살펴보면 Non-Null Count에 유효한 값의 개수가 나온다. 전체 344개의 행으로 이루어져 있기 때문에 Non-Null Count 값이 344보다 작다면 그 차이는 결측치라고 볼 수 있다.
head(10) 를 이용해서 맨 위 10개의 행으로만 실습을 해보자. isnull 함수를 이용해서 결측치가 있는 값은 True로 표시해서 볼 수도 있다.
결측치는 그냥 두고 처리해도 되겠지만, 결측치가 포함된 행이나 열을 아예 지워버리고 데이터를 처리할 수도 있다. 아니면 평균이나 중앙값 같은 대표값으로 결측치를 대체할 수도 있다. 정답은 없지만 어떤 알고리즘을 이용하느냐에 따라 처리 방법을 선택하면 된다.
dropna 함수를 이용해서 결측치가 포함된 행이나 열을 삭제할 수 있다.
fillna 함수를 이용해서 결측치를 평균이나 중앙값으로 채워보자.
아래 링크를 통해 깃허브 접속해서 코랩을 열어보면 실행결과가 없는 파일이 열린다. 어떤 결과가 나올지 생각해보면서 하나씩 실행해보자.
'공부' 카테고리의 다른 글
파이썬 데이터프레임을 딕셔너리로 변환하기 (0) | 2022.11.09 |
---|---|
파이썬 기초 통계량 구하기와 바차트, 파이차트 그리기 (0) | 2022.11.07 |
파이선 넘파이 기초 실습 (0) | 2022.10.30 |
현장에서 바로 써먹는 데이터분석 with 파이썬 (1) | 2022.10.24 |
코딩 부트캠프 with 파이썬 (0) | 2022.09.25 |