일상

파이썬으로 데이터 주무르기

김파파 2022. 9. 29. 16:53

파이썬으로 실제 데이터를 어떻게 다루는지 궁금해서 도서관에서 책을 골랐다. 요즘 나온 책들은 누가 다 빌려갔는지 하나도 안 보인다. 이 책은 2017년에 나온 책이기는 하지만 내용이 마음에 들었다. 한 번 따라 해 보기로 했다. 주피터 노트북을 이용해서 실습을 할 수 있다.

 

 

이 책으로 어떤 걸 해볼 수 있나?

 

 

책은 총 8장으로 되어 있다. 1, 2장에서는 인터넷에서 다운받을 수 있는 '서울시 구별 CCTV 및 인구 현황' 데이터를 이용한다. 판다스(pandas)를 이용해서 데이터를 수정하고, Matplotlib과 Seaborn을 이용해서 시각화를 해본다.

 

 

 

 

구글 맵스(Google Maps)를 이용해 지도 위에 지역별로 데이터를 나타내는 것도 해볼 수 있다.

 

 

 

 

3장에서는 Beautiful Soup을 이용해 시카고 샌드위치 웹사이트에 있는 맛집 리스트 데이터를 가져와서 가공해본다. 가공한 데이터를 지도에 표시해볼 수 있다.

 

 

 

 

4장에서는 Selenium을 이용해본다. 서울시 구별 주유소 가격을 Opinet 웹사이트에서 가져와서 데이터를 가공하고 boxplot으로 그려본다.

 

 

5장에서는 국가통계포털에서 인구현황을 다운받아 이용한다. 우리나라 지도를 지역별로 구분해서 인구현황에 따라 색깔별로 나타내 본다.

 

 

6장에서는 중앙선거관리위원회의 선거통계시스템에 접속해 대통령 선거 개표 결과를 찾는다. 데이터를 가공하여 대선 결과 득표율을 지도에 시각화해본다.

 

 

7장에서는 Numpy를 이용해 회귀분석을 해본다. 주가 데이터를 가져와서 그래프로 그려본다.

 

 

8장에서는 한글 자연어 처리를 파이썬을 할 수 있게 해주는 KoNLPy 모듈을 설치해 본다. 이 모듈을 이용해 법률 문서 중 일부를 분석해보는 기초적인 작업을 해본다.

 

 

이 책의 장점은?

 

 

이 책은 간단한 연습용 데이터가 아닌 인터넷에서 자료를 찾아서 분석해 볼 수 있다. 이론보다는 실습 위주로 되어 있기 때문에 파이썬 이론이나 함수에 대한 자세한 설명은 없다. 하지만 일단 해본다는데 의의를 둔다면 매우 다양한 종류의 데이터를 갖고 실습해 볼 수 있다.

 

 

단점은?

 

 

하지만 2017년도 책이라는 점은 단점이다. 난 1장에서 3장까지 다 따라서 해봤다. 1장은 처음 책을 펼쳤을 때부터 막혔었다. 책에 있는 대로 코드를 그대로 따라 했는데 결과가 나오지 않았기 때문이다. 책의 버전과 내 PC에 설치된 버전이 달라서 그랬는지는 잘 모르겠다. 어쨌든 구글링으로 하나씩 에러를 해결하면서 3장까지 헤쳐 나갔다. 문제를 해결하고 책에 있는 결과와 똑같이 나오면 나름 뿌듯했다.

 

 

4장도 시작부터 막혔다. 또 에러다. 시간이 걸리더라도 구글링으로 헤쳐나갈 수는 있었겠지만, 우선은 멈추기로 했다. 나중에 기회가 되면 다시 이 책을 4장부터 실습해 보기로 했다.

 

 

이 책에 관심이 있다면 에러를 두려워할 필요는 없다. 구글에는 없는 게 없다.

 

 

당장은 AI에 관심이 더 많기 때문에 머신러닝이나 딥러닝 책을 봐야겠다.

 

 

'일상' 카테고리의 다른 글

젠리 zenly 대체 어플 추천  (2) 2023.02.05
인강 음성을 글로 변환하기  (2) 2022.10.23
프로그래머스 코딩역량인증시험  (2) 2022.09.20
AIFB Basic 시험 합격 후기 (AICE Basic)  (12) 2022.09.19
복싱공인단증 1단  (0) 2022.09.18