2021. 12. 4. 03:15ㆍ파이썬/데이터 분석
가끔 날짜가 포함된 데이터를 가져올 때 중간에 빠진 날짜를 확인하는 것에 난항을 겪곤 하는데요.
바로 알아보시죠!

자 dataset폴더에 있는 파일들의 이름을 가져오는 코드 입니다.
비트코인 데이터와 실업률 데이터를 합쳐보며 진행해보겠습니다.

데이터를 가져오도록 하겠습니다.

데이터를 보니 이렇게 생겼군요. 날짜 열이 string이기 때문에 datetime type으로 바꿔주도록 하겠습니다.

오호라 잘 되 있어요.

내림 차순으로 정렬해주고 필요한 열만 가져오겠습니다.

자 시계열 데이터 답게 날짜열을 index로 바꿔주고 저기 resample함수가 중요합니다.
datetimetype이 index일 때만 작동하는 함수로 (아마..) parameter로 'D'(day, 일)를 넣어주면 비어있는 날짜(day, 일)를 채워주게 됩니다.


하지만 이 데이터에 결측치는 없었습니다.. 비어있는 날짜가 없다는 얘기죠. 비어있는 날짜가 있는 데이터 셋을 가져오겠습니다.

자 데이터를 가져옵니다.

자 이딴 식으로 가져옵니다.

전처리 부분의 코드입니다.

자 필요한 열만 가져와줍시다.

그리고 날짜를 datetime type으로 바꿔주고 format을 현재 데이터에 맞게 수정해줍니다.

아래 처럼 index를 날짜로 바꿔줍니다.

이제 대망의 resample() 함수를 사용해보았습니다.

결측치를 확인해볼까요?

와우 월 단위의 데이터라 그런지 결측치가 개많습니다.

와우 이렇게 비어있는 날짜가 많았군요.

자 이렇게 해주면 결측치들은 위에 있는 값으로 대체 됩니다.

좋습니다 이제 비트코인 데이터셋과 실업률 데이터셋을 합쳐보겠습니다.


index를 기준으로 합해주는 join함수를 사용하여 인덱스가 공통적인 부분만 합쳐지게 됩니다! 끝!

잘 합쳐졌는지 확인해보았습니다 잘들어갔군요! 굿!
'파이썬 > 데이터 분석' 카테고리의 다른 글
| 데이터 분석 기초 : 탐색적 데이터 분석 (EDA, exploratory data analysis)에 대해서 읽어 보자 (0) | 2021.12.23 |
|---|---|
| facebook prophet으로 비트코인 가격 예측해보기 (1) | 2021.12.06 |
| 2. 데이터 탐색과 빈도 분석 (쭉 읽기 좋음.) (0) | 2021.09.09 |
| 1. 넘파이와 판다스 칸탄 정리 (간단 정리) (0) | 2021.09.08 |
| 0. import pandas를 해보자. (0) | 2021.09.02 |