Pandas 시계열 데이터에 빠진 날짜 확인, 날짜 채우기

2021. 12. 4. 03:15파이썬/데이터 분석

가끔 날짜가 포함된 데이터를 가져올 때 중간에 빠진 날짜를 확인하는 것에 난항을 겪곤 하는데요.

바로 알아보시죠!

자 dataset폴더에 있는 파일들의 이름을 가져오는 코드 입니다.

비트코인 데이터와 실업률 데이터를 합쳐보며 진행해보겠습니다.

데이터를 가져오도록 하겠습니다.

데이터를 보니 이렇게 생겼군요. 날짜 열이 string이기 때문에 datetime type으로 바꿔주도록 하겠습니다.

오호라 잘 되 있어요.

내림 차순으로 정렬해주고 필요한 열만 가져오겠습니다.

자 시계열 데이터 답게 날짜열을 index로 바꿔주고 저기 resample함수가 중요합니다.

datetimetype이 index일 때만 작동하는 함수로 (아마..) parameter로 'D'(day, 일)를 넣어주면 비어있는 날짜(day, 일)를 채워주게 됩니다.

하지만 이 데이터에 결측치는 없었습니다.. 비어있는 날짜가 없다는 얘기죠. 비어있는 날짜가 있는 데이터 셋을 가져오겠습니다.

 

자 데이터를 가져옵니다.

자 이딴 식으로 가져옵니다.

전처리 부분의 코드입니다.

자 필요한 열만 가져와줍시다.

그리고 날짜를 datetime type으로 바꿔주고 format을 현재 데이터에 맞게 수정해줍니다.

아래 처럼 index를 날짜로 바꿔줍니다.

이제 대망의 resample() 함수를 사용해보았습니다.

결측치를 확인해볼까요?

 

와우 월 단위의 데이터라 그런지 결측치가 개많습니다. 

와우 이렇게 비어있는 날짜가 많았군요.

자 이렇게 해주면 결측치들은 위에 있는 값으로 대체 됩니다. 

좋습니다 이제 비트코인 데이터셋과 실업률 데이터셋을 합쳐보겠습니다.

index를 기준으로 합해주는 join함수를 사용하여 인덱스가 공통적인 부분만 합쳐지게 됩니다! 끝!

 

잘 합쳐졌는지 확인해보았습니다 잘들어갔군요! 굿!

 

반응형