1. 넘파이와 판다스 칸탄 정리 (간단 정리)

2021. 9. 8. 17:57ㆍ파이썬/데이터 분석

우선 우리는 행렬을 알아야 한다. 뭐 수학적인 내용은 딱히 아니지만 머신러닝, 딥러닝에 주로 이용되는 데이터가 정형 데이터 즉 행과 열로 이루어진 데이터이기 때문에 나같은 수포자들은 살짝 기초를 닦기로 하자.

import numpy as np

넘파이는 데이터를 다룰 때 연산을 돕는 별거 없는 라이브러리이다. 종종 불러오기 때문에 np로 축약한다.

우리는 array를 그냥 만들 수도 있다. 간단히 대괄호에 넣으면 된다. 하지만 딥러닝, 머신러닝은 엄청나게 많은 연산이 일어나기 때문에 조금 더 연산이 빠른 넘파이를 이용한다. (나도 들은 얘기다.)

위의 배열을 arr에 넣어 보고 타입을 보았다. 이렇게 나온다.

이런 식으로 element의 데이터타입을 물어볼 수도 있다. 문자열을 넣어봤는데 u뭐시기가 나왔다.

이렇게 2차원배열도 만들 수 있다. 주의할 점은 꼭 함수 괄호 안에 대괄호를 만들고, 안에 대괄호로 묶인 리스트를 넣어야 한다. 그러니까 일반적인 배열 둘에 대괄호를 한번 더 감싸면 된다.

shape() 함수를 쓰면 이렇게 2행 5열을 얻을 수 있다.

자 이렇게 1이상 10 미만의 값도 얻을 수 있다! 우리가 for문을 돌릴 때 사용하는 range와 같은 것 같음

요런식으로 0부터 +2씩 증가해서 10미만의 값도 얻을 수 있다!

자 이걸 한번 해석해보자. 우선 0부터 10미만의 1씩 증가하는 배열을 만들고 reshape라는 함수로 5개의 배열 그리고 2개의 element를 가지게 했다. reshape()는 각자 다루어보면 이해가 빨리 될 것이다.

각각 최댓값, 최솟값,평균, 표준편차 이다. 표준편차는 엄청 많이 쓰인다고 하는데,, 나는 감이 잘 안 잡혀 있다. 분산도..? 분포도..? 각 값을 평균으로 뺀다음 전부 더하고 element의 개수로 나눈 것이 분산이고 그것을 제곱근을 한 것이 표준편차라고 한다. 그러니까 대충 평균 값에서 얼마나 떨어져 있는지 알려주는 것 같다~ 앙~ 몰랑~

np.add 등으로 산술도 가능하다. np.dot()을 이용하면 행렬곱도 할 수 있다.ㅎㅎ 알아서 해보시길

import pandas as pd

판다스는 DataFrame을 사용할 수 있는 굉장한 도구이다. 데이터프레임은 정형화된 데이터이며 엑셀,csv 등

파일을 쉽게 읽어올 수 있다!!

DataFrame은 Series로 이루어져 있다. Series는 하나의 열과 행으로 이루어져 있는데, 이 Series가 모여 DataFrame을 이루고 있다. 어떻게 보면 1차원 배열과 비슷한 거 같다. 자 이제 몸풀기라고 생각하고 한번 들여다 보자

오른 쪽에 우리가 넣어준 배열이 잘 들어간 걸 볼 수 있다. 그럼 왼쪽은 뭘까? 왼쪽은 key 값으로 우리가 넣어준 값의 고유한 value이다. 그러니 우리가 만일 key값 '2'를 삭제한다면 나머지는 0,1,3 가 남게 된다.

맞제? ㅋㅋㅋ 파이썬에서 del은 범용적으로 다 쓰이는 것 같다. 근데 내가 알기론 DataFrame에서 행에 접근 할때는 Integer로 접근한다. 근데 의도적으로 key값을 문자열로 세팅하면 문자열로 접근해야할 듯.. 아직 나도 초보야.. 잘 몰라..

Series의 value와 key 값은 이렇게 알아낼 수 있다. index가 아니라 keys를 해줘도 확인할 수 있긴 한데, 약간 이상하게 나와서 index를 이용했다. 자 이정도만 제대로 머리에 박아 놓자!!

DataFrame은 다음 시간에 해보자 안녕~!!

'파이썬 > 데이터 분석' 카테고리의 다른 글

데이터 분석 기초 : 탐색적 데이터 분석 (EDA, exploratory data analysis)에 대해서 읽어 보자 (0)	2021.12.23
facebook prophet으로 비트코인 가격 예측해보기 (1)	2021.12.06
Pandas 시계열 데이터에 빠진 날짜 확인, 날짜 채우기 (0)	2021.12.04
2. 데이터 탐색과 빈도 분석 (쭉 읽기 좋음.) (0)	2021.09.09
0. import pandas를 해보자. (0)	2021.09.02

위대한 개발자 랩독의 허브

위대한 개발자 랩독의 허브

태그

최근글

댓글

공지사항

아카이브

import numpy as np

import pandas as pd

'파이썬 > 데이터 분석' 카테고리의 다른 글

관련글

티스토리툴바