2021. 9. 8. 17:57ㆍ파이썬/데이터 분석
우선 우리는 행렬을 알아야 한다. 뭐 수학적인 내용은 딱히 아니지만 머신러닝, 딥러닝에 주로 이용되는 데이터가 정형 데이터 즉 행과 열로 이루어진 데이터이기 때문에 나같은 수포자들은 살짝 기초를 닦기로 하자.
import numpy as np
넘파이는 데이터를 다룰 때 연산을 돕는 별거 없는 라이브러리이다. 종종 불러오기 때문에 np로 축약한다.

우리는 array를 그냥 만들 수도 있다. 간단히 대괄호에 넣으면 된다. 하지만 딥러닝, 머신러닝은 엄청나게 많은 연산이 일어나기 때문에 조금 더 연산이 빠른 넘파이를 이용한다. (나도 들은 얘기다.)

위의 배열을 arr에 넣어 보고 타입을 보았다. 이렇게 나온다.

이런 식으로 element의 데이터타입을 물어볼 수도 있다. 문자열을 넣어봤는데 u뭐시기가 나왔다.

이렇게 2차원배열도 만들 수 있다. 주의할 점은 꼭 함수 괄호 안에 대괄호를 만들고, 안에 대괄호로 묶인 리스트를 넣어야 한다. 그러니까 일반적인 배열 둘에 대괄호를 한번 더 감싸면 된다.

shape() 함수를 쓰면 이렇게 2행 5열을 얻을 수 있다.

자 이렇게 1이상 10 미만의 값도 얻을 수 있다! 우리가 for문을 돌릴 때 사용하는 range와 같은 것 같음

요런식으로 0부터 +2씩 증가해서 10미만의 값도 얻을 수 있다!

자 이걸 한번 해석해보자. 우선 0부터 10미만의 1씩 증가하는 배열을 만들고 reshape라는 함수로 5개의 배열 그리고 2개의 element를 가지게 했다. reshape()는 각자 다루어보면 이해가 빨리 될 것이다.

각각 최댓값, 최솟값,평균, 표준편차 이다. 표준편차는 엄청 많이 쓰인다고 하는데,, 나는 감이 잘 안 잡혀 있다. 분산도..? 분포도..? 각 값을 평균으로 뺀다음 전부 더하고 element의 개수로 나눈 것이 분산이고 그것을 제곱근을 한 것이 표준편차라고 한다. 그러니까 대충 평균 값에서 얼마나 떨어져 있는지 알려주는 것 같다~ 앙~ 몰랑~

np.add 등으로 산술도 가능하다. np.dot()을 이용하면 행렬곱도 할 수 있다.ㅎㅎ 알아서 해보시길
import pandas as pd
판다스는 DataFrame을 사용할 수 있는 굉장한 도구이다. 데이터프레임은 정형화된 데이터이며 엑셀,csv 등
파일을 쉽게 읽어올 수 있다!!
DataFrame은 Series로 이루어져 있다. Series는 하나의 열과 행으로 이루어져 있는데, 이 Series가 모여 DataFrame을 이루고 있다. 어떻게 보면 1차원 배열과 비슷한 거 같다. 자 이제 몸풀기라고 생각하고 한번 들여다 보자

오른 쪽에 우리가 넣어준 배열이 잘 들어간 걸 볼 수 있다. 그럼 왼쪽은 뭘까? 왼쪽은 key 값으로 우리가 넣어준 값의 고유한 value이다. 그러니 우리가 만일 key값 '2'를 삭제한다면 나머지는 0,1,3 가 남게 된다.

맞제? ㅋㅋㅋ 파이썬에서 del은 범용적으로 다 쓰이는 것 같다. 근데 내가 알기론 DataFrame에서 행에 접근 할때는 Integer로 접근한다. 근데 의도적으로 key값을 문자열로 세팅하면 문자열로 접근해야할 듯.. 아직 나도 초보야.. 잘 몰라..

Series의 value와 key 값은 이렇게 알아낼 수 있다. index가 아니라 keys를 해줘도 확인할 수 있긴 한데, 약간 이상하게 나와서 index를 이용했다. 자 이정도만 제대로 머리에 박아 놓자!!
DataFrame은 다음 시간에 해보자 안녕~!!
'파이썬 > 데이터 분석' 카테고리의 다른 글
| 데이터 분석 기초 : 탐색적 데이터 분석 (EDA, exploratory data analysis)에 대해서 읽어 보자 (0) | 2021.12.23 |
|---|---|
| facebook prophet으로 비트코인 가격 예측해보기 (1) | 2021.12.06 |
| Pandas 시계열 데이터에 빠진 날짜 확인, 날짜 채우기 (0) | 2021.12.04 |
| 2. 데이터 탐색과 빈도 분석 (쭉 읽기 좋음.) (0) | 2021.09.09 |
| 0. import pandas를 해보자. (0) | 2021.09.02 |