PANDAS :: read

오늘부터 판다스 패키지에 있는 함수를 하나씩 부셔볼 생각이다.

이외에도 티스토리에 업로드할 게 많은데 시간이 없어서 못하고 있다.

언제하냐~~~~~ 언젠가 시간 나면 한꺼번에 업로드해야지ㅠ

:: read_csv를 알아보자. ::

read_csv : pd에 있는 함수, csv 파일을 불러와 df 형식으로 저장한다.

예시 코드>

import pandas as pd
>>> data = pd.read_csv('C:/Users/SARAH/Python/test_data.csv')

사실 가장 중요한 건, read_csv에 있는 argument다.

파이썬 좀 해본 사람이라면 누가 read_csv를 모를까...

Argument of read_csv

sep : 구분자, default : ","
delimiter : sep의 별명, sep 대신 써도 잘 불러와
header : header=0 ↔ header=None (즉, header 없다고 가정하고 불러옴)
name : list of column names을 따로 정의
index_col : row_label을 불러올지 말지 결정, False 해주면 첫번째 열의 index 날려준다고! (확실X)
usecols : 리스트 형태로 subset of columns을 불러온다.
- columns의 일부만 불러올 때 사용
- ex) [0, 2, 4] or ["어쩌고", "저쩌고"]
dtype : 원래는 추정되어 불러온 dtype을 직접 결정하여 불러옴
- E.g. {‘a’: np.float64, ‘b’: np.int32, ‘c’: ‘Int64’}
engine : Encoding이 이상해서 error가 뜰 때, engine='python' 라고 지정 (단 쥬피터에서만 성립)
encoding : 말 그대로 인코딩, 대표적으로 utf-8 / euc-kr
skipinitialspace : True의 경우, delimiter의 직후에 있는 공백은 무시됨
skiprows : 특정 rows 생략해서 불러옴
nrows : n개의 row만 불러옴, large data에서 필요한 data만 뽑아올 때 유용
na_values : NA지만 NA로 적혀있지 않은 값들을 na로 처리
- 아래처럼 코딩할 시, :, ), * 세 개의 값이 na로 처리됨

df=pd.read_csv("path",na_values=[':',")","*"])

na_filter : 결측치 탐지, 결측값 불러올 거면 True
chunksize : 큰 용량의 데이터를 불러오는 방식 중 하나. (다른 하나는 usecols)
- E.g. 아래 사진, 10**3 = 1000을 의미
날짜 관련 argument
1. parse_dates=['date'] : 이게 date 관련 데이터예요 !
2. dayfirst=True : 일(日)이 먼저 나오는군. (ex. 1/5/2020 10:00:00' (5월 1일))
3. infer_datetime_format=True : 알아서 date formet을 예측해보도록 해.
4. dt_parser = lambda x : datetime.strptime(x, "%d/%m/%Y %H:%M:%S") ; date_parser=dt_parser
  - 직접 date 형태를 정의해줄 때 사용하는 함수

여기까지...argument가 정말 많았는데새벽 2시가 다되어가서...... 너무 졸린 탓에 이만 마친다.

나머지 argument는 잘 쓰이지도 않는 것 같고 검색해도 잘 나오지 않기에 생략한다.궁금한 게 더 생기면 판다스 홈페이지를 확인하도록 하자.https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

NUMPY :: np.random (1) (0)	2021.11.09
PANDAS :: 인덱스 함수들 (reset_index, set_index, sort_index) (0)	2021.11.08
PANDAS :: Series ↔ DataFrame (0)	2021.11.05
PANDAS :: read_pickle (0)	2021.10.20
PANDAS :: groupby() (0)	2021.10.19