본문 바로가기

PYTHON

PANDAS :: read_csv

오늘부터 판다스 패키지에 있는 함수를 하나씩 부셔볼 생각이다.

이외에도 티스토리에 업로드할 게 많은데 시간이 없어서 못하고 있다.

언제하냐~~~~~ 언젠가 시간 나면 한꺼번에 업로드해야지ㅠ

 

 

 

 

 


 

 

 

 

:: read_csv를 알아보자. ::

 

read_csv : pd에 있는 함수, csv 파일을 불러와 df 형식으로 저장한다.

예시 코드>

import pandas as pd
>>> data = pd.read_csv('C:/Users/SARAH/Python/test_data.csv')

 

 

사실 가장 중요한 건, read_csv에 있는 argument다.

파이썬 좀 해본 사람이라면 누가 read_csv를 모를까...

 

 

 


Argument of read_csv
  • sep : 구분자, default : ","
  • delimiter : sep의 별명, sep 대신 써도 잘 불러와
  • header : header=0 ↔ header=None (즉, header 없다고 가정하고 불러옴)
  • name : list of column names을 따로 정의
  • index_col : row_label을 불러올지 말지 결정, False 해주면 첫번째 열의 index 날려준다고! (확실X)
  • usecols : 리스트 형태로 subset of columns을 불러온다.  
    • columns의 일부만 불러올 때 사용
    • ex) [0, 2, 4] or ["어쩌고", "저쩌고"]
  • dtype : 원래는 추정되어 불러온 dtype을 직접 결정하여 불러옴 
    • E.g. {‘a’: np.float64, ‘b’: np.int32, ‘c’: ‘Int64’}
  • engine : Encoding이 이상해서 error가 뜰 때, engine='python' 라고 지정 (단 쥬피터에서만 성립)
  • encoding : 말 그대로 인코딩, 대표적으로 utf-8 / euc-kr
  • skipinitialspace : True의 경우, delimiter의 직후에 있는 공백은 무시됨
  • skiprows : 특정 rows 생략해서 불러옴
  • nrows : n개의 row만 불러옴, large data에서 필요한 data만 뽑아올 때 유용
  • na_values : NA지만 NA로 적혀있지 않은 값들을 na로 처리
    • 아래처럼 코딩할 시, :, ), * 세 개의 값이 na로 처리됨
df=pd.read_csv("path",na_values=[':',")","*"])

 

  • na_filter : 결측치 탐지, 결측값 불러올 거면 True
  • chunksize : 큰 용량의 데이터를 불러오는 방식 중 하나. (다른 하나는 usecols) 
    • E.g. 아래 사진, 10**3 = 1000을 의미 
    • chunksize를 실행하면, 총 n개의 row data 중에 1000개의 data를 임의로 골고루 뽑아온다.
  • 날짜 관련 argument
    1.  parse_dates=['date'] : 이게 date 관련 데이터예요 !
    2.  dayfirst=True : 일(日)이 먼저 나오는군. (ex. 1/5/2020 10:00:00' (5월 1일))
    3.  infer_datetime_format=True : 알아서 date formet을 예측해보도록 해.
    4. dt_parser = lambda x : datetime.strptime(x, "%d/%m/%Y %H:%M:%S") ; date_parser=dt_parser
      • 직접 date 형태를 정의해줄 때 사용하는 함수

 

 

 

 

 

 

 


 

 

 

 

 

 

 

여기까지...argument가 정말 많았는데새벽 2시가 다되어가서...... 너무 졸린 탓에 이만 마친다.

 

나머지 argument는 잘 쓰이지도 않는 것 같고 검색해도 잘 나오지 않기에 생략한다.궁금한 게 더 생기면 판다스 홈페이지를 확인하도록 하자.https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

   

 

 

 

'PYTHON' 카테고리의 다른 글

NUMPY :: np.random (1)  (0) 2021.11.09
PANDAS :: 인덱스 함수들 (reset_index, set_index, sort_index)  (0) 2021.11.08
PANDAS :: Series ↔ DataFrame  (0) 2021.11.05
PANDAS :: read_pickle  (0) 2021.10.20
PANDAS :: groupby()  (0) 2021.10.19