본문 바로가기

PYTHON

(7)
NUMPY :: np.random (2) 잊고 있었다... 요즘 아침시간을 공치며 날리는 기분ㅠㅅㅠ 소홀해지지 말자. ㅠㅠ 지난 시간에 random의 대표적인 난수생성 함수의 rand, randn, randint를 다뤘었다. 이번엔 난수 생성은 아니나 앞의 세 함수만큼 자주 쓰이는 함수들을 다뤄보겠다. 오늘 사라가 다룰 함수: choice shuffle permutation np.random.choice 데이터 샘플링 함수 난수생성 함수처럼 정수를 샘플링할 수 있다. 또한 그 자리에 배열을 삽입하면, 배열을 모집단으로 하여 표본추출이 가능하다. argument는 prob를 의미하는 p, 복원/비복원을 결정하는 replace(True가 디폴트)가 있다. 우선 정수를 샘플링하는 법을 보자. 너무 쉬우니 설명보단 파이썬 코드로 대체하겠다. 이번엔 모..
NUMPY :: np.random (1) 오늘은 아침에 할 일이 있어서 최대한 빨리 적어보도록 하겠다. 함수들을 배울 때마다 매번 블로거분들이 이 numpy.random을 이용하여 예제 데이터를 만들었다. 그때마다 random 함수가 이렇게 요긴하게 쓰인다고? 했는데, 오늘 제대로 배워보도록 하자. 대표 3대장: rand randn randint 이 세 개가 random을 이야기했을 때 가장 많이 등장하는 함수다. 각각의 역할을 알아보자. 뒤로는 편의를 위해 numpy as np를 사용한다. np.random.rand 0~1 사이의 균일분포 값을 반환. 이처럼 rand 함수는 균일분포에서 여러 난수를 추출할 수 있다. 심지어 다차원도 가능! np.random.randn 표준정규분포(standard normal distribution)에서 난수를..
PANDAS :: 인덱스 함수들 (reset_index, set_index, sort_index) 주말 잘 보냈다~ 어제 그제 둘다 술먹으며 주말 보냈다 날짜 세보니까 월금토일 술먹었더라 어느날은 경*가 맥주 두캔 사들고 집 왔었는데, 그것도 술먹은 걸로 치면 일주일에 4번 마신거다. 진짜 알코올 중독인듯... 오늘은 reset_index()를 포함한 여러 인덱스 함수들에 대해서 해볼 거다. 지난 판다스에서 했던 reset_index이 다른 방식으로 더 많이 활용된다는 걸 뒤늦게 알았다. 저번에는 reset_index를 Series에 적용하여 DF로 바꾸는 식으로 코딩했었다. 이번엔, reset_index를 DF에 적용해보자. 또한 인덱스를 만지는 여러 함수들에 대해서 알아보자. 1. reset_index() 인덱스를 초기화할 때 사용하는 방법. 주로 내가 지닌 인덱스가 뒤죽박죽하여 다시 1~로 바꾸..
PANDAS :: Series ↔ DataFrame 시험이 드디어 다 끝났다. 거지같던 프로젝트도 끝났다. 이제 다시 일상으로 돌아와야지... 사실 시리즈 자체를 공부해보려고 판다스 사이트를 들어갔었는데, 진짜 개많더라... 그래서 시리즈와 DF를 이리저리 변환해보고 바꿔보는 것만 해보겠다. 참고한 페이지는 하단 링크. https://www.delftstack.com/ko/howto/python-pandas/convert-pandas-series-to-dataframe/ Pandas 시리즈를 DataFrame으로 변환 Pandas 시리즈를 데이터 프레임으로 변환하는 방법을 소개합니다. www.delftstack.com 0. Make a data 우선 시리즈 데이터를 만들었다. 이때 사용한 것이 numpy. seed를 고정해주기 위해 random seed=..
PANDAS :: read_pickle 매일매일 간단하게 루틴으로 하려했는데 생각보다 시간이 오래 걸린다. 앞으로 쓸데없는 말 없이 간소하게 쓰기루. 스타뜨! read_pickle을 이용하려면, 우선 pickle이 뭔지부터 알아야 한다. 간단히 말하면 다음과 같다. text data처럼 로드하는데 시간을 많이 잡아먹는 데이터를 편리하게 저장, 로드하려면 어떻게 할까? 피클은 파이썬의 모든 object를 있는 그대로 저장할 수 있는 모듈로, 객체를 모두 바이너리 데이터로 저장하여 raw data를 load하는 시간을 단축시킬 수 있다. 이때 바이너리 파일로 저장하기 때문에 로드할 때 wb, rb처럼 바이너리 형식을 사용해야 한다고. 설명은 이분들의 블로그를 참고했다, 자세한 설명을 보려면 여기로 > https://korbillgates.tist..
PANDAS :: groupby() 12시간도 안돼서 블로그 글쓴다. 사실 10시에 쓰려 했는데 게으름 피우느라 이제 쓰는 중,, 내일부터는 딱 10시에 맞춰서 쓰기 시작해야지 판다스에서 정말 유용하게 사용하는 groupby에 대해 알아보자. 데이터는 다른 블로그글을 참고하여, 전복 데이터를 분석했다. https://rfriend.tistory.com/383 감사합니다 선생님 여담> 전복은 영어로 abalone이라고 하는데, 우리가 아는 그 아발론이 설마 전복인가 싶어서 찾아봤다. 그 아발론은 Avalon이었음ㅎㅅㅎ 잡지식 get! #필요한_패키지_import import pandas as pd from pandas import DataFrame from pandas import Series import numpy as np #load_d..
PANDAS :: read_csv 오늘부터 판다스 패키지에 있는 함수를 하나씩 부셔볼 생각이다. 이외에도 티스토리에 업로드할 게 많은데 시간이 없어서 못하고 있다. 언제하냐~~~~~ 언젠가 시간 나면 한꺼번에 업로드해야지ㅠ :: read_csv를 알아보자. :: read_csv : pd에 있는 함수, csv 파일을 불러와 df 형식으로 저장한다. 예시 코드> import pandas as pd >>> data = pd.read_csv('C:/Users/SARAH/Python/test_data.csv') 사실 가장 중요한 건, read_csv에 있는 argument다. 파이썬 좀 해본 사람이라면 누가 read_csv를 모를까... Argument of read_csv sep : 구분자, default : "," delimiter : sep..