본문 바로가기

R

'tidyverse' package

여담: 아주 오랜만에 티스토리글을 쓴다... 완전 잊었음...

그치만 예상했다 작심삼일 - 사라 =  0 이니깐

아무튼 각설하고 tidy 패키지를 정리해야할 것 같아 들고왔다

내가 정말 필요로 했던 기능도 발견했기 때문! (이건 tidyr로 ㄱㄱ)

 

 

 

 

 

0. Tidy data란?

  • Hadley Wickham(2016)에 따르면 tidy data는 아래 세 가지 규칙을 갖는다고 합니다.
    • 하나의 변수는 하나의 세로줄을 형성한다. (Each variable forms a column: Variables in columns)
    • 하나의 관측치는 하나의 가로줄을 형성한다. (Each observation forms a row: observations in rows)
    • 하나의 변수의 종류별로 하나의 표를 형성한다. (Each type of observational unit forms a table: one type per dataset)
  • 즉, 쉽게 이해하자면 tidy data는 우리가 흔히 스프레드시트에서 볼 수 있었던 데이터의 형태와 같습니다.
  • 데이터 처리에 가장 많은 시간이 소요되는 전처리 과정을 줄이기 위해 처음부터 데이터를 표준화한 형태라고 이해하시면 됩니다.

인용: 제이드의 낙서장, https://rstatistics.tistory.com/48

 

 

 

1. Tidyverse

그럼 자연스럽게, tidy data를 다룰 수 있는 개별적인 패키지가 존재하겠네? 라고 생각된다.

그게 바로 Tidyverse 패키지다.

 

Tidyverse는 여러 패키지를 포함하고 있는 상위 라이브러리 구조다.

따라서 library('tidyverse')를 통해, 하위 패키지들 집합도 동시에 활성화된다.

 

tidyverse가 포함하는 패키지들

 

 

 

 

 

 

 

2. Core package

Core R Packages in Tidyverse

  1. Data Wrangling and Transformation
    • dplyr
    • tidyr 
    • stringr
    • forcats
  2. Data Import and Management
    • tibble
    • readr 
  3. Functional Programming
    • purrr
  4. Data Visualization and Exploration
    • ggplot2

https://www.analyticsvidhya.com/blog/2019/05/beginner-guide-tidyverse-most-powerful-collection-r-packages-data-science/

 

tidyverse 내의 패키지들은 다음과 같이 작동한다.

자세한 설명은 pass ~

 

각 패키지의 상세 설명은 다른 글에서 다루도록 하자.