여담: 아주 오랜만에 티스토리글을 쓴다... 완전 잊었음...
그치만 예상했다 작심삼일 - 사라 = 0 이니깐
아무튼 각설하고 tidy 패키지를 정리해야할 것 같아 들고왔다
내가 정말 필요로 했던 기능도 발견했기 때문! (이건 tidyr로 ㄱㄱ)
0. Tidy data란?
- Hadley Wickham(2016)에 따르면 tidy data는 아래 세 가지 규칙을 갖는다고 합니다.
- 하나의 변수는 하나의 세로줄을 형성한다. (Each variable forms a column: Variables in columns)
- 하나의 관측치는 하나의 가로줄을 형성한다. (Each observation forms a row: observations in rows)
- 하나의 변수의 종류별로 하나의 표를 형성한다. (Each type of observational unit forms a table: one type per dataset)
- 즉, 쉽게 이해하자면 tidy data는 우리가 흔히 스프레드시트에서 볼 수 있었던 데이터의 형태와 같습니다.
- 데이터 처리에 가장 많은 시간이 소요되는 전처리 과정을 줄이기 위해 처음부터 데이터를 표준화한 형태라고 이해하시면 됩니다.
인용: 제이드의 낙서장, https://rstatistics.tistory.com/48
1. Tidyverse
그럼 자연스럽게, tidy data를 다룰 수 있는 개별적인 패키지가 존재하겠네? 라고 생각된다.
그게 바로 Tidyverse 패키지다.
Tidyverse는 여러 패키지를 포함하고 있는 상위 라이브러리 구조다.
따라서 library('tidyverse')를 통해, 하위 패키지들 집합도 동시에 활성화된다.
2. Core package
Core R Packages in Tidyverse
- Data Wrangling and Transformation
- dplyr
- tidyr
- stringr
- forcats
- Data Import and Management
- tibble
- readr
- Functional Programming
- purrr
- Data Visualization and Exploration
- ggplot2
tidyverse 내의 패키지들은 다음과 같이 작동한다.
자세한 설명은 pass ~
각 패키지의 상세 설명은 다른 글에서 다루도록 하자.
'R' 카테고리의 다른 글
tidyr:: (3) iris data에 적용해보자 (+pivot_longer) (0) | 2022.07.21 |
---|---|
tidyr:: (2) Split or combine: separate, separate_rows, unite (0) | 2022.07.21 |
tidyr:: (1) reshape function: gather, spread (0) | 2022.07.21 |