R | dplyr | 집계 데이터 만들기(group by, summarise)

dplyr은 plyr의 차기작으로서, 데이터프레임을 집중적으로 다루는 툴임.
C언어로 만들어서 매우 빠름
( 특히 chain 함수 %>% 젤 유용... ㅎ 단축키 shift+Ctrl+M)

00. 데이터 불러오기

stock <- read.csv(file.choose())
stock %>% dim() # 1009행 7열 
stock %>% str()
stock %>% head()

- 날짜 데이터 형식 지정하기

Symbol	Meaning	Example
%d	day as a number (0-31)	01-31
%a	abbreviated weekday	Mon
%A	unabbreviated weekday	Monday
%m	month (00-12)	00-12
%b	abbreviated month	Jan
%B	unabbreviated month	January
%y	2-digit year	23
%Y	4-digit year	2023

stock$Date <-  as.Date(stock$Date) # 데이터 자료형 변환
stock$Year <-  as.factor(format(stock$Date,"%Y")) #2018
stock$Day <-  as.factor(format(stock$Date,"%a")) #월,화,수,...

01. 집계 데이터 만들기

1.1 group by() : group_by() 함수는 인자로 범주형 변수가 포함된 칼럼명을 인자로 받아 요약 통계량을 계산

group_data <- stock %>% 
   group_by(Year, Day) 
   
group_data %>% str()

1.2 summarise() : summarise()는 group_by()와 함께 사용할 때 그룹별 요약 통계를 제공

group_data <- stock %>% 
  group_by(Year, Day) %>% 
  summarise(n = n(),
            min = min(Open),
            Mean = round(mean(Open)),
            Median = round(median(Open)),
            Max = round(max(Open)))

사용 데이터 출처

https://www.kaggle.com/datasets/jainilcoder/netflix-stock-price-prediction?select=NFLX.csv

Netflix Stock Price Prediction

Netflix Stock PricePrediction using Time Series

www.kaggle.com

참고 서적 / 위키북스|Must Learning with R (개정판)

https://wikidocs.net/book/4315

'R > dplyr' 카테고리의 다른 글

R \| dplyr \| 샘플 데이터 무작위 추출 - sample_frac(), sample_n() (0)	2023.01.02
R \| dplyr \| mutate, mutate_if , mutate_at - 새로운 변수 생성 및 처리 (1)	2022.12.28
R \| dplyr \| 변수 추출 select(), select_if() (0)	2022.12.15
R \| dplyr \| 데이터 정렬(arrange) (0)	2022.12.09
R \| dplyr \| 조건에 맞는 행 추출(filter) (0)	2022.12.09

00. 데이터 불러오기

01. 집계 데이터 만들기

'R > dplyr' 카테고리의 다른 글

티스토리툴바