데이터 핸들링 과정에서 새로운 변수(Column)를 만들고자 할 때 필요한 기능.
대표적으로는 mutate(), mutate_if(), mutate_at()
00. 데이터 불러오기
2018년 2월 5일부터 2022년 2월5일까지 시계열을 이용한 넷플릭스 주가 예측 데이터
stock <- read.csv(file.choose())
stock$Date <- as.Date(stock$Date) # 데이터 자료형 변환
stock$Year <- as.factor(format(stock$Date,"%Y")) #2018
stock$Day <- as.factor(format(stock$Date,"%a")) #월,화,수,...
stock %>% head()
01. mutate( )
: 데이터 프레임에서 새로운 파생 변수를 생성하는 함수
# High 변수에서 Low 변수의 값을 나눈 후 소수점 둘째짜리까지 반올림한 Divided 변수 생성
Mutate_Data = stock %>%
mutate(Divided = round(High/Low,2)) %>%
select( Date, High, Low, Divided)
02. mutate_if( )
: 데이터 프레임에서 지정해준 모든 변수에 대해 계산식을 적용
# integer 타입 변수를 모두 numeric으로 변경
Mutate_If_Data <- stock %>%
mutate_if(is.integer, as.numeric)
03. mutate_at( )
: 데이터 프레임에서 지정한 변수들에 대해 계산식을 적용
- mutate_at(vars(변수1, 변수2, ...), )
# Date, Year, Day 열을 제외하고 log 함수 적용
Mutate_At_Data = stock %>%
mutate_at(vars(-Date,-Year,-Day),log) %>%
select_if(is.numeric)
더보기
사용 데이터 출처
https://www.kaggle.com/datasets/jainilcoder/netflix-stock-price-prediction?select=NFLX.csv
불러오는 중입니다...
참고 서적 / 위키북스|Must Learning with R (개정판)
'R > dplyr' 카테고리의 다른 글
R | dplyr | 그 외 데이터 추출 - slice() , top_n() (0) | 2023.01.02 |
---|---|
R | dplyr | 샘플 데이터 무작위 추출 - sample_frac(), sample_n() (0) | 2023.01.02 |
R | dplyr | 변수 추출 select(), select_if() (0) | 2022.12.15 |
R | dplyr | 데이터 정렬(arrange) (0) | 2022.12.09 |
R | dplyr | 조건에 맞는 행 추출(filter) (0) | 2022.12.09 |