R | dplyr | 샘플 데이터 무작위 추출 - sample_frac(), sample_n()
·
R/dplyr
dply 패키지에 데이터를 무작위로 추출해주는 함수 sample_frac() : 특정 비율만큼 무작위 추출 sample_n(): 특정 개수만큼 무작위 추출 그 외에 R 내장 함수인 sample()도 같은 역할을 수행한다. 00. 데이터 불러오기 MASS 패키지의 내장 데이터 셋인 'cars93' 데이터 셋 사용 ※ MASS 패키지의 select()함수와 'dplyr' 패키지의 select() 함수가 충돌하기 때문에 MASS 패키지를 먼저 불러온 후 dplyr 패키지를 불러와야 한다. library(MASS) library(dplyr) df % sample_n(size = 10, replace = F) 01-2. sample_frac : 전체 행의 10% 무작위 추출 df %>% sample_frac(si..
R | dplyr | mutate, mutate_if , mutate_at - 새로운 변수 생성 및 처리
·
R/dplyr
데이터 핸들링 과정에서 새로운 변수(Column)를 만들고자 할 때 필요한 기능. 대표적으로는 mutate(), mutate_if(), mutate_at() 00. 데이터 불러오기 2018년 2월 5일부터 2022년 2월5일까지 시계열을 이용한 넷플릭스 주가 예측 데이터 stock % mutate_at(vars(-Date,-Year,-Day),log) %>% select_if(is.numeric) 더보기 사용 데이터 출처 https://www.kaggle.com/datasets/jainilcoder/netflix-stock-price-prediction?select=NFLX.csv 불러오는 중입니다... 참고 서적 / 위키북스|Must Learning with R (개정판) https://wikidocs..
R | dplyr | 데이터 정렬(arrange)
·
R/dplyr
데이터 정렬 방법 sort() : 순서를 정렬해서 데이터 값 반환 / default 오름차순, 전체 데이터 정렬 불가능 order() : 순서를 정렬해서 인덱스 반환 / default 오름차순 dplyr::arrange() : dplyr 패키지에서 제공하는 함수 / default 오름차순 01. sort 함수 사용 1) 오름차순 정렬 sort(iris$Sepal.Length) 2) 내림차순 정렬 sort(iris$Sepal.Length, decreasing = T) 02. order 함수 사용 1) 오름차순 정렬 order(iris$Sepal.Length) iris[order(iris$Sepal.Length),] 2) 내림차순 정렬 iris[order(iris$Sepal.Length, decreasing..
R | dplyr | 조건에 맞는 행 추출(filter)
·
R/dplyr
R에서 조건에 맞는 행 추출하는 방법은 엄청 많음. 인덱싱 사용, subset(), filter() 등 여러 가지인 데, 젤 많이 쓰는 건 간단한 filter()이다. 00. 데이터 불러오기 R 내장 데이터셋 중 젤 많이 쓰는 iris 데이터를 사용. 01. 인덱싱을 사용한 추출 : 데이터셋명[조건, ] iris[iris$Species=='setosa',] # Species가 'setosa'인 행만 추출 iris[iris$Sepal.Length >=5,] # Sepal.Length가 5 이상인 행만 추출 02. subset() 사용 : subset(x=iris, subset=, select= ) subset(iris, Species == "setosa") # Species가 setosa인 행 추출 # S..