'R/dplyr' 카테고리의 글 목록

이전 포스팅에서 dplyr 패키지에서 무작위 추출 시 사용하는 sample_n, sample_frac 함수와 달리 무작위 추출이 아닌 순서대로 뽑거나 원하는 구간을 설정해서 데이터를 뽑는 slice()와 상위의 값을 추출해주는 top_n() 함수도 있다. 00. 데이터 불러오기 MASS 패키지의 내장 데이터 셋인 'cars93' 데이터 셋 사용※ MASS 패키지의 select()함수와 'dplyr' 패키지의 select() 함수가 충돌하기 때문에 MASS 패키지를 먼저 불러온 후 dplyr 패키지를 불러와야 한다. library(MASS)library(dplyr)df % select(Manufacturer:Price) # 1~5열까지만 select / 93행 5열 01. dplyr :: ..

dply 패키지에 데이터를 무작위로 추출해주는 함수 sample_frac() : 특정 비율만큼 무작위 추출 sample_n(): 특정 개수만큼 무작위 추출 그 외에 R 내장 함수인 sample()도 같은 역할을 수행한다. 00. 데이터 불러오기 MASS 패키지의 내장 데이터 셋인 'cars93' 데이터 셋 사용 ※ MASS 패키지의 select()함수와 'dplyr' 패키지의 select() 함수가 충돌하기 때문에 MASS 패키지를 먼저 불러온 후 dplyr 패키지를 불러와야 한다. library(MASS) library(dplyr) df % sample_n(size = 10, replace = F) 01-2. sample_frac : 전체 행의 10% 무작위 추출 df %>% sample_frac(si..

데이터 핸들링 과정에서 새로운 변수(Column)를 만들고자 할 때 필요한 기능. 대표적으로는 mutate(), mutate_if(), mutate_at() 00. 데이터 불러오기 2018년 2월 5일부터 2022년 2월5일까지 시계열을 이용한 넷플릭스 주가 예측 데이터 stock % mutate_at(vars(-Date,-Year,-Day),log) %>% select_if(is.numeric) 더보기 사용 데이터 출처 https://www.kaggle.com/datasets/jainilcoder/netflix-stock-price-prediction?select=NFLX.csv 불러오는 중입니다... 참고 서적 / 위키북스|Must Learning with R (개정판) https://wikidocs..

데이터를 분석할 때 필요한 열만 선택해 분석하는 것은 매우 중요 column 추출 방법 3가지 인덱싱 사용 1: 열 순번 사용 인덱싱 사용 2: 열 이름 사용 dplyr::select() 사용 00. 데이터 불러오기 - 데이터는 R 내장 데이터 셋인 "mtcars" 사용 : 1974 Motor Trend US Megazine에 수록된 차량과 차량에 관련된 수치들이 기록된 자료 mtcars %>% head() mtcars %>% str() 01. Column 순번을 통한 열 추출 - 데이터셋[ , 열 순번] - mpg, cyl 열 선택 # 밑에 두 가지 방법 동일한 데이터 셋 출력 mtcars[ , 1:2] mtcars[ , c(1,2)] 02. 컬럼명을 사용해서 추출 - 데이터셋[ , "열이름1", "열..

데이터 정렬 방법 sort() : 순서를 정렬해서 데이터 값 반환 / default 오름차순, 전체 데이터 정렬 불가능 order() : 순서를 정렬해서 인덱스 반환 / default 오름차순 dplyr::arrange() : dplyr 패키지에서 제공하는 함수 / default 오름차순 01. sort 함수 사용 1) 오름차순 정렬 sort(iris$Sepal.Length) 2) 내림차순 정렬 sort(iris$Sepal.Length, decreasing = T) 02. order 함수 사용 1) 오름차순 정렬 order(iris$Sepal.Length) iris[order(iris$Sepal.Length),] 2) 내림차순 정렬 iris[order(iris$Sepal.Length, decreasing..

R에서 조건에 맞는 행 추출하는 방법은 엄청 많음. 인덱싱 사용, subset(), filter() 등 여러 가지인 데, 젤 많이 쓰는 건 간단한 filter()이다. 00. 데이터 불러오기 R 내장 데이터셋 중 젤 많이 쓰는 iris 데이터를 사용. 01. 인덱싱을 사용한 추출 : 데이터셋명[조건, ] iris[iris$Species=='setosa',] # Species가 'setosa'인 행만 추출 iris[iris$Sepal.Length >=5,] # Sepal.Length가 5 이상인 행만 추출 02. subset() 사용 : subset(x=iris, subset=, select= ) subset(iris, Species == "setosa") # Species가 setosa인 행 추출 # S..

티스토리툴바