보딩코 — 보딩코

데이터 핸들링 과정에서 새로운 변수(Column)를 만들고자 할 때 필요한 기능. 대표적으로는 mutate(), mutate_if(), mutate_at() 00. 데이터 불러오기 2018년 2월 5일부터 2022년 2월5일까지 시계열을 이용한 넷플릭스 주가 예측 데이터 stock % mutate_at(vars(-Date,-Year,-Day),log) %>% select_if(is.numeric) 더보기 사용 데이터 출처 https://www.kaggle.com/datasets/jainilcoder/netflix-stock-price-prediction?select=NFLX.csv 불러오는 중입니다... 참고 서적 / 위키북스|Must Learning with R (개정판) https://wikidocs..

데이터를 분석할 때 필요한 열만 선택해 분석하는 것은 매우 중요 column 추출 방법 3가지 인덱싱 사용 1: 열 순번 사용 인덱싱 사용 2: 열 이름 사용 dplyr::select() 사용 00. 데이터 불러오기 - 데이터는 R 내장 데이터 셋인 "mtcars" 사용 : 1974 Motor Trend US Megazine에 수록된 차량과 차량에 관련된 수치들이 기록된 자료 mtcars %>% head() mtcars %>% str() 01. Column 순번을 통한 열 추출 - 데이터셋[ , 열 순번] - mpg, cyl 열 선택 # 밑에 두 가지 방법 동일한 데이터 셋 출력 mtcars[ , 1:2] mtcars[ , c(1,2)] 02. 컬럼명을 사용해서 추출 - 데이터셋[ , "열이름1", "열..

데이터 정렬 방법 sort() : 순서를 정렬해서 데이터 값 반환 / default 오름차순, 전체 데이터 정렬 불가능 order() : 순서를 정렬해서 인덱스 반환 / default 오름차순 dplyr::arrange() : dplyr 패키지에서 제공하는 함수 / default 오름차순 01. sort 함수 사용 1) 오름차순 정렬 sort(iris$Sepal.Length) 2) 내림차순 정렬 sort(iris$Sepal.Length, decreasing = T) 02. order 함수 사용 1) 오름차순 정렬 order(iris$Sepal.Length) iris[order(iris$Sepal.Length),] 2) 내림차순 정렬 iris[order(iris$Sepal.Length, decreasing..

R에서 조건에 맞는 행 추출하는 방법은 엄청 많음. 인덱싱 사용, subset(), filter() 등 여러 가지인 데, 젤 많이 쓰는 건 간단한 filter()이다. 00. 데이터 불러오기 R 내장 데이터셋 중 젤 많이 쓰는 iris 데이터를 사용. 01. 인덱싱을 사용한 추출 : 데이터셋명[조건, ] iris[iris$Species=='setosa',] # Species가 'setosa'인 행만 추출 iris[iris$Sepal.Length >=5,] # Sepal.Length가 5 이상인 행만 추출 02. subset() 사용 : subset(x=iris, subset=, select= ) subset(iris, Species == "setosa") # Species가 setosa인 행 추출 # S..

dplyr은 plyr의 차기작으로서, 데이터프레임을 집중적으로 다루는 툴임. C언어로 만들어서 매우 빠름 ( 특히 chain 함수 %>% 젤 유용... ㅎ 단축키 shift+Ctrl+M) 00. 데이터 불러오기 stock % dim() # 1009행 7열 stock %>% str() stock %>% head() - 날짜 데이터 형식 지정하기 Symbol Meaning Example %d day as a number (0-31) 01-31 %a abbreviated weekday Mon %A unabbreviated weekday Monday %m month (00-12) 00-12 %b abbreviated month Jan %B unabbreviated month January %y 2-digit y..

1. 1차원 벡터, 리스트에서 중복제거 - unique() 사용 a = rep(1:10, each = 2) print(a) unique(a) 2. Data frame에서 중복 제거 - duplicated() 사용 데이터 프레임 생성 DUPLICATE

티스토리툴바