R | ggplot2 | Scatter Plot(산점도)
·
R/ggplot2
Scatter Plot , 산점도는 두 개의 연속형(continuous) 데이터의 상관관계를 파악하기에 매우 유용한 그래프이다. ggplot2 패키지에서는 Scatter Plot을 그리기 위한 geom_point() 함수를 제공한다. geom_point( mapping = NULL, data = NULL, stat = "identity", position = "identity", ..., na.rm = FALSE, show.legend = NA, inherit.aes = TRUE ) · 주요 Argument Argument 사용 방법 설명 stroke point의 외곽 라인의 두께 지정 1) stroke = 1 fill point의 채우기 색상 1) fill = "컬러코드" 1) mapping 밖에 사용..
R | ggplot2 | Boxplot
·
R/ggplot2
Boxplot은 데이터를 요약하는 데 있어서 매우 유용한 그래프이다. 박스플롯을 그리기 위해서 x축은 Descrete(이산형) 변수를, y축에는 Continuous(연속형) 변수를 배치 해야 됨. · Boxplot 구조 Boxplot은 자료에서 얻은 다섯 수치 요약(five number summary)을 가지고 그린다. 다섯 수치 요약은 아래와 같다. 최솟값 : 제 1사분위에서 1.5 IQR을 뺀 위치이다 제 1사분위(Q1) : 25%의 위치를 의미한다. 제 2사분위(Q2) : 50%의 위치로 중앙값(median)을 의미한다. 제 3사분위(Q3) : 75%의 위치를 의미한다. 최댓값 : 제 3사분위에서 1.5 IQR을 더한 위치이다. IQR이란, Interquartile range의 약자로써 Q3 - Q..
R | ggplot2 | Density Plot (밀도 플롯)
·
R/ggplot2
Density Plot , 밀도 플롯은 숫자형 변수(연속형)의 분포를 볼 때 유용하다. Density Plot은 히스토그램의 평활화 버전으로 데이터의 분포를 근사적으로 파악하는 데 도움을 줌. ggplot2 패키지에서는 Density Plot을 그리기 위해서 geom_density( ) 함수를 제공한다. geom_density( mapping = NULL, data = NULL, stat = "density", position = "identity", ..., na.rm = FALSE, orientation = NA, show.legend = NA, inherit.aes = TRUE, outline.type = "upper" ) · 주요 Argument 사용 방법 설명 adjust adjust = n 밀..
R | ggplot2 | Histogram
·
R/ggplot2
히스토그램은 막대그래프와 유사하지만 연속형 변수를 시각화 한다는 점에서 차이가 있다. ggplot2 패키지에서는 geom_histogram()로 히스토그램을 시각화 할 수 있음. geom_histogram( mapping = NULL, data = NULL, stat = "bin", position = "stack", ..., binwidth = NULL, bins = NULL, na.rm = FALSE, orientation = NA, show.legend = NA, inherit.aes = TRUE ) · binwidth: X축을 나누는 bin의 너비 설정, 숫자벡터를 사용할 수 있다. (bin과 binwidth는 동시에 사용될 수 없다) · bins: X축을 나누는 bin의 개수 설정 00. 데이터..
R | ggplot2 | bar chart
·
R/ggplot2
ggplot2 패키지를 사용하여 bar chart 막대그래프 그리는 방법 막대그래프는 주로 숫자형 변수와 범주형 변수의 관계를 볼 때 사용됨. X축의 값만 지정하여 그리는 방법(하나의 이산형 변수 사용) X축 1개 Y축 1개 각각 지정하여 그리는 방법(하나의 이산형 변수, 하나의 범주형 변수) ·ggplot2 패키지에는 총 3가지 함수 제공 geom_bar() , geom_col() , stat_count() geom_bar( mapping = NULL, data = NULL, stat = "count", position = "stack", ..., just = 0.5, width = NULL, na.rm = FALSE, orientation = NA, show.legend = NA, inherit.ae..
R | dplyr | 그 외 데이터 추출 - slice() , top_n()
·
R/dplyr
이전 포스팅에서 dplyr 패키지에서 무작위 추출 시 사용하는 sample_n, sample_frac 함수와 달리 무작위 추출이 아닌 순서대로 뽑거나 원하는 구간을 설정해서 데이터를 뽑는 slice()와 상위의 값을 추출해주는 top_n() 함수도 있다.    00. 데이터 불러오기  MASS 패키지의 내장 데이터 셋인 'cars93' 데이터 셋 사용※ MASS 패키지의 select()함수와 'dplyr' 패키지의 select() 함수가 충돌하기 때문에 MASS 패키지를 먼저 불러온 후 dplyr 패키지를 불러와야 한다.  library(MASS)library(dplyr)df % select(Manufacturer:Price) # 1~5열까지만 select / 93행 5열     01. dplyr :: ..