ggplot2 – 시각화 학습을 위한 최고의 R 패키지

,

초보 데이터 과학자로서, 당신은 배우고 (그리고 결국 마스터해야하는) 꽤 많은 주제 영역을 갖게 될 것입니다. 확실히 수학과 통계를 배워야하지만, 수학과 통계는 초보자들에게 권장하는 것은 아닙니다. 좋은 방법 중 하나는 ‘데이터 시각화’로 시작하는 것이 좋습니다. 그 이유는 데이터 시각화가 보고, 분석, 탐색 분석 (예 : 기계 학습 이전의 EDA)과 같이 데이터 과학자로서 일을 처리하는 거의 모든 부분에 매우 중요하기 때문 입니다. 데이터 시각화는 이외에도 데이터 분석 분야에서 끊임없이 모든 수준의 대부분의 데이터 과학자에게 필요합니다.

ggplot2는 가장 권장하는 시각화 도구입니다

그렇다면 데이터 시각화를 위해 어떤 도구를 사용해야할까요? ggplot2는 동급 최고의 데이터 시각화 도구이고, 틀림없이 최고의 데이터 시각화 도구라고 생각합니다. O’Reilly 미디어의 최근 2016 년 설문 조사에 따르면 ggplot2는 데이터 과학자 중에서 가장 자주 사용되는 데이터 시각화 도구라고 합니다. 이것은 당신이 데이터 과학자로서 일하기를 원한다면 반드시 배워야한다고 제안하는 몇 가지 증거를 제공합니다.

ggplot2는 시각화에 대해 생각하는 법을 가르쳐줍니다

ggplot2의 인기와 기본 생산성 도구로서의 유용성은 차치하더라도 ggplot2를 권하는 이유는 너무나 명확 합니다. ggplot2는 데이터를 시각화하는 방법을 가르쳐줍니다.

시각화의 3 대 핵심 원칙

두 가지 중요한 데이터 시각화 원리는 일종의 ggplot2 구조에 있습니다.

  1. 데이터를 미학으로 매핑
  2. 레이어링
  3. 반복적인 플롯 구축

이를 이해하면 데이터를 시각화하는 방법과 시각적 도구가 좋은 해결책인 특정 문제를 공략하는 방법에 대한 직관이 더욱 명확 해집니다. 이러한 원칙을 이해하고 운영 방법 및 중요성을 이해하기 위해 예제를 살펴 보겠습니다.

원칙 1 : 데이터를 미학에 매핑

데이터 집합이 있다고 가정 해 보겠습니다.

#LOAD PACKAGE: tidyverse
library(tidyverse)

# This is the data we’re going to plot …
foo <- c(-122.419416,-121.886329,-71.05888,-74.005941,-118.243685,-117.161084,-0.127758,-77.036871,116.407395,-122.332071,-87.629798,-79.383184,-97.743061,121.473701,72.877656,2.352222,77.594563,-75.165222,-112.074037,37.6173) bar <- c(37.77493,37.338208,42.360083,40.712784,34.052234,32.715738,51.507351,38.907192,39.904211,47.60621,41.878114,43.653226,30.267153,31.230416,19.075984,48.856614,12.971599,39.952584,33.448377,55.755826) zaz <- c(6471,4175,3144,2106,1450,1410,842,835,758,727,688,628,626,510,497,449,419,413,325,318) # CREATE DATA FRAME df.dummy <- data_frame(foo,bar,zaz) # INSPECT glimpse(df.dummy) head(df.dummy)

몇 가지 수치 변수가 있으므로 두 가지 foo와 bar에서 산점도 플롯을 바로 만들어 보겠습니다.

만일 기본 ggplot2 구문을 배웠다고 이를 수행하는 코드는 매우 간단합니다.

#———————————————————–
# LOAD GGPLOT
# note: strictly speaking, we don’t need to load this
# since we already loaded “tidyverse”
# however, this _is_ a blog post about ggplot2 after all …
#———————————————————–

library(ggplot2)

#———-
# PLOT DATA
#———-

ggplot(data = df.dummy, aes(x = foo, y = bar)) +
geom_point()

소스: The best R package for learning to “think about visualization” – SHARP SIGHT LABS

0 대답

답글 남기기

토론에 참여하고 싶습니까?
기꺼이 공헌하십시오!

댓글 남기기