EDA(Exploratory Data Analysis)는 전체 데이터 과학 워크 플로에서 매우 중요한 역할을합니다. 사실, 전체 데이터 과학 워크 플로우의 대부분을 차지한다고 해도 과언이 아닙니다. 항간에 “데이터 과학에서는 80 %의 시간이 데이터를 준비하는데 소비 된 시간의 20 %는 데이터를 준비 할 필요성에 대해 불평하는 것”이라고 좋은 격언이 있습니다. R이 많은 데이터 분석가를 위한 언어 이므로, EDA는 tidyverse세계에서 R 코드로 패키지를 가져올 것을 요구합니다. 심지어 막대 그래프와 히스토그램이있는 가장 기본적인 EDA의 경우에도 마찬가지입니다. 최근에 발표된 DataExplorer 의 create_report() 함수를 사용해 보면 R에서 EDA 를 얼마나 빨리 처리할 수 있는지 보여주고 있습니다.

설치 및 패키지 로드

라이브러리를 로드하여 EDA를 시작합시다.

데이터 세트

이 분석을 위해 사용할 데이터 세트는 Kaggle에 게시 된 Chocolate Bar Ratings 입니다. 데이터 세트는 여기에서 다운로드 할 수 있습니다 . EDA 용 R 세션에 입력 데이터 세트는 아래와 같이 가져올 수 있읍니다.

데이터 정제

예를 들어, Cocoa.Percent 는 숫자 값이어야 하지만 %기호가 있기 때문에 문자로 표시되므로 수정해야 합니다.

변수

EDA에서 가장 먼저해야 할 일은 입력 데이터 세트의 차원과 변수 시간을 확인하는 것입니다.

다음과 같이 플롯을 제공합니다.

 

이것으로 우리는 몇 가지 연속형 변수와 몇 가지 범주형 변수를 볼 수 있습니다.

누락 값 탐색

분석을 위해 제공된 입력 데이터에 누락된 값이 있는지 확인하는 것이 매우 중요합니다.

플롯에서 보는바와 같이, 운좋게도 이 데이터 세트에는 누락된 값이 없습니다. 🙂

연속 변수

막대 그래프는 연속 변수를 탐색할 수 있는 분석가의 가장 친근한 플롯입니다.

DataExplorer를 통해 아래와 같이 밀도 그래프를 그릴 수 있습니다.

다변량 분석

이는 상관 분석부터 시작하여 일변량 분석의 종료와 생물학적 다중 매체 분석의 시작을 나타냅니다.

상관 관계 플롯과 마찬가지로 DataExplorer는 위와 비슷한 구문으로 박스 플롯 및 산점도를 그릴 수있는 기능을 가지고 있습니다.

범주 형 변수 – 바 플롯

지금까지 DataExplorer가 연속 변수에 대해 플롯 할 수 있는 EDA를 구현해 보았습니다. 이제 범주형 변수에 대해 비슷하게 실습하는 방법을 살펴 보겠습니다. 이것은 매우 간단한 함수인 plot_bar()를 사용 됩니다.

마지막으로, 만약 당신이 시간이 없다면, 그냥 create_report를 사용하는 것이 추천합니다.

 

 

이 기사가 단순하고 빠른 EDA를 수행하고 일반적인 EDA 요소로 공유 가능한 보고서를 생성하는 데 도움이되기를 바랍니다.

참고 문헌

데이터 세트 
Kaggle Kernel 
소스 코드 – Github 
DataExplorer – CRAN

출처: DataExplorer를 통해 빠른 속도의 EDA R 개발 DataScience +

(Visited 245 times, 1 visits today)