EDA(Exploratory Data Analysis)는 전체 데이터 과학 워크 플로에서 매우 중요한 역할을합니다. 사실, 전체 데이터 과학 워크 플로우의 대부분을 차지한다고 해도 과언이 아닙니다.

항간에 “데이터 과학에서는 80 %의 시간이 데이터를 준비하는데 소비 된 시간의 20 %는 데이터를 준비 할 필요성에 대해 불평하는 것”이라고 좋은 격언이 있습니다.

R이 많은 데이터 분석가를 위한 언어 이므로, EDA는 악명 높은 tidyverse세계에서 R 코드로 패키지 몇 개를 얻도록 R 프로그래머가 필요합니다. 심지어 막대 그래프와 히스토그램이있는 가장 기본적인 EDA의 경우에도 마찬가지입니다.

최근에 발표된 DataExplorer 의 create_report() 함수를 사용해 보면 R에서 EDA 를 얼마나 빨리 처리할 수 있는지 보여주고 있습니다.

설치 및 로드

라이브러리를 로드하여 EDA를 시작합시다.

데이터 세트

이 분석을 위해 사용할 데이터 세트는 Kaggle에 게시 된 Chocolate Bar Ratings 입니다. 데이터 세트는 여기에서 다운로드 할 수 있습니다 . EDA 용 R 세션에 입력 데이터 세트는 아래와 같이 가져올 수 있읍니다.

데이터 정제

예를 들어, Cocoa.Percent 는 숫자 값이어야 하지만 %기호가 있기 때문에 문자로 표시되므로 수정해야 합니다.

변수

EDA에서 가장 먼저해야 할 일은 입력 데이터 세트의 차원과 변수 시간을 확인하는 것입니다.

다음과 같이 플롯을 제공합니다.

이것으로 우리는 몇 가지 연속형 변수와 몇 가지 범주형 변수를 볼 수 있습니다.

 

누락 값 탐색

분석을 위해 제공된 입력 데이터에 누락된 값이 있는지 확인하는 것이 매우 중요합니다.

플롯에서 보는바와 같이, 운좋게도 이 데이터 세트에는 누락된 값이 없습니다. 🙂

연속 변수

막대 그래프는 연속 변수를 분석 / 나타낼 수있는 분석가의 가장 친한 친구입니다.

다음과 같은 플롯을 제공합니다.

DataExplorer를 통해 아래와 같이 밀도 그래프를 그릴 수 있습니다.

다변량 분석

이는 상관 분석부터 시작하여 일변량 분석의 종료와 생물학적 다중 매체 분석의 시작을 나타냅니다.

상관 관계 플롯과 마찬가지로 DataExplorer는 위와 비슷한 구문으로 박스 플롯 및 산점도를 그릴 수있는 기능을 가지고 있습니다.

 

범주 형 변수 – 바 플롯

지금까지 DataExplorer가 연속 변수에 대해 플롯 할 수 있는 EDA 플롯을 보았습니다. 이제 범주형 변수에 대해 비슷하게 실습하는 방법을 살펴 보겠습니다. 예기치 않게 이것은 매우 간단한 함수 plot_bar()이 사용 됩니다.


마지막으로, 만약 당신이 몇분밖에 시간이 없다면, 그냥 create_report를 사용하는 것이 매우 좋다.html로 작성합니다.

 

이 기사가 단순하고 빠른 EDA를 수행하고 일반적인 EDA 요소로 공유 가능한 보고서를 생성하는 데 도움이되기를 바랍니다. R의 Exploratory Data Analysis에 대한 자세한 내용은 DataCamp 과정을 확인하십시오.

참고 문헌

데이터 세트 
Kaggle Kernel 
소스 코드 – Github 
DataExplorer – CRAN

 

 

출처: DataExplorer를 통해 빠른 속도의 EDA R 개발 DataScience +