xray: The R Package to Have X Ray Vision on your Datasets

이 패키지를 사용하면 데이터 집합의 변수를 분석하고 데이터의 모양을 평가할 수 있습니다. 이것이 모델링을위한 데이터를 가지고있을 때 이것을 첫 번째 단계로 생각하십시오.이 패키지를 사용하여 모든 변수를 분석하고 변형 할 가치가있는 이상한 점이 있는지 확인하거나 변수를 모두 피할 수 있습니다.

설치 방법

# install.packages("devtools")
devtools::install_github("sicarul/xray")  

사용법

이상 탐지

xray::anomalies 는 NAs, Zeroes, Infinite 등의 모든 예외 열을 분석하고 이러한 예외가있는 행의 80 % 이상이있는 변수를 감지하면 경고합니다. 또한 모든 행의 값이 같을 때 경고 메시지를 표시합니다.

예제:

data(longley)  
badLongley=longley  
badLongley$GNP=NA  
xray::anomalies(badLongley)  
#> Warning in xray::anomalies(badLongley): Found 1 possible problematic variables: 
#> GNP
#> $variables
#>       Variable  q qNA  pNA qZero pZero qBlank pBlank qInf pInf qDistinct
#> 1          GNP 16  16 100%     0     -      0      -    0    -         1
#> 2 GNP.deflator 16   0    -     0     -      0      -    0    -        16
#> 3   Unemployed 16   0    -     0     -      0      -    0    -        16
#> 4 Armed.Forces 16   0    -     0     -      0      -    0    -        16
#> 5   Population 16   0    -     0     -      0      -    0    -        16
#> 6         Year 16   0    -     0     -      0      -    0    -        16
#> 7     Employed 16   0    -     0     -      0      -    0    -        16
#>      type anomalous_percent
#> 1 Logical              100%
#> 2 Numeric                 -
#> 3 Numeric                 -
#> 4 Numeric                 -
#> 5 Numeric                 -
#> 6 Integer                 -
#> 7 Numeric                 -
#> 
#> $problem_variables
#>   Variable  q qNA  pNA qZero pZero qBlank pBlank qInf pInf qDistinct
#> 1      GNP 16  16 100%     0     -      0      -    0    -         1
#>      type anomalous_percent
#> 1 Logical              100%
#>                                                              problems
#> 1 Anomalies present in 100% of the rows. Less than 2 distinct values.

확률분포

xray::distributions는 변수의 분포를 분석하려고하므로 각 변수가 통계적으로 어떻게 구성되어 있는지 이해할 수 있습니다. 또한 숫자 변수의 백분위 수 테이블을 결과로 반환하여 데이터의 모양을 알려줍니다.

distrLongley=longley  
distrLongley$testCategorical=c(rep('One',7), rep('Two', 9))  
xray::distributions(distrLongley)  

#>       Variable      p_1     p_10     p_25     p_50     p_75    p_90
#> 1 GNP.deflator    83.78    88.35   94.525    100.6   111.25  114.95
#> 2          GNP 237.8537   258.74  317.881  381.427 454.0855 510.387
#> 3   Unemployed   187.93   201.55  234.825   314.35   384.25   434.4
#> 4 Armed.Forces   147.61    160.3    229.8   271.75  306.075  344.85
#> 5   Population 107.7616 109.2025 111.7885 116.8035  122.304  126.61
#> 6         Year  1947.15   1948.5  1950.75   1954.5  1958.25  1960.5
#> 7     Employed  60.1938  60.7225  62.7125   65.504  68.2905 69.4475
#>       p_99
#> 1   116.72
#> 2 549.3859
#> 3  478.725
#> 4  358.695
#> 5 129.7466
#> 6  1961.85
#> 7   70.403

시간축에 따른 확률분포

xray::timebased는 또한 확률분포를 조사하지만 시간 경과에 따른 변경 사항을 보여주기 때문에 시간이 지남에 따라 확률분포에 변경 사항이있는 경우 (예 : 변수가 중지되거나 수집되기 시작한 경우) 쉽게 시각화 할 수 있습니다.

 

dateLongley=longley  
dateLongley$Year=as.Date(paste0(dateLongley$Year,'-01-01'))  
dateLongley$Data='Original'  
ndateLongley=dateLongley  
ndateLongley$GNP=dateLongley$GNP+10  
ndateLongley$Data='Offseted'  
xray::timebased(rbind(dateLongley, ndateLongley), 'Year')  

#> [1] “7 charts have been generated.”

소스: xray: The R Package to Have X Ray Vision on your Datasets

About The Author

THE-R

한국HP 엔터프라이즈 컨설팅 PM 경력 현 (주)아이리치그린 대표이사 현 데이터진흥원 빅데이터 기획 멘토

댓글 남기기

태그

error: Content is protected !!
%d 블로거가 이것을 좋아합니다: