skimr 은 최소한의 놀라움 의 원칙에 부합하는 요약 통계에 대한 마찰없는 접근법을 제공 하여 사용자가 자신의 데이터를 빨리 이해할 수있는 요약 통계를 표시합니다. 다른 데이터 형식을 처리 skim_df하고 파이프 라인에 포함되거나 사람 판독기에 표시 될 수 있는 개체를 반환합니다 .

설치

skimr의 버전 2는 매우 적극적으로 개발 중이며 출시 될 예정입니다. 버전 1은 중요한 문제에 대한 업데이트 만 받고 있습니다. 개발 버전에 관심있는 신규 사용자는 v-2 분기 설치를 고려하는 것이 좋습니다.

현재 출시 된 skimr 버전은 CRAN에서 설치할 수 있습니다. 다음 릴리스의 현재 빌드를 설치하려면 다음을 사용하십시오.

 

이 지점에 대한 API는 상당히 안정적이지만 문제가 발견되면 변경 될 수 있습니다.

아직 master 브랜치에 통합되지 않은 최신 변경 사항을 가진 버전을 설치하려면 (또는 그렇지 않을 수도 있음) :

 

개발 브랜치의 API에 의존하지 마십시오.

v-2 분기는 버전 2의 개발 분기와 같습니다. 변경 될 수 있지만 API는 버전 2 릴리스의 일부로 간주됩니다. 버전 2에 대한보다 자세한 정보는 이슈 트래커를 방문하십시오.

콘솔에서 통계 건너 뛰기

스키머 :

  • summary()누락, 완료, n 및 sd를 포함하여 보다 많은 통계 세트를 제공합니다 .
  • 각 데이터 유형을 별도로보고합니다.
  • 날짜, 논리 및 기타 다양한 유형을 처리합니다.
  • 필러 패키지를 기반으로 하는 스파크 – 바 (spark-bar) 및 스파크 라인 (spark-line)을 지원 합니다 .
  • 사용자가 데이터 유형에 포함 된 통계를 사용자 정의하고 추가 클래스에 대한 스키밍을 구현할 수 있습니다.
  • 많은 Tidyverse 기능과 함께 작동합니다.

클래스별로 변수 분리 :

 

프리젠 테이션은 컴팩트 한 수평 형식입니다.

 

문자열, 목록 및 기타 열 클래스 지원 기능 내장

 

유용한 요약 기능이 있습니다.

 

tidyverse 스타일 선택자를 사용하여 개별 열을 선택할 수 있습니다.

 

그룹화 된 데이터를 처리합니다.

skim()를 사용하여 그룹화 된 데이터를 처리 할 수 ​​있습니다 dplyr::group_by.

 

니트 결과

단순히 데이터 프레임을 스키밍하면 위에 표시된 가로 인쇄 레이아웃이 생성됩니다. 뜨개질 할 때 kable 및 pander 구현을 사용하여 향상된 렌더링을 사용할 수도 있습니다 (v2에 대한 pander 지원은 더 이상 사용되지 않습니다).

kable 및 pander 옵션

향상된 인쇄 옵션은 kable()또는 에 파이핑하여 사용할 수 있습니다 pander(). 이들은 구축 판더 패키지 와의 KABLE 기능 knitr 패키지 그러나 결과는 (자세한 내용은 네트 참조)과 다를 수 있습니다, 이러한 예는 향상된 옵션 뜨개질 뒤에 표시하는 방법을 보여줍니다.

패키지 내의 pander 지원은 버전 2에서 사용되지 않습니다.

kable을위한 옵션.

results = ‘asis’청크 옵션이 사용되고, skimr::네임 스페이스가 knitr :: kable에 의해 대체되는 것을 방지하기 위해 사용됩니다 (결과적으로 긴 skim_df 객체가 인쇄 됨).

 

스킴 요약 통계
n obs : 150
n 변수 : 5

변수 유형 : 요소

변하기 쉬운 있어야 할 곳에 없는 완전한 n_unique top_counts 주문한
0 150 150 세트 : 50, ver : 50, vir : 50, NA : 0 그릇된

변수 유형 : 숫자

변하기 쉬운 있어야 할 곳에 없는 완전한 평균 SD p0 p25 p50 p75 p100 히스
Petal.Length 0 150 150 3.76 1.77 1 1.6 4.35 5.1 6.9 ▇▂▅▅▃
꽃잎 폭 0 150 150 1.2 0.76 0.1 0.3 1.3 1.8 2.5 ▇▁▁▅▃▃▂▂
Sepal.Length 0 150 150 5.84 0.83 4.3 5.1 5.8 6.4 7.9 ▂▇▅▇▆▅▂▂
Sepal.Width 0 150 150 3.06 0.44 2 2.8 3.3 4.4 ▂▅▇▃▂

pander 옵션

때때로 필요할 수도 있습니다 panderOptions('knitr.auto.asis', FALSE).

 

스킴 요약 통계
n obs : 150
n 변수 : 5

아래 표는 계속됩니다.
변하기 쉬운 있어야 할 곳에 없는 완전한 n_unique
0 150 150
top_counts 주문한
세트 : 50, ver : 50, vir : 50, NA : 0 그릇된
아래 표는 계속됩니다.
변하기 쉬운 있어야 할 곳에 없는 완전한 평균 SD p0 p25 p50 p75
Petal.Length 0 150 150 3.76 1.77 1 1.6 4.35 5.1
꽃잎 폭 0 150 150 1.2 0.76 0.1 0.3 1.3 1.8
Sepal.Length 0 150 150 5.84 0.83 4.3 5.1 5.8 6.4
Sepal.Width 0 150 150 3.06 0.44 2 2.8 3.3
p100 히스
6.9 ▇▂▅▅▃
2.5 ▇▁▁▅▃▃▂▂
7.9 ▂▇▅▇▆▅▂▂
4.4 ▂▅▇▃▂

skim_df 객체 (긴 형식)

기본적으로 skim()콘솔에서 아름답게 인쇄하지만 skim_df계산할 수 있는 길고 깔끔한 형식의 개체 도 생성합니다 .

 

 

버전 2에서는 긴 skimr 객체가 지원되지 않습니다.

전체 skim_df객체 에 대해 계산

 

스키머 사용자 정의

탈지제 는 유념 된 기본값을 제공 하지만 고도의 맞춤 설정이 가능합니다. 사용자는 자신의 통계를 지정하고, 결과 형식을 변경하고, 새 클래스에 대한 통계를 만들고, 데이터 프레임이 아닌 데이터 구조에 대한 스키머를 개발할 수 있습니다.

나만의 통계 및 클래스 지정

사용자는 skim_with()기능 과 결합 된 목록을 사용하여 자체 통계를 지정할 수 있습니다 . 이렇게하면 데이터에있는 명명 된 클래스를 모두 지원할 수 있습니다.

 

 

서식 변경

skimr 은 열의 십진수를 정렬 할 수있는 기본 형식 세트, 숫자 데이터의 적절한 소수 자릿수 및 날짜 표현을 제공합니다. 사용자는이를보고 show_formats()수정할 수 있습니다 skim_format().

다른 개체 감추기

다른 오브젝트에 대한 스키밍 기능 개발 절차는 추가 오브젝트 지원 비 네트에 설명되어 있습니다 .

현재 버전의 제한 사항

인라인 히스토그램 및 꺾은 선형 차트를 다양한 상황에서 렌더링하는 데 문제가 있음을 알고 있습니다. 그 중 일부는 아래에 설명되어 있습니다.

스파크 히스토그램 지원

데이터 프레임을 인쇄 할 때 스파크 – 히스토그램 문자를 인쇄 할 때 알려진 문제가 있습니다. 예를 들어, "▂▅▇"는으로 인쇄됩니다 "<U+2582><U+2585><U+2587>". 이 오랜 문제  데이터 프레임을 인쇄하기위한 저수준 코드에서 기인합니다 . 몇 가지 사례가 다루어 지긴했지만, 예를 들어 Emacs ESS에서이 문제에 대한 보고서가 있습니다.

즉, skimr 은 히스토그램을 콘솔 및 in로 렌더링 kable()할 수 있지만 다른 상황 에서는 히스토그램을 렌더링 할 수 없습니다. 여기에는 다음이 포함됩니다.

  • 렌더링 skimr의 데이터 프레임 내를pander()
  • A 변환 skimr의 바닐라 R 데이터 프레임을 데이터 프레임을하지만 tibbles 올바르게 렌더링

Windows에서 이러한 문자를 표시하는 한 가지 해결 방법은 로캘의 CTYPE 부분을 중국어 / 일본어 / 한국어로 설정하는 것 Sys.setlocale("LC_CTYPE", "Chinese")입니다. 이 값은 skim()list ( as.list()) 또는 matrix ( as.matrix()) 로 작성된 데이터 프레임을 인쇄 할 때 기본적으로 표시됩니다 .

편직 된 문서에서 스파크 히스토그램 및 선 그래프 인쇄

스파크 바 및 스파크 라인은 콘솔에서 작동하지만 특정 문서 형식으로 바꿀 때 작동하지 않을 수 있습니다. 올바르게 렌더링 된 HTML 문서를 생성하는 동일한 세션에서 잘못 렌더링 된 PDF가 생성 될 수 있습니다. 이 문제는 일반적으로 좋은 구성 요소 (히스토그램) 및 점자 지원 (선 그래프)이있는 글꼴로 변경하여 해결할 수 있습니다. 예를 들어, extrafont패키지 의 열린 글꼴 “DejaVu Sans”가이를 지원합니다. 또한 결과를 포장하여 볼 수도 있습니다 knitr::kable(). 자세한 내용은 글꼴 사용에 대한 비 네트를 참조하십시오.

유형이 다른 문서의 디스플레이는 다양합니다. 예를 들어, 한 사용자가 “Yu Gothic UI Semilight”글꼴이 Microsoft Word 및 Libre Office Write에 대해 일관된 결과를 산출한다는 사실을 발견했습니다.

소스: 작고 유연한 데이터 요약 • skimr