이번 블로그는 분포 및 상관관계를 탐색하는 데 매우 유용한 R 패키지인 ggpairs를 소개하고자 합니다.

최근에 plot() 또는 pairs()를 사용하여 생성된 기본 그래픽 도형을 다시 만들려고했습니다. 예를들어 두 개의 목표 단백질이 500 개 있다고 가정하고 두 개의 점수 (예 : EigenTHREADER, SAINT2)와 모델의 품질 (TMScore)을 비교하는 방법을 비교해 보겠습니다.

 

대표적 시각화 패키지인 ggplot2를 사용하여 이 플롯을 재현하면 좋을것 같은데, 이 작업을 수행하는 가장 좋은 방법은 ggplot2 확장 패키지 GGally의 일부인 ggpairs ( “Ggplot2 Generalized Pairs Plot”)를 사용하는 것입니다.

 

이 함수는 상단의 삼각형에 상관 계수 (기본적으로 Pearson), 대각선의 분포 및 ggplot2에서 기대할 수 있는 모든 재미있는 유연성을 표시하는 이점을 추가하여 위의 기본 예제와 유사한 플롯을 만듭니다.

 

위쪽 및 아래쪽 삼각형과 대각선의 그림은 개별적으로 수정됩니다. 옵션과 매개 변수는 각각의 목록으로 전달됩니다. 변수의 각 조합은 다음과 같은 여부에 따라 플롯됩니다.

  • 연속 : 예) “points” (lower default), “smooth”, “smooth_loess”, “density”, “cor” (upper default), 또는 “blank”
  • 콤보 : 예) “box”, “box_no_facet”(기본값), “dot”, “dot_no_facet”, “facethist”, “facetdensity”, “denstrip”또는 “blank”
  • 불연속 : 예) “ratio”, “facetbar” 또는 “blank”

대각선의 그림은 다음 중 하나 일 수 있습니다.

  • 연속: “densityDiag”, “barDiag”, “blankDiag”
  • 불연속: “barDiag”, “blankDiag”

 

facet 이라는 용어는 하나의 플롯을 둘 이상의 패널로 나누는 것을 말하며 ggplot2의 가장 유용한 기능 중 하나 입니다. 예를 들어, 아래 삼각형에 연속 변수 쌍에 대해 smoothed line 으로 점을 그려서 점을 작고 투명하게 만듭니다.

 

 

또한 사용자 고유의 플롯팅 기능을 제공 할 수도 있습니다. 우리는 이제 좌표(aesthetics)를 나타낼 수 있습니다. 예를 들어 대상 단백질에 따라 포인트를 색칠하면 대상 단백질 내에서 (훨씬 더 흥미로운) 상관 관계를 따로 따로 표시 할 수 있습니다.

 

아래의 삼각형과 위의 삼각형에 “combo”(이산적이고 연속적인) 변수의 조합에 대해 facethistbox plots을 어떻게 사용했는지, Target 대각선에있는 모델의 총 수를 나타내는 막대 그래프가 있음을 주목하십시오. 기본적으로 데이터의 모든 열이 플롯에 포함되며 columns 인수를 사용하여 제외합니다.

이 플롯에 대한 몇 가지 추가 사항은 다음과 같습니다.

  • 그룹 이름에 맞게 상관 관계 레이블의 정렬을 변경하려면 alignPercent를 사용하십시오.
  • 분포를 더 명확하게 볼 수 있도록 알파값을 변경하십시오.
  • 히스토그램을 제거 하세요

 

이제 첫 번째 칼럼을 제거해 보겠습니다. 이 문제를 해결하는 방법은 약간 복잡하지만 여기에는 해답이 있습니다. getPlot()을 사용하여 개별 또는 패널 조합을 추출 할 수 있습니다.

그래서 관심있는 패널을 추출하면 ggmatrix()를 사용하여 패널을 표시 할 수 있습니다.

 

 

 

참조: A Brief Introduction to ggpairs | Oxford Protein Informatics Group

(Visited 277 times, 1 visits today)