소개

Stackoverflow는 최근 2019 년 연례 개발자 설문 조사의 익명 처리 결과를 발표했습니다. R 사용자가 급여에 관해 말한 내용을 살펴 보겠습니다. 대표성이 없거나 경우에 따라 작은 표본 때문에 다음 결과에 편향 될 수 있습니다.

데이터 준비

데이터 세트는 거의 90,000 명의 응답자가 실시한 설문 조사 응답으로 구성됩니다. 약 5,000 명의 사람들이 R을 사용하여 “지난 해 광범위한 개발 작업”을 보고했습니다.

우리는 먼저 데이터를 가져오고 전문 작업의 일부로 R을 사용하는 응답자만 유지합니다.

 

첫 번째 필터를 사용하면 데이터 세트가 88,883 명에서 5,048 명으로 줄어 듭니다. 두 번째 필터는 학생, 취미 프로그래머 및 이전 개발자를 제외합니다. 이렇게하면 데이터 세트가 4,047 명으로 줄어 듭니다. 세 번째 필터는 실업자와 은퇴 한 응답자를 제외하고 데이터 세트는 3,871 명의 응답자로 추가로 축소되었습니다. 마지막으로 알려지지 않은 국가의 응답자와 알려지지 않은 급여가 없는 응답자 (변수 ConvertedComp)를 제외합니다. 최종 데이터 세트 크기는 3,034 개의 행 (응답자)입니다.

우리는 두 개의 추가 도우미 테이블이 필요합니다. 첫 번째는 R 사용자의 수와 국가 별 연평균 달러 급여를 포함합니다.

 

두 번째 표에는 국가 대륙 정보가 포함됩니다. 이 작업을 위해 countrycode :: countrycode 함수를 사용할 수 있습니다.

국가별 급여 분포

우리가 관심을 가지는 변수는 ConvertedComp이며 “근무 년 12 주와 근무 주 50 주를 가정 할 때 2019-02-01의 환율을 사용하여 연봉을 전환한 것으로 정의합니다.

연봉 분포는 boxplots에 의해 아래에서 시각화됩니다. 소음이 너무 많이 나가지 않도록 R 사용자가 5 명 이상인 국가로 제한합니다.

미국은 110,000 달러로 가장 높은 연평균 연봉을 가지고 있으며 그 다음으로 이스라엘과 노르웨이가 그 뒤를 잇습니다. 그래프의 아래 부분은 아시아, 남미 및 아프리카 국가에 의해 채워집니다. 

미국의 급여 분포

응답자 수가 가장 많은 국가 미국(1,100)에 대한 R 사용자의 급여 분포를 흥미로운 변수로 간략하게 살펴 보겠습니다.

연령

두 번째 연령 그룹의 중앙값은 첫 번째 그룹의 중앙값 보다 약 40 % 높습니다. 3번째 연령 그룹의 중앙값은 두 번째 그룹의 중앙값보다 약 17 % 높습니다. 네 번째 연령 그룹의 중앙값은 세 번째 그룹의 중앙값보다 약 6 % 높습니다. 응답자 중 일부는 급여가 0에 가깝다고보고했습니다.

성별

유사하게 성별 분포도를 그릴 수있습니다.

이 박스플롯을 보면 남성은 여성보다 평균 월급이 15 % 높습니다.

교육 수준

가독성을 높이기 위해 여기에서는 희귀한 교육 카테고리들은 제외시켰습니다.

학사 학위 소지자는 중간 정도의 차이가 없는 응답자 보다 약 15 % 더 많은 수입이 있다고보여집니다. 석사 학위 소지자는 학사 학위를받은 응답자 보다 약 9 %의 수익을 올렸습니다. 박사 학위 소지자는 석사 학위를 가진 응답자 보다 약 18 % 더 많은 수입을 올렸습니다.

전공 학부

R 사용자는 다양한 학부 학위를 소지하고 있습니다. 여기서도 희귀 전공을 제외 시켰습니다.

흥미롭게도 가장 높은 중앙값 급여는 토목.건축, 전기, 기계학과와 같은 다른 엔지니어링 전공으로 보고 됩니다.

개발자 유형

각 설문 응답자는 여기에 하나 이상의 카테고리를 선택할 수있는 옵션이 있음에 유의하십시오. 분석을 시작할 때 MainBranch 열에서 학생을 삭제했지만 일부 개발자는 여전히 DevType 열에 학생으로 보고합니다.

 

예상대로 임원 및 관리자가 가장 많은 수입을 올리고 학생은 가장 적은 수입을 올립니다.

결론

위의 통찰력이 흥미로우셨기를 바랍니다. 이 데이터를 직접 실험해 보고 결과를 공유하십시오.

[참고] R 세션 정보


 

(Visited 26 times, 1 visits today)