글쓴이: THE-R

데이터 과학을 위한 R vs. Python

최고의 데이터 과학 도구의 경쟁에서 Python과 R은 각각 장.단점이 있습니다. 다른 하나를 선택하는 것은 사용 사례, 학습 비용 및 기타 필요한 공통 도구에 따라 달라집니다.   DataCamp 에서 조사한바에 따르면 학습자들이 자주 묻는 질문중에 하나가 일상적인 데이터 분석 작업을 위해 R과 Python 중 어느 것을 사용해야하는지 여부를 자주 묻는다고 합니다. 이 사이트에서는 주로 대화식 R 자습서를 제공하지만, 항상 이러한 선택이 학습자들이 직면 한 데이터 분석적 도전의 유형에 달려 있다고 대답한다고 합니다. 아시다시피 Python과 R은 모두 통계를위한 유명한 프로그래밍 언어입니다. R은 통계학자를 염두에두고 개발되었지만 강력한 데이터 시각화 기능을 제공하고 있고, Python은 초보자에게 이해하기 쉬운 구문으로 높이 평가됩니다. 이 글에서는 R과 Python의...

Read More

DataExplorer: 빠른 데이터 탐색 구현

Forbes 기사에 따르면, 데이터 정제 및 정리는 가장 시간이 많이 걸리고 재미없는 데이터 과학 작업이라고 합니다. DataExplorer 패키지를 이용하면 전체 리소스의 80% 까지 최소화할 수 있습니다. 이와 더불어, 사용자에게 매우 친숙한 디자인이과 대부분의 경우 하나의 함수 호출만으로 데이터 탐색을 즐길 수 있습니다!   데이터 조작은 data.table에 의해 제공되므로 대용량 데이터 세트를 포함하는 작업은 대개 몇 초 내에 완료됩니다. 또한 이 패키지는 입력 데이터 클래스로 융통성이 높아 어떤 data.frame과 같은 객체를 포함 할 수 있습니다. 그러나 특정 함수는 update-by-reference 특징으로 인해 data.table 클래스 객체를 입력으로 요구합니다. 이제 몇 가지 코드를 살펴 볼까요? mlbench 라이브러리에서BostonHousing 데이터 세트를 가져옵니다. library(mlbench) data("BostonHousing", package = "mlbench") 초기...

Read More

funModeling 패키지를 이용한 탐색적 데이터 분석 및 데이터 준비

funModeling 퀵스타트 This package contains a set of functions related to exploratory data analysis, data preparation, and model performance. It is used by people coming from business, research, and teaching (professors and students).   이 패키지는 탐색적 데이터 분석, 데이터 준비 및 모델 성능과 관련된 기능 세트를 포함하고 있습니다. 📗 The paperback version is being prepared, get notified by the newsletter or twitter. Opening the black-box Some functions have in-line comments so the user can open the black-box and learn how it was developed, or to tune or improve any of them. All the functions are well documented, explaining all the parameters with the help of many short examples. R documentation can be accessed by: help("name_of_the_function"). Important changes from latest version 1.6.7, (relevant only if you were using previous versions): From the latest version, 1.6.7 (Jan 21-2018), the parameters str_input, str_target and str_score will be renamed to input, target and score respectively. The functionality remains the same. If you were using these parameters names on production, they will be still working until next release. this means that for now, you can use for example str_input or input. The other important change was in discretize_get_bins, which is detailed later in this document. About this quick-start This quick-start is focused only on the functions. All explanations around them, and the how and when to use them, can be accessed by following the “Read more here.” links below each section, which redirect you to the book. Below there are most of...

Read More

Coindeskr 팩키지와 Shiny를 활용한 비트코인 가격 추적기 구축

인정합시다. 비트코인으로 전 세계가 미쳐 버렸습니다. Satoshi Nakamoto가 소개 한 최초의 암호화(double-spend 문제를 해결하는 최초의 디지털 화폐) 인 비트코인(BTC)은 잘 설립 된 회사 (심지어 몇몇 국가)보다 커졌습니다. 따라서 많은 비트코인 매니아와 투자자는 시장을 더 잘 읽고 그에 따라 움직일 수 있도록 일일 가격을 추적하려고합니다.   이 자습서는 R 사용자가 Coindeskr, Shiny 및 Dygraphs의 세 가지 패키지를 사용하여 자신의 일일 비트코인 가격 추적을 만들도록 돕기위한 것입니다. Coindeskr은 Coindesk에서 제공하는 역사적인 비트코인 가격을 포함하여 Bitcoin Price Index를 추출하기 위해 coindesk API에 액세스하는 데 도움이됩니다. Shiny 구조 및 스크립트 명명 Every Shiny app contains two parts – the UI part and the Server part....

Read More

비지니스를 위한 R을 배우는 6 가지 이유

비즈니스를 위한 데이터 과학 (DS4B)은 비즈니스 분석의 미래이지만 아직 시작해야 할 부분을 파악하기가 어렵습니다. 마지막으로하고 싶은 일은 잘못된 도구로 시간을 낭비하는 것입니다. 시간을 효과적으로 활용하려면 (1) 작업에 적합한 도구 선택과 (2) 도구를 사용하여 비즈니스 가치를 반환하는 방법을 효율적으로 학습하는 두 가지가 있습니다. 이 기사에서는 첫 번째 부분에 초점을 맞추어 왜 R이 6 가지 점에서 올바른 선택인지 설명합니다. 다음 기사에서는 12주 안에 R을 배우는 두 번째 부분에 초점을 맞 춥니 다. REASON 1: R HAS THE BEST OVERALL QUALITIES   There are a number of tools available business analysis/business intelligence (with DS4B being a subset of this area). Each tool has its pros and cons, many of which are important in the business context. We can use these attributes to compare how each tool stacks up against the others! We did a qualitative assessment using several criteria: Business Capability (1 = Low, 10 = High) Ease of Learning (1 = Difficult, 10 = Easy) Cost (Free/Minimal, Low, High) Trend (0 = Fast Decline, 5 = Stable, 10 = Fast Growth) Further discussion on the assessment is included in the Appendix at the end of the article. What we saw was particularly interesting. A trendline developed exposing a tradeoff between learning curve and DS4B capability rating. The most flexible tools are more difficult to learn but tend to have higher business capability. Conversely, the “easy-to-learn” tools are often not the best long-term tools...

Read More

태그

error: Content is protected !!