Datazar v2.0 발표

7 개월, 2 주, 3 일 전, 우리는 공식적으로 Datazar 버전 1.0을 일반 대중에게 공개했습니다. Datazar는 항상 일반인에게 제공되어 왔기 때문에 공식적으로 따옴표를 넣었습니다. 우리는 커뮤니티와 함께 발전하여 우리가 만들고있는 것이 항상 완벽 해지기 위해 노력하는 워크 플로에 필수적임을 보장합니다. 혁신과 투명성은 우리가 누구인지에 대한 두 가지 기둥이므로, 공개적으로 혁신 할 수있는 능력에 자부심을 가지고 있습니다.

그래서 세부 사항에 들어가기 전에 우리가 여기 오기 위해 도움을 준 커뮤니티에 감사드립니다. 당신의 지속적인 피드백과 비판 없이는 불가능했을 것입니다. 버전 2의 출시는 버전 1에서 크게 도약했습니다. 코드 기반의 약 80 %가 완전히 새로운 것입니다. 그러니 장난감을 풀어 봅시다!

Seven months, two weeks and three days ago, we “officially” released Datazar version 1.0 to the general public. I put officially in quotes because Datazar has always been available to the general public. We develop with our community to ensure that what we’re building is essential to the workflow we always strive to perfect. Innovation and transparency are the two pillars of who we are, therefore we pride ourselves in our ability to innovate openly.

So before I get into any of the details, I would like to thank our community for helping us get here. It would have been impossible without your continuous feedback and criticism. The release of version 2 is a massive leap from version 1. Around 80% of the code base is entirely new. So let’s go ahead and unwrap the toys!

The Workspace

Something that’s entirely new is the Workspace. Before the workspace was introduced, the only thing you could do on Datazar was upload your data, map it with its related files/analysis (manually) and allow other people to download it. Pretty simple. But what’s the point of having a dataset if you can’t use it (visualize/analyze)? That extra step of downloading the dataset, analyzing it and re-uploading whatever the result is just doesn’t cut it (based on our data). So how about the ability to analyze the dataset right then and there using tools you’re already familiar with? Like, R and Python.

We developed a notebook and console interface for both R and Python; the two most popular analysis languages out there (open source).

Now you can analyze any dataset using R and Python with the notebook or console interfaces right in your browser. All the computation is done on Datazar’s servers so you can literally do it using a Chromebook.

We didn’t want to re-invent the wheel so we decided to stick to interfaces everyone is already comfortable with. Namely the console and the notebook. We just made slight modifications; ex: the images in the console interface appear in-line with the text results instead of another window (like it would in your terminal). Using these interfaces also allows for maximum reproducibility.

You can install any packages/modules you want, create any models, charts, visualizations etc… Just as you would in your local machine with your favorite editor.

In the case of R, you can also create RMarkdown files and not just consoles and notebooks.

One-Click Charts

Sometimes you don’t need to launch R or Python to explore a dataset. Sometimes a simple chart is enough to get you started. So for that exact reason we also introduced One-Click Charts. These are very simple, exploratory charts like scatter-plots, line-plots etc… If you update the dataset, the charts will also update accordingly so they can be used to keep track of things as a function of time.

Redesigned Project Interface

In version 1.0, the Project was an afterthought. The entire platform was centered around the File or dataset. We completely re-designed entire flows to make the platform centered around the Project. Why? Datasets by themselves don’t have the same pull as datasets with supporting documents such as analysis notebooks, notes and publication files.

This change completely changed how you work on the platform. The new interface that’s based on the Project pushes you to collaborate further with quick access to things like Project Discussions, Project Metrics, Project Activity etc…

Publishing

With the new Project interface, you can now Publish your projects once you’re done analyzing your data. Whether you’re using a MarkDown file or a LaTeX file, you can re-direct your readers to your publication document so it’s the first thing they see.

Replication

Projects can now be replicated. Replication in Datazar, just like how you replicate your fellow researchers’ project, allows you to create an exact copy of the project. Once the copy is complete, you can re-run all the analysis and go through the datasets and methods without affecting/altering the original documents. We completely embedded the scientific process into the platform.

Pricing

Along with the launch of version 2.0, we’re also officially releasing our Plans and Pricing.

https://www.datazar.com/pricing/

The plans are differentiated based on how much data you want to compute, calls to the API and project privacy.

The first factor is computation. Anyone with any plan can upload as much data as they want and create analysis files as big as they want. The only difference is how much data you want to compute in the cloud using R, Python etc…. With the Pro and Team plans, you can compute any file size you want, just like in your own computer*.

The second factor in the pricing structure is access to the API. Anyone with a Datazar account can access the API using tokens. Getting on a Student, Pro or Team plan gives you higher API rate limits.

The third factor is project privacy. All free accounts can create as many public projects as they want while uploading any file type or size. The paid plans allow accounts to create private projects where only invited collaborators have access.

We also created a discounted version of the Pro plan for students with relatively high computational and API limits.

*considering hardware limitations

Miscellaneous

Faster Rendering: D3 visualizations and charts now load 3.5X faster than before due to the redesign of the rendering engine.

Bulk Upload: Files can now be uploaded in bulk instead of 1 by 1. Datazar will also now automatically detect what kind of file it is (raw data, prepared data, analysis, visualization…)

Community Contributions Control: Project owners and maintainers can now control whether the community can contribute datasets and analysis even if the projects are public.

Documentation: Several guides have been uploaded to docs.datazar.com/guides. In a few weeks, we’ll be opening up the Docs system to everyone so anyone can write guides.

External Sharing: Sharing to social media is now available to all files.


Thanks again to everyone who participated in making this happen, we’re one step closer to re-designing how research is done. If you’re thinking about moving your research to Datazar or just getting into research, don’t hesitate to contact support@datazar.com. The Explore and Product pages are great resources if you’re on the fence, but as always, the best way to find out is to get right to it.

Join the discussion on ProductHunt.

소스: Announcing Datazar v2.0 – Datazar Blog

데이터과학의 주기율표

, ,

이 주기율표는 데이터 과학 공간의 주요 플레이어를 탐색하는 가이드 역할을 할 수 있습니다. 이 테이블의 자료는 O’Reilly의 2016 Data Science Salary Survey, Gartner의 2017 Magic Science Quadrant 및 KD Nuggets 2016 Software Poll 결과와 같은 데이터 과학 사용자로부터 얻은 설문 조사를보고 선택했습니다. 다른 출처 중. 표의 카테고리가 모두 상호 배타적 인 것은 아닙니다.

이 주기율표는 데이터 과학 공간의 주요 플레이어를 탐색하는 가이드 역할을 할 수 있습니다. 이 테이블의 자료는 O’Reilly의 2016 Data Science Salary Survey, Gartner의 2017 Magic Science Quadrant 및 KD Nuggets 2016 Software Poll 결과와 같은 데이터 과학 사용자로부터 얻은 설문 조사를보고 선택했습니다. 다른 출처 중. 표의 카테고리가 모두 상호 배타적 인 것은 아닙니다.

 

데이터 과학의 주기율표 탐색

테이블의 왼쪽 섹션에는 교육과 관련이있는 회사 목록이 나와 있습니다. 여기에는 코스, 부트 캠프 및 컨퍼런스가 있습니다. 반면에 오른쪽에는 최신 뉴스, 가장 인기있는 블로그 및 데이터 과학 커뮤니티의 관련 자료로 최신 정보를 얻을 수있는 리소스가 있습니다. 중간에는 데이터 과학을 시작하는 데 사용할 수있는 도구가 있습니다. 프로그래밍 언어, 프로젝트 및 문제, 데이터 시각화 도구 등을 찾을 수 있습니다.

이 표는 데이터 과학 자료, 도구 및 회사를 다음 13 가지 범주로 분류합니다.

교육 과정 : 데이터 과학을 배우려는 사람들에게는 데이터 과학 과정을 제공하는 많은 사이트 또는 회사가 있습니다.DataCamp, Coursera 및 Edx의 MOOC 등 학습 스타일에 어울리는 다양한 옵션을 찾을 수 있습니다!

부트 캠프: this section includes resources for those who are looking for more mentored options to learn data science. You’ll see that boot camps like The Data Incubator or Galvanize have been included.

이 섹션에는 데이터 과학을 배우기위한 더 많은 멘토 옵션을 찾고있는 사람들을위한 자료가 포함되어 있습니다. Data Incubator 또는 Galvanize와 같은 부트 캠프가 포함되어 있습니다.

컨퍼런스: learning is not an activity that you do when you go on courses or boot camps. Conferences are something that learners often forget, but they also contribute to learning data science: it’s important that you attend them as a data science aspirant, as you’ll get in touch with the latest advancements and the best industry experts. Some of the ones that are listed in the table are UseR!, Tableau Conference and PyData.

Data: practice makes perfect, and this is also the case for data science. You’ll need to look and find data sets in order to start practicing what you learned in the courses on real-life data or to make your data science portfolio. Data is the basic building block of data science and finding that data can be probably one of the hardest things. Some of the options that you could consider when you’re looking for cool data sets are data.world, Quandl and Statista.

Projects & Challenges, Competitions: after practicing, you might also consider taking on bigger projects: data science portfolios, competitions, challenges, …. You’ll find all of these in this category of the Periodic Table of Data Science! One of the most popular options is probably Kaggle, but also DrivenData or DataKind are worth checking out!

Programming Languages & Distributions:  data scientists generally use not only one, but many programming languages; Some programming languages like Python have recently gained a lot of traction in the community and also Python distributions, like Anaconda, seem to find their way to data science aspirants.

Search & Data Management: this enormous category contains all tools that you can use to search and manage your data in some way. You’ll see, on the one hand, a search library like Lucene, but also a relational database management system like Oracle.

Machine Learning & Stats: this category not only offers you libraries to get started with machine learning and stats with programming languages such as Python, but also entire platforms, such as Alteryx or DataRobot.

Data Visualization & Reporting: after you have analyzed and modeled your data, you might be looking to visualize the results and report on what you have been investigating. You can make use of open-source options like Shiny or Matplotlib to do this, or all back on commercial options such as Qlikview or Tableau.

Collaboration: collaboration is a trending topic in the data science community. As you grow, you’ll also find the need to work in teams (even if it’s just with one other person!) and in those cases, you’ll want to make use of notebooks like Jupyter. But even as you’re just working on your own, working with an IDE can come in handy if you’re just starting out. In such cases, consider Rodeo or Spyder.

Community & Q&A: asking questions and falling back on the community is one of the things that you’ll probably do a lot when you’re learning data science. If you’re ever unsure of where you can find the answer to your data science question, you can be sure to find it in sites such as StackOverflow, Quora, Reddit, etc.

News, Newsletters & Blogs: you’ll find that the community is evolving and growing rapidly: following the news and the latest trends is a necessity. General newsletters like Data Science Weekly or Data Elixir, or language-specific newsletters like Python Weekly or R Weekly can give you your weekly dose of data science right in your mailbox. But also blogging sites like RBloggers or KD Nuggets are worth following!

Podcasts: last, but definitely not least, are the podcasts. These are great in many ways, as you’ll get introduced to expert interviews, like in Becoming A Data Scientist or to specific data science topics, like in Data Stories or Talking Machines!

Are you thinking of another resource that should be added to this periodic table?  Leave a comment below and tell us about it!

 

소스: The Periodic Table of Data Science | R-bloggers

엘라스틱 서치(Elasticsearch) 소개

,

소스: 엘라스틱 서치(Elasticsearch) : 네이버캐스트

 

데이터과학이 발전하면서 함께 성장하고 있는 기술이 있었으니, 바로 오픈소스 기술이다. 데이터 기술은 저장, 정제, 시각화, 분석 등 그 종류가 다양하며, 각 카테고리에서 수십 개의 오픈소스 데이터 기술이 서로 경쟁하고 있다. 이 가운데 ‘엘라스틱서치’는 검색 분야에서 큰 주목을 받고 있으며, 최근 들어 오픈소스 스타트업으로서 성과도 내고 있어 영향력이 커지고 있다.

엘라스틱 로고

아내의 요리법 검색 기술에서 엘라스틱서치까지

엘라스틱서치는 엘라스틱의 대표 기술이다. 원래 초창기 기업 이름도 엘라스틱서치였지만, 서비스 영역이 확장되면서 2015년 사명을 엘라스틱으로 변경했다. 엘라스틱서치는 이름에서 유추할 수 있듯이, 검색기술이다. ‘아파치 루신(Apache Lucene)’을 기반으로 만든 분산 검색엔진으로, 설치와 서버 확장이 편리한 것으로 유명한 기술이다. 대표적으로 깃허브, 이베이, 가디언 같은 기업이 엘라스틱서치 기술로 내부 검색 기능을 구축했다.

샤이 배넌 엘라스틱서치 창시자. 현재는 엘라스틱에서 CTO 직을 맡고 있다. <출처: 엘라스틱 홈페이지>

엘라스틱서치의 탄생은 자상한 남편의 이야기로 시작한다. 엘라스틱 공동 설립자이자 현재 CTO 직을 맡고 있는 샤이 배넌(Shay Banon)은 2004년, 런던으로 이사를 가야 했다. 당시 그의 아내가 요리사의 길을 준비하고 있어 이를 지원해주기 위해서였다. 새로운 곳으로 이사를 하다 보니 샤이 배넌은 개발자로서 새 직장을 구하는 데 시간이 필요했고, 자연스레 집에 있는 시간이 많았다. 그는 새로운 기술을 공부하면서 남는 시간을 보냈는데, 마침 그의 아내는 요리 수업 시간에 배워온 자료를 정리하고 있었다. 그런 모습을 본 샤이 배넌은 아내에게 맞춤화된 요리법 검색 서비스를 만들어주기로 결심했다. 그때 발견한 기술이 바로 ‘루신’이다. 루신은 자바에서 사용할 수 있는 검색 기술 라이브러리로, 당시 꽤 유명한 오픈소스 기술이었다. 샤이 배넌은 루신을 기반으로 필요한 검색 기능을 구축하기 시작했고, 자체 오픈소스 기술인 ‘컴파스(Compass)’를 개발하게 한다.

컴파스에 투자한 지 몇 달이 지나자, 샤이 배넌은 해당 기술이 요리법 검색 이상으로 활용될 수 있다는 것을 깨달았다. 검색 기술을 적용할 수 있는 분야는 무궁무진했기 때문이다. 실제로 현재 엘라스틱 고객군은 금융, 미디어, 유통, IT 등 다양하다.

컴파스를 기반으로 조금 더 정교하게 만들어진 기술이 바로 엘라스틱서치다. 샤이 배넌은 취업 후 틈틈이 엘라스틱서치를 개발했지만, 그 성장 속도는 생각보다 빨랐다. 그는 아예 직장을 그만두고 엘라스틱서치에만 집중하기로 했다. 그러면서 뜻이 맞는 다른 개발자 3명과 함께 엘라스틱서치란 스타트업을 설립하게 된다. 아내를 위해 만들려던 요리검색 기술은 엘라스틱서치에 집중하느라 결국 완성하지 못했다고 한다.

오픈소스 기술이라는 무기

엘라스틱서치의 기초 기술이었던 루신과 컴파스는 오픈소스 기술이다. 엘라스틱서치도 자연스레 오픈소스 기술로 배포됐다. 엘라스틱에서 제공하는 핵심 기술은 대부분 오픈소스 기술이며, 공동설립자들은 오픈소스 기술에 깊이 관여하는 개발자다. 그만큼 엘라스틱은 오픈소스 기술 친화적인 기업이다.

엘라스틱의 주요 기술은 오픈소스 기술로 구성돼 있다. <출처: 엘라스틱 홈페이지>

오픈소스 기술의 인기는 이전부터 높긴 하지만, 오픈소스 기술로 기업을 운영하고 수익을 얻는 것은 쉽지 않다. 그럼에도 불구하고 샤이 배넌은 오픈소스 기술 기업으로 엘라스틱을 성장시키겠다는 마음이 컸다고 한다. 그는 인터뷰에서 “오픈소스 형태로 기술을 공개하면 더 많은 곳에 더 빨리 퍼질 수 있다”라며 “이미 많은 혁신적인 기술들이 현재 오픈소스 기술로부터 나오고 있으며, 오픈소스 기술이 미래에 가야 할 방향이라고 생각했다”라고 밝히기도 했다. 또한 오픈소스 기술에서 얻은 노하우를 상용 제품에 적용하는 과정이 실제로 기업에 도움이 되기도 했다고 한다.

엘라스틱은 2012년 설립된 이후 3년 동안 해마다 투자를 유치했다. 투자금은 총 1억400만 달러, 우리 돈으로 약 1221억 원 규모였다. 그만큼 시장에서 엘라스틱의 가능성을 높게 본 셈이다. 샤이 배넌은 “라이브러리 정도의 오픈소스 기술이었다면 원하는 만큼 수익을 낼 수 없었을 것”이라며 “하지만 그보다 좀 더 크고 중요한 기술이라면 수익을 만들 수 있다고 생각했으며, 특히 데이터 양이 늘어날수록 검색의 힘은 더 강력해질 거라고 믿었다”라고 설립 계기를 밝혔다.

그 예상은 적중했다. 2010년 이후 많은 기업들이 데이터에서 가치를 찾아내기 위해 관련 기술을 구입하고 비용을 내고 있다. 엘라스틱도 기업용 제품으로 꾸준히 수익을 내는 중이다.

엘라스틱의 대표 기술 3인방, ELK

엘라스틱은 현재 12개의 제품을 제공하고 있다. 이 중 가장 인기 있는 제품은 엘라스틱서치(Elasticsearch), 로그스태시(Logstash), 키바나(Kibana)다. 이 세 기술은 앞글자를 따서 ‘ELK 스택’이라고 불리기도 한다. 이용자는 3가지 제품을 조합해 데이터 수집부터 분석, 시각화를 통합적으로 작업할 수 있다.

먼저 엘라스틱서치는 분산형 레스트풀(RESTful) 검색 및 분석 엔진이다. 정형, 비정형, 위치정보, 메트릭 등 원하는 방법으로 다양한 유형의 검색을 수행하고 결합할 수 있다. 가장 큰 장점은 확장성과 쉬운 설치다. 작은 규모로 적용해도 이후 점차 쉽게 확대할 수 있으며, API 등을 이용해 구조를 단순화하고 설치하기 쉽다.

엘라스틱서치 예제 <출처: 엘라스틱 홈페이지>

로그스태시는 오픈소스 서버측 데이터 처리 파이프라인이다. 다양한 소스에서 동시에 데이터를 수집해 변환한 뒤 자주 사용하는 특정 보관소로 데이터를 보내는 역할을 한다. 데이터 이동 중에 구문 분석 및 변환이 가능해 분석을 쉽고 빠르게 하는 데 도움을 주며, 200개 이상의 플러그인을 지원해 다양한 기술과 조합해 사용할 수 있다.

로그스태시의 입력(input) → 필터(filter) → 출력(output) 구조도 <출처: 엘라스틱 홈페이지>

키바나는 시각화 기술로 히스토그램, 막대그래프, 파이차트를 표현하는 것부터 위치데이터, 시계열 분석, 그래프관계 탐색 등을 지원한다.

데이터를 시각화하고 Elastic Stack의 탐색을 지원하는 키바나 화면 예제 <출처: 엘라스틱 홈페이지>

엘라스틱은 현재 5개국어를 지원하고 있는데, 한국어도 포함돼 있다. 그만큼 한국시장 진출을 활발히 하고 있음을 엿볼 수 있다. 2015년 6월에는 한국인 디벨로퍼 어드보케이트(기술전도사)를 따로 채용해 커뮤니티 지원을 활발히 하고 있다. 2016년에는 고객 행사도 대규모로 열어 입지를 넓히고 있다. 한국에서는 삼성, SK텔레콤, GS샵, NHN엔터테인먼트 등이 엘라스틱 고객사다.

최근 엘라스틱이 강조하는 기술이 바로 ‘프리러트(Prelert)’다. 프리러트는 2016년 엘라스틱에 인수된 기업으로, 이상 데이터 및 외부 공격을 감지하는 기능을 제공한다. 머신러닝(기계학습)을 결합한 것이 특징이며, ELK 스택에 최적화된 기술을 지원하고 있다.

참고링크