データサイエンティストの役割 6類型と4類型のハイブリッド

データサイエンティストのタイプと役割

データサイエンティストとは何か?

ビックデータへの関心の高まりから、蓄積された膨大なデータの活用を通じて、ビジネスに高い次元の競争優位性をもたらすデータサイエンティストの役割やスキルセットへの関心が高まっています。

これまでにUSでなされてきた代表的なデータサイエンティストの定義を振り返り、私たちJDSCが考えるデータサイエンティストの類型と役割について、ご説明いたします。

フルスタック・データサイエンティスト

2010年9月、『 Machine Learning for Hackers』の共著者であるDrew Conwayは、真に有能なデータサイエンティストであるためには、技術スキル(ハッキングスキル)、統計と数学の知識、対象ドメインの専門知識の3つが必要であると主張しました。
これら3つの関連領域を示した、Data Science Venn Diagramを目にされた方も多いかもしれません。

テキストファイルをコマンドラインで巧みに操作し、ベクトル演算を理解し、アルゴリズム的に考える、データハッカーとしてのハッキングスキル。これらの技術スキルを用いて取得・加工されたデータから、洞察を導き出すために、適切な数学的・統計学的手法を適用できる知識。そして、これら二つに特定分野の専門知識を組み合わせた時に、従来の機械学習や伝統的な研究領域を超え、かつ数学や統計知識を欠いた生兵法に陥らない、真のデータサイエンスになると提唱しました。

出典:The Data Science Venn Diagram
http://www.dataists.com/2010/09/the-data-science-venn-diagram/

現場で働くデータサイエンティストの4類型

USにおいて、ビッグデータ、データサイエンスへの関心が加熱する一方、これらの言葉の定義が曖昧であることが、データサイエンティストを求める企業と、データサイエンティストとして職を求める人々の間にミスマッチを引き起こしてきました。

こうした背景から、2012年の半ば、データサイエンスに実務で関わる数百人の技術、キャリア、経験に関するアンケートとインタビューを取りまとめた『Analyzing the Analyzers』が発表されました。

『Analyzing the Analyzers』は、数百人の実務家に関する調査データから、「ビジネス」、「機械学習・数学・統計」、「プログラミング」にどの程度精通しているかに基づき、データサイエンティストを4つのサブグループに分類しました。

データサイエンティストを分類するスキル指標

  • ビジネス:Business
  • 数学・統計・機械学習:Machine Learning/Bigdata, Math/Operational Research, Statistics
  • プログラミング:Programming

1) データビジネスピープル

プロダクトと利益にフォーカスしたデータサイエンティスト。彼らはリーダー、マネージャー、起業家であるが、技術的な指向性を持っている。一般的な教育バックグラウンドは、工学系の学位とMBAのセット。

2)データクリエイティブ

幅広いレンジのデータとツールを扱え折衷的になんでもできるデータサイエンティスト。彼らは自らを芸術的なハッカーとして捉え、可視化やオープンソース技術に秀でている。

3)データデベロッパー

ソフトウェア開発や分析、開発環境での統計的機械学習を専門とするデータサイエンティスト。彼らはコンピューターサイエンスの学位を持つことが多く、いわゆるビッグデータを日常的に扱っている。

4)データリサーチャー

アカデミックで学んだ科学的トレーニングとツールや技法を組織のデータに適用するデータサイエンティスト。彼らは博士号を取得していることもあり、数学的ツールの創造的なアプリケーションが洞察とプロダクトを生み出す。

出典: Analyzing The Analyzers
http://cdn.oreillystatic.com/oreilly/radarreport/0636920029014/Analyzing_the_Analyzers.pdf

JDSCが考えるデータサイエンティストの6つのタイプ

「ビジネス」×「サイエンス」×「テクノロジー」の領域

「データサイエンス」人材の類型

(A) biz-sci 市場調査の結果を数理的に正しく解釈し、経営戦略の立案・実行や新規事業・新規製品開発を行う、KPIを管理して適切なタイミングにアクションを起こす、等
(B) biz-sys CRM、SCM、価格最適化、営業最適化など、ビジネス上の目的に適合したソリューションを、ベンダーを適切に使って構築し、最大限の効果を発揮させる
(C) sci-biz ビジネス戦略設計を明確化する結論を導出するため、市場調査や社内データなどのデータ取得設計から的確な統計手法の適用、可視化の表現までを行う
(D) sci-sys 数理や統計手法の理解に基づき、目的の達成に必要なアルゴリズムや改良プロセス、データ構造を設計し、ベンダーを適切に使って結論を導く
(E) sys-biz ビジネス環境と目的を理解し、情報の取得、CRMなどによる情報の発信まで、的確なUI/UXを設計し、ビジネスインパクトを実現するシステムを構築する
(F) sys-sci 統計手法やデータ構造の要請に応え、数量・テキスト・画像など多種・大量のデータを扱う技術を的確に使いこなし、効率的で安定的なシステムを構築する
(G) almighty データサイエンス事業全体の統括、教え手など