データサイエンティストの業務は、いくつかのフェーズで構成されます。これらは、フレームワークとしていくつか提唱されているのですが、必ずしも準拠しなければいけないというわけでもありません。
しかしこのフレームワークは、手順の抜け漏れをチェックすることが出来ますので、是非活用しましょう。
ここでは、データサイエンティスト協会が提唱するタスクリストと、CRISP-DMについて紹介します。
データサイエンティスト協会が提唱【タスクリスト】
引用元:「データサイエンティストのためのスキルチェックリスト/タスクリスト概説」データサイエンティスト協会
データサイエンティスト協会が提唱するタスクリストにおける4つのフェーズは、上図の通りです。
上図は「タスク構造図(中分類)」と呼ばれており、タスクリストを構造図にしたものです。更に細かく分類した「タスク構造図(小分類)」もありますが、ここでは「タスク構造図(中分類)」のみ取り上げることにします。
「タスク構造図(中分類)」の各ブロックは、矢印で接続されています。この矢印がタスクを実行する順番、業務の流れを示しています。Phase2~3の中は矢印が分岐したり入り乱れたりしており、複雑になっています。
データの種別によってはタスクが分岐したり、解析結果によってはデータ収集からやり直すこともあることを示しています。
詳細は、データサイエンティスト協会の「データサイエンティストのためのスキルチェックリスト/タスクリスト概説」に記されていますので、ご覧いただければと思います。
さてこの「タスク構造図(中分類)」ですが、私個人としては詳細に記載されている分、非常に難しく見えてしまいます。
タスクリストの項目は129個もありますし、理解はおろか、読むだけでもなかなかの労力を費やします(それでも是非一読はしておきましょう!)。
データサイエンティストの分析プロセス【CRISP-DM】
そこで私は、「CRISP-DM(Cross-Industry Standard Process for Data Mining)」に沿って業務をすすめることにしています。
「CRISP-DM」は、同名のコンソーシアムが提唱したデータ分析のプロセスモデルです。「CRISP-DM」は、6つの主要なフェーズにプロセスを分割しました。
1.ビジネスの理解 :目標の決定、計画策定等
2.データの理解 :データ収集、データ品質の検証等
3.データの準備 :データ選択、データのクリーニング等
4.モデリング :モデルの作成・評価等
5.評価 :ビジネス目標に対する結果の評価等
6.展開 :最終レポート、プロジェクトレビュー等
データサイエンティスト協会の「タスク構造図(中分類)」と比べるとステップ数が減っており、とっつきやすくなっている印象を受けます。
「タスク構造図(中分類)」は、全てのタスクを実行する必要はないとうたっており、どの現場でもカバー出来るようにしていました。
対して「CRISP-DM」は、最低限実行する必要がある大項目を並べたものです。この大項目の中で何をやるのかは、業務によって異なります。
つまり、実際にやることはどちらでも同じということです。
私の場合は、最初から細かくステップを設定するより、ある程度大きな枠の中で試行錯誤しながら、自分なりの仕事のやり方も見つけたいと考えていますので、「CRISP-DM」にならって業務を進めていこうと考えています。
自分に合うデータ分析プロセスを身につけよう
データサイエンティストの仕事の基本は、ビジネス課題を明確にし解決することです。
その手段としてデータ解析をおこないます。データ解析が目的にすり替わってしまうと、データアナリストになってしまいます。
データサイエンティストはデータアナリストを包括しているとはいえ、やはり目的はビジネス課題の解決ですので、自分に合ったデータ分析プロセスを身につけて業務をすすめていきましょう。