データサイエンティスト

データサイエンティストの分析プロセス【タスクリストとCRISP-DM】

2020年9月27日

データサイエンティストの仕事の流れが分かりません
がんばる君
がんばる君
ふぉんてぃー
ふぉんてぃー
データサイエンティスト協会のタスクリストCRISP-DMにならって始めましょう

データサイエンティストの業務は、いくつかのフェーズで構成されます。これらは、フレームワークとしていくつか提唱されているのですが、必ずしも準拠しなければいけないというわけでもありません。

しかしこのフレームワークは、手順の抜け漏れをチェックすることが出来ますので、是非活用しましょう。

ここでは、データサイエンティスト協会が提唱するタスクリストと、CRISP-DMについて紹介します。

 

 

データサイエンティスト協会が提唱【タスクリスト】

引用元:「データサイエンティストのためのスキルチェックリスト/タスクリスト概説」データサイエンティスト協会

 

データサイエンティスト協会が提唱するタスクリストにおける4つのフェーズは、上図の通りです。

上図は「タスク構造図(中分類)」と呼ばれており、タスクリストを構造図にしたものです。更に細かく分類した「タスク構造図(小分類)」もありますが、ここでは「タスク構造図(中分類)」のみ取り上げることにします。

「タスク構造図(中分類)」の各ブロックは、矢印で接続されています。この矢印がタスクを実行する順番、業務の流れを示しています。Phase2~3の中は矢印が分岐したり入り乱れたりしており、複雑になっています。

データの種別によってはタスクが分岐したり、解析結果によってはデータ収集からやり直すこともあることを示しています。

詳細は、データサイエンティスト協会の「データサイエンティストのためのスキルチェックリスト/タスクリスト概説」に記されていますので、ご覧いただければと思います。

さてこの「タスク構造図(中分類)」ですが、私個人としては詳細に記載されている分、非常に難しく見えてしまいます

タスクリストの項目は129個もありますし、理解はおろか、読むだけでもなかなかの労力を費やします(それでも是非一読はしておきましょう!)。

 

データサイエンティストの分析プロセス【CRISP-DM】

そこで私は、「CRISP-DM(Cross-Industry Standard Process for Data Mining)」に沿って業務をすすめることにしています。

「CRISP-DM」は、同名のコンソーシアムが提唱したデータ分析のプロセスモデルです。「CRISP-DM」は、6つの主要なフェーズにプロセスを分割しました。

1.ビジネスの理解 :目標の決定、計画策定等

2.データの理解  :データ収集、データ品質の検証等

3.データの準備  :データ選択、データのクリーニング等

4.モデリング   :モデルの作成・評価等

5.評価      :ビジネス目標に対する結果の評価等

6.展開      :最終レポート、プロジェクトレビュー等

データサイエンティスト協会の「タスク構造図(中分類)」と比べるとステップ数が減っており、とっつきやすくなっている印象を受けます。

「タスク構造図(中分類)」は、全てのタスクを実行する必要はないとうたっており、どの現場でもカバー出来るようにしていました。

対して「CRISP-DM」は、最低限実行する必要がある大項目を並べたものです。この大項目の中で何をやるのかは、業務によって異なります。

つまり、実際にやることはどちらでも同じということです。

私の場合は、最初から細かくステップを設定するより、ある程度大きな枠の中で試行錯誤しながら、自分なりの仕事のやり方も見つけたいと考えていますので、「CRISP-DM」にならって業務を進めていこうと考えています。

 

自分に合うデータ分析プロセスを身につけよう

データサイエンティストの仕事の基本は、ビジネス課題を明確にし解決することです。

その手段としてデータ解析をおこないます。データ解析が目的にすり替わってしまうと、データアナリストになってしまいます。

データサイエンティストはデータアナリストを包括しているとはいえ、やはり目的はビジネス課題の解決ですので、自分に合ったデータ分析プロセスを身につけて業務をすすめていきましょう。

-データサイエンティスト

© 2024 いなかのIoT開発ラボ