データサイエンティスト(DS)の仕事内容とは【DSの定義を確認】でも少し書きましたが、データサイエンティストには3つのスキルセットが求められています。
・ビジネス力(business problem solving):
課題背景を理解し、ビジネス課題を整理・解決に導く力
・データサイエンス力(data science):
情報処理・人工知能・統計学などの情報科学系の知恵を理解し使う力
・データエンジニアリング力(data enginieering):
データサイエンスを意味のある形として扱えるようにして、実装・運用する力
引用元:「データサイエンティストのためのスキルチェックリスト/タスクリスト概説」データサイエンティスト協会
これらのスキルセットは三位一体とされており、いずれが欠けてもデータサイエンティストとして十分な力が発揮できません。
これらスキルの具体的な中身と、スキルが不足していた場合のケースを確認していきましょう。データサイエンティスト協会発行のスキルチェックリストによる確認についても紹介します。
この記事の目次
データサイエンティストの最重要スキル【ビジネス力】
ビジネス力は、ビジネスマインド、言語化・説明能力、データ理解力、事業への実装、リソース・リスク・組織マネジメント等々が含まれます。
ビジネス力がないと、ミッションの目的を捉えることが出来ません。課題が何かを理解していなければ、当然解決には迎えません。そのような状態で仕事を始めてしまうと、目的からベクトルがずれてしまうため、課題解決は出来ないほか、余計な仕事を増やしてしまうことになります。
ビジネス力を鍛えるには、ビジネスの現場で経験を積むことが第一です。しかしながら、10年以上の経験を積んでもビジネス力が向上しない方も多くいます。ビジネス力を向上させるには、身につけるべき能力を意識して経験を積んでいく必要があります。特にビジネスの基本となるコミュニケーション能力は当たり前のように高めておく必要があります。
ビジネス力は、最も基本的で最も習得が難しいスキルでしょう。
データサイエンティストの専門スキル【データサイエンス力】
データサイエンス力は、主に統計学や数学、機械学習、データ理解・検証をする能力が求められます。
データサイエンス力がないと、どのようにデータを扱えば良いかが理解できません。目の前に多くの食材と調味料が並んでいるのに調理が出来ないのと一緒です。データの活用方法を知らないと、課題解決の糸口を見つけることは出来ないでしょう。もしくは多くの見落としをしたり、偽のデータに惑わされることになります。
データサイエンス力は、学問の要素が強いスキルです。学習すれば上達が可能なスキルです。
データサイエンティストの構築スキル【データエンジニアリング力】
データエンジニアリング力は、環境構築、データ収集、データ加工とプログラミング、ITセキュリティに関する能力が求められます。
データエンジニアリング力がないと、ツールの使い方が分からなかったり、ツールを使うたびに毎度ハングアップしたりと、作業を進めることが出来なくなります。データサイエンティストはビッグデータを扱いますので、各種ツールを自分の手足のように使えることが求められます。食材の調理方法を知っていても、包丁やフライパンを扱えないのと一緒です。調理のたびにケガやヤケドをしていては、目も当てられません。
データエンジニアリング力は、学習することで上達することが出来ます。プログラミング言語を習得するには、平均300時間が必要と言われます。仕事で使うには、1年の現場経験が必要とも言われています。プログラマ、SEを経験してきた私からしても納得の数字です。書籍やサイトからの独学でも良いですが、先輩やスクールからの指導を受けながらのほうが習得は早いでしょう。
データサイエンティストがスキルを使用するフェーズ
引用元:「データサイエンティストのためのスキルチェックリスト/タスクリスト概説」データサイエンティスト協会
問題解決のフェーズによって、要求されるスキルが変化します。
取り掛かり最初の目的・テーマ設定時はビジネス力が要求されます。その目的が解決されたかどうかという最終評価でも、ビジネス力は要求されます。
問題定義に対するアプローチ設計では、データサイエンス力が要求されます。
アプローチ設計に対する、処理・分析では、データエンジニアリング力が要求されます。
3つのスキルが、三位一体であることが分かる図です。
データサイエンティストスキルをチェックしよう
各スキルはどのぐらいのレベル必要なのか、自分はどのぐらいのレベルにいるのかが気になるところです。
これは、データサイエンティスト協会が発行している「スキルチェックリスト」で確認すると良いでしょう。
上記でもたびたび引用させていただいた「データサイエンティストのためのスキルチェックリスト/タスクリスト概説」も、コチラのサイトからダウンロードが可能です。
このスキルチェックリストでは、「★の全項目のうち、70%を満たしている」と見習いレベルだと目安を設定しています。ただしこれは、あくまでも目安と捉えたほうが良いでしょう。
企業内でデータサイエンティストとして働く場合、スキルチェックリストにある項目が必ずしも必須ではない項目も存在します。社内でクラウドを採用していない企業では、クラウドの知識は必要ないかもしれません。画像や音声データを一切扱わないのであれば、それらの知識も必須ではないでしょう。
今必要な項目を抽出し、それらを優先的に達成することに取り組んでいきましょう。
一方でフリーランスの方は、どの方面にも対応できるよう、スキルチェックリストにある項目はまんべんなく達成できた方が良いと考えます。
最後に参考として、私がデータサイエンティストになることを決めた直後の自己採点の結果を紹介します。
ビジネス力 :★77%(17/22項目)、★★65%(32/49項目)、★★★33%(14/42項目)
データサイエンス力 :★26%(22/86項目)、★★ 7%( 9/121項目)、★★★ 3%( 2/64項目)
データエンジニアリング力:★46%(18/39項目)、★★13%( 8/63項目)、 ★★★ 2%( 1/42項目)
圧倒的にデータサイエンス力が低いことが分かりました。優先的に学習すること決定です。
強味とともに自分の弱点が見えますので、是非スキルチェックをしてみてください。
データサイエンティストはチームで実現し互いのスキルを補う
さてこれらのスキルですが、1人で全てをマスターするのはかなりの難易度となります。
データサイエンスは、チームで実行することが前提です。1人で全て出来なくて当たり前だと考えておいた方が良いでしょう。
私の場合は、データサイエンティストチームの立ち上げを1人で始めています。今後仲間が増え、絶大な効果を発揮していくことを期待しながら取り組んでいます。