|

2024-01-11

レポート

『データサイエンティスト スキルチェックリスト ver.5』読んでみた

データガバナンス

データサイエンティストに必要なスキルセット

皆さん年末年始休暇🎍はどのように過ごされましたでしょうか。

私は以前から読みたかった漫画を大量に買い込んで時間の許す限り読みふけっていました。漫画はできるだけ紙媒体で読みたい派なのでそろそろ自宅の本棚がいっぱいになってきました。どう整理するか、これまた悩みどころです🤔

 

休暇に入って数日はなかなか幸せな時間に浸れていたのですが、だんだんせっかくの長期休暇に漫画だけ読んでいることに若干の背徳感を覚えるようになってしまったので、今更感もありますが 『データサイエンティスト スキルチェックリスト』『データサイエンス領域タスクリスト』 を読んでみました。

昨年10月に部署異動してからデータ分析の業務に取り組み始めたものの手探りで進めている状態なので、こういう虎の巻的なものが無料で読めるのは非常にありがたいです。

 

スキルチェックリストを読む前に

私はネットサーフィンで『データサイエンティスト スキルチェックリスト』なるものが存在するということを知ったので、「どんなものかとりあえず読んでみるか👀」くらいのノリでデータサイエンティスト協会のウェブサイトからスキルチェックリストをダウンロードして読み始めました。

しかし、これだと資料の解読から始めないといけないため、まずはIPAのウェブサイトに置かれている『データサイエンティストのためのスキルチェックリスト/タスクリスト概説』から読むことをオススメします。

スキルチェックリストの見方に関する説明はもちろん、『データサイエンティスト スキルチェックリスト』および『データサイエンス領域タスクリスト』がそれぞれ何のための資料なのか、スキルレベルをどのように分別しているかを記載してくれているので、資料の全体像を把握できます。さらには、親切にこれらの資料の使い方まで提示してくれています。

 

スキルチェックリストとは

それでは本題です。

スキルチェックリストはデータサイエンティスト協会 スキル定義委員会が公開しているもので、2023年10月20日開催の「データサイエンティスト協会10thシンポジウム」内において発表された第5版が現時点では最新です。

過去の版は以下の通り2年に一度更新されていて、いずれもデータサイエンティスト協会 シンポジウム内での発表のようです。

各版の改訂箇所もまとめられており、その変遷を見ると、2年という期間でどんどん新しい技術が生まれ、それまでの技術が一般化されていることが伺えます。

スキルチェックリストは、『データサイエンティストのためのスキルチェックリスト/タスクリスト概説』にも

データサイエンティストとして活躍するための必要なスキル(スキル項目)を、分野ごとに体系的にまとめています。 スキルチェックリストを見れば、データサイエンティストを目指す人やデータサイエンティストを育成したい企業にとって、勉強や教育の目標とすべきスキルが一目でわかります。

と記載がある通り、データサイエンティストに必要なスキルを分野ごとに分けで、体系的に一望・俯瞰できるようにした資料です。資料はExcelやcsvで公開されているため、項目に沿って読者が当該スキルを有しているかチェックしやすくなっています。

 

スキルの分類

データサイエンティストには 「ビジネス (business problem solving) 力」「データサイエンス (data science) 力」「データエンジニアリング (data engineering) 力」 の3つのスキルセットが求められるとされているため、スキルチェックリストもこの3つの分野に項目が分けられています。

これら3つのスキルセットはどれかが欠けるとデータサイエンティストとして十分な力を発揮できないとされていますが、さすがに「必ずしも一人ですべてのスキルをこなすことを想定したものではない」との記載があります。

ちなみにそれぞれ、

・ビジネス力(business problem solving):課題背景を理解し、ビジネス課題を整理・解決に導く力

・データサイエンス力(data science):情報処理・人工知能・統計学などの情報科学系の知恵を理解し使う力

・データエンジニアリング力(data engineering):データサイエンスを意味のある形として扱えるようにして、実装・運用する力

と定義されています。

私の場合、データ分析基盤の構築から収集・分析までがメインの担当ですので、まずはデータサイエンス力とデータエンジニアリング力に記載されているスキルから優先して身につけなければいけません📚

 

スキルレベルの判定

各項目にはそれぞれ難易度が割り振られており、難易度ごとに何割のスキルを有しているかによって最終的に 「見習いレベル (Assistant Data Scientist) 」「独り立ちレベル (Associate Data Scientist) 」「 棟梁レベル (Full Data Scientist) 」 のいずれかに判定されます。例えば、ビジネス力は見習いレベル、データサイエンス力は独り立ちレベル、データエンジニアリング力は棟梁レベルのように、スキルセットごとの判定となります。

スキルチェックリストを使用してのスキルレベル判定は上記3段階のレベルまでなのですが、データサイエンティストのスキルレベルとしてはさらに 「業界を代表するレベル (Senior Data Scientist)」 というレベルも用意されているようです。

 

スキルチェックリストの「スキルレベル定義2023」というシートをご覧いただければ、各スキルレベルがどのようなものがが詳しくまとめられていますが、全スキルセットを横断してかなり大雑把にまとめると、

  • 見習いレベル: 基礎知識がインプットされており、プロジェクトのテーマを担当できるレベル

  • 独り立ちレベル: 与えられた課題に対して何かしらアウトプットでき、プロジェクトまたはサービス全体を担当できるレベル

  • 棟梁レベル: プロジェクトを超えて全体を俯瞰し、対象組織全体の課題に対応できるレベル

  • 業界を代表するレベル: 新たな領域を切り拓くことができ、産業領域全体や複合的な事業全体の課題に対応できるレベル

という具合です。

 

スキルチェックリストを読んでみて

いずれのスキルセットも難易度が高くなるにつれ、普段意識すらしていないorそもそも知らない内容が多くなっていました😇 具体的な内容はスキルチェックリストを実際にご覧いただくのが一番なので、ここでは「データサイエンス (data science) 力」と「データエンジニアリング (data engineering) 力」の2つに記載されていた内容について簡単にまとめてみます。

 

データサイエンス力

基礎知識として、

  • 線形代数

  • 統計数理

  • 数理最適化

  • 機械学習の代表的なアルゴリズム

  • 画像・映像・音声のデジタル表現の仕組みとフォーマット

  • 自然言語処理

あたりを保有していることを前提に、データが生み出される経緯・背景を理解して本質を見抜き、最適なデータクレンジング手法の選択から図表による可視化までが必要なスキルとして求められています。

さらにはここ数年のトレンドである機械学習モデルの構築や生成AIの開発の項目も多く記載されていました。

 

データエンジニアリング力

こちらは、データ分析基盤の構築において、あらゆるデバイスからあらゆるタイミングでデータを収集することができ、RASISのいずれの要素も高い指標となるアーキテクチャの設計ができることが求められていました。

加えて、データの前処理から分析・展開まで、データ収集や結果の表示に必要なソフトの設計・実装、生成AIのチューニング・活用・開発、これら全てに関わってくるセキュリティ対策についても記載されており、まさにフルスタックなスキルが必要になります。

スキルセットごとに得手不得手があるため、プロジェクトはそれを複数のメンバーで補う形で構成されますが、データエンジニアリング力の中だけでも十分得手不得手が分かれるような気がします。

 

おわりに

全650項目からなるチェックにはそれなりに根気が必要なリストを読んでみました。

資料を読み終えて、「データサイエンティストって何する人?」この回答すらぼんやりとしていた状態から、「収集したデータをもとにビジネス課題に対する答えを出す人です」と言語化できるようになりました。ここだけ見ても難しそうだなと感じますが、具体的に必要なスキルを掘り下げてみるとまさにスーパーマンですね。

私自身は基礎知識すらまだ身につけれていないものがあるというレベルでしたので、2024年は一つ一つ理解を深める年にしようと思います。特に統計数理の分野は力を入れて学習していきたいところです💪🏽

 

本記事にチラっと登場した 『データサイエンス領域タスクリスト』 についての感想は近々別記事にまとめる予定です📝


この記事の著者

プロフィール画像

山野 悠

朝日放送グループホールディングス株式会社 DX・メディアデザイン局 R&Dチーム

動画配信・災害情報・データ放送など社内の運用負荷軽減のためのCMS開発に従事。 プロジェクトの規模に応じて、ディレクション業務からアプリケーション開発、サーバ設計までを担当。 デスクワークによる運動不足解消のため、日々ウエイトトレーニングに励む。