大学生 → 社会人の雑記

統計学や機械学習について気紛れにメモメモするブログです。ゆるふわな感じでやっています。

新卒のデータサイエンティスト

Twitter界隈では何かと揶揄されている新卒のデータサイエンティストですが、僕も来春から新卒のデータサイエンティストになれそうなので、入社するまでに何をしておくか考えておこうと思います。

正直、データサイエンティストという名前にあこがれたわけではないです。
もともとデータ眺めていたり、何かを分析して活かすことが好きで、大学で統計学に出会い「数学使っていろんなことがわかるとかすげえ!!」ってな感じで半分趣味レベルの勉強しています。
こういう勉強してるものを活かせる仕事ってないかな~と調べていたら、どうやらデータサイエンティストと呼ぶらしいということでした。


でもデータサイエンティストってなんかかっこいい響きがありますよね。僕も先に名前を知っていたらこっちが先行していたかも。







そもそもデータサイエンティストに必要なスキルってなんだ?




まず、データサイエンティストに必要なスキルについて知っておかなければなりません。
そこでいろいろググってみました。

・・・

のっけから難題だ。やれ「ビジネスへの理解」だの「プログラミングスキル」だの「IT知識」etc...
抽象的やしませんかね。。。イメージはわくのですが、具体的に何なのかわかりません。

もう少し具体的に書いてあるものを探してみます。

データサイエンティスト協会がスキルセット,スキルレベルをまとめていますね。

一般社団法人 データサイエンティスト協会

うーん。確かに具体的なのですが、新卒向きというよりは中途や既に社会人になっている人向きですね。
でも働き始めてからはこれでよさそう!



(いろんなサイトやブログ読んでいると定義やスキル要件がバラバラだぞ。自分の仕事内容を一言で説明するためというのは無理かも。)



もうちょっと検索を続けてみます・・・


すると辿りつきました。有名なTJOさんのブログです。

tjo.hatenablog.com

TJOさんのブログではデータサイエンティストと機械学習エンジニアが分けられており、データサイエンティストはアナリストの発展版、機械学習エンジニアはエンジニアの発展版という風に書いてあります。
そういえば、機械学習系の本って情報系の本棚においてあるよなー。


新卒の場合、発展どころかまだ何も始まっていないのでどちらにするか考える必要があるみたいです。
僕はエンジニアというよりはアナリティクスのほうが好きなので、データサイエンティストの方を見るとよさそうです。


そこには(以下引用)

東京大学出版会統計学シリーズ3巻分に該当する統計学の知識
アヒル本及び岩波DS当該巻に相当するベイジアン統計モデリングの知識と確率的プログラミングのスキル
はじパタ及びカステラ本(ESL)に該当する機械学習の知識(Deep Learningの知識があるとなお良い)
R / Pythonの出来れば両方でコードが書ける
SQL文法を含むデータベース操作の技術
クラウドの知識

(引用終)(勝手に引用して大丈夫なのだろうか...)

と書いてありました。






自分のスキルセットと照らし合わせてみる


上から自分の現状と照らし合わせていきます。

東京大学出版会統計学シリーズ3巻分に該当する統計学の知識

→ 赤本の内容は学校で習った内容とだいぶ重複していたので、青本(自然科学の統計学)を購入して勉強しました。緑のやつもやった方がいいのだろうか?



アヒル本及び岩波DS当該巻に相当するベイジアン統計モデリングの知識と確率的プログラミングのスキル

→ アヒル本って何だろう?と思い、調べてみました。どうやら



これのことみたいです。

ベイズについては雰囲気しかわからないので、これから勉強しなくちゃいけません。



これとか良さそうだなと思っていますがどうなんでしょうかね。岩波データサイエンスも全部読みたいな...
あれもこれもとなるのは悪い癖なので、ひとつずつ消化していきます。



はじパタ及びカステラ本(ESL)に該当する機械学習の知識(Deep Learningの知識があるとなお良い)

→ 機械学習の意識は正直あまりないですね。はじぱたは買うか迷っていて買っておらず、カステラ本(統計的学習の基礎)は教授に勧められて先週から読み始めています。洋書なので結構きついです。挫折しそう。。。と思ったら日本語に訳されたやつがあったんですね(こっちの方が見た目がかっこいいじゃん)


The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition (Springer Series in Statistics)

The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition (Springer Series in Statistics)

統計的学習の基礎 ―データマイニング・推論・予測―

統計的学習の基礎 ―データマイニング・推論・予測―

  • 作者: Trevor Hastie,Robert Tibshirani,Jerome Friedman,杉山将,井手剛,神嶌敏弘,栗田多喜夫,前田英作,井尻善久,岩田具治,金森敬文,兼村厚範,烏山昌幸,河原吉伸,木村昭悟,小西嘉典,酒井智弥,鈴木大慈,竹内一郎,玉木徹,出口大輔,冨岡亮太,波部斉,前田新一,持橋大地,山田誠
  • 出版社/メーカー: 共立出版
  • 発売日: 2014/06/25
  • メディア: 単行本
  • この商品を含むブログ (5件) を見る


高いので英語で我慢して勉強します(;ω;)


Deap Leaningは



を買ってみようかなと思います。立ち読みした感じではかなりわかりやすそうでした。

CourseraのMachin LeaningはWeek5が現在進行形なので、これもちゃんとやっていこうと思います。



R / Pythonの出来れば両方でコードが書ける

→ Rはよく使うので、ある程度コードが書けます。Pythonはというと前にちょろっと触ったっきりほとんど触ってないですね。上のゼロから始めるDeap LeaningでPythonも一緒に勉強しようと思います。



SQL文法を含むデータベース操作の技術

→ 授業でちょろっと習った時に学校のPCで少しだけいじってみたレベルです。データベースが何たるかぐらいしかわかりません。データベースに関してはどうなんでしょう?入社してから勉強したのでは遅いのかな...?



クラウドの知識

→ インターンシップで少し勉強したレベルで、具体的にどう操作するとかっていうのはわかりません。これも入社してからと思っているのですが、甘いのかな。





まとめ


思っていたよりスキル要件を満たしていませんでした。勉強しなくちゃいけないことは途方もなく多そうです。

入社までに1年はあるので1年かけてしっかりと勉強していこうと思います。