大学生 → 社会人の雑記

統計学や機械学習について気紛れにメモメモするブログです。ゆるふわな感じでやっています。

統計を勉強し始めてから3年が経ちました

大学3年生の時に統計学を勉強し始めてから3年が経ちました。

正確には4月中旬ぐらいなのですが、モチベが上がるかわからないので、ちょっと早いですがこのタイミングで書きます。

この1年は社会人になった1年でもあったので、実践についての勉強も多くしたなあと感じました。

それから過去に読んだ本を読み返すことも多かったです。特に

パターン認識と機械学習 上

パターン認識と機械学習 上

パターン認識と機械学習 下 (ベイズ理論による統計的予測)

パターン認識と機械学習 下 (ベイズ理論による統計的予測)

数理統計学の基礎

数理統計学の基礎

弱点克服大学生の確率・統計

弱点克服大学生の確率・統計

  • 作者:藤田 岳彦
  • 出版社/メーカー: 東京図書
  • 発売日: 2010/04/09
  • メディア: 単行本

らへんはよく参照しましたね。何回も読み返すということは、僕にとってとても価値のある本だということなので、多少高かったですがやはり買って良かったなと改めて感じました。

さて、各月の勉強を振り返っていきますが、僕はデータサイエンティストの中でも機械学習エンジニアというよりは、意思決定を促すためのデータ分析をするタイプのデータサイエンティストなので、そのあたりを留意しながら読んでいただけると幸いです。

【4月】

入社して最初に必要になった知識がマーケティングでした。どんな仕事したかってのはちょっと言えないのですが、経営戦略を考える材料としてデータ分析をしてほしいというのがザックリしたオーダーです。

マーケティング・リサーチは大学の授業で受講していましたが、マーケティング自体の知識は正直あまりありませんでした。

で、読んだのがこの本

マーケティング ビッグ・ピクチャー

マーケティング ビッグ・ピクチャー

どうやらミシガン大学?のMBAの授業でも使われているらしいです。

内容自体は体系的でわかりやすく、個人的には結構好きです。

ただ、どちらかというとフレームワークを体系的に整理しているという印象で、理論という感じではなかったですね。

1冊読んだだけで言うのも良くないのですが、経営学が科学とは遠いものだという話の意味はなんとなくわかりました。


後は前年の続きで、

数理統計学の基礎

数理統計学の基礎



パターン認識と機械学習 下 (ベイズ理論による統計的予測)

パターン認識と機械学習 下 (ベイズ理論による統計的予測)


を読んでいました。上の本は結構好きで、気になったことを参照する時にも結構使っています。

PRML(下)は実はまだ最後まで行ってないんですよね…一回飽きてしまった…
んー、なんだろ?なんていうか読みにくくないですか?

扱い方が違うので比較するのも微妙ですが、僕はカステラ本の方が好きですね。

はい。言い訳しないで読み切ります。


【5月】

5月は営業だったりコンサルしてる人に同行したり、社内のいろんな仕事を学んだり、なんかメキメキ成長しました。

これはデータサイエンティスト的意味での成長ではなく、業界の人的な成長という意味なのですが、いずれにせよ成長を実感している状態というのは楽しいものですね。

今は既に安定期に入ってしまったので平常運行なのですが、まあそれでも楽しいので良いです。

さて、この時期の統計学の勉強はこれです。

統計的因果探索 (機械学習プロフェッショナルシリーズ)

統計的因果探索 (機械学習プロフェッショナルシリーズ)

  • 作者:清水 昌平
  • 出版社/メーカー: 講談社
  • 発売日: 2017/05/25
  • メディア: 単行本(ソフトカバー)

統計的因果推論の勉強が必要かなと思い始めたのですが、これが中々難しい。何が難しいって実際に使おうとすると、仮定を満たしてるかとかそのあたりですね。

この本自体はわかりやすかったです。オススメですね。


6月

6月は大きめの仕事が回ってきたので、あまり勉強は進みませんでした。

しかし、仕事の方では幸いにも大きな成果を上げられ、雑誌に分析が載ったり、IR資料に載ったりと、まあまあ頑張りました。


7月,8月

データ分析をしていくことを考えると、どうしても実験計画法の知識が必要だなと感じ始めました。

なぜかというと、とりあえずビックデータがあって、とりあえず人工知能(機械学習)を使いましたというのはあまり良い分析とは言えないんですね。

機械学習エンジニアでもそうなのかもしれませんが、コンサル系のデータサイエンスだと特に顕著です。

データを取るところから設計、どういう手順で分析して、何を見ていくか。

これが重要です。

そんな中で読んだのがこの本。

入門 実験計画法

入門 実験計画法

余談ですが、永田先生は先日デミング賞を受賞されていましたね。

この本は非常にわかりやすいです。なぜその操作をするのか、実験とはどのように計画されるべきか等が丁寧に説明されています。

また、後半にはよくある質問に対するQ&Aがあり、非常に重宝しています。


9月

9月は鬼のように集計をしていました。おかげでEXCELとかいうものの操作にすっかり慣れてしまいました。おそらく社内でも5本の指に入るんじゃないかな。

だからなんだって話なんですが、私が言いたいのは「俺EXCELの神になったわ」ということではなく、ここでは品質管理の知識が非常に役に立ったということです。

私は経営システム工学科出身で、大学では品質管理や生産管理などの管理工学を学んでいました。

管理工学では言われてみれば当たり前の話ばかりの内容で話が進むのですが、社会人になってわかったのはこれが全くできていない人しかいないということです。

例えば、何かミスが起こったときに対策を考えようとなったとします。人間信頼性工学を少しでも聞いたことのある人であれば、まずなくせないかということを考えます。

しかし多くの場合、チェックを増やすとか、チェックの仕方を変えるとかそういう対策になるんですね。

これでは作業が増え続けるだけで、みんな嫌な気分になっていくし、チェックを増やしたからといって、お金を多く取れるわけではないので、単純にコストが増えます。

ミスをする度に商品1個あたりのコストが増えるんですよ?めっちゃ馬鹿じゃないですか?

とまあこういうものにコストを減らす方向で、しかもより高い品質で高単価化するのか管理工学の1つの使い方なのですが、これ以上は趣旨から外れるので次行きましょう。


10月

マーケティングの仕事が多めだったのですが、9月の改善に対する姿勢と知見を見た偉い人に頼まれて、色々な改善をしていました。
古典的な統計手法がかなり強力だということを実感しました。

もちろん管理工学の威力も絶大でした。

この頃勉強を始めたのはこの本。

統計学への確率論、その先へ―ゼロからの測度論的理解と漸近理論への架け橋

統計学への確率論、その先へ―ゼロからの測度論的理解と漸近理論への架け橋

  • 作者:清水 泰隆
  • 出版社/メーカー: 内田老鶴圃
  • 発売日: 2019/05/01
  • メディア: 単行本

これは現在進行形で勉強中なのですが、内容が講義チックでとても頭に入ってきやすいです。

また、統計学への橋渡しを意識した本であるため、必要最低限の項目の理解を求められ、どこまでも基礎の方に掘り下げるということはされていません。

この結果は統計学を理解する上では、事実として受け入れた方がスムーズであるというような具合です。その事実を証明するにはちゃんと測度論の勉強をしないといけないらしく、学部レベルの応用統計学のためにそこまでする必要はないよねという感じっぽいです。


11月

11月は何してたっけ…?

なんかめちゃくちゃ忙しかったのは覚えているけど、何をしたかはいまいち思い出せす…

なんかのプロジェクトブン回していた気がします。あとあれだ、12月にそこそこ大きい仕事があるからとその準備をしていました。

まあそれはそうと、この時期なんとなく良さそうだなと思って買ったのがこの本。

多くはすでに知っている内容だったので、電車の行き帰りで読めました。

いつもは電車の行き帰りで読んで、さっぱりわからんとなって、家で手を動かして理解する(理解したとは言っていない)というパターンなので、久しぶりに気持ちよく読めました。

内容自体は結構良かったです。自然言語処理などで必要な特徴量作成の基本がだいたい載っています。オススメです。

また、テキストマイニングの技術を得るために

テキストアナリティクス (統計学One Point)

テキストアナリティクス (統計学One Point)

も読みました。

正直言ってしまえば、期待していたものとは違いましたね。基本的に機械学習の話が多く、テキストマイニング特有の話題で構成されているという感じではありませんでした。ただ良い本であるということは間違いないです。


12月

そこそこデカい仕事をしていました。

1つは改善業務、もう1つは包括的な分析の2つです。別プロジェクトなので各個撃破しないといけなかったのがしんどかったです。

内容だけで見るとめちゃくちゃ楽しかったのですが、納期があるとやっぱり楽しさだけではできないというのが悩みどころですね。

包括的というのは、データ分析だけではなく、マーケティング分析や管理工学的な分析もしたということです。それで意思決定を促すといった具合ですね。

あまり学問学問と口にしませんでしたが、基本的に管理工学、経営学統計学と学問として研究されてきたものを応用して分析していきました。

社会人になって8ヶ月の人間がここまでできるんだといえことを考えると、学問の力の偉大さがわかります。経験だけではこうはいかなかったと思います。

さてこの頃に読んでいた本というのはないですね。過去に読んだ本を繰り返し辞書のように引いていました。

1月

年が明けて1月。会社の偉い人からこの本おもろいから読んでおいてと薦められたのがこれ。

世界標準の経営理論

世界標準の経営理論

目下読み進めているところですが、ここまでの感想としては良いなという感じです。

多くの経営学の本はフレームワークと理論がごっちゃになっているため、いまいち読みにくさがあるのですが、この本はそこを分けているためとても読みやすいです。(と言ってもそんなにたくさん経営学の本読んでいるわけではないんですけどね…)

もうひとつの特徴は原著が日本語というところでしょうか。この本は800ページほどと中々のボリュームで、内容も世界の経営理論をサーベイしたというものなのですが、この手の本の多くは洋書で邦訳されて日本に入ってくるものは極一部です。

しかも訳が微妙な場合やニュアンスがいまいちわからない場合、原著を参照する必要に迫られるときがあります。この本は日本語で書かれているため、そういうめんどくさい作業がいらないと考えるとなんともありがたいです。

そして何より安い!暑さはカステラ本とだいたい同じなのですが、お値段はなんと1/5ほど。ビジネスよりのデータサイエンティストであれば読んでおいて損はしないと思います。


まとめ

やはり社会人になって勉強量が格段に落ちましたね。。。

基礎力自体は上がっているので効率は上がっていて、少ない時間で得るものが大きくなりつつはなっているのですが、それでも昨年までに比べると少なすぎるなと。

とはいうものの応用の勉強がめっちゃ増えました。大学時代は経営工学のバックグラウンドしかなかったのですが、マーケティングやサービス工学などのバックグラウンドも増えました。

意思決定を促すタイプのデータサイエンティストとしては、基礎力やカバーしているの範囲などは大学時代に勉強した分で十分やっていけるという印象です。

しかし、正直言って「現状はなんとかやっていける」という感じなので最高とは程遠いです。「是非彼に仕事を頼みたいんだ」とか「彼と一緒に仕事がしてみたい」と言ってもらえるように精進を続けていきたいですね。


さて、4年目は何をしましょうかね。

現在進行形で勉強している、

統計学への確率論、その先へ―ゼロからの測度論的理解と漸近理論への架け橋

統計学への確率論、その先へ―ゼロからの測度論的理解と漸近理論への架け橋

  • 作者:清水 泰隆
  • 出版社/メーカー: 内田老鶴圃
  • 発売日: 2019/05/01
  • メディア: 単行本

は読み終えたいですね。あとはそろそろベイズ統計をちゃんと勉強したいので、

ベイズ統計の理論と方法

ベイズ統計の理論と方法

ですかね。それから今年はなかったのですが、来年はエンジニアリング的なこともやる可能性が高いので、Pythonなどのライブラリなんかも使えるようにしておかないといけないですね。(私はPythonもたまに使いますが、基本Rユーザーなので…)

っていうと何を読めばいいんだろ?ツールの使い方とかは実はあんまり得意じゃないので、そろそろやらなきゃだめですね。

scikit-learnとTensorFlowによる実践機械学習

scikit-learnとTensorFlowによる実践機械学習

PythonとKerasによるディープラーニング

PythonとKerasによるディープラーニング


よくわかんないけどこのへんかな〜