大学生 → 社会人の雑記

統計学や機械学習について気紛れにメモメモするブログです。ゆるふわな感じでやっています。

統計を勉強し始めてから3年が経ちました

大学3年生の時に統計学を勉強し始めてから3年が経ちました。

正確には4月中旬ぐらいなのですが、モチベが上がるかわからないので、ちょっと早いですがこのタイミングで書きます。

この1年は社会人になった1年でもあったので、実践についての勉強も多くしたなあと感じました。

それから過去に読んだ本を読み返すことも多かったです。特に

パターン認識と機械学習 上

パターン認識と機械学習 上

パターン認識と機械学習 下 (ベイズ理論による統計的予測)

パターン認識と機械学習 下 (ベイズ理論による統計的予測)

数理統計学の基礎

数理統計学の基礎

弱点克服大学生の確率・統計

弱点克服大学生の確率・統計

  • 作者:藤田 岳彦
  • 出版社/メーカー: 東京図書
  • 発売日: 2010/04/09
  • メディア: 単行本

らへんはよく参照しましたね。何回も読み返すということは、僕にとってとても価値のある本だということなので、多少高かったですがやはり買って良かったなと改めて感じました。

さて、各月の勉強を振り返っていきますが、僕はデータサイエンティストの中でも機械学習エンジニアというよりは、意思決定を促すためのデータ分析をするタイプのデータサイエンティストなので、そのあたりを留意しながら読んでいただけると幸いです。

【4月】

入社して最初に必要になった知識がマーケティングでした。どんな仕事したかってのはちょっと言えないのですが、経営戦略を考える材料としてデータ分析をしてほしいというのがザックリしたオーダーです。

マーケティング・リサーチは大学の授業で受講していましたが、マーケティング自体の知識は正直あまりありませんでした。

で、読んだのがこの本

マーケティング ビッグ・ピクチャー

マーケティング ビッグ・ピクチャー

どうやらミシガン大学?のMBAの授業でも使われているらしいです。

内容自体は体系的でわかりやすく、個人的には結構好きです。

ただ、どちらかというとフレームワークを体系的に整理しているという印象で、理論という感じではなかったですね。

1冊読んだだけで言うのも良くないのですが、経営学が科学とは遠いものだという話の意味はなんとなくわかりました。


後は前年の続きで、

数理統計学の基礎

数理統計学の基礎



パターン認識と機械学習 下 (ベイズ理論による統計的予測)

パターン認識と機械学習 下 (ベイズ理論による統計的予測)


を読んでいました。上の本は結構好きで、気になったことを参照する時にも結構使っています。

PRML(下)は実はまだ最後まで行ってないんですよね…一回飽きてしまった…
んー、なんだろ?なんていうか読みにくくないですか?

扱い方が違うので比較するのも微妙ですが、僕はカステラ本の方が好きですね。

はい。言い訳しないで読み切ります。


【5月】

5月は営業だったりコンサルしてる人に同行したり、社内のいろんな仕事を学んだり、なんかメキメキ成長しました。

これはデータサイエンティスト的意味での成長ではなく、業界の人的な成長という意味なのですが、いずれにせよ成長を実感している状態というのは楽しいものですね。

今は既に安定期に入ってしまったので平常運行なのですが、まあそれでも楽しいので良いです。

さて、この時期の統計学の勉強はこれです。

統計的因果探索 (機械学習プロフェッショナルシリーズ)

統計的因果探索 (機械学習プロフェッショナルシリーズ)

  • 作者:清水 昌平
  • 出版社/メーカー: 講談社
  • 発売日: 2017/05/25
  • メディア: 単行本(ソフトカバー)

統計的因果推論の勉強が必要かなと思い始めたのですが、これが中々難しい。何が難しいって実際に使おうとすると、仮定を満たしてるかとかそのあたりですね。

この本自体はわかりやすかったです。オススメですね。


6月

6月は大きめの仕事が回ってきたので、あまり勉強は進みませんでした。

しかし、仕事の方では幸いにも大きな成果を上げられ、雑誌に分析が載ったり、IR資料に載ったりと、まあまあ頑張りました。


7月,8月

データ分析をしていくことを考えると、どうしても実験計画法の知識が必要だなと感じ始めました。

なぜかというと、とりあえずビックデータがあって、とりあえず人工知能(機械学習)を使いましたというのはあまり良い分析とは言えないんですね。

機械学習エンジニアでもそうなのかもしれませんが、コンサル系のデータサイエンスだと特に顕著です。

データを取るところから設計、どういう手順で分析して、何を見ていくか。

これが重要です。

そんな中で読んだのがこの本。

入門 実験計画法

入門 実験計画法

余談ですが、永田先生は先日デミング賞を受賞されていましたね。

この本は非常にわかりやすいです。なぜその操作をするのか、実験とはどのように計画されるべきか等が丁寧に説明されています。

また、後半にはよくある質問に対するQ&Aがあり、非常に重宝しています。


9月

9月は鬼のように集計をしていました。おかげでEXCELとかいうものの操作にすっかり慣れてしまいました。おそらく社内でも5本の指に入るんじゃないかな。

だからなんだって話なんですが、私が言いたいのは「俺EXCELの神になったわ」ということではなく、ここでは品質管理の知識が非常に役に立ったということです。

私は経営システム工学科出身で、大学では品質管理や生産管理などの管理工学を学んでいました。

管理工学では言われてみれば当たり前の話ばかりの内容で話が進むのですが、社会人になってわかったのはこれが全くできていない人しかいないということです。

例えば、何かミスが起こったときに対策を考えようとなったとします。人間信頼性工学を少しでも聞いたことのある人であれば、まずなくせないかということを考えます。

しかし多くの場合、チェックを増やすとか、チェックの仕方を変えるとかそういう対策になるんですね。

これでは作業が増え続けるだけで、みんな嫌な気分になっていくし、チェックを増やしたからといって、お金を多く取れるわけではないので、単純にコストが増えます。

ミスをする度に商品1個あたりのコストが増えるんですよ?めっちゃ馬鹿じゃないですか?

とまあこういうものにコストを減らす方向で、しかもより高い品質で高単価化するのか管理工学の1つの使い方なのですが、これ以上は趣旨から外れるので次行きましょう。


10月

マーケティングの仕事が多めだったのですが、9月の改善に対する姿勢と知見を見た偉い人に頼まれて、色々な改善をしていました。
古典的な統計手法がかなり強力だということを実感しました。

もちろん管理工学の威力も絶大でした。

この頃勉強を始めたのはこの本。

統計学への確率論、その先へ―ゼロからの測度論的理解と漸近理論への架け橋

統計学への確率論、その先へ―ゼロからの測度論的理解と漸近理論への架け橋

  • 作者:清水 泰隆
  • 出版社/メーカー: 内田老鶴圃
  • 発売日: 2019/05/01
  • メディア: 単行本

これは現在進行形で勉強中なのですが、内容が講義チックでとても頭に入ってきやすいです。

また、統計学への橋渡しを意識した本であるため、必要最低限の項目の理解を求められ、どこまでも基礎の方に掘り下げるということはされていません。

この結果は統計学を理解する上では、事実として受け入れた方がスムーズであるというような具合です。その事実を証明するにはちゃんと測度論の勉強をしないといけないらしく、学部レベルの応用統計学のためにそこまでする必要はないよねという感じっぽいです。


11月

11月は何してたっけ…?

なんかめちゃくちゃ忙しかったのは覚えているけど、何をしたかはいまいち思い出せす…

なんかのプロジェクトブン回していた気がします。あとあれだ、12月にそこそこ大きい仕事があるからとその準備をしていました。

まあそれはそうと、この時期なんとなく良さそうだなと思って買ったのがこの本。

多くはすでに知っている内容だったので、電車の行き帰りで読めました。

いつもは電車の行き帰りで読んで、さっぱりわからんとなって、家で手を動かして理解する(理解したとは言っていない)というパターンなので、久しぶりに気持ちよく読めました。

内容自体は結構良かったです。自然言語処理などで必要な特徴量作成の基本がだいたい載っています。オススメです。

また、テキストマイニングの技術を得るために

テキストアナリティクス (統計学One Point)

テキストアナリティクス (統計学One Point)

も読みました。

正直言ってしまえば、期待していたものとは違いましたね。基本的に機械学習の話が多く、テキストマイニング特有の話題で構成されているという感じではありませんでした。ただ良い本であるということは間違いないです。


12月

そこそこデカい仕事をしていました。

1つは改善業務、もう1つは包括的な分析の2つです。別プロジェクトなので各個撃破しないといけなかったのがしんどかったです。

内容だけで見るとめちゃくちゃ楽しかったのですが、納期があるとやっぱり楽しさだけではできないというのが悩みどころですね。

包括的というのは、データ分析だけではなく、マーケティング分析や管理工学的な分析もしたということです。それで意思決定を促すといった具合ですね。

あまり学問学問と口にしませんでしたが、基本的に管理工学、経営学統計学と学問として研究されてきたものを応用して分析していきました。

社会人になって8ヶ月の人間がここまでできるんだといえことを考えると、学問の力の偉大さがわかります。経験だけではこうはいかなかったと思います。

さてこの頃に読んでいた本というのはないですね。過去に読んだ本を繰り返し辞書のように引いていました。

1月

年が明けて1月。会社の偉い人からこの本おもろいから読んでおいてと薦められたのがこれ。

世界標準の経営理論

世界標準の経営理論

目下読み進めているところですが、ここまでの感想としては良いなという感じです。

多くの経営学の本はフレームワークと理論がごっちゃになっているため、いまいち読みにくさがあるのですが、この本はそこを分けているためとても読みやすいです。(と言ってもそんなにたくさん経営学の本読んでいるわけではないんですけどね…)

もうひとつの特徴は原著が日本語というところでしょうか。この本は800ページほどと中々のボリュームで、内容も世界の経営理論をサーベイしたというものなのですが、この手の本の多くは洋書で邦訳されて日本に入ってくるものは極一部です。

しかも訳が微妙な場合やニュアンスがいまいちわからない場合、原著を参照する必要に迫られるときがあります。この本は日本語で書かれているため、そういうめんどくさい作業がいらないと考えるとなんともありがたいです。

そして何より安い!暑さはカステラ本とだいたい同じなのですが、お値段はなんと1/5ほど。ビジネスよりのデータサイエンティストであれば読んでおいて損はしないと思います。


まとめ

やはり社会人になって勉強量が格段に落ちましたね。。。

基礎力自体は上がっているので効率は上がっていて、少ない時間で得るものが大きくなりつつはなっているのですが、それでも昨年までに比べると少なすぎるなと。

とはいうものの応用の勉強がめっちゃ増えました。大学時代は経営工学のバックグラウンドしかなかったのですが、マーケティングやサービス工学などのバックグラウンドも増えました。

意思決定を促すタイプのデータサイエンティストとしては、基礎力やカバーしているの範囲などは大学時代に勉強した分で十分やっていけるという印象です。

しかし、正直言って「現状はなんとかやっていける」という感じなので最高とは程遠いです。「是非彼に仕事を頼みたいんだ」とか「彼と一緒に仕事がしてみたい」と言ってもらえるように精進を続けていきたいですね。


さて、4年目は何をしましょうかね。

現在進行形で勉強している、

統計学への確率論、その先へ―ゼロからの測度論的理解と漸近理論への架け橋

統計学への確率論、その先へ―ゼロからの測度論的理解と漸近理論への架け橋

  • 作者:清水 泰隆
  • 出版社/メーカー: 内田老鶴圃
  • 発売日: 2019/05/01
  • メディア: 単行本

は読み終えたいですね。あとはそろそろベイズ統計をちゃんと勉強したいので、

ベイズ統計の理論と方法

ベイズ統計の理論と方法

ですかね。それから今年はなかったのですが、来年はエンジニアリング的なこともやる可能性が高いので、Pythonなどのライブラリなんかも使えるようにしておかないといけないですね。(私はPythonもたまに使いますが、基本Rユーザーなので…)

っていうと何を読めばいいんだろ?ツールの使い方とかは実はあんまり得意じゃないので、そろそろやらなきゃだめですね。

scikit-learnとTensorFlowによる実践機械学習

scikit-learnとTensorFlowによる実践機械学習

PythonとKerasによるディープラーニング

PythonとKerasによるディープラーニング


よくわかんないけどこのへんかな〜

統計を勉強し始めてから2年が経ちました

タイトル通り統計を勉強し始めてから2年が経ちました。

なんか随分勉強した気がしていますが、まだ2年なんですね〜

ここで2年目を振り返ってみたいと思います。

1年目についてはこちらをどうぞ。

mark-n.hatenablog.com




さてさて、2年目はというと4月始まった段階で就活も終わっていたので研究室に引きこもっていました。

1年間を追うと

4,5,6月

統計的学習の基礎での機械学習の勉強をしました。
MCMCや確率過程等も勉強しました。

mark-n.hatenablog.com

統計的学習の基礎 ―データマイニング・推論・予測―

統計的学習の基礎 ―データマイニング・推論・予測―

  • 作者: Trevor Hastie,Robert Tibshirani,Jerome Friedman,杉山将,井手剛,神嶌敏弘,栗田多喜夫,前田英作,井尻善久,岩田具治,金森敬文,兼村厚範,烏山昌幸,河原吉伸,木村昭悟,小西嘉典,酒井智弥,鈴木大慈,竹内一郎,玉木徹,出口大輔,冨岡亮太,波部斉,前田新一,持橋大地,山田誠
  • 出版社/メーカー: 共立出版
  • 発売日: 2014/06/25
  • メディア: 単行本
  • この商品を含むブログ (6件) を見る

確率モデルの基礎―金融工学を視野に入れた確率論的考え方

確率モデルの基礎―金融工学を視野に入れた確率論的考え方

MCMCは先生に渡されたやつで、なんて本だったか忘れたので後日追記します。

7,8月

研究テーマをいい加減決めないとなということで先生にあれこれ論文を勧めてもらって読んでいました。

ちなみにこの1年で新しいものから古いものまでだいたい70本(報?数え方はよくわからん)ぐらいの論文を読んだのですが、けっこう雑に読んだものや、概要だけ追ったものや、証明まで追ってみたものや、いろんな読み方をしていました。

しかし、先生から勧められた論文はもれなく丁寧に読んでいました。
色々聞かれたときに答えられなかったりするのが嫌だったり(ちゃんと読んだつもりでも答えられないことは多々ありましたが…)、そうでなくても先生と議論した時の時間を無駄にしてしまうのが嫌だったりと理由はたくさんあります。

カルバックライブラー情報量とダイバージェンスが別に定義されているのに「ほぇー」となったり、フリードマンの無双っぷりに「おおおおおお…」となったり色々学びがありました。

この1年はそれまで論文を読むより教科書読む方がたくさん学べると考えていたのを改める良い1年になりました。



9月

研究テーマが決まったので、これに関連した論文を読んだり、知識を埋めたりしました。
また、問題になっているであろうと踏んだ事柄が、ちゃんと問題になっているのかシミュレーションレベルで検討したりもしました。
とりあえずシミュレーションレベルでは問題になっていることが確認できたので、さぁ何でなのかってのを数学レベルで考え始めて9月は終わりました。。
ちなみにこの時点での研究テーマは強化学習でした。


10月

さっぱりわからんとなっているのと同時に読んでいた論文についてもあれこれ考えていました。
調べれば調べるほど「なんかこれ強化学習あんまり関係なくね?」となっていたのが9月の終わりです。

で、なんか先生とあれこれ議論しているうちに、かくかくしかじかあって「ロバスト統計どう?」みたいな話になり、研究テーマがロバスト統計に変わったのが10月のはじめです。
10月いっぱいは次の3つをせっせと読んでいました。

Robust Statistics (Wiley Series in Probability and Statistics Book 693) (English Edition)

Robust Statistics (Wiley Series in Probability and Statistics Book 693) (English Edition)

Robust Statistics: Theory and Methods (Wiley Series in Probability and Statistics)

Robust Statistics: Theory and Methods (Wiley Series in Probability and Statistics)

これらを読みながら推定量の性質を考えたり、計算アルゴリズムを考えたり(選んだり)、シミュレーションデータを作ったり、実データをどうするかとかやってました。


11月

この1ヶ月はせっせと関連論文を読んで、理解を深めていきました。このあたりから研究に全く進捗のない日(論文を読んで終わった)が多くなりました。
また、研究するにあたって必要になったので数理統計学を勉強し始めました。

数理統計学の基礎

数理統計学の基礎

Theory of Point Estimation (Springer Texts in Statistics)

Theory of Point Estimation (Springer Texts in Statistics)

ただ時間的余裕がなかったので、漸近性質のところのみ勉強する形になりました。
できればもっと前の章も勉強するべきだったのですが、制約というのはどうしても付きまとうのですし、当時の状況だと善戦したほうだと思います。


12月

この頃そもそもロバスト統計という試み自体が難しいテーマなんだなと感じるようになりました。間違いって無限通り考えられるんですよね。このあたりことが問題をかなり難しくしているんじゃないかなと感じたというわけです。

わりと研究が進んで年末に個人的には「okやん?」という感じで先生に報告に行きました。
そこで「え?それでもいいけど、君的に足りなくないの?」と言われて「うっ」となって、もう1歩進めることになりました。


1月

1歩進めるために色んな論文を何回も読み返したり何泊かしたりと、中々頑張ったのですが半歩しか進みませんでした。
ぶっちゃけ当時の自分の力に限界を感じていました。ちゃんと基礎へもう少し掘り下げた勉強をしないと研究が進みそうにないというのは直感で分かっていました。
一方で卒論を提出する期限を考えると、勉強して研究へ活かすというようなことをやっている時間はありませんでした。これがここでいう限界の意味です。

その時の自分の力で、自分の証明を何回も見直してその度に些細な間違いを見つけたり、自分の論文を何回も読み直して表現を直したりと完成間近ならでは些細な修正にも時間を大量に投入しました。


2,3月

卒論の発表も終わってようやく休みが到来しました。この頃から数理統計学の勉強をちゃんと始めました。ちゃんとというのは1ページ目からという意味です。教科書はこれを使いました。

数理統計学の基礎

数理統計学の基礎

ただ、ダラダラしたり遊んだりすることが多かったのであんまり勉強は進みませんでした。

また、これだけでは頭が辛いのでPRMLも始めました。ベイズすげえっていう安直な感想を抱いたのが正直なところです。

PRMLは行列のオンパレードで、すぐに行列を微分したり積分したりします。そんなのにあまり慣れていなかったので、思ったよりも進まなかったのが実際のところです。


まとめ

研究室の先生に大変可愛がっていただいたこともあり、とても大きな力をつけることができた1年だったと思います。

勉強だけでなくディスカッションの仕方や研究の仕方、論文の読み方や書き方等々たくさんのことを教わりました。

超絶ホワイトな研究室だったので、暇だったら研究室に行くというスタンスだったのですが、ほぼ毎日暇だったのでほぼ毎日研究室に行っていました。
おかげ(?)で大量の時間を無理なく投入できましたので、ストレスもあまりなく時間を有意義に使うことができ、とても満足しています。

社会人になった今だから強く思うのですが、社会人になったら6時間とか8時間とかまとまった時間を確保するのはとても難易度が高いです。
それを何日も無理なく確保するなんてのは不可能に近いと思います。

やはり学生という時間はまとまった時間がなければ難しいことに使うといいと思います。

勘違いしてほしくないのは、別にそういうものっていうのは勉強だけではなくて、例えば部活に打ち込むとかいうのもとても素敵だと思います。


3年目の目標

上述したように勉強も今までのように勉強時間を大量に確保するというのは難しくなっています。

一方で実力が上がっているのも事実で、学習ペースも上がっています。

そこでこの1年間の最低限の目標は次の3冊を読了することにします。

パターン認識と機械学習 上

パターン認識と機械学習 上

パターン認識と機械学習 下 (ベイズ理論による統計的予測)

パターン認識と機械学習 下 (ベイズ理論による統計的予測)

統計的因果推論 -モデル・推論・推測-

統計的因果推論 -モデル・推論・推測-

あとはテキストマイニングについて勉強しておきたいですね。


まあでもおそらく業務上で必要になり他にも勉強するものは出てくると思いすので、それとは別に最低限完了させるという意味ですね。


社会人になって生活が変わったので、どうなるかわかりませんが無理のない範囲で頑張りたいと思います。