大学生 → 社会人の雑記

統計学や機械学習について気紛れにメモメモするブログです。ゆるふわな感じでやっています。

統計を勉強し始めてから2年が経ちました

タイトル通り統計を勉強し始めてから2年が経ちました。

なんか随分勉強した気がしていますが、まだ2年なんですね〜

ここで2年目を振り返ってみたいと思います。

1年目についてはこちらをどうぞ。

mark-n.hatenablog.com




さてさて、2年目はというと4月始まった段階で就活も終わっていたので研究室に引きこもっていました。

1年間を追うと

4,5,6月

統計的学習の基礎での機械学習の勉強をしました。
MCMCや確率過程等も勉強しました。

mark-n.hatenablog.com

統計的学習の基礎 ―データマイニング・推論・予測―

統計的学習の基礎 ―データマイニング・推論・予測―

  • 作者: Trevor Hastie,Robert Tibshirani,Jerome Friedman,杉山将,井手剛,神嶌敏弘,栗田多喜夫,前田英作,井尻善久,岩田具治,金森敬文,兼村厚範,烏山昌幸,河原吉伸,木村昭悟,小西嘉典,酒井智弥,鈴木大慈,竹内一郎,玉木徹,出口大輔,冨岡亮太,波部斉,前田新一,持橋大地,山田誠
  • 出版社/メーカー: 共立出版
  • 発売日: 2014/06/25
  • メディア: 単行本
  • この商品を含むブログ (6件) を見る

確率モデルの基礎―金融工学を視野に入れた確率論的考え方

確率モデルの基礎―金融工学を視野に入れた確率論的考え方

MCMCは先生に渡されたやつで、なんて本だったか忘れたので後日追記します。

7,8月

研究テーマをいい加減決めないとなということで先生にあれこれ論文を勧めてもらって読んでいました。

ちなみにこの1年で新しいものから古いものまでだいたい70本(報?数え方はよくわからん)ぐらいの論文を読んだのですが、けっこう雑に読んだものや、概要だけ追ったものや、証明まで追ってみたものや、いろんな読み方をしていました。

しかし、先生から勧められた論文はもれなく丁寧に読んでいました。
色々聞かれたときに答えられなかったりするのが嫌だったり(ちゃんと読んだつもりでも答えられないことは多々ありましたが…)、そうでなくても先生と議論した時の時間を無駄にしてしまうのが嫌だったりと理由はたくさんあります。

カルバックライブラー情報量とダイバージェンスが別に定義されているのに「ほぇー」となったり、フリードマンの無双っぷりに「おおおおおお…」となったり色々学びがありました。

この1年はそれまで論文を読むより教科書読む方がたくさん学べると考えていたのを改める良い1年になりました。



9月

研究テーマが決まったので、これに関連した論文を読んだり、知識を埋めたりしました。
また、問題になっているであろうと踏んだ事柄が、ちゃんと問題になっているのかシミュレーションレベルで検討したりもしました。
とりあえずシミュレーションレベルでは問題になっていることが確認できたので、さぁ何でなのかってのを数学レベルで考え始めて9月は終わりました。。
ちなみにこの時点での研究テーマは強化学習でした。


10月

さっぱりわからんとなっているのと同時に読んでいた論文についてもあれこれ考えていました。
調べれば調べるほど「なんかこれ強化学習あんまり関係なくね?」となっていたのが9月の終わりです。

で、なんか先生とあれこれ議論しているうちに、かくかくしかじかあって「ロバスト統計どう?」みたいな話になり、研究テーマがロバスト統計に変わったのが10月のはじめです。
10月いっぱいは次の3つをせっせと読んでいました。

Robust Statistics (Wiley Series in Probability and Statistics Book 693) (English Edition)

Robust Statistics (Wiley Series in Probability and Statistics Book 693) (English Edition)

Robust Statistics: Theory and Methods (Wiley Series in Probability and Statistics)

Robust Statistics: Theory and Methods (Wiley Series in Probability and Statistics)

これらを読みながら推定量の性質を考えたり、計算アルゴリズムを考えたり(選んだり)、シミュレーションデータを作ったり、実データをどうするかとかやってました。


11月

この1ヶ月はせっせと関連論文を読んで、理解を深めていきました。このあたりから研究に全く進捗のない日(論文を読んで終わった)が多くなりました。
また、研究するにあたって必要になったので数理統計学を勉強し始めました。

数理統計学の基礎

数理統計学の基礎

Theory of Point Estimation (Springer Texts in Statistics)

Theory of Point Estimation (Springer Texts in Statistics)

ただ時間的余裕がなかったので、漸近性質のところのみ勉強する形になりました。
できればもっと前の章も勉強するべきだったのですが、制約というのはどうしても付きまとうのですし、当時の状況だと善戦したほうだと思います。


12月

この頃そもそもロバスト統計という試み自体が難しいテーマなんだなと感じるようになりました。間違いって無限通り考えられるんですよね。このあたりことが問題をかなり難しくしているんじゃないかなと感じたというわけです。

わりと研究が進んで年末に個人的には「okやん?」という感じで先生に報告に行きました。
そこで「え?それでもいいけど、君的に足りなくないの?」と言われて「うっ」となって、もう1歩進めることになりました。


1月

1歩進めるために色んな論文を何回も読み返したり何泊かしたりと、中々頑張ったのですが半歩しか進みませんでした。
ぶっちゃけ当時の自分の力に限界を感じていました。ちゃんと基礎へもう少し掘り下げた勉強をしないと研究が進みそうにないというのは直感で分かっていました。
一方で卒論を提出する期限を考えると、勉強して研究へ活かすというようなことをやっている時間はありませんでした。これがここでいう限界の意味です。

その時の自分の力で、自分の証明を何回も見直してその度に些細な間違いを見つけたり、自分の論文を何回も読み直して表現を直したりと完成間近ならでは些細な修正にも時間を大量に投入しました。


2,3月

卒論の発表も終わってようやく休みが到来しました。この頃から数理統計学の勉強をちゃんと始めました。ちゃんとというのは1ページ目からという意味です。教科書はこれを使いました。

数理統計学の基礎

数理統計学の基礎

ただ、ダラダラしたり遊んだりすることが多かったのであんまり勉強は進みませんでした。

また、これだけでは頭が辛いのでPRMLも始めました。ベイズすげえっていう安直な感想を抱いたのが正直なところです。

PRMLは行列のオンパレードで、すぐに行列を微分したり積分したりします。そんなのにあまり慣れていなかったので、思ったよりも進まなかったのが実際のところです。


まとめ

研究室の先生に大変可愛がっていただいたこともあり、とても大きな力をつけることができた1年だったと思います。

勉強だけでなくディスカッションの仕方や研究の仕方、論文の読み方や書き方等々たくさんのことを教わりました。

超絶ホワイトな研究室だったので、暇だったら研究室に行くというスタンスだったのですが、ほぼ毎日暇だったのでほぼ毎日研究室に行っていました。
おかげ(?)で大量の時間を無理なく投入できましたので、ストレスもあまりなく時間を有意義に使うことができ、とても満足しています。

社会人になった今だから強く思うのですが、社会人になったら6時間とか8時間とかまとまった時間を確保するのはとても難易度が高いです。
それを何日も無理なく確保するなんてのは不可能に近いと思います。

やはり学生という時間はまとまった時間がなければ難しいことに使うといいと思います。

勘違いしてほしくないのは、別にそういうものっていうのは勉強だけではなくて、例えば部活に打ち込むとかいうのもとても素敵だと思います。


3年目の目標

上述したように勉強も今までのように勉強時間を大量に確保するというのは難しくなっています。

一方で実力が上がっているのも事実で、学習ペースも上がっています。

そこでこの1年間の最低限の目標は次の3冊を読了することにします。

パターン認識と機械学習 上

パターン認識と機械学習 上

パターン認識と機械学習 下 (ベイズ理論による統計的予測)

パターン認識と機械学習 下 (ベイズ理論による統計的予測)

統計的因果推論 -モデル・推論・推測-

統計的因果推論 -モデル・推論・推測-

あとはテキストマイニングについて勉強しておきたいですね。


まあでもおそらく業務上で必要になり他にも勉強するものは出てくると思いすので、それとは別に最低限完了させるという意味ですね。


社会人になって生活が変わったので、どうなるかわかりませんが無理のない範囲で頑張りたいと思います。