生命系学生のゲノム解析覚え書き

大抵インフォ、時々バイオ、稀にアグリな日記

久保緑本 レビュー

久保緑本読み終わりましたー

日曜日の集中力が地に堕ちていたので結局月曜日までかかってしまった。

 

 

 

まあ自分の今やっている分野にはあまり必要はないかなー、という感じだった。Rの勉強がてらとか言ってたけどRは別の本で勉強してから読んでね、とのことでしたし。

ただ今後必ず必要になりそうな予感。

 

内容としてはデータ解析の実践が中心となっている。統計学の基礎を踏まえたうえで、じゃあ実際に解析するにはそれらをどのように扱えばいいのか、現実世界に即したモデルをうまく作るにはどのような考え方をしてどのようなツールを使えばいいのか、とのこと。

 

まずモデリングの基本になる一般化線形モデルGMLを紹介して、そのパラメーターの決め方として最大対数尤度ではなくAICを使うとover fitting的なのを避けられるよ、てことを解説。

次に、でも現実世界では観測されてない個体差、陽の当たり方とか、気温のわずかな違いとか、そういうのがあるよね、それを考慮するにはどうすればいいの、で出てきたのが一般化線形混合モデル。

これで観測されてない個体差を決めることができる。でも計算量すごいし解析的に解くにはちょっと厳しすぎるよね、ということでMCMCサンプリング法の登場。こいつを使って得られたサンプルとベイズ統計モデルを組み合わせれば、複数パラメーターの尤度推定を簡単にできるじゃん。

こいつをGLM組み込めないかな、GLMをベイズ化して考えればめちゃめちゃ複雑なパラメーターの組み合わせでも尤度を決定できるじゃん、と話は進み、この応用系である階層ベイズモデルや空間構造への組み込みで話は終わり。

 

ムツカシイ理論の部分をうまくかわしながら、(詳しくは文献とかツールのマニュアルを見てね、と)基本の考え方と適用法をさらっと説明してくれてるので、とても読みやすいしわかりやすい。統計学の基礎を修めて、一度自分でデータをとった人がこれから初めての解析を始めるぞお、というときに必須の本だと思います。

 

一度目を通しただけですが何らかに応用できそうであればまた読みたいですね。 

 

一回コロナとかKaggleにあるデータ引っ張ってきてPythonなりRなりでデータ解析を自己満でやりたいと思ってるのでまたお世話になるかもですねー