尤度と最尤推定がいつも分からなくなる君へ

わたしは、数学がめっちゃ苦手です。どれぐらい苦手かというと、大学入試の二次試験で数学250点満点中60点を叩き出したぐらい苦手です。わたしは物理学科だったので、周囲の友人は数学強強な人ばかりでした。点数開示のときに数学の点数を暴露する勇気がありませんでした。


タイトルの「君」とは、わたしのことです。仕事柄、数学とはうまく付き合っていかなければならない立場にあり、数学苦手マンな自分としては、何度学んでもわからなくなる概念、迷子になる理論がたくさんあります。その中の代表格が「尤度」です。


考えてみたんです。なぜわからないのか。


結論としては、「尤度とは?最尤推定とは?」というその語の意味を理解しようと考えていたからだと思っています。これらの語は、何か問題を解くときに、手法や指標に明確な名前付けをすることで、後々の議論をやりやすくするという狙いが含まれているものと(勝手に)解釈しています。最初にこの言葉が生まれたというより、「こいつに名前つけないとなぁ」となって名付けられた類のものということです。(←わたしの解釈です)


統計学で詰まる時

個人的な考えですが、統計学で詰まるときは、「何が与えられていて、何を解こうとしているのか」がわからなくなっているケースが多いと感じています。


実際のデータ分析業務では、すでに与えられているものは「データ」です。これは、数理統計学の言葉で言えば、観測データ何らかの確率分布モデルに従っている確率変数の実現値の集合などと表現できるでしょう。


そのデータの背景には、何があるのかわかりません。どんな確率分布モデルに従うかもわからないことがほとんどです。


にもかかわらず、統計学の教科書の例題や練習問題はそういった状況を容易に無視します。確率分布モデルがすでに分かった状態で、いきなり「期待値を計算せよ」みたいな問題がたくさんあるわけです。概念を理解するための練習問題なので、これ自体は悪いことでもなんでもないのですが、実務において「通常与えられるはずもないもの(データが従う確率分布モデルとか)が平気で与えられてしまっている」ことが、読者を混乱させるのではないかと感じています。特に、わたしのような数学弱々人間は、平気でわけがわからなくなってしまいます。😭😭😭


ということで、ここでは、現実のケースに準えて、最尤推定なるものがいつ登場するのか?を記してみたいと思います。

ここから本題に入ります。

尤度という言葉を使わずに最尤推定を説明する

与えられるもの

現実の課題を解く時、「手元に何があるか」を理解することが重要です。 通常、(分析するぞーとなっている時であれば)観測データが手元にあります。

ここでは、例として日本に生息するアサガオの花弁の長さのデータとでもしておきましょう。 アサガオの花弁の長さが1000件ほどあるとします。


解くべき問題

ずばり、「日本に生息するアサガオの花弁の長さはどのような確率分布に従っているのか」を求めること、とします。


問題解決の糸口〜確率分布の型を決める

問題解決の糸口として、最終的に求めたい確率分布の形の候補を絞ります。ここでは、正規分布モデル(※)という確率分布モデルに従うとしたら…と考えてみます。ここは、解こうとする問題ごとに利用するモデルをヒューリスティックに当たりをつけます。

※…厳密には、今回のような非負で連続な数については、ガンマ分布などを用いるべきですが、尤度の理解に支障なしと考え、簡単のため正規分布を使います



f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp \left(-\frac{(x - \mu)^2}
{2\sigma^2} \right) \hspace{20px} (-\infty < x < \infty)


正規分布を数式で表すと上記のようになります。xは、確率変数(連続値)です。確率変数xが得られる確率はf(x)である、ということを意味しています。練習問題などでは、xが9~10となる確率を求めよ、みたいな問題がありますが、実務ではあまり使わないように思います。ただ、確率密度関数の性質を理解しているかどうかを確認する上では、大切な問題なので、別にディスっているわけではありません。😅


答えを求める〜具体的な確率分布を求める

さて、前項で確率分布モデルを決めることで、解答の候補を絞りました。しかし、まだ答えには至っていません。なぜなら、パラメータが決まってないからです。

確率分布モデルは、あくまでもざっくりした型を表現するもの。具体的な確率分布とするには、パラメータを定めないといけません。下記のようなイメージです。正規分布というモデルを定めたとしても、平均・分散というパラメータ(図中のつまみみたいなもの)を調整して、最終的にどういう分布を採用するのか具体化する必要があります。じゃあ、このパラメータは一体どうやって決めればいいんだ?ってなりますよね。

f:id:massox:20210125185700p:plain

この時、パラメータを定める手段の一つが最尤推定です。



最尤推定を考えついた人(誰か知りませんが)はこう考えた訳です。 「平均○、分散△のときに、手元の1000件のデータが観測されうる確率を求め、その確率が最大になるような○と△を最適であるとみなそう」これこそが最尤推定という方法です。


ちょっと、数式でも書いておきましょうか。

1000件のデータは、{x_1, x_2, ..., x_{1000}} と表すものとすると、平均○、分散△のときに、手元の1000件のデータが観測されうる確率は、以下のように表現できます。


L({\mu}, {\sigma}) = p(x_1 | {\mu}, {\sigma})\times p(x_2 | {\mu}, {\sigma}) ... \times p(x_{1000} | {\mu}, {\sigma}) \\


パラメータがμ、σという条件の下で値が {x_i} となる確率(p(x_i | {\mu}, {\sigma}))をひたすら掛け合わせていきます。 余談ですが、1以下の確率という値をこれだけ何個もかけ合わせたら、めちゃくちゃ小さい数になりますよね?なんで普通に計算すると、やりづらいんです。コンピュータ計算するときとかも。なので、対数をとるのが通例です。


名前をつけた方が議論しやすい

さて、最尤推定の説明は終わりました。これで割と頭がすっきりした気がします。


とはいえ、この手法について説明する場合、もっと明快に説明できた方が良いですよね。この手法は「○○を最大化(あるいは最小化)するものである」みたいな感じで。この○○に該当するものが、評価関数とか目的関数とか、いろんな名前で呼ばれる概念です。

今回の評価関数は、「平均○、分散△の時に、手元にある観測データ(N個)が観測されうる確率」です。これを尤度(likelihood)と名付けました。

以上〜♬

参考書