多変数クラメル・ラオの不等式の証明(フィッシャー情報量の意味づけの一つ)
統計学の分野で、クラメル・ラオ (Cramer-Rao) の不等式と呼ばれる有名な式があります:
\begin{equation}
V(t(z)) \geq \frac{1}{I(\theta)}.
\end{equation}ここで は確率変数で、一つのパラメータ で指定される確率分布 に従って生成されると仮定します。 は不偏推定量、 はやはり確率変数である の分散、そして はフィッシャー情報量です。不偏推定量とは、その期待値が に一致する、つまり「偏りのない」推定量のことです。最後にフィッシャー情報量とは で定義されるある種の「推定の良さ」を示すような量です( は期待値を取る演算)。
クラメル・ラオの不等式によれば、不偏推定量の分散には下限が存在し、それがフィッシャー情報量の逆数に一致します。が大きければ大きいほど不偏推定量の分散は小さくしうる、つまり期待値まわりでより狭い範囲での(=良い)推定ができるようになる、ということですね。
ところで、ここで書いた式は確率分布関数のパラメータが1次元の場合です。これが多次元になった場合でも同様の式がもちろん成立するのですが、その証明が意外と手元にある本に書いてなかったので、簡単に証明を残しておこうかと思います。
多変数クラメル・ラオの不等式
基本的な道具として、多変数の場合に拡張された Cauchy-Schwarz の不等式を利用します。
\begin{equation}
E[xx^T] \geq E[xy^T]E[yy^T]^{-1}E[yx^T].
\end{equation}ここで、 は n 次元の確率変数です。この式は行列に対する不等式となっていますが、その意味は、左辺から右辺を引いた行列 が半正定値となる、つまり、任意の について となることです。この式が成立することの証明はあとに回し、まず本題であるクラメル・ラオの不等式を示しましょう。
さて、 が不偏推定量であることは、 と表せます。ここで、 はともに多次元のベクトル、 はその i 成分とします。また、確率分布の性質から も成り立ちます。この2式を で偏微分すると、, となります。2本目の式には定数をかけても同じなので、両者を合わせて
\begin{equation}
\int (t_{i} - \theta_{i}) \partial_j f_{\theta}dz = \int (t_{i} - \theta_{i}) f_{\theta} \partial_j \log f_{\theta}dz = E[(t_i - \theta_i)\partial_j \log f_{\theta}] = \delta_{ij}.
\end{equation}つまり、 と の共分散は単位行列となります。
そこで、拡張された Cauchy-Schwarz の不等式にて、まず とおくと、 となります。また、すぐ分かるように となり、結論として多変数版のクラメル・ラオ不等式
\begin{equation}
Cov(t) \geq I(\theta)^{-1}
\end{equation}が得られました。これは、確かに1次元版の拡張になっていますね。
Cauchy-Schwarz の不等式の多次元への拡張
通常、Cauchy-Schwarz の不等式で思い出すのはこの形式でしょう: をそれぞれ1次元の確率変数としたときに .
多次元版を示すには、自明な不等式 から出発します*1。ここで、 で、 は確率変数であるとします。この不等式はどのような に対しても成り立ちますが、特にこの期待値を最小にする を考えましょう。これは、この式を で偏微分すると分かる通り となります。 を元の不等式に入れて整理すると となり、拡張された Cauchy-Schwartz の不等式が成り立つことが示されます。
*1:ここでの証明は、A matrix extension of the Cauchy-Schwarz inequality - ScienceDirect を参考にしました。