Оценка Ходжеса

В статистике оценка Ходжеса^[1] (также оценщик Ходжеса или оценка/оценщик Ходжеса — Ле Кама^[2]), названная в честь Джозефа Ходжеса (англ. Joseph Hodges), — знаменитый контрпример, доказывающий существование суперэффективной оценки^[3], т.е. оценки, достигающей меньшую асимптотическую дисперсию, чем обычные эффективные оценки. Существование такого контрпримера послужило причиной ввода понятия регулярных оценок.

Оценка Ходжеса улучшает регулярную оценку в единственной точке. В общем, любая суперэффективная оценка может превзойти регулярную оценку не более чем на множестве нулевой меры Лебега^[4].

Хотя Ходжес ввёл эту оценку, он её не публиковал; первая публикация была в докторской диссертации Люсьена Ле Кама (англ. Lucien Le Cam)^[5].

Построение

Предположим, что ${\hat {\theta }}_{n}$ — это обычная оценка некоторого параметра $\theta$ : она состоятельна и сходится к некоторому асимптотическому распределению $L_{\theta }$ (как правило, это нормальное распределение с мат ожиданием $0$ и дисперсией, зависящей от $\theta$ ) при нормировке на ${\sqrt {n}}$ :

{\sqrt {n}}\left({\hat {\theta }}_{n}-\theta \right){\overset {d}{\to }}L_{\theta }

Тогда оценка Ходжеса ${\hat {\theta }}_{n}^{H}$ определяется как^[6]:

{\hat {\theta }}_{n}^{H}={\begin{cases}{\hat {\theta }}_{n},&{\text{если }}|{\hat {\theta }}_{n}|\geqslant n^{-1/4}\\0,&{\text{если }}|{\hat {\theta }}_{n}|<n^{-1/4}\end{cases}}

.

Она совпадает с ${\hat {\theta }}_{n}$ везде, кроме маленького интервала $\left[-n^{-1/4},n^{-1/4}\right]$ , где она равен нулю. Несложно увидеть, что оценка состоятельна для $\theta$ и её асимптотическое распределение следующее^[7]:

{\begin{aligned}&n^{\alpha }\left({\hat {\theta }}_{n}^{H}-\theta \right){\overset {d}{\to }}0,\qquad {\text{при }}\theta =0,\\&{\sqrt {n}}\left({\hat {\theta }}_{n}^{H}-\theta \right){\overset {d}{\to }}L_{\theta },\qquad {\text{при }}\theta \neq 0\end{aligned}}

,

для любого $\alpha \in \mathbb {R}$ . Отсюда эта оценка имеет такое же асимптотическое распределение как ${\hat {\theta }}_{n}$ для всех $\theta \neq 0$ , а для $\theta =0$ скорость схождения становится сколь угодно быстрой. Эта оценка суперэффективная и превосходит асимптотическое поведение эффективной оценки ${\hat {\theta }}_{n}$ хотя бы в одной точке $\theta =0$ .

Неверно, что оценка Ходжеса равна выборочному среднему, но которая становится намного лучше выборочного среднего, когда истинное среднее равно $0$ . Верно, что для конечного $n$ усечение может привести к худшей квадратичной ошибке, чем оценка на выборочном среднем, когда $\mathbb {E} X$ близко к $0$ , как показано на примере в следующем разделе^[8].

Ле Кам показал, что такое поведение типично: суперэффективность в точке $\theta$ подразумевает существование последовательности $\theta _{n}\to \theta$ , такой что $\varliminf _{n\to \infty }\mathbb {E} \theta _{n}l\left({\sqrt {n}}\left({\hat {\theta }}_{n}-\theta _{n}\right)\right)$ строго больше границы Крамера — Рао. Для особых случаев, где асимптотический риск в $\theta$ равен нулю, предел $\varliminf _{n\to \infty }$ бесконечный для последовательности $\theta _{n}\to \theta$ ^[9].

В общем случае, суперэффективность может быть достигнута на подмножестве меры Лебега ноль параметрического пространства $\Theta$ ^[8].

Пример

Предположим $x_{1},\dots ,x_{n}$ независимо и одинаково распределённая выборка из нормального распределения $N(\theta ,1)$ с неизвестным среднем, но известной дисперсии. Тогда обычная оценка генерального среднего $\theta$ — это арифметическое среднее всех наблюдений ${\bar {x}}$ . Соответствующая оценка Ходжеса тогда: ${\hat {\theta }}_{n}^{H}={\bar {x}}\cdot \mathbf {1} \left\{|{\bar {x}}|\geqslant n^{-1/4}\right\}$ , где $\mathbf {1} \{\dots \}$ — индикаторная функция.

Среднеквадратичная ошибка (умноженная на $n$ ) на основе регулярной оценки ${\bar {x}}$ постоянна и равна $1$ для всех $\theta$ . В то же время среднеквадратичная ошибка для оценки Ходжеса ${\hat {\theta }}_{n}^{H}$ ведёт себя хаотично в окрестности нуля и даже становится неограниченной при $n\to \infty$ . Это показывает, что оценка не является регулярной и её асимптотические свойства неадекватно описываются пределами формы (при фиксированном $\theta$ , $n\to \infty$ ).

См. также

Оценка Джеймса — Штейна

Примечания

↑ Vaart (1998, p. 109)
↑ Kale (1985)
↑ Bickel (1998, p. 21)
↑ Vaart (1998, p. 116)
↑ Le Cam L. M. On some asymptotic properties of maximum likelihood estimates and related Bayes' estimates (англ.). — Berkeley: University of California Press, 1953. — (University of California Publications in Statistics; v. 1, no. 11).
↑ Stoica, Ottersten, 1996, p. 135.
↑ Vaart, 1998, p. 109.
↑ ¹ ² van der Vaart, A. W. Asymptotic Statistics (англ.). — Cambridge University Press, 1998.
↑ van der Vaart, A. W.; Wellner, J. A. Weak Convergence and Empirical Processes (англ.). — New York: Springer, 1996. — (Springer Series in Statistics). — doi:10.1007/978-1-4757-2545-2.
↑ Vaart (1998, p. 110)

Литература

Peter J. Bickel. Efficient and Adaptive Estimation for Semiparametric Models (англ.). — New York: Springer, 1998. — ISBN 0-387-98473-9.
B. K. Kale. A note on the super efficient estimator (англ.). — 1985. — Vol. 12. — P. 259–263. — doi:10.1016/0378-3758(85)90074-6.
P. Stoica. The evil of superefficiency (англ.). — 1996. — Vol. 55. — P. 133–136. — doi:10.1016/S0165-1684(96)00159-4.
A. W. van der Vaart. Asymptotic Statistics (англ.). — Cambridge University Press, 1998. — ISBN 978-0-521-78450-4.

[1] Vaart (1998, p. 109)

[2] Kale (1985)

[3] Bickel (1998, p. 21)

[4] Vaart (1998, p. 116)

[5] Le Cam L. M. On some asymptotic properties of maximum likelihood estimates and related Bayes' estimates (англ.). — Berkeley: University of California Press, 1953. — (University of California Publications in Statistics; v. 1, no. 11).

[_ca0a9be0f9698efc-6] Stoica, Ottersten, 1996, p. 135.

[_c4fb9591a106fd44-7] Vaart, 1998, p. 109.

[автоссылка1-8] ¹ ² van der Vaart, A. W. Asymptotic Statistics (англ.). — Cambridge University Press, 1998.

[9] van der Vaart, A. W.; Wellner, J. A. Weak Convergence and Empirical Processes (англ.). — New York: Springer, 1996. — (Springer Series in Statistics). — doi:10.1007/978-1-4757-2545-2.

[10] Vaart (1998, p. 110)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]