Центральная величина

В статистике центральная величина^[1] (также: пивот от англ. pivot и англ. pivotal quantity, центральная статистика ^[2] , опорная величина, ключевая величина) — это функция от наблюдений и неизвестных параметров, такая что распределение вероятностей [этой] функции не зависит от неизвестных параметров (включая мешающие параметры)^[3]. Центральная величина может не быть статистикой, функция и её значение могут зависеть от параметров в модели, но её распределение — не должно. Если функция является статистикой, то она называется вспомогательной статистикой.

Пусть^[4] $X=(X_{1},X_{2},\dots ,X_{n})$ — случайная выборка из распределения, которая зависит от параметра (или вектора параметров) $\theta$ . Пусть $g(X,\theta )$ случайная переменная, распределение которой одинаково для всех $\theta$ . Тогда $g$ — это центральная величина.

Центральные величины часто используются для нормализации для сравнения данных из разных наборов данных. Выразить центральные величины для математического ожидания ( $\mu$ ) и стандартного отклонения ( $\sigma$ ) довольно просто: для того, чтобы убрать первое, нужно взять разность, такую что $\mu$ сократится, а для последнего — отношение, такое что $\sigma$ сократится.

Центральные величины — это фундамент статистических критериев, поскольку они позволяют статистике не зависеть от параметров, например, t-статистика для нормального распределения с неизвестной дисперсией и средним. Они также предоставляют метод построения доверительного интервала, а ещё использование центральных величин улучшает результаты метода бутстрэп. Вспомогательная величина используется для построения частотных интервалов предсказания (доверительный интервал предсказания).

Примеры

Нормальное распределение

Одна из самых простых центральных величин — это z-оценка. Дано нормальное распределение со средним $\mu$ и дисперсией $\sigma ^{2}$ и наблюдение $x$ , тогда z-оценка:

z={\frac {x-\mu }{\sigma }},

имеет распределение $N(0,1)$ — нормальное распределение со средним $0$ и дисперсией $1$ . Сходным образом, поскольку среднее выборки из $n$ элементов имеет выборочное распределение $N(\mu ,\sigma ^{2}/n)$ , то z-оценка среднего:

z={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}

также имеет распределение $N(0,1)$ . Обратим внимание, что хоть все эти функции зависят от параметров и мы можем их вычислить только если эти параметры известны (они не являются статистиками), — распределение z-оценки всё равно не зависит от параметров.

Дано $n$ наблюдений нормальных и независимых [одинаково распределённых] случайных величин $X=(X_{1},X_{2},\dots ,X_{n})$ с неизвестным средним $\mu$ и дисперсией $\sigma ^{2}$ . Тогда центральную величину можно получить из функции:

g(x,X)={\frac {x-{\bar {X}}}{s/{\sqrt {n}}}}

,

где

{\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}

и

s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}

это несмещённые оценки $\mu$ и $\sigma ^{2}$ соответственно. Функция $g(x,X)$ — это t-статистика Стьюдента для нового значения $x$ , которое будет взято из той же генеральной совокупности, как и наблюдаемый набор данных $X$ .

Используя $x=\mu$ функция $g(\mu ,X)$ становится центральной величина, которая распределена по распределению Стьюдента с $\nu =n-1$ степеней свободы. Хоть $\mu$ является аргументом функции $g$ , распределение $g(\mu ,X)$ не зависит от параметров $\mu$ или $\sigma ^{2}$ нормального распределения из которого были получены наблюдения $X_{1},\dots ,X_{n}$ .

Это можно использовать для построения интервала предсказания для следующего наблюдения $X_{n+1}$ ; См. Интервал предсказания $ Нормальное распределение.

Двумерное нормальное распределение

В более сложных случаях невозможно найти точные центральные величины, тем не менее наличие приближённых центральных величин улучшает сходимость к асимптотической нормальности.

Предположим, у нас есть выборка размера $n$ векторов $(X_{i},Y_{i})^{\prime }$ , взятая из двумерного нормального распределения с неизвестной корреляцией $\rho$ .

В качестве оценщика $\rho$ можно взять выборочную корреляцию (Пирсона):

r={\frac {{\frac {1}{n-1}}\sum \limits _{i=1}^{n}(X_{i}-{\bar {X}})(Y_{i}-{\bar {Y}})}{s_{x}s_{y}}}

,

где $s_{X}^{2}$ , $s_{Y}^{2}$ — выборочная дисперсия $X$ и $Y$ . У выборочной статистики $r$ асимптотически нормальное распределение:

{\sqrt {n}}{\frac {r-\rho }{1-\rho ^{2}}}\Rightarrow N(0,1)

.

Тем не менее преобразование корреляционного коэффициента, стабилизирующее дисперсию,

z=\tanh ^{-1}r={\frac {1}{2}}\ln {\frac {1+r}{1-r}}

,

известное как z-преобразование Фишера, позволяет сделать распределение $z$ асимптотически независимым от неизвестных параметров:

{\sqrt {n}}(z-\zeta )\Rightarrow N(0,1)

,

где $\zeta =\tanh ^{-1}\rho$ соответствует параметру распределения. Для конечных выборок размером $n$ случайная величина $z$ будет иметь распределение ближе к нормальному, чем у [распределения] $r$ . Для получения ещё большей приближённости к стандартному нормальному распределению можно использовать для извлечения дисперсии лучшее приближение: обычно это

\mathbb {D} (z)\approx {\frac {1}{n-3}}

.

Робастность

С точки зрения робастной статистики, центральные величины робастны относительно изменений в параметрах, в действительности не зависят от параметров, но в целом не робастны к изменениям в модели, поскольку нарушается предположение о нормальности. Это основополагающий момент для критики не-робастной статистики часто выводится из центральных величин: такие величины могут быть робастны внутри семейства, но не вне его.

См. также

Нормализация

Примечания

↑ Э. Д. Лоувотер. Русско-английский словарь математических терминов. — Американское математическое общество, 1990. [1]
↑ НИУ ВШЭ. Вероятностные коллоквиумы: Коллоквиум 4 (PDF). hse-tex.me. Дата обращения: 30 июня 2025.
↑ Shao, J. Pivotal quantities // Mathematical Statistics. — 2nd. — New York : Springer, 2008. — P. 471–477. — ISBN 978-0-387-21718-5.
↑ DeGroot, Morris H. Probability and Statistics / Morris H. DeGroot, Mark J. Schervish. — 4th. — Pearson, 2011. — P. 489. — ISBN 978-0-321-70970-7.

[1] Э. Д. Лоувотер. Русско-английский словарь математических терминов. — Американское математическое общество, 1990. [1]

[2] НИУ ВШЭ. Вероятностные коллоквиумы: Коллоквиум 4 (PDF). hse-tex.me. Дата обращения: 30 июня 2025.

[3] Shao, J. Pivotal quantities // Mathematical Statistics. — 2nd. — New York : Springer, 2008. — P. 471–477. — ISBN 978-0-387-21718-5.

[4] DeGroot, Morris H. Probability and Statistics / Morris H. DeGroot, Mark J. Schervish. — 4th. — Pearson, 2011. — P. 489. — ISBN 978-0-321-70970-7.

[1]

[2]

[3]

[4]