Центральная величина
В статистике центральная величина[1] (также: пивот от англ. pivot и англ. pivotal quantity, центральная статистика [2] , опорная величина, ключевая величина) — это функция от наблюдений и неизвестных параметров, такая что распределение вероятностей [этой] функции не зависит от неизвестных параметров (включая мешающие параметры)[3]. Центральная величина может не быть статистикой, функция и её значение могут зависеть от параметров в модели, но её распределение — не должно. Если функция является статистикой, то она называется вспомогательной статистикой.
Пусть[4] — случайная выборка из распределения, которая зависит от параметра (или вектора параметров) . Пусть случайная переменная, распределение которой одинаково для всех . Тогда — это центральная величина.
Центральные величины часто используются для нормализации для сравнения данных из разных наборов данных. Выразить центральные величины для математического ожидания () и стандартного отклонения () довольно просто: для того, чтобы убрать первое, нужно взять разность, такую что сократится, а для последнего — отношение, такое что сократится.
Центральные величины — это фундамент статистических критериев, поскольку они позволяют статистике не зависеть от параметров, например, t-статистика для нормального распределения с неизвестной дисперсией и средним. Они также предоставляют метод построения доверительного интервала, а ещё использование центральных величин улучшает результаты метода бутстрэп. Вспомогательная величина используется для построения частотных интервалов предсказания (доверительный интервал предсказания).
Примеры
Нормальное распределение
Одна из самых простых центральных величин — это z-оценка. Дано нормальное распределение со средним и дисперсией и наблюдение , тогда z-оценка:
имеет распределение — нормальное распределение со средним и дисперсией . Сходным образом, поскольку среднее выборки из элементов имеет выборочное распределение , то z-оценка среднего:
также имеет распределение . Обратим внимание, что хоть все эти функции зависят от параметров и мы можем их вычислить только если эти параметры известны (они не являются статистиками), — распределение z-оценки всё равно не зависит от параметров.
Дано наблюдений нормальных и независимых [одинаково распределённых] случайных величин с неизвестным средним и дисперсией . Тогда центральную величину можно получить из функции:
- ,
где
и
это несмещённые оценки и соответственно. Функция — это t-статистика Стьюдента для нового значения , которое будет взято из той же генеральной совокупности, как и наблюдаемый набор данных .
Используя функция становится центральной величина, которая распределена по распределению Стьюдента с степеней свободы. Хоть является аргументом функции , распределение не зависит от параметров или нормального распределения из которого были получены наблюдения .
Это можно использовать для построения интервала предсказания для следующего наблюдения ; См. Интервал предсказания $ Нормальное распределение.
Двумерное нормальное распределение
В более сложных случаях невозможно найти точные центральные величины, тем не менее наличие приближённых центральных величин улучшает сходимость к асимптотической нормальности.
Предположим, у нас есть выборка размера векторов , взятая из двумерного нормального распределения с неизвестной корреляцией .
В качестве оценщика можно взять выборочную корреляцию (Пирсона):
- ,
где , — выборочная дисперсия и . У выборочной статистики асимптотически нормальное распределение:
- .
Тем не менее преобразование корреляционного коэффициента, стабилизирующее дисперсию,
- ,
известное как z-преобразование Фишера, позволяет сделать распределение асимптотически независимым от неизвестных параметров:
- ,
где соответствует параметру распределения. Для конечных выборок размером случайная величина будет иметь распределение ближе к нормальному, чем у [распределения] . Для получения ещё большей приближённости к стандартному нормальному распределению можно использовать для извлечения дисперсии лучшее приближение: обычно это
- .
Робастность
С точки зрения робастной статистики, центральные величины робастны относительно изменений в параметрах, в действительности не зависят от параметров, но в целом не робастны к изменениям в модели, поскольку нарушается предположение о нормальности. Это основополагающий момент для критики не-робастной статистики часто выводится из центральных величин: такие величины могут быть робастны внутри семейства, но не вне его.
См. также
- Нормализация
Примечания
- ↑ Э. Д. Лоувотер. Русско-английский словарь математических терминов. — Американское математическое общество, 1990. [1]
- ↑ НИУ ВШЭ. Вероятностные коллоквиумы: Коллоквиум 4 (PDF). hse-tex.me. Дата обращения: 30 июня 2025.
- ↑ Shao, J. Pivotal quantities // Mathematical Statistics. — 2nd. — New York : Springer, 2008. — P. 471–477. — ISBN 978-0-387-21718-5.
- ↑ DeGroot, Morris H. Probability and Statistics / Morris H. DeGroot, Mark J. Schervish. — 4th. — Pearson, 2011. — P. 489. — ISBN 978-0-321-70970-7.