Вспомогательная статистика
В статистике вспомогательной статистикой (также дополнительная статистика, подчинённая статистика[1]) называется статистика, вычисленная на выборке относительно параметрической модели набора данных. У вспомогательной статистики такое же распределение, не считая значения параметров, и поэтому она не предоставляет информацию о них[2][3][4]. Это противопоставляется идее полной статистики, которая не содержит вспомогательной информации. Вспомогательная статистика близка к идее достаточной статистики, которая содержит всю информацию о параметрах, которую предоставляет набор данных.
Вспомогательная статистика — это особый случай центральной величины, которая вычисляется исключительно из предоставленных данных, а не из параметров. Они могут использоваться для построения интервалов предсказания. С помощью теоремы Басу можно доказать независимость между статистиками[5].
Термин введён Рональдом Фишером в 1920-х[6], но формальное определение было опубликовано только в 1964 индийским математиком Дебабрата Басу (англ. Debabrata Basu)[7][8].
Примеры
Предположим, независимые и одинаково распределённые (в данном случае — нормально) с неизвестным мат ожиданием и дисперсией, равной . Пусть
будет выборочным средним.
Следующие статистические измерения разброса выборки:
являются вспомогательными статистиками, поскольку их выборочные распределения не изменяются с изменением . Вычислительно это потому, что в формулах нет терма — добавляя постоянное число к распределению (и ко всем выборкам) изменяется выборочный максимум и минимум на то же самое число, поэтому это не изменяет их разницу, как и другие измерения, поэтому они не зависят от сдвига.
И наоборот, для независимых одинаково распределённых (снова нормально) случайных величин с известным мат ожиданием, равным и неизвестной дисперсией , выборочное среднее не является вспомогательной статистикой дисперсии, поскольку выборочное распределение выборочного среднего — это , что зависит от , эта оценка сдвига (а именно стандартная ошибка) зависит от дисперсии[9].
В семействах сдвига-масштаба
В семействе распределений со сдвигом является вспомогательной статистикой.
В семействе распределений с масштабом является вспомогательной статистикой.
В семействе сдвига-масштаба , где выборочная дисперсия, является вспомогательной статистикой[4].
В восстановлении информации
Оказывается, что если — статистика, не являющаяся достаточной, а — вспомогательная, то иногда удаётся восстановить всю информацию о неизвестном параметре, содержащуюся во всех данных, по , делая вывод при условии наблюдаемого значения . Это называется условный вывод[4][10].
Например, пусть (распределены нормально), где неизвестна. Заметим, что хоть не является достаточной статистикой для , поскольку её информация Фишера равна 1, в то время как информация Фишера достаточной статистики равна , с помощью вывода вспомогательной статистики , получается совместное распределение с информацией Фишера [4].
Вспомогательное дополнение
Если статистика не является достаточной, то вспомогательная статистика , такая что статистика является достаточной, называется вспомогательным дополнением[3] . Интуитивно, вспомогательное дополнение "добавляет пропущенную информацию" (без повторений).
Такая статистика будет особенно полезна, если оценка (а следовательно — статистика) была получена методом максимального правдоподобия, который в общем случае не возвращает достаточную статистику; тогда можно искать вспомогательное дополнение. Фишер утверждал, что в этом случае для вспомогательного дополнения необходимо условие, чтобы определить информацию содержимого: необходимо рассматривать информацию Фишера содержимого статистики не на основе маргинального распределения , а по условному распределению по : сколько информации добавляет ? В общем случае это невозможно, поскольку вспомогательное дополнение может не существовать, а если и существует, то не обязательно должно быть единственным, так и максимальное вспомогательное дополнение может не существовать.
Пример
Предположим, бейсбольный аналитик (скаут) наблюдает отбивающего в выходах на биту. Предположим, хоть это и нереалистично, что число выбирается каким-то случайным процессом, независимым от способностей отбивающего, скажем, подбрасывается монетка каждый раз после выхода на биту и результат определяет будет ли скаут наблюдать за следующим выходом на биту. Конечные данные — это число выходов на биту и число хитов : данные — являются достаточной статистикой. Наблюдаемая средняя результативность отбивающего (англ. Batting average) не может передать всю информацию из данных, поскольку не может сказать количество выходов на биту (например, средняя результативность , что очень высокий результат (см. список чемпионов по среднему показателю отбивания (англ. List of Major League Baseball batting champions)) за пять выходов, не впечатляет так же сильно, как игрок у которого средняя результативность за сто выходов). Число выходов является вспомогательной статистикой, потому что:
- Это часть наблюдаемых данных (и является статистикой)
- это вероятностное распределение не зависит от навыков отбивающего, поскольку было выбрано с помощью случайного процесса, [в свою очередь] не зависящего от способностей отбивающего.
Это вспомогательная статистика является вспомогательным дополнением для наблюдаемой средней результативности , т.е. средняя результативность не является достаточной статистикой, поскольку она не предоставляет всю необходимую информацию в данных, но в объединении с она становится достаточной.
См. также
- Теорема Басу
- Интервал предсказания
- Групповое семейство
- Принцип условности
Примечания
- ↑ Англо-русский словарь математических терминов. — 2-е, испр. и доп.. — М.: Мир, 1994. — 416 с. — ISBN 5-03-002952-4.
- ↑ Lehmann, E. L.; Scholz, F. W. (1992). Ancillarity (PDF). Lecture Notes-Monograph Series. Institute of Mathematical Statistics Lecture Notes - Monograph Series (англ.). 17: 32—51. doi:10.1214/lnms/1215458837. ISBN 0-940600-24-2. ISSN 0749-2170. JSTOR 4355624.
- ↑ 1 2 Ghosh, M.; Reid, N.; Fraser, D. A. S. (2010). Ancillary statistics: A review. Statistica Sinica (англ.). 20 (4): 1309—1332. ISSN 1017-0405. JSTOR 24309506.
- ↑ 1 2 3 4 Mukhopadhyay, Nitis. Probability and Statistical Inference : [англ.]. — United States of America : Marcel Dekker, Inc., 2000. — P. 309–318. — ISBN 0-8247-0379-0.
- ↑ Dawid, Philip. Basu on Ancillarity (англ.). — New York, NY: Springer, 2011. — P. 5—8. — ISBN 978-1-4419-5825-9. — doi:10.1007/978-1-4419-5825-9_2.
- ↑ Fisher, R. A. (1925). Theory of Statistical Estimation. Mathematical Proceedings of the Cambridge Philosophical Society (англ.). 22 (5): 700—725. Bibcode:1925PCPS...22..700F. doi:10.1017/S0305004100009580. hdl:2440/15186. ISSN 0305-0041.
- ↑ Basu D. Recovery of Ancillary Information (англ.) // Sankhyā: The Indian Journal of Statistics, Series A (1961—2002) : журнал. — 1964. — Vol. 26, no. 1. — P. 3—16. — ISSN 0581-572X. — .
- ↑ Stigler S. M. Ancillary history (англ.) // State of the art in probability and statistics (Institute of Mathematical Statistics Lecture Notes – Monograph Series) : сборник. — Beachwood, OH: Institute of Mathematical Statistics, 2001. — P. 555—567. — ISBN 978-0-940600-50-8. — doi:10.1214/lnms/1215090089.
- ↑ Buehler, Robert J. Some Ancillary Statistics and Their Properties (англ.) // Journal of the American Statistical Association. — 1982. — Vol. 77, no. 379. — P. 581–589. — ISSN 0162-1459. — doi:10.1080/01621459.1982.10477850.
- ↑ Ancillary statistics (англ.). Дата обращения: 1 декабря 2025.