Вспомогательная статистика

В статистике вспомогательной статистикой (также дополнительная статистика, подчинённая статистика[1]) называется статистика, вычисленная на выборке относительно параметрической модели набора данных. У вспомогательной статистики такое же распределение, не считая значения параметров, и поэтому она не предоставляет информацию о них[2][3][4]. Это противопоставляется идее полной статистики, которая не содержит вспомогательной информации. Вспомогательная статистика близка к идее достаточной статистики, которая содержит всю информацию о параметрах, которую предоставляет набор данных.

Вспомогательная статистика — это особый случай центральной величины, которая вычисляется исключительно из предоставленных данных, а не из параметров. Они могут использоваться для построения интервалов предсказания. С помощью теоремы Басу можно доказать независимость между статистиками[5].

Термин введён Рональдом Фишером в 1920-х[6], но формальное определение было опубликовано только в 1964 индийским математиком Дебабрата Басу (англ. Debabrata Basu)[7][8].

Примеры

Предположим, независимые и одинаково распределённые (в данном случае — нормально) с неизвестным мат ожиданием и дисперсией, равной . Пусть

будет выборочным средним.

Следующие статистические измерения разброса выборки:

являются вспомогательными статистиками, поскольку их выборочные распределения не изменяются с изменением . Вычислительно это потому, что в формулах нет терма — добавляя постоянное число к распределению (и ко всем выборкам) изменяется выборочный максимум и минимум на то же самое число, поэтому это не изменяет их разницу, как и другие измерения, поэтому они не зависят от сдвига.

И наоборот, для независимых одинаково распределённых (снова нормально) случайных величин с известным мат ожиданием, равным и неизвестной дисперсией , выборочное среднее не является вспомогательной статистикой дисперсии, поскольку выборочное распределение выборочного среднего — это , что зависит от , эта оценка сдвига (а именно стандартная ошибка) зависит от дисперсии[9].

В семействах сдвига-масштаба

В семействе распределений со сдвигом является вспомогательной статистикой.

В семействе распределений с масштабом является вспомогательной статистикой.

В семействе сдвига-масштаба , где выборочная дисперсия, является вспомогательной статистикой[4].

В восстановлении информации

Оказывается, что если — статистика, не являющаяся достаточной, а — вспомогательная, то иногда удаётся восстановить всю информацию о неизвестном параметре, содержащуюся во всех данных, по , делая вывод при условии наблюдаемого значения . Это называется условный вывод[4][10].

Например, пусть (распределены нормально), где неизвестна. Заметим, что хоть не является достаточной статистикой для , поскольку её информация Фишера равна 1, в то время как информация Фишера достаточной статистики равна , с помощью вывода вспомогательной статистики , получается совместное распределение с информацией Фишера [4].

Вспомогательное дополнение

Если статистика не является достаточной, то вспомогательная статистика , такая что статистика является достаточной, называется вспомогательным дополнением[3] . Интуитивно, вспомогательное дополнение "добавляет пропущенную информацию" (без повторений).

Такая статистика будет особенно полезна, если оценка (а следовательно — статистика) была получена методом максимального правдоподобия, который в общем случае не возвращает достаточную статистику; тогда можно искать вспомогательное дополнение. Фишер утверждал, что в этом случае для вспомогательного дополнения необходимо условие, чтобы определить информацию содержимого: необходимо рассматривать информацию Фишера содержимого статистики не на основе маргинального распределения , а по условному распределению по : сколько информации добавляет ? В общем случае это невозможно, поскольку вспомогательное дополнение может не существовать, а если и существует, то не обязательно должно быть единственным, так и максимальное вспомогательное дополнение может не существовать.

Пример

Предположим, бейсбольный аналитик (скаут) наблюдает отбивающего в выходах на биту. Предположим, хоть это и нереалистично, что число выбирается каким-то случайным процессом, независимым от способностей отбивающего, скажем, подбрасывается монетка каждый раз после выхода на биту и результат определяет будет ли скаут наблюдать за следующим выходом на биту. Конечные данные — это число выходов на биту и число хитов : данные — являются достаточной статистикой. Наблюдаемая средняя результативность отбивающего (англ. Batting average) не может передать всю информацию из данных, поскольку не может сказать количество выходов на биту (например, средняя результативность , что очень высокий результат (см. список чемпионов по среднему показателю отбивания (англ. List of Major League Baseball batting champions)) за пять выходов, не впечатляет так же сильно, как игрок у которого средняя результативность за сто выходов). Число выходов является вспомогательной статистикой, потому что:

  • Это часть наблюдаемых данных (и является статистикой)
  • это вероятностное распределение не зависит от навыков отбивающего, поскольку было выбрано с помощью случайного процесса, [в свою очередь] не зависящего от способностей отбивающего.

Это вспомогательная статистика является вспомогательным дополнением для наблюдаемой средней результативности , т.е. средняя результативность не является достаточной статистикой, поскольку она не предоставляет всю необходимую информацию в данных, но в объединении с она становится достаточной.

См. также

  • Теорема Басу
  • Интервал предсказания
  • Групповое семейство
  • Принцип условности

Примечания

  1. Англо-русский словарь математических терминов. — 2-е, испр. и доп.. — М.: Мир, 1994. — 416 с. — ISBN 5-03-002952-4.
  2. Lehmann, E. L.; Scholz, F. W. (1992). Ancillarity (PDF). Lecture Notes-Monograph Series. Institute of Mathematical Statistics Lecture Notes - Monograph Series (англ.). 17: 32—51. doi:10.1214/lnms/1215458837. ISBN 0-940600-24-2. ISSN 0749-2170. JSTOR 4355624.
  3. 1 2 Ghosh, M.; Reid, N.; Fraser, D. A. S. (2010). Ancillary statistics: A review. Statistica Sinica (англ.). 20 (4): 1309—1332. ISSN 1017-0405. JSTOR 24309506.
  4. 1 2 3 4 Mukhopadhyay, Nitis. Probability and Statistical Inference : [англ.]. — United States of America : Marcel Dekker, Inc., 2000. — P. 309–318. — ISBN 0-8247-0379-0.
  5. Dawid, Philip. Basu on Ancillarity (англ.). — New York, NY: Springer, 2011. — P. 5—8. — ISBN 978-1-4419-5825-9. — doi:10.1007/978-1-4419-5825-9_2.
  6. Fisher, R. A. (1925). Theory of Statistical Estimation. Mathematical Proceedings of the Cambridge Philosophical Society (англ.). 22 (5): 700—725. Bibcode:1925PCPS...22..700F. doi:10.1017/S0305004100009580. hdl:2440/15186. ISSN 0305-0041.
  7. Basu D. Recovery of Ancillary Information (англ.) // Sankhyā: The Indian Journal of Statistics, Series A (1961—2002) : журнал. — 1964. — Vol. 26, no. 1. — P. 3—16. — ISSN 0581-572X. — .
  8. Stigler S. M. Ancillary history (англ.) // State of the art in probability and statistics (Institute of Mathematical Statistics Lecture Notes – Monograph Series) : сборник. — Beachwood, OH: Institute of Mathematical Statistics, 2001. — P. 555—567. — ISBN 978-0-940600-50-8. — doi:10.1214/lnms/1215090089.
  9. Buehler, Robert J. Some Ancillary Statistics and Their Properties (англ.) // Journal of the American Statistical Association. — 1982. — Vol. 77, no. 379. — P. 581–589. — ISSN 0162-1459. — doi:10.1080/01621459.1982.10477850.
  10. Ancillary statistics (англ.). Дата обращения: 1 декабря 2025.