Скрытая переменная
В статистике под латентными или скрытыми переменными понимают такие переменные, которые не могут быть измерены в явном виде, а могут быть только выведены через математические модели с использованием наблюдаемых переменных. Цель использования латентных переменных сводится к упрощению работы с данными: несмотря на то, что само по себе вероятностное распределение данных можно быть очень сложным, при рассмотрении его условно на значениях латентной переменной, это распределение может стать очень простым и удобным в работе. Одним из главных преимуществ латентных переменных является то, что они позволяют уменьшать размерность данных. Большое число наблюдаемых переменных может быть обобщено в модель, чтобы представить лежащую в основе концепцию, сделать данные более легко воспринимаемыми. В этом смысле они выполняют функцию, сходную с функцией научных теорий.
Латентные переменные используются во многих областях, включая машинное обучение (см. Автокодировщики), биоинформатику, обработку естественного языка, психологию[1] (см. Психометрика), экономику, и многие другие социальные науки.
Иногда термин латентная переменная употребляют для описания свойств окружающего мира, которые теоретически могут быть измерены, однако на практике это невозможно. В этой ситуации чаще используется термин скрытая переменная (подчеркивая тот факт, что переменные действительно существуют, но скрыты). В остальных случаях латентные переменные обозначают абстрактные понятия, такие как поведенческие и психические состояния (конструкты), или структуры данных. Также в этом случае может быть использован термин гипотетические переменные или гипотетические конструкции.
Определение латентных переменных
В практике можно выделить "сильное" и "слабое" определение латентной переменной.
Сильное определение подразумевает, что статистическая модель содержит эксплицитно описанное параметрическое вероятностное распределение, которому следует латентная переменная (напр., как в скрытой модели Маркова, где латентная переменная следует мультиномиальному распределению; маргинализированных моделях Факторного анализа, Современной теории тестировании, или вариационных автокодировщиках, где латентная переменная следует многомерному нормальному распределению).
Слабое определение подразумевает, что латентная переменная - это любая переменная, значения которой должны быть вычислены из данных, и не наблюдаются напрямую. Например, простое среднее нескольких переменных может считаться латентной переменной. В таком случае, к латентным переменным относят также значения главных компонент из Метода Главных Компонент и репрезентации данных из обычных автокодировщиков.
В некоторых случаях, статистические модели, которые не предполагают эксплицитно заданного распределения для латентной переменной, при наложении специфических ограничений на значения параметров, могут возвращать оценки параметров, которые эквивалентны статистическим моделям с заданным распределением для латентной переменной[2]. Таким образом, методы ограниченной оптимизации (constrained optimization techniques) размывают четкие границы между сильным и слабым определением латентной переменной.
Примеры латентных переменных
Экономика
Примеры латентных переменных, используемых в экономике, включают в себя качество жизни, деловое доверие, мораль, счастье и консерватизм: все они не могут быть измерены прямыми методами. Однако, связывая эти латентные переменные с другими, наблюдаемыми, можно вывести и их значения. Например, для измерения качества жизни используются такие наблюдаемые переменные, как богатство, занятость, окружающая среда, физическое и душевное здоровье, образование, отдых и время на досуг, и социальная принадлежность.
Психология
- Большая пятерка была выведена при помощи факторного анализа.
- экстраверсия[3]
- пространственный интеллект[3]
- мудрость. «Два из доминирующих методов оценки мудрости включают связываемую с мудростью деятельность и измерения латентной переменной.»[4]
В психометрике базово можно выделить несколько типов статистических моделей для оценки латентных переменных.
| Наблюдаемые переменные | ||
|---|---|---|
| Латентные переменные | Непрерывные | Дискретные |
| Непрерывные | Факторный Анализ | Современная Теория Тестирования |
| Дискретные | Анализ Латентных Профилей | Анализ Латентных Классов |
Однако в реальности это разделение условно. Например, существуют методы оценки факторно-аналитических моделей на дискретных наблюдаемых переменных, которые превращают модели Факторного анализа в модели Современной Теории Тестирования. Также, многие лонгитюдные расширения этих моделей продолжают оставаться в своих классах, но некоторые лонгитюдные расширения Анализа Латентных Классов попадают в группу Скрытых моделей Маркова, и т.д.
Распространенные методы получения латентных переменных
- Скрытая марковская модель
- Современная Теория Тестирования
- Метод главных компонент
- Факторный анализ
- Латентно-семантический анализ и вероятностный латентно-семантический анализ
- латентное размещение Дирихле
- метод китайского ресторана часто используется для априорного распределения присваивания объектов латентным категориям.
- метод индийского буфета часто используется для априорного распределения присваивания двоичных функций объектов.
Иногда в качестве метода оценки значений латентных переменных указывается EM-алгоритм, однако это неверно. EM-алгоритм - это метод оценки параметров модели, которая не обязательно содержит латентные переменные. В то же время, статистическая модель формализует содержательные допущения о процессе генерации данных - она может содержать латентные переменные (а может и не содержать). В случае, если это так, то EM-алгоритм, как и другие алгоритмы (например, Баейсовские - основанные на Байесовской статистике) могут применяться для оценки параметров модели.
Примечания
- ↑ Latent Variables in Psychology and the Social Sciences. Дата обращения: 28 декабря 2012. Архивировано 26 января 2013 года.
- ↑ Engelen, R. J. H. (1987). A review of different estimation procedures in the Rasch model. (OMD research report; No. 87-6). University of Twente.
- ↑ 1 2 Borsboom, D.; Mellenbergh, G.J.; van Heerden, J. The Theoretical Status of Latent Variables (англ.) // Psychological Review : journal. — 2003. — Vol. 110, no. 2. — P. 203—219. — doi:10.1037/0033-295X.110.2.203. Архивировано из оригинала 20 января 2013 года.
- ↑ Greene, Jeffrey A.; Brown, Scott C. The Wisdom Development Scale: Further Validity Investigations (англ.) // International Journal of Aging And Human Development : journal. — 2009. — Vol. 68, no. 4. — P. 289—320 (at p. 291). — PMID 19711618.