Скрытая переменная

В статистике под латентными или скрытыми переменными понимают такие переменные, которые не могут быть измерены в явном виде, а могут быть только выведены через математические модели с использованием наблюдаемых переменных. Цель использования латентных переменных сводится к упрощению работы с данными: несмотря на то, что само по себе вероятностное распределение данных можно быть очень сложным, при рассмотрении его условно на значениях латентной переменной, это распределение может стать очень простым и удобным в работе. Одним из главных преимуществ латентных переменных является то, что они позволяют уменьшать размерность данных. Большое число наблюдаемых переменных может быть обобщено в модель, чтобы представить лежащую в основе концепцию, сделать данные более легко воспринимаемыми. В этом смысле они выполняют функцию, сходную с функцией научных теорий.

Латентные переменные используются во многих областях, включая машинное обучение (см. Автокодировщики), биоинформатику, обработку естественного языка, психологию[1] (см. Психометрика), экономику, и многие другие социальные науки.

Иногда термин латентная переменная употребляют для описания свойств окружающего мира, которые теоретически могут быть измерены, однако на практике это невозможно. В этой ситуации чаще используется термин скрытая переменная (подчеркивая тот факт, что переменные действительно существуют, но скрыты). В остальных случаях латентные переменные обозначают абстрактные понятия, такие как поведенческие и психические состояния (конструкты), или структуры данных. Также в этом случае может быть использован термин гипотетические переменные или гипотетические конструкции.

Определение латентных переменных

В практике можно выделить "сильное" и "слабое" определение латентной переменной.

Сильное определение подразумевает, что статистическая модель содержит эксплицитно описанное параметрическое вероятностное распределение, которому следует латентная переменная (напр., как в скрытой модели Маркова, где латентная переменная следует мультиномиальному распределению; маргинализированных моделях Факторного анализа, Современной теории тестировании, или вариационных автокодировщиках, где латентная переменная следует многомерному нормальному распределению).

Слабое определение подразумевает, что латентная переменная - это любая переменная, значения которой должны быть вычислены из данных, и не наблюдаются напрямую. Например, простое среднее нескольких переменных может считаться латентной переменной. В таком случае, к латентным переменным относят также значения главных компонент из Метода Главных Компонент и репрезентации данных из обычных автокодировщиков.

В некоторых случаях, статистические модели, которые не предполагают эксплицитно заданного распределения для латентной переменной, при наложении специфических ограничений на значения параметров, могут возвращать оценки параметров, которые эквивалентны статистическим моделям с заданным распределением для латентной переменной[2]. Таким образом, методы ограниченной оптимизации (constrained optimization techniques) размывают четкие границы между сильным и слабым определением латентной переменной.

Примеры латентных переменных

Экономика

Примеры латентных переменных, используемых в экономике, включают в себя качество жизни, деловое доверие, мораль, счастье и консерватизм: все они не могут быть измерены прямыми методами. Однако, связывая эти латентные переменные с другими, наблюдаемыми, можно вывести и их значения. Например, для измерения качества жизни используются такие наблюдаемые переменные, как богатство, занятость, окружающая среда, физическое и душевное здоровье, образование, отдых и время на досуг, и социальная принадлежность.

Психология

  • Большая пятерка была выведена при помощи факторного анализа.
  • экстраверсия[3]
  • пространственный интеллект[3]
  • мудрость. «Два из доминирующих методов оценки мудрости включают связываемую с мудростью деятельность и измерения латентной переменной.»[4]

В психометрике базово можно выделить несколько типов статистических моделей для оценки латентных переменных.

Наблюдаемые переменные
Латентные переменные Непрерывные Дискретные
Непрерывные Факторный Анализ Современная Теория Тестирования
Дискретные Анализ Латентных Профилей Анализ Латентных Классов

Однако в реальности это разделение условно. Например, существуют методы оценки факторно-аналитических моделей на дискретных наблюдаемых переменных, которые превращают модели Факторного анализа в модели Современной Теории Тестирования. Также, многие лонгитюдные расширения этих моделей продолжают оставаться в своих классах, но некоторые лонгитюдные расширения Анализа Латентных Классов попадают в группу Скрытых моделей Маркова, и т.д.

Распространенные методы получения латентных переменных

Иногда в качестве метода оценки значений латентных переменных указывается EM-алгоритм, однако это неверно. EM-алгоритм - это метод оценки параметров модели, которая не обязательно содержит латентные переменные. В то же время, статистическая модель формализует содержательные допущения о процессе генерации данных - она может содержать латентные переменные (а может и не содержать). В случае, если это так, то EM-алгоритм, как и другие алгоритмы (например, Баейсовские - основанные на Байесовской статистике) могут применяться для оценки параметров модели.

Примечания

  1. Latent Variables in Psychology and the Social Sciences. Дата обращения: 28 декабря 2012. Архивировано 26 января 2013 года.
  2. Engelen, R. J. H. (1987). A review of different estimation procedures in the Rasch model. (OMD research report; No. 87-6). University of Twente.
  3. 1 2 Borsboom, D.; Mellenbergh, G.J.; van Heerden, J. The Theoretical Status of Latent Variables (англ.) // Psychological Review : journal. — 2003. — Vol. 110, no. 2. — P. 203—219. — doi:10.1037/0033-295X.110.2.203. Архивировано из оригинала 20 января 2013 года.
  4. Greene, Jeffrey A.; Brown, Scott C. The Wisdom Development Scale: Further Validity Investigations (англ.) // International Journal of Aging And Human Development : journal. — 2009. — Vol. 68, no. 4. — P. 289—320 (at p. 291). — PMID 19711618.