Многомерные статистические исследования. Многомерный статистический анализ. Основные понятия метода факторного анализа, суть решаемых им задач
Изложены основные понятия и методы статистического анализа многомерных результатов технических экспериментов . <...> Приведены теоретические сведения о свойствах многомерных гауссовских распределений . <...> Результатом эксперимента, рассматриваемого в пособии, является случайный вектор , распределенный по нормальному закону. <...> Многомерная нормальная плотность Часто результатом эксперимента является совокупность чисел, характеризующая некоторый исследуемый объект. <...> 4 f x Запись в виде ξ ~ (ND ,)μ имеет p-мерное нормальное распределение . означает, что вектор ξ , ξ) принимает различные значения, поэтому с полным основанием можно говорить о случайном векторе 12 компонент вектора ,ξ компонент,ξ т. е. EDE E ξ= E E ξ ξ = μ = ξ − μ ξ − μ ()() ξp где Е – знак математического ожидания. <...> Пусть η ров p pЧ шениями μ= ν +B ;. bD BD Bη ξ = ′ , (1.3) Матрица D из (1.2) – симметричная, положительно-определенная, поэтому справедливо ее представление D CC′=Λ где C – ортогональная матрица , составленная из собственных векторов матрицы ;D Λ – диагональная матрица с собственными числами λ>i 0 матрицы D по главной диагонали. <...> Совместная плотность его компонент,1,η=i ip, определенная по общим правилам (см. приложение), равна 5 (1.4) ; линейное преобразование ,η где B – квадратная матрица разме – случайный вектор, вариаций,. <...> Оценивание параметров нормального распределения Пусть 12 ξ , nξξ купности, т. е. статистической обработки является оценка вектора средних μ и i ND . <...> Основной задачей первичной μ=i n матрицы ковариаций . <...> A ln ∂ = (1.5) Учитывая правила дифференцирования функционалов по векторному или матричному аргументам (см. <...> Тогда σ = ξ −ξ ξ − ξ = ξ ξ −ξ ξ∑∑ ij nn ki i kj j kk Здесь kiξ – i-я компонента вектора среднего iμ i-й компоненты вектора . <...> Оценки максимального правдоподобия коэфij / ρ=σ σ σ имеют вид ij ,. ij ii jj ri j σ σσ ≠ ii jj Доказательство. <...> Оценивание зависимости между компонентами нормального вектора Подробный анализ связей <...>
МУ_к_выполнению_курсовой_работы_«Многомерный_статистический_анализ».pdf
УДК 519.2 ББК 22.172 К27 Рецензент В.Ю. Чуев Карташов Г.Д., Тимонин В.И., Будовская Л.М. К27 Многомерный статистический анализ: Методические указания к выполнению курсовой работы. – М.: Изд-во МГТУ им. Н.Э. Баумана, 2007. – 48 с.: ил. Изложены основные понятия и методы статистического анализа многомерных результатов технических экспериментов. Приведены теоретические сведения о свойствах многомерных гауссовских распределений. Для студентов старших курсов факультета фундаментальных наук. Ил. 2. Библиогр. 5 назв. УДК 519.2 ББК 22.172 © МГТУ им. Н.Э. Баумана, 2007
Стр.2
ОГЛАВЛЕНИЕ Введение....................................................................................................... 3 1. Многомерное нормальное распределение...................................... 4 2. Статистические выводы о векторе средних.................................... 17 3. Дискриминантный анализ................................................................. 23 4. Метод главных компонент............................................................... 27 5. Канонические корреляции................................................................ 30 6. Многомерный регрессионный анализ............................................. 35 7. Факторный анализ............................................................................. 40 Приложение.................................................................................................. 44 Список литературы...................................................................................... 46 47
Многомерный статистический анализ применяют при решении следующих задач:
- * исследование зависимости между признаками;
- * классификация объектов или признаков, заданных векторами;
- * снижение размерности пространства признаков.
При этом результат наблюдений - вектор значений фиксированного числа количественных и иногда качественных признаков, измеренных у объекта. Количественный признак - признак наблюдаемой единицы, который можно непосредственно выразить числом и единицей измерения. Количественный признак противопоставляется качественному - признаку наблюдаемой единицы, определяемому отнесением к одной из двух или более условных категорий (если имеется ровно две категории, то признак называется альтернативным). Статистический анализ качественных признаков - часть статистики объектов нечисловой природы. Количественные признаки делятся на признаки, измеренные в шкалах интервалов, отношений, разностей, абсолютной.
А качественные - на признаки, измеренные в шкале наименований и порядковой шкале. Методы обработки данных должны быть согласованы со шкалами, в которых измерены рассматриваемые признаки.
Целями исследования зависимости между признаками являются доказательство наличия связи между признаками и изучение этой связи. Для доказательства наличия связи между двумя случайными величинами Х и У применяют корреляционный анализ. Если совместное распределение Х и У является нормальным, то статистические выводы основывают на выборочном коэффициенте линейной корреляции, в остальных случаях используют коэффициенты ранговой корреляции Кендалла и Спирмена, а для качественных признаков - критерий хи-квадрат.
Регрессионный анализ применяют для изучения функциональной зависимости количественного признака У от количественных признаков x(1), x(2), … , x(k). Эту зависимость называют регрессионной или, кратко, регрессией. Простейшая вероятностная модель регрессионного анализа (в случае k = 1) использует в качестве исходной информации набор пар результатов наблюдений (xi, yi), i = 1, 2, … , n, и имеет вид
yi = axi + b + еi, i = 1, 2, … , n,
где еi - ошибки наблюдений. Иногда предполагают, что еi - независимые случайные величины с одним и тем же нормальным распределением N(0, у2). Поскольку распределение ошибок наблюдения обычно отлично от нормального, то целесообразно рассматривать регрессионную модель в непараметрической постановке, т.е. при произвольном распределении еi.
Основная задача регрессионного анализа состоит в оценке неизвестных параметров а и b, задающих линейную зависимость y от x. Для решения этой задачи применяют разработанный еще К.Гауссом в 1794 г. метод наименьших квадратов, т.е. находят оценки неизвестных параметров моделиa и b из условия минимизации суммы квадратов
по переменным а и b.
Дисперсионный анализ применяют для изучения влияния качественных признаков на количественную переменную. Например, пусть имеются k выборок результатов измерений количественного показателя качества единиц продукции, выпущенных на k станках, т.е. набор чисел (x1(j), x2(j), … , xn(j)), где j - номер станка, j = 1, 2, …, k, а n - объем выборки. В распространенной постановке дисперсионного анализа предполагают, что результаты измерений независимы и в каждой выборке имеют нормальное распределение N(m(j), у2) с одной и той же дисперсией.
Проверка однородности качества продукции, т.е. отсутствия влияния номера станка на качество продукции, сводится к проверке гипотезы
H0: m(1) = m(2) = … = m(k).
В дисперсионном анализе разработаны методы проверки подобных гипотез.
Гипотезу Н0 проверяют против альтернативной гипотезы Н1, согласно которой хотя бы одно из указанных равенств не выполнено. Проверка этой гипотезы основана на следующем «разложении дисперсий», указанном Р.А.Фишером:
где s2 - выборочная дисперсия в объединенной выборке, т.е.
Таким образом, первое слагаемое в правой части формулы (7) отражает внутригрупповую дисперсию. Наконец, - межгрупповая дисперсия,
Область прикладной статистики, связанную с разложениями дисперсии типа формулы (7), называют дисперсионным анализом. В качестве примера задачи дисперсионного анализа рассмотрим проверку приведенной выше гипотезы Н0 в предположении, что результаты измерений независимы и в каждой выборке имеют нормальное распределение N(m(j), у2) с одной и той же дисперсией. При справедливости Н0 первое слагаемое в правой части формулы (7), деленное на у2, имеет распределение хи-квадрат с k(n-1) степенями свободы, а второе слагаемое, деленное на у2, также имеет распределение хи-квадрат, но с (k-1) степенями свободы, причем первое и второе слагаемые независимы как случайные величины. Поэтому случайная величина
имеет распределение Фишера с (k-1) степенями свободы числителя и k(n-1) степенями свободы знаменателя. Гипотеза Н0 принимается, если F < F1-б, и отвергается в противном случае, где F1-б - квантиль порядка 1-б распределения Фишера с указанными числами степеней свободы. Такой выбор критической области определяется тем, что при Н1 величина F безгранично увеличивается при росте объема выборок n. Значения F1-б берут из соответствующих таблиц.
Разработаны непараметрические методы решения классических задач дисперсионного анализа, в частности, проверки гипотезы Н0.
Следующий тип задач многомерного статистического анализа - задачи классификации. Они делятся на три принципиально различных вида - дискриминантный анализ, кластер-анализ, задачи группировки.
Задача дискриминантного анализа состоит в нахождении правила отнесения наблюдаемого объекта к одному из ранее описанных классов. При этом объекты описывают в математической модели с помощью векторов, координаты которых - результаты наблюдения ряда признаков у каждого объекта. Классы описывают либо непосредственно в математических терминах, либо с помощью обучающих выборок. Обучающая выборка - это выборка, для каждого элемента которой указано, к какому классу он относится.
Рассмотрим пример применения дискриминантного анализа для принятия решений в технической диагностике. Пусть по результатам измерения ряда параметров продукции необходимо установить наличие или отсутствие дефектов. В этом случае для элементов обучающей выборки указаны дефекты, обнаруженные в ходе дополнительного исследования, например, проведенного после определенного периода эксплуатации. Дискриминантный анализ позволяет сократить объем контроля, а также предсказать будущее поведение продукции. Дискриминантный анализ сходен с регрессионным - первый позволяет предсказывать значение качественного признака, а второй - количественного. В статистике объектов нечисловой природы разработана математическая схема, частными случаями которой являются регрессионный и дискриминантный анализы.
Кластерный анализ применяют, когда по статистическим данным необходимо разделить элементы выборки на группы. Причем два элемента группы из одной и той же группы должны быть «близкими» по совокупности значений измеренных у них признаков, а два элемента из разных групп должны быть «далекими» в том же смысле. В отличие от дискриминантного анализа в кластер-анализе классы не заданы, а формируются в процессе обработки статистических данных. Например, кластер-анализ может быть применен для разбиения совокупности марок стали (или марок холодильников) на группы сходных между собой.
Другой вид кластер-анализа - разбиение признаков на группы близких между собой. Показателем близости признаков может служить выборочный коэффициент корреляции. Цель кластер-анализа признаков может состоять в уменьшении числа контролируемых параметров, что позволяет существенно сократить затраты на контроль. Для этого из группы тесно связанных между собой признаков (у которых коэффициент корреляции близок к 1 - своему максимальному значению) измеряют значение одного, а значения остальных рассчитывают с помощью регрессионного анализа.
Задачи группировки решают тогда, когда классы заранее не заданы и не обязаны быть «далекими» друг от друга. Примером является группировка студентов по учебным группам. В технике решением задачи группировки часто является параметрический ряд - возможные типоразмеры группируются согласно элементам параметрического ряда. В литературе, нормативно-технических и инструктивно-методических документах по прикладной статистике также иногда используется группировка результатов наблюдений (например, при построении гистограмм).
Задачи классификации решают не только в многомерном статистическом анализе, но и тогда, когда результатами наблюдений являются числа, функции или объекты нечисловой природы. Так, многие алгоритмы кластер-анализа используют только расстояния между объектами. Поэтому их можно применять и для классификации объектов нечисловой природы, лишь бы были заданы расстояния между ними. Простейшая задача классификации такова: даны две независимые выборки, требуется определить, представляют они два класса или один. В одномерной статистике эта задача сводится к проверке гипотезы однородности.
Третий раздел многомерного статистического анализа - задачи снижения размерности (сжатия информации). Цель их решения состоит в определении набора производных показателей, полученных преобразованием исходных признаков, такого, что число производных показателей значительно меньше числа исходных признаков, но они содержат возможно большую часть информации, имеющейся в исходных статистических данных. Задачи снижения размерности решают с помощью методов многомерного шкалирования, главных компонент, факторного анализа и др. Например, в простейшей модели многомерного шкалирования исходные данные - попарные расстояния между k объектами, а цель расчетов состоит в представлении объектов точками на плоскости. Это дает возможность в буквальном смысле слова увидеть, как объекты соотносятся между собой. Для достижения этой цели необходимо каждому объекту поставить в соответствие точку на плоскости так, чтобы попарные расстояния sij между точками, соответствующими объектам с номерами i и j, возможно точнее воспроизводили расстояния сijмежду этими объектами. Согласно основной идее метода наименьших квадратов находят точки на плоскости так, чтобы величина
достигала своего наименьшего значения. Есть и многие другие постановки задач снижения размерности и визуализации данных.
вероятность математический статистика качество
Пример
Имеются данные о выпуске продукции группой предприятий по месяцам (млн. руб.):
Для выявления общей тенденции роста выпуска продукции произведем укрупнение интервалов. Для этой цели исходные (месячные) данные о выработке продукции объединяем в квартальные и получаем показатели выпуска продукции группой предприятий по кварталам:
В результате укрупнения интервалов общая тенденция роста выпуска продукции данной группой предприятий выступает отчетливо:
64,5 < 76,9 < 78,8 < 85,9.
Выявление общей тенденции ряда динамики можно произвести также путем сглаживания ряда динамики с помощью метода скользящей средней . Сущность этого приема состоит в том, что по исходным уровням ряда (эмпирическим данным) определяют расчетные (теоретические) уровни. При этом посредством осреднения эмпирических данных индивидуальные колебания погашаются, и общая тенденция развития явления выражается в виде некоторой плавной линии (теоретические уровни).
Основное условие применения этого метода состоит в вычислении звеньев подвижной (скользящей) средней из такого числа уровней ряда, которое соответствует длительности наблюдаемых в ряду динамики циклов.
Недостатком способа сглаживания рядов динамики является то, что полученные средние не дают теоретических закономерностей (моделей) рядов, в основе которых лежала бы математически выраженная закономерность и это позволяло бы не только выполнить анализ, но и прогнозировать динамику ряда на будущее.
Значительно более совершенным приемом изучения общей тенденции в рядах динамики является аналитическое выравнивание . При изучении общей тенденции методом аналитического выравнивания исходят из того, что изменения уровней ряда динамики могут быть с той или иной степенью точности приближения выражены усреднённо с помощью определенных математических функций. Путем теоретического анализа выявляется характер развития явления, и на этой основе выбирается то или иное математическое выражение типа изменения явления: по прямой, по параболе второго порядка, показательной (логарифмической) кривой и т.п.
Очевидно, что уровни временных рядов формируются под совокупным влиянием множества длительно и кратковременно действующих факторов, в т.ч. различного рода случайностей. Изменение условий развития явления приводит к более или менее интенсивной смене самих факторов, к изменению силы и результативности их воздействия и, в конечном счете, к вариации уровня изучаемого явления во времени.
Многомерный статистический анализ - раздел статистики математической, посвященный математическим методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов. Исходным массивом многомерных данных для проведения такого анализа обычно служат результаты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных наблюдений. Многомерный признак чаще всего интерпретируется как многомерная величина случайная, а последовательность многомерных наблюдений - как выборка из генеральной совокупности. В этом случае выбор метода обработки исходных статистических данных производится на основе тех или иных допущений относительно природы закона распределения изучаемого многомерного признака.
1. Анализ многомерных распределений и их основных характеристик
охватывает ситуации, когда обрабатываемые наблюдения имеют вероятностную природу, т.е. интерпретируются как выборка из соответствующей генеральной совокупности. К основным задачам этого подраздела относятся: оценивание статистическое исследуемых многомерных распределений и их основных параметров; исследование свойств используемых статистических оценок; исследование распределений вероятностей для ряда статистик, с помощью которых строятся статистические критерии проверки различных гипотез о вероятностной природе анализируемых многомерных данных.
2. Анализ характера и структуры взаимосвязей компонент исследуемого многомерного признака
объединяет понятия и результаты, присущие таким методам и моделям, как анализ регрессионный, анализ дисперсионный, анализ ковариационнй, анализ факторный, анализ латентно-структурный, анализ логлинейный, поиск взаимодействий
. Методы, принадлежащие к этой группе, включают как алгоритмы, основанные на предположении о вероятностной природе данных, так и методы, не укладывающиеся в рамки какой-либо вероятностной модели (последние чаще относят к методам анализа данных).
3. Анализ геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и результаты, свойственные таким моделям и методам, как анализ дискриминантный, анализ кластерный, шкалирование многомерное. Узловым для этих моделей является понятие расстояния, либо меры близости между анализируемыми элементами как точками некоторого пространства. При этом анализироваться могут как объекты (как точки, задаваемые в признаковом пространстве), так и признаки (как точки, задаваемые в объектном пространстве).
Прикладное значение многомерного статистического анализа состоит в основном в обслуживании следующих трех проблем:
Проблемы статистического исследования зависимостей между рассматриваемыми показателями;
Проблемы классификации элементов (объектов или признаков);
Проблемы снижения размерности рассматриваемого признакового пространства и отбора наиболее информативных признаков.
Учебное пособие создано на основе опыта преподавания автором курсов многомерного статистического анализа и эконометрики. Содержит материалы по дискриминантному, факторному, регрессионному анализу, анализу соответствий и теории временных рядов. Изложены подходы к задачам многомерного шкалирования и некоторым другим задачам многомерной статистики.
Группировка и цензурирование.
Задача формирования групп выборочных данных таким образом, чтобы сгруппированные данные могли предоставить практически тот же объем информации для принятия решения, что и выборка до группировки, решается исследователем в первую очередь. Целями группировки, как правило, служат снижение объемов информации, упрощение вычислений и придание наглядности данным. Некоторые статистические критерии изначально ориентированы на работу со сгруппированной выборкой. В определенных аспектах задача группировки очень близка задаче классификации, о которой подробнее речь пойдет ниже. Одновременно с задачей группировки исследователь решает и задачу цензурирования выборки, т.е. исключения из нее резко выпадающих данных, как правило, являющихся следствием грубых ошибок наблюдений. Естественно, желательно обеспечить отсутствие таких ошибок еще в процессе самих наблюдений, по сделать это удается не всегда. Простейшие методы решения упомянутых двух задач рассмотрены в этой главе.
Оглавление
1 Предварительные сведения
1.1 Анализ и алгебра
1.2 Теория вероятностей
1.3 Математическая статистика
2 Многомерные распределения
2.1 Случайные векторы
2.2 Независимость
2.3 Числовые характеристики
2.4 Нормальное распределение в многомерном случае
2.5 Корреляционная теория
3 Группировка и цензурирование
3.1 Одномерная группировка
3.2 Одномерное цензурирование
3.3 Таблицы сопряженности
3.3.1 Гипотеза независимости
3.3.2 Гипотеза однородности
3.3.3 Поле корреляции
3.4 Многомерная группировка
3.5 Многомерное цензурирование
4 Нечисловые данные
4.1 Вводные замечания
4.2 Шкалы сравнений
4.3 Экспертные оценки
4.4 Группы экспертов
5 Доверительные множества
5.1 Доверительные интервалы
5.2 Доверительные множества
5.2.1 Многомерный параметр
5.2.2 Многомерная выборка
5.3 Толерантные множества
5.4 Малая выборка
6 Регрессионный анализ
6.1 Постановка задачи
6.2 Поиск ОМНК
6.3 Ограничения
6.4 Матрица плана
6.5 Статистический прогноз
7 Дисперсионный анализ
7.1 Вводные замечания
7.1.1 Нормальность
7.1.2 Однородность дисперсий
7.2 Один фактор
7.3 Два фактора
7.4 Общий случай
8 Снижение размерности
8.1 Зачем нужна классификация
8.2 Модель и примеры
8.2.1 Метод главных компонент
8.2.2 Экстремальная группировка признаков
8.2.3 Многомерное шкалирование
8.2.4 Отбор показателей для дискриминантного анализа
8.2.5 Отбор показателей в модели регрессии
9 Дискриминантный анализ
9.1 Применимость модели
9.2 Линейное прогностическое правило
9.3 Практические рекомендации
9.4 Один пример
9.5 Более двух классов
9.6 Проверка качества дискриминации
10 Эвристические методы
10.1 Экстремальная группировка
10.1.1 Критерий квадратов
10.1.2 Критерий модулей
10 2 Метод плеяд
11 Метод главных компонент
11 1 Постановка задачи
112 Вычисление главных компонент
11.3 Пример
114 Свойства главных компонент
11.4.1 Самовоспроизводимость
11.4.2 Геометрические свойства
12 Факторный анализ
12.1 Постановка задачи
12.1.1 Связь с главными компонентами
12.1.2 Однозначность решения
12.2 Математическая модель
12.2.1 Условия на Аt А
12.2.2 Условия на матрицу нагрузок. Центроидный метод
12.3 Латентные факторы
12.3.1 Метод Бартлетта
12.3.2 Метод Томсона
12.4 Пример
13 Оцифровка
13.1 Анализ соответствий
13.1.1 Расстояние хи-квадрат
13.1.2 Оцифровка для задач дискриминантного анализа
13.2 Более двух переменных
13.2.1 Использование бинарной матрицы данных в качестве матрицы соответствий
13.2.2 Максимальные корреляции
13.3 Размерность
13.4 Пример
13.5 Случай смешанных данных
14 Многомерное шкалирование
14.1 Вводные замечания
14.2 Модель Торгерсона
14.2.1 Стресс-критерий
14.3 Алгоритм Торгерсона
14.4 Индивидуальные различия
15 Временные ряды
15.1 Общие положения
15.2 Критерии случайности
15.2.1 Пики и ямы
15.2.2 Распределение длины фазы
15.2.3 Критерии, основанные на ранговой корреляции
15.2.4 Коррелограмма
15.3 Тренд и сезонность
15.3.1 Полиномиальные тренды
15.3.2 Выбор степени тренда
15.3.3 Сглаживание
15.3.4 Оценка сезонных колебаний
А Нормальное распределение
В Распределение X2
С Распределение Стьюдента
D Распределение Фишера.
Бесплатно скачать электронную книгу в удобном формате, смотреть и читать:
Скачать книгу Многомерный статистический анализ, Дронов С.В., 2003 - fileskachat.com, быстрое и бесплатное скачивание.
Скачать pdf
Ниже можно купить эту книгу по лучшей цене со скидкой с доставкой по всей России.
выборочной табл. сопряженности макс, правдоподобных оценок:
G 2 = -2 ^ п щ Щт т ■ п ш)
имеет асимптотическое χ 2 -распределение. На этом основана стат. проверка гипотезы о взаимосвязях.
Опыт обработки данных с помощью А.л. показал его эффективность как способа целенаправленного анализа многомерной табл. сопряженности, содержащей (в случае содержательно разумного выбора переменных) огромный, по сравнению с двухмерными табл., объем интересующей социолога информации. Метод позволяет сжато описать эту табл. (в виде гипотезы о связях) и в то же время детально проанализировать конкр. взаимосвязь. Ал. обычно применяется многоэтапно, в форме диалога социолог-ЭВМ. Т.о., А.л. обладает значительной гибкостью, представляет возможность формулировать разнообразного вида предположения о взаимосвязях, включать опыт социолога в процедуру формального анализа данных.
Лит.: Аптоп Г. Анализ табл. сопряженности. М., 1982; Типология и классификация в социол. иссл-ях. М., 1982; Bishop Y.M.M. et ai. Discrete Multivariate Analysis. N.Y., 1975; Agresti A. An Introduction to Categorical Data Analysis. N.Y., 1966.
А.А. Мирзоев
АНАЛИЗ МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ - разд. статистики математической, посвященный матем. методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого признака многомерного и предназначенным для получения науч. и практических выводов. Исходным массивом многомерных данных для проведения А.м.с. обычно служат рез-ты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных наблюдений (см. Наблюдение в статистике). Многомерный признак чаще всего интерпретируется как многомерная вели-
чина случайная, а последовательность многомерных наблюдений - как выборка из генеральной совокупности. В этом случае выбор метода обработки исходных стат. данных производится на основе тех или иных допущений относительно природы закона распределения изучаемого многомерного признака (см. Распределение вероятностей).
1. А.м.с. многомерных распределений и их осн. характеристик охватывает ситуации, когда обрабатываемые наблюдения имеют вероятностную природу, т.е. интерпретируются как выборка из соотв. генеральной совокупности. К осн. задачам этого подраздела относятся; оценивание статистическое исследуемых многомерных распределений и их осн. параметров; иссл-е свойств используемых стат. оценок; иссл-е распределений вероятностей для ряда статистик, с помощью к-рых строятся стат. критерии проверки разл. гипотез о вероятностной природе анализируемых многомерных данных (см. Проверка статистических гипотез).
2. А.м.с. характера и структуры взаимосвязей компонент исследуемого многомерного признака объединяет понятия и рез-ты, присущие таким методам и моделям, как анализ регрессионный, анализ дисперсионный, анализ ковариационный, анализ факторный, анализ латентно-структурный, анализ логяшейный, поиск взаимодействий. Методы, принадлежащие к этой гр., включают как алгоритмы, осн. на предположении о вероятностной природе данных, так и методы, не укладывающиеся в рамки к.-л. вероятностной модели (последние чаще относят к методам анализа данных).
3. А.м.с. геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и рез-ты, свойственные таким моделям и методам, как анализ дискриминантиый, анализ кластерный (см. Методы классификации, Шкала). Узловым для этих моделей явл. понятие расстояния либо меры близости между анализируемыми элементами как точками нек-рого про-
АНАЛИЗ ПРИЧИННЫЙ
странства. При этом анализироваться могут как объекты (как точки, задаваемые в признаковом пространстве), так и признаки (как точки, задаваемые в «объектном» пространстве).
Прикладное значение А.м.с. состоит в осн. в обслуживании след. трех проблем: стат. иссл-я зависимостей между рассматриваемыми показателями; классификации элементов (объектов) или признаков; снижения размерности рассматриваемого признакового пространства и отбора наиб, информативных признаков.
Лит.: Стат. методы анализа социол. информации. М., 1979; Типология и классификация в социол. иссл-ях. М., 1982; Интерпретация и анализ данных в социол, иссл-ях. М., 1987; Айвазян С.А., Мхи-тарян В. С. Прикладная статистика и основы эконометрики: Учеб. М., 1998; Сош-никова Л.А. и др. Многомерный стат. анализ в экономике. М., 1999; Дубров А.М., Мхитарян В. С, Трошин Л.И. Многомерные стат. методы для экономистов и менеджеров. М., 2000; Ростовцев B.C., Ковалева Т.Д. Анализ социол. данных с применением стат. пакета SPSS. Новосибирск, 2001; Тюрин Ю.Н., Макаров А. А. Анализ данных на компьютере. Ы., 2003; Крыш-тановский А. О. Анализ социол. данных с помощью пакета SPSS. Μ., 2006.
ЮН. Толстова
АНАЛИЗ ПРИЧИННЫЙ - методы моделирования причинных отношений между признаками с помощью систем стат. уравнений, чаще всего регрессионных (см. Анализ регрессионный). Существуют и др. названия этой довольно обширной и постоянно изменяющейся области методов: путевой анализ, как впервые назвал его основоположник С. Райт; методы структурных эконометрических уравнений, как принято в эконометрике, и др. Осн. понятиями А.п. явл.: путевая (структурная, причинная) диаграмма, причинный (путевой) коэффициент, прямые, косвенные и мнимые компоненты связи между признаками. Используемое в А.п. понятие «причинное отношение* не затрагивает сложных фи-
лос. проблем, связанных с понятием «причинность». Причинный коэффициент опред. вполне операционально. Ма-тем. аппарат дает возможность проверки наличия прямых и косвенных причинных связей между признаками, а также выявления тех компонент корреляционных коэффициентов (см. Корреляция), к-рые связаны с прямыми, косвенными и мнимыми связями.
Путевая диаграмма отражает графически гипотетически предполагаемые причинные, направленные связи между признаками. Система признаков с однонаправленными связями называется рекурсивной. Нерекурсивные причинные системы учитывают также и обратные связи, напр., два признака системы могут быть одновременно и причиной, и следствием по отношению друг к другу. Все признаки делятся на признаки-следствия (зависимые, эндогенные) и признаки-причины (независимые, экзогенные). Однако в системе уравнений эндогенные признаки одного из уравнений могут быть экзогенными признаками др. уравнений. В случае четырех признаков рекурсивная диаграмма всех возможных связей между признаками имеет вид:
х 2 | |||||
/ | N | ||||
*1 | К | ||||
г | |||||
к | S |
Построение диаграммы связей явл. необходимой предпосылкой матем. формулирования системы стат. уравнений, отражающей влияния, представленные на диаграмме. Осн. принципы построения системы регрессионных уравнений проиллюстрируем на примере тех же четырех признаков. Идя по ходу стрелок, начиная с Хи находим первый эндоген-
АНАЛИЗ ПРИЧИННЫЙ
ный признак и отмечаем те признаки, к-рые на него влияют как прямо (непосредственно), так и косвенно (опосредованно) и через др. признаки. Первое стандартизированное регрессионное уравнение соответствует первому эндогенному признаку Xj и выражает зависимость Χι от тех признаков, к-рые на него влияют, т.е. от Χγ. Т.о., первое уравнение имеет вид: Χι = bi\X\.
Затем выявляем второй эндогенный признак, к-рый имеет направленные на него связи. Это признак Aj, ему соответствуют экзогенные переменные Х\ и Χι, поэтому второе регрессионное уравнение в стандартизированном виде формулируется так: Aj = ЬцХ\ + ЬпХг и т.д. С учетом ошибок измерения U система стандартизованных регрессионных моделей для нашей конкретной причинной диаграммы имеет вид: Х\ = Ui, А? =
- Ь->\Х\ + Ui, Хт, = 631ΑΊ + byiXi + Uy, Χα -
- baXi + binXi + Й43А3 + Щ. Чтобы оценить коэффициенты b, s , необходимо ее решить. Решение существует при условии, что данные удовлетворяют нек-рым естеств. стат. требованиям. Ь$ называются причинными коэффициентами и часто обозначаются как Ру. Т.о., Р# показывает ту долю изменения вариации эндогенного признака;, к-рая происходит при изменении экзогенного признака j на единицу стандартного отклонения этого признака при условии, что влияние остальных признаков уравнения исключается (см. Анализ регрессионный). Иначе говоря, Р,у есть прямой эффект признака j на признак г. Косвенный эффект признака j на;) вычисляется на основе учета всех путей влияния j на i за исключением прямого.
На диаграмме прямое влияние первого признака на четвертый схематически представление прямой стрелой, непосредственно идущей от Χι к Xt, символически изображаемое как 1->4; оно равно коэффициенту причинного влияния Р, Х 2 , ..., Х Р. Строго регрессионную зависимость можно определить след. образом.
Пусть У, Х\, Хг,
..., Х р -
случайные
величины с заданным совместным рас
пределением вероятностей.
Если для каж
дого набора значений Χ λ =х\, Х 2
= хг,
...,
Х р = х р
определено условное матем. ожи
дание Υ(χ\, Х2,
..., Хр) - E(Y/(X]
= xj,
Χι
= Х2, ..., Х р = Хр)),
то функция Υ(Χ],
Х2,
..., Хр)
называется регрессией величи
ны У по величинам Х\, Хг,
..., Х р,
а ее
график - линией регрессии У по Х\, Хг,
..., Х р,
или уравнением регрессии. Зави
симость У от ΛΊ, Хг
....... Х р
проявляется в
изменении средних значений Упри из
менении Х\, Хг
........ Хр.
Хотя при каждом
фиксированном наборе значений X] - xj, Хг = хг, » , Хр ~ Хр величина Τ остается случайной величиной с опред. рассеянием. Для выяснения вопр., насколько точно регрессия оценивает изменение У при изменении ΑΊ, Хг, ..., Х р, используется средняя величина дисперсии У при разных наборах значений Х\, Хг, ..., Хр (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).
На практике линия регрессии чаще всего ищется в виде линейной функции У = Ьй + biXi + ЬгХг + - + ЬрХр (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых У от их оценок У (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость): w
У (У -У) => min (Ν - объем выборки), ы
Этот подход основан на том известном факте, что фигурирующая в приведенном выражении сумма принимает ми-ним. значение именно для того случая, когда У= Υ(χ\, хг, --, х Р). Применение