ЗА Г Берестнева ПРИЛОЖЕНА МАТЕМАТИЧНА СТАТИСТИКА Учебник

Глава 5. МНОГОИЗМЕРНИ СТАТИСТИЧЕСКИ МЕТОДИ ЗА АНАЛИЗ НА ДАННИТЕ В ПРОБЛЕМИТЕ НА ПРИЛОЖЕНИТЕ ИЗСЛЕДВАНИЯ

5.1. Основните разпоредби на факторния анализ

От началото на XX век. интензивно разработване на специална област на статистическите изследвания, наречена факторен анализ. Развитието на тази посока започва в психологията и по инициатива на психолози. Авторите на основните концепции за факторния анализ са предимно американски и английски учени (C. Spearman, L. L. Thurstone, G. H. Thomson, S. L. Barth, R.B. Cattell).

Основното предположение за факторния анализ може да бъде формулирано по следния начин: явления в определена област на изследване, въпреки тяхната хетерогенност и вариабилност­ността, може да се опише с относително малък брой функционални единици, параметри или фактори. Факторният анализ не признава произволни решения относно важността на определени променливи за дадена област на изследване. Освен това той не се ограничава до твърдението, че промяната в една променлива е свързана или не е свързана с промяната в друга, а отива по-далеч, опитвайки се да определи мярката на тази връзка. В този случай най-важното е, че той не се ограничава до сравняване на промените, лежащи на повърхността на явленията, а се стреми да открие основните влияния, залегнали в основата на тези промени [21].

Изследването започва със събиране на наблюдения за вариацията на набор от променливи. След това се изчисляват всички възможни корелации между наблюдаваните променливи, за да се определи дали има връзка между тях и каква е нейната мярка. Използвайки корелационен анализ, изследователят се опитва да идентифицира връзката на изследваните характеристики, което от своя страна му дава възможност да избере пълен и излишен набор от характеристики чрез комбиниране на силно корелирани характеристики.

Въз основа на получените коефициенти на корелация се извършва факторен анализ, който ни позволява да идентифицираме нови латентни променливи, които са линейни комбинации от предишните и предават по-голямата част от информацията, съдържаща се в първоначалните наблюдения.

Във всеки случай трябва да осъзнаете, че, от една страна, имаме работа с определена концепция, която се стреми да обясни намерените корелации с помощта на общи фактори, а от друга страна е необходимо да се вземе предвид, че възможностите за достатъчно точен и недвусмислен подбор на тези фактори с помощта на математиката са ограничени.

Когато решава проблеми с факторния анализ, изследователят обикновено прави три стъпки. Те могат да бъдат описани като:

изготвяне на съответната корелационна матрица;

подчертаване на първоначалните (ортогонални) фактори;

въртене на матрицата на началните фактори, за да се получи окончателното решение.

Основният модел на факторния анализ е написан в следната система от равенства [13]:

статистически
методи
многовариантни
(5.1)

Тоест се приема, че стойностите на всяка характеристика хi може да се изрази като сбор от прости фактори еj, броят на които е по-малък от броя на оригиналните елементи, а останалата част i с отклонение 2 (i) действа само на хi, което се нарича специфичен фактор.

Коефициенти лij са наречени натоварване i-та променлива на j-th коефициент или товар j-th фактор на i-та променлива. В най-простия модел на факторния анализ се приема, че факторите еi са взаимно независими и техните дисперсии са равни на единица, а случайните променливи аз също съм независим един от друг и от всеки фактор еj . Максимално възможен брой фактори м за даден брой функции стр се определя от неравенството

, (5.2)

което трябва да се изпълни, така че задачата да не се изроди в тривиална. Това неравенство се получава чрез изчисляване на степента на свобода, налична в задачата [17].

Извиква се сумата на квадратите на натоварванията в израз (5.1) общност съответстваща характеристика хi, и колкото по-голяма е тази стойност, толкова по-добре е описана характеристиката хi фактори еj. Общото е част от дисперсията на черта, която факторите обясняват. На свой ред,

многовариантни
показва каква част от дисперсията на оригиналната черта остава необяснима (специфичен фактор, съответстващ само на една конкретна променлива, и дисперсията поради грешка) за набора от използвани фактори и тази стойност се нарича характерна черта. Поради това,

отклонение на характеристиките = често (

статистически
) + специфичност (
методи
). (5.3)

Основното съотношение на факторния анализ показва, че коефициентът на корелация на всеки два знака хi и хj може да се изрази като сбор от произведението на натоварвания от некорелирани фактори

. (5.4)

Процесът на идентифициране на фактори започва със съставяне на матрица от коефициенти на корелация. Целта е да се премине от намалената матрица на корелация (елементите на основния диагонал са общите) към матрицата на редуцирания фактор, която ще определи: 1) колко общи фактора са необходими, за да отразят всички корелации между променливите и 2) какви са натоварванията на всеки фактор за различни променливи.

Проблемът с факторния анализ не може да бъде решен еднозначно. Равенствата (5.1) не могат да бъдат проверени пряко, тъй като стр първоначалните характеристики се дават чрез (стр + м) други променливи - прости и специфични фактори. Следователно представянето на корелационната матрица по фактори или, както се казва, факторизация, може да се извърши по безкраен брой начини. Ако беше възможно да се раздели матрицата на корелация с помощта на някаква матрица на факториални натоварвания F, тогава всяко линейно ортогонално преобразуване F (ортогонално въртене) ще доведе до същата факторизация [12].

Започват да работят съществуващите програми за изчисляване на натоварването м = 1 (еднофакторен модел) [12]. След това се проверява до каква степен матрицата на корелация, реконструирана съгласно еднофакторния модел в съответствие с релацията на основния фактор за анализ (5.4), се различава от матрицата на корелация на първоначалните данни. Ако еднофакторният модел е признат за незадоволителен, тогава моделът се тества с м = 2 и така нататък, докато за някои м адекватността няма да бъде постигната или броят на факторите в модела няма да надвиши максимално допустимия. В последния случай те казват, че няма адекватен модел за факторен анализ [12].

Ако съществува адекватен факториален модел, тогава получената система от общи фактори се завърта, тъй като стойностите на факториални натоварвания и натоварвания върху фактори са само едно от възможните решения на модела (5.1). Въртенето на факторите може да се извърши по различни начини. Най-често това въртене се извършва по такъв начин, че колкото се може повече факторни натоварвания да станат нули и всеки фактор, доколкото е възможно, описва група силно корелирани характеристики. Можете също така да завъртате факторите, докато не получите значими резултати. Например може да се изисква един фактор да бъде зареден­имуществени знаци от един тип, а другият - знаци от друг тип. Или, да речем, може да се изисква някои трудно интерпретируеми товари с отрицателни знаци да изчезнат. Изследователите често отиват по-далеч и разглеждат правоъгълна система от фактори като специален случай на наклонен ъгъл­ноа, тоест заради съдържанието те жертват състоянието на некорелирани­фактори.

В края на цялата процедура на факторния анализ от до­силата на математическите трансформации изразяват фактори еj чрез първоначалните знаци, т.е. те получават изрично па­размери на линейния диагностичен модел.

Ако с факториална ана­В анализа на характеристиките се търсят групи от близки (корелирани) характеристики въз основа на корелационната матрица, след това за транспонирането­ned данните (таблицата с експериментални данни се завърта на 90 °) аналог на корелационната матрица е­матрица, описваща двойни коефициенти­fi­корелация (сходство) на обекти. Той се въвежда в алгоритъма за официален анализ на фактора и в резултат се получават фактори, които описват­Те вече не са групи от корелирани характеристики, а групи от подобни обекти [2]. Осо­характеристиките на тази процедура са обсъдени подробно в [1].

Известни са голям брой методи за факторен анализ (ротации, максимална вероятност и др.). Често един и същ софтуерен пакет за анализ на данни не се прилага веднага­колко версии на такива методи и изследователите имат право­разумен въпрос за това кой е по-добър. В. В. Александров [2] доказва, че практически всички методи дават много близки резултати. Подобни заключения направи един от основните­kov на съвременния факторен анализ от Г. Харман: „Нито една от работите не показва, че някой от методите се приближава­се сближава с „истинските“ значения на общностите по-добре от другите методи. Избор между група „най-добри“ производствени методи­е главно по отношение на изчислителното удобство и т.н.­същите наклонности и привързаности на изследователя, на когото този или онзи метод изглеждаше по-адекватен на неговите представи за общността ”[30].

Факторният анализ има много поддръжници и много оп­поненти. Но, както правилно е отбелязал В. В. Налимов: „. Психолозите и социолозите не са имали други начини и са изучавали факторния анализ много подробно ”[24]. За по-подробно запознаване с факторния анализ и неговите методи може да се препоръча литературата.­кръг [1, 12, 13, 17, 20, 21, 29, 30].

5.2. Компютърна обработка на данни през

фактор анализ

През последните десетилетия интересът към факторния анализ избухна с нова сила. Това се дължи на бързото развитие на компютърните технологии, без които използването на метода на факторния анализ е твърде трудоемък процес. (Процедурата за „ръчно“ изчисляване на фактори е описана подробно в [13, 21].) Днес методът на факторния анализ е включен в почти всички статистически пакети (например, SPSS, СТАТГРАФИКА, СТАТИСТИКА).

Таблица Посочени са 5.1 метода за анализ на активиращ фактор.

Скак да активирам факторния анализ в статистически пакети