Többváltozós statisztikai vizsgálatok. Többváltozós statisztikai elemzés. A faktoranalízis módszerének alapfogalmai, az általa megoldott feladatok lényege

Felvázoljuk a statisztikai elemzés alapfogalmait és módszereit. többdimenziós eredmények műszaki kísérletek. <...>Elméleti információk a tulajdonságait többdimenziós Gauss-féle disztribúciók. <...>A kézikönyvben figyelembe vett kísérlet eredménye az véletlen vektor a normál törvény szerint osztják el.<...>Többdimenziós Normál sűrűség Gyakran egy kísérlet eredménye az totalitás néhány vizsgált tárgyat jellemző számok.<...>4 f x  Írja be mint ξ  ~ ( ND,)μ  van p-dimenziós Normál terjesztés. azt jelenti, hogy vektorξ , ξ) különböző értékeket vesz fel, így joggal beszélhetünk róla véletlen vektor 12 összetevő vektor,ξ  komponens,ξ  azaz EDE E   ξ= E E ξ ξ  = μ = ξ − μ ξ − μ ()()  ξp ahol E a várakozás előjele.<...>Legyen η p pp   μ= ν +B ; megoldásokkal.   bD BD Bη ξ = ′ , (1.3) Mátrix D az (1.2)-ből szimmetrikus, pozitív-definit, ezért reprezentációja D CC′=Λ ahol C ortogonális mátrix, amelyből áll saját vektorok mátrixok;D Λ – átlós mátrix Val vel saját számokλ>i 0 mátrixok D a főátló mentén.<...> közös sűrűség komponense,1,η=i ip, az általánosból meghatározott szabályokat(lásd a függeléket) egyenlő: 5 (1.4) ; lineáris átalakítás,η  ahol B a méretek négyzetmátrixa  egy véletlen vektor, a variációk,.<...>A normális eloszlás paramétereinek becslése ND . <...>Az elsődleges μ=i n  mátrix fő feladata kovariancia . <...>A ln ∂ = (1,5) előírások különbségtétel függvények a vektor- vagy mátrixargumentumokkal kapcsolatban (lásd<...>Ekkor σ = ξ −ξ ξ − ξ = ξ ξ −ξ ξ∑∑ ij nn ki i kj j kk Itt kiξ az i-edik összetevő vektorátlagos iμ i-edik Alkatrészek vektor . <...> Értékelések maximális hitelesség a j / ρ=σ σ σ együtthatók ij , alakúak. ij ii jj ri j σ σσ  ≠ ii jj Bizonyítás.<...>Az összetevők közötti függőség becslése Normál vektor Részletes linkelemzés<...>

MU_to_performing_course_work_"Multivariate_statistical_analysis".pdf

UDC 519.2 LBC 22.172 K27 Reviewer V.Yu. Chuev Kartashov G.D., Timonin V.I., Budovskaya L.M. K27 Többváltozós statisztikai elemzés: Irányelvek a kurzusmunka megvalósításához. - M .: MSTU kiadó im. N.E. Bauman, 2007. - 48 p.: ill. Felvázoljuk a műszaki kísérletek többdimenziós eredményeinek statisztikai elemzésének alapfogalmait és módszereit. Elméleti információkat adunk a többdimenziós Gauss-eloszlások tulajdonságairól. Az Alaptudományi Kar felső tagozatos hallgatóinak. Il. 2. Bibliográfia. 5 név UDC 519.2 LBC 22.172 © MSTU im. N.E. Bauman, 2007

2. oldal

TARTALOMJEGYZÉK Bevezetés................................................ .............................................................. ................... ..... 3 1. Többváltozós normális eloszlás ................... .......................... 4 2. Statisztikai következtetések az átlagvektorra ............... ...................... 17 3. Diszkriminanciaanalízis .. ..................... .............................. .............. 23 4. Főkomponens módszer .. ................................................................ ............ 27 5. Kanonikus összefüggések .................. ............... .................................. 30 6. Többváltozós regressziós elemzés .......... ................................. .. 35 7. Faktorelemzés ....... .............................................................. .............................. 40 Függelék ........................ ...................................................... ..................................................... 44 Irodalom ....... .................................................. ...................................................... 46 47

A többváltozós statisztikai elemzés a következő problémák megoldására szolgál:

  • * a tulajdonságok közötti kapcsolat vizsgálata;
  • * objektumok vagy jellemzők vektorok által adott osztályozása;
  • * a jellemzőtér méretének csökkentése.

Ebben az esetben a megfigyelések eredménye egy objektumban mért meghatározott számú mennyiségi és néha minőségi jellemző értékeinek vektora. A mennyiségi előjel egy megfigyelt egység jele, amely közvetlenül kifejezhető számmal és mértékegységgel. A kvantitatív attribútum szemben áll a kvalitatív attribútummal - egy megfigyelt egység attribútuma, amelyet két vagy több feltételes kategória valamelyikéhez való hozzárendelés határozza meg (ha pontosan két kategória van, akkor az attribútumot alternatívnak nevezzük). A minőségi jellemzők statisztikai elemzése a nem numerikus objektumok statisztikájának része. A mennyiségi jeleket az intervallumok, arányok, különbségek, abszolút skálákon mért jelekre osztják.

Minőségi pedig - a névskálában és a sorszámskálában mért jeleken. Az adatfeldolgozási módszereknek összhangban kell lenniük azzal a skálával, amelyben a figyelembe vett jellemzőket mérik.

A tulajdonságok közötti kapcsolat vizsgálatának célja a tulajdonságok közötti kapcsolat létezésének bizonyítása és ennek a kapcsolatnak a vizsgálata. A korrelációs analízis segítségével igazoljuk, hogy van-e kapcsolat két X és Y valószínűségi változó között. Ha X és Y együttes eloszlása ​​normális, akkor a statisztikai következtetések a minta lineáris korrelációs együtthatóján alapulnak, más esetekben a Kendall és a Spearman rangkorrelációs együtthatót, a kvalitatív jellemzőknél pedig a khi-négyzet tesztet használjuk. .

A regressziós elemzést az Y mennyiségi jellemző funkcionális függésének tanulmányozására használjuk az x(1), x(2), ..., x(k) mennyiségi tulajdonságoktól. Ezt a függőséget regressziónak vagy röviden regressziónak nevezik. A regressziós elemzés legegyszerűbb valószínűségi modellje (k = 1 esetén) bemeneti információként megfigyelési eredménypárok halmazát (xi, yi), i = 1, 2, … , n használja, és ennek alakja

yi = axi + b + ei, i = 1, 2, … , n,

ahol ei a megfigyelési hibák. Néha azt feltételezzük, hogy ei független valószínűségi változók azonos normális eloszlású N(0, y2). Mivel a megfigyelési hibák eloszlása ​​általában eltér a normáltól, célszerű a regressziós modellt nem paraméteres beállításban, pl. tetszőleges ei eloszlására.

A regresszióanalízis fő feladata az a és b ismeretlen paraméterek becslése, amelyek meghatározzák y lineáris függését x-től. Ennek a problémának a megoldására a K. Gauss által 1794-ben kidolgozott legkisebb négyzetek módszerét alkalmazzák, azaz. keresse meg az a és b ismeretlen modellparaméterek becsléseit a négyzetösszeg minimalizálásának feltételéből

az a és b változókra.

A varianciaanalízist arra használjuk, hogy tanulmányozzuk a minőségi jellemzők hatását egy mennyiségi változóra. Legyen például a k gépen előállított termelési egység minőségi mennyiségi mutatójának mérési eredményeiből k minta, pl. számok halmaza (x1(j), x2(j), … , xn(j)), ahol j a gép száma, j = 1, 2, …, k, és n a minta mérete. A varianciaanalízis általános megfogalmazásában feltételezzük, hogy a mérési eredmények függetlenek, és minden mintában azonos variancia mellett N(m(j), y2) normális eloszlásúak.

A termékminőség egységességének ellenőrzése, pl. a gépszámnak a termék minőségére gyakorolt ​​hatásának hiánya a hipotézis tesztelésén múlik

H0: m(1) = m(2) = … = m(k).

A diszperzióanalízis során módszereket dolgoztak ki az ilyen hipotézisek tesztelésére.

A H0 hipotézist teszteljük a H1 alternatív hipotézissel, amely szerint a jelzett egyenlőségek közül legalább egy nem teljesül. Ennek a hipotézisnek az igazolása az R. A. Fisher által jelzett következő "varianciák dekompozícióján" alapul:

ahol s2 a minta varianciája az egyesített mintában, azaz.

Így a (7) képlet jobb oldalán az első tag a csoporton belüli diszperziót tükrözi. Végül a csoportok közötti variancia,

A (7) képlettípus varianciájának bővítésével kapcsolatos alkalmazott statisztikák területét varianciaanalízisnek nevezzük. Példaként a varianciaanalízis problémájára fontolja meg a fenti H0 hipotézis tesztelését azzal a feltételezéssel, hogy a mérési eredmények függetlenek, és minden mintában azonos variancia mellett normális eloszlású N(m(j), y2). Ha H0 igaz, akkor a (7) képlet jobb oldalán lévő első tag, osztva y2-vel, k(n-1) szabadságfokkal khi-négyzet eloszlású, és a második tag, osztva y2-vel, szintén khi-négyzet eloszlás, de (k-1) szabadsági fok, és az első és a második tag független, mint valószínűségi változó. Tehát a valószínűségi változó

Fisher-eloszlása ​​van (k-1) számláló szabadságfokkal és k(n-1) nevező szabadságfokkal. A H0 hipotézist akkor fogadjuk el, ha F< F1-б, и отвергается в противном случае, где F1-б - квантиль порядка 1-б распределения Фишера с указанными числами степеней свободы. Такой выбор критической области определяется тем, что при Н1 величина F безгранично увеличивается при росте объема выборок n. Значения F1-б берут из соответствующих таблиц.

Nemparaméteres módszereket dolgoztak ki a diszperzióanalízis klasszikus problémáinak megoldására, különösen a H0 hipotézis tesztelésére.

A többváltozós statisztikai elemzési problémák következő típusa az osztályozási problémák. Három alapvetően különböző típusra oszthatók - diszkriminanciaanalízis, klaszterelemzés, csoportosítási problémák.

A diszkriminanciaanalízis feladata, hogy szabályt találjon egy megfigyelt objektumnak a korábban leírt osztályok valamelyikéhez való hozzárendelésére. Ebben az esetben az objektumokat egy matematikai modellben írják le vektorok segítségével, amelyek koordinátái az egyes objektumok számos jellemzőjének megfigyelésének eredményei. Az osztályok leírása vagy közvetlenül matematikai kifejezésekkel vagy képzési minták segítségével történik. A képzési minta egy minta, amelynek minden eleménél fel van tüntetve, hogy melyik osztályba tartozik.

Tekintsünk egy példát a diszkriminanciaelemzés alkalmazására a műszaki diagnosztika döntéshozatalában. Legyen szükséges számos termékparaméter mérési eredménye alapján megállapítani a hibák meglétét vagy hiányát. Ebben az esetben a képzési minta elemeinél fel vannak tüntetve azok a hibák, amelyeket egy további vizsgálat során találtak, például egy bizonyos működési időtartam után. A diszkriminancia elemzés lehetővé teszi az ellenőrzés mértékének csökkentését, valamint a termékek jövőbeli viselkedésének előrejelzését. A diszkriminanciaanalízis hasonló a regresszióhoz - az első lehetővé teszi egy minőségi tulajdonság értékének megjóslását, a második pedig egy mennyiségi jellemző értékét. A nem numerikus jellegű objektumok statisztikájában matematikai sémát dolgoztak ki, melynek speciális esetei a regressziós és diszkriminanciaanalízisek.

Klaszteranalízist akkor alkalmazunk, ha a statisztikai adatok szerint a mintaelemeket csoportokra kell osztani. Sőt, egy csoport két elemének egyazon csoportból „közel” kell lennie a bennük mért jellemzők értékeinek összessége szempontjából, és két különböző csoportból származó elemnek ugyanabban az értelemben „távol” kell lennie. A diszkriminanciaanalízissel ellentétben a klaszteranalízisben az osztályok nem kerülnek meghatározásra, hanem a statisztikai adatok feldolgozása során alakulnak ki. A klaszteranalízis például felhasználható acélminőségek (vagy hűtőminőségek) halmazának hasonló csoportokra bontására.

A klaszteranalízis másik típusa a jellemzők hasonló csoportokra bontása. A minta korrelációs együtthatója a jellemzők hasonlóságának mutatójaként szolgálhat. A jellemző klaszter elemzés célja a szabályozott paraméterek számának csökkentése lehet, amivel jelentősen csökkenthető a monitorozás költsége. Ehhez szorosan kapcsolódó jelek csoportjából (amelyeknél a korrelációs együttható közel 1 - a maximális értéke) megmérik az egyik értékét, a többi értékét pedig regressziós elemzéssel számítják ki.

A csoportosítási problémák akkor oldódnak meg, ha az osztályok nincsenek előre meghatározottak, és nem kell „távol” lenniük egymástól. Példa erre a tanulók tanulmányi csoportokba való csoportosítása. A technikában a csoportosítás problémájára gyakran a paraméteres sorozat a megoldás - a lehetséges méreteket a paraméteres sorozat elemei szerint csoportosítják. A szakirodalomban az alkalmazott statisztikákkal kapcsolatos normatív-technikai és oktató-módszertani dokumentumokat, a megfigyelések eredményeinek csoportosítását is alkalmazzák (például hisztogramok készítésekor).

Az osztályozási problémák nemcsak a többváltozós statisztikai elemzésben oldódnak meg, hanem akkor is, ha a megfigyelések eredménye számok, függvények vagy nem numerikus objektumok. Így sok klaszterelemző algoritmus csak az objektumok közötti távolságokat használja. Ezért nem numerikus jellegű objektumok osztályozására is használhatók, amennyiben a köztük lévő távolságok adottak. A legegyszerűbb osztályozási probléma a következő: két független minta esetén meg kell határozni, hogy két vagy egy osztályt képviselnek. Az egydimenziós statisztikákban ez a probléma a homogenitási hipotézis tesztelésére redukálódik.

A többváltozós statisztikai elemzés harmadik része a dimenziócsökkentés (információtömörítés) problémája. Megoldásuk célja az eredeti jellemzők transzformációjával kapott származtatott mutatók halmazának meghatározása úgy, hogy a származtatott mutatók száma lényegesen kevesebb legyen, mint az eredeti jellemzők száma, de a rendelkezésre álló információból a lehető legtöbbet tartalmazzák. az eredeti statisztikai adatokban. A méretcsökkentési problémák megoldása többdimenziós skálázással, főkomponensekkel, faktoranalízissel stb. történik. Például a legegyszerűbb többdimenziós skálázási modellben a kiindulási adatok k objektum közötti páronkénti távolságok, és a számítások célja, hogy az objektumokat pontként ábrázolják egy repülő. Ez lehetővé teszi, hogy szó szerint lássuk, hogyan kapcsolódnak egymáshoz az objektumok. A cél elérése érdekében minden objektumhoz hozzá kell rendelni egy-egy pontot a síkon, hogy az i és j számú objektumoknak megfelelő pontok közötti sij távolságok páronként a lehető legpontosabban reprodukálják az ezen objektumok közötti cij távolságokat. A legkisebb négyzetek módszerének alapötlete szerint a síkon a pontokat úgy találjuk meg, hogy az érték legyen

elérte legalacsonyabb értékét. Sok más problémameghatározás létezik a dimenziócsökkentésre és az adatvizualizációra.

valószínűségi matematikai statisztika minősége

Példa

Vannak adatok egy vállalkozáscsoport termékkibocsátásáról hónapok szerint (millió rubel):

A kibocsátás növekedésének általános trendjének azonosítása érdekében növeljük az intervallumokat. Ebből a célból a termelési kibocsátás kezdeti (havi) adatait negyedéves adatokká kombináljuk, és egy vállalatcsoportra negyedévenkénti kibocsátási mutatókat kapunk:

Az intervallumok bővülésének eredményeként e vállalkozáscsoport kibocsátásnövekedésének általános trendje eltérő:

64,5 < 76,9 < 78,8 < 85,9.

Az idősorok általános trendjének azonosítása az idősorok használatával is elvégezhető mozgóátlag módszer. Ennek a technikának az a lényege, hogy a számított (elméleti) szinteket a sorozat kezdeti szintjeiből (empirikus adatokból) határozzuk meg. Ebben az esetben az empirikus adatok átlagolásával az egyéni ingadozások kioltódnak, és a jelenség általános fejlődési tendenciája egy bizonyos sima vonal (elméleti szintek) formájában fejeződik ki.

A módszer alkalmazásának fő feltétele a mozgó (mozgó) átlag linkek kiszámítása a sorozat olyan számú szintjéből, amely megfelel a sorozatban megfigyelt ciklusdinamika időtartamának.

A dinamikasorok simításának módszerének hátránya, hogy a kapott átlagok nem adnak olyan elméleti szabályszerűségeket (modelleket) a sorozatnak, amelyek egy matematikailag kifejezett szabályszerűségen alapulnának, és ez lehetővé tenné nemcsak elemzés elvégzését, hanem megjósolni a sorozat dinamikáját a jövőre nézve.

Az idősorok általános trendjének tanulmányozására sokkal fejlettebb technika az analitikai igazítás. Az általános trend analitikus igazítási módszerrel történő vizsgálatakor feltételezzük, hogy a dinamikasorozatok szintjének változásai átlagosan kifejezhetők bizonyos matematikai függvények segítségével, változó közelítési pontossággal. Az elméleti elemzés során feltárjuk a jelenség kialakulásának természetét, és ennek alapján kiválasztunk egy-egy matematikai kifejezést, például a jelenség változását: egyenes mentén, másodrendű parabola mentén, exponenciális (logaritmikus) görbe stb.

Nyilvánvaló, hogy az idősorok szintjei számos hosszú és rövid távú tényező együttes hatására alakulnak ki, pl. különféle balesetek. Egy jelenség kialakulásának feltételeiben bekövetkezett változás magukban a tényezőkben, azok hatásának erősségében és hatékonyságában, végső soron pedig a jelenség mértékének változásához vezet. idővel tanulni.



Többváltozós statisztikai elemzés- a matematikai statisztika olyan része, amely a vizsgált többdimenziós attribútum összetevői közötti kapcsolatok természetének és szerkezetének meghatározását célzó matematikai módszereknek szentel, és tudományos és gyakorlati következtetések levonását célozza. A többdimenziós adatok kezdeti tömbje egy ilyen elemzéshez általában egy többdimenziós attribútum összetevőinek mérési eredményei a vizsgált sokaság minden egyes objektumánál, azaz. többváltozós megfigyelések sorozata. Többdimenziós jellemző leggyakrabban többváltozós valószínűségi változóként értelmezik, és többváltozós megfigyelések sorozata az általános sokaságból vett mintaként. Ebben az esetben a kiinduló statisztikai adatok feldolgozásának módját bizonyos, a statisztikai adatok jellegére vonatkozó feltételezések alapján kell megválasztani. elosztási törvény többdimenziós jellemzőt tanulmányozott.

1. Többváltozós eloszlások és főbb jellemzőik elemzése olyan helyzetekre terjed ki, amikor a feldolgozott megfigyelések valószínűségi jellegűek, pl. mintaként értelmezve a megfelelő általános sokaságból. Az alfejezet fő feladatai a következők: a vizsgált többváltozós eloszlások és főbb paramétereik statisztikai becslése; az alkalmazott statisztikai becslések tulajdonságainak tanulmányozása; Valószínűségi eloszlások tanulmányozása számos statisztika esetében, amelyek statisztikai kritériumok felépítésére szolgálnak az elemzett többváltozós adatok valószínűségi természetére vonatkozó különféle hipotézisek tesztelésére.
2. A vizsgált többdimenziós jellemző összetevői közötti kapcsolatok jellegének és szerkezetének elemzéseötvözi az olyan módszerekben és modellekben rejlő fogalmakat és eredményeket, mint pl regresszióanalízis, diszperzióanalízis, kovarianciaanalízis, faktoranalízis, látens szerkezeti elemzés, log-lineáris analízis, kölcsönhatások keresése . Az ebbe a csoportba tartozó módszerek közé tartoznak mind az adatok valószínűségi jellegének feltételezésére épülő algoritmusok, mind pedig olyan módszerek, amelyek nem illeszkednek egyetlen valószínűségi modell keretébe sem (ez utóbbiakat gyakran adatelemzési módszernek is nevezik).

3. A vizsgált többdimenziós megfigyelések halmazának geometriai szerkezetének elemzése egyesíti az olyan modellekben és módszerekben rejlő fogalmakat és eredményeket, mint pl. diszkriminanciaanalízis, klaszteranalízis, többdimenziós skálázás. A csomópont ezeknél a modelleknél a távolság fogalma, vagy az elemzett elemek, mint valamely tér pontjai közötti közelség mértéke. Ebben az esetben mind az objektumok (mint a jellemzőtérben megadott pontok), mind a jellemzők (mint az objektumtérben meghatározott pontok) elemezhetők.

A többváltozós statisztikai elemzés alkalmazott értéke elsősorban a következő három probléma kiszolgálásában áll:

A vizsgált mutatók közötti függőségek statisztikai kutatásának problémái;

Az elemek (objektumok vagy jellemzők) osztályozási problémái;

A vizsgált jellemzőtér méretének csökkentésének és a leginkább informatív jellemzők kiválasztásának problémái.

A tankönyv a szerzőnek a többváltozós statisztikai elemzés és ökonometria kurzusok oktatásában szerzett tapasztalatai alapján készült. Tartalmaz anyagokat a diszkriminancia, a faktoriális, a regressziós, a korrespondenciaanalízis és az idősorelmélet témakörében. Felvázoljuk a többdimenziós skálázás problémáinak megközelítéseit és a többváltozós statisztika néhány egyéb problémáját.

Csoportosítás és cenzúra.
Azt a feladatot, hogy a mintaadatokból olyan csoportokat alakítsunk ki, hogy a csoportosított adatok csaknem ugyanannyi információt nyújtsanak a döntéshozatalhoz, mint a csoportosítás előtti minta, elsősorban a kutató oldja meg. A csoportosítás célja általában az információ mennyiségének csökkentése, a számítások egyszerűsítése és az adatok láthatóbbá tétele. Egyes statisztikai tesztek kezdetben a csoportosított mintával végzett munkára összpontosítanak. A csoportosítási probléma bizonyos szempontból nagyon közel áll az osztályozási problémához, amelyet az alábbiakban részletesebben tárgyalunk. A csoportosítás feladatával egyidejűleg a kutató megoldja a minta cenzúrázásának problémáját is, i.e. kizárják belőle a kiugró adatokat, amelyek általában durva megfigyelési hibákból származnak. Természetesen kívánatos az ilyen hibák hiányát még maguk a megfigyelések során is biztosítani, de ez nem mindig lehetséges. E két probléma megoldásának legegyszerűbb módszereit tárgyaljuk ebben a fejezetben.

Tartalomjegyzék
1 Előzetes információ
1.1 Elemzés és algebra
1.2 Valószínűségszámítás
1.3 Matematikai statisztika
2 Többváltozós eloszlás
2.1 Véletlenszerű vektorok
2.2 Függetlenség
2.3 Numerikus jellemzők
2.4 Normál eloszlás többváltozós esetben
2.5 Korrelációelmélet
3 Csoportosítás és cenzúra
3.1 Egydimenziós csoportosítás
3.2 Egydimenziós cenzúra
3.3 Asztalok keresztezése
3.3.1 Függetlenségi hipotézis
3.3.2 Homogenitási hipotézis
3.3.3 Korrelációs mező
3.4 Többdimenziós csoportosítás
3.5 Többdimenziós cenzúra
4 Nem numerikus adatok
4.1 Bevezető megjegyzések
4.2 Összehasonlító skálák
4.3 Szakértői vélemény
4.4 Szakértői csoportok
5 bizalomkészlet
5.1 Konfidenciaintervallumok
5.2 Bizalmi készletek
5.2.1 Többdimenziós paraméter
5.2.2 Többváltozós mintavétel
5.3 Toleráns készletek
5.4 Kis minta
6 Regressziós elemzés
6.1 Problémafelvetés
6.2 GMS keresése
6.3 Korlátozások
6.4 Tervmátrix
6.5 Statisztikai előrejelzés
7 Varianciaanalízis
7.1 Bevezető megjegyzések
7.1.1 Normalitás
7.1.2 A diszperziók homogenitása
7.2 Egy tényező
7.3 Két tényező
7.4 Általános eset
8 Dimenziócsökkentés
8.1 Miért van szükség az osztályozásra?
8.2 Modell és példák
8.2.1 Főkomponens elemzés
8.2.2 Extrém jellemzők csoportosítása
8.2.3 Többdimenziós méretezés
8.2.4 Indikátorok kiválasztása a diszkriminancia elemzéshez
8.2.5 Jellemzők kiválasztása regressziós modellben
9 Diszkriminanciaanalízis
9.1 A modell alkalmazhatósága
9.2 Lineáris prediktív szabály
9.3 Gyakorlati javaslatok
9.4 Egy példa
9.5 Kettőnél több osztály
9.6 A diszkrimináció minőségének ellenőrzése
10 Heurisztikus módszerek
10.1 Extrém csoportosítás
10.1.1 A négyzetek kritériuma
10.1.2 Modulkritérium
10 2 Plejádes módszer
11 Főkomponens elemzés
11 1 A probléma megfogalmazása
112 Főkomponensek számítása
11.3 Példa
114 Főkomponens tulajdonságai
11.4.1 Saját reprodukálhatóság
11.4.2 Geometriai tulajdonságok
12 Faktorelemzés
12.1 A probléma megfogalmazása
12.1.1 Kommunikáció a fő összetevőkkel
12.1.2 Egyértelmű döntés
12.2 Matematikai modell
12.2.1 Az At A feltételei
12.2.2 A terhelési mátrix feltételei. centroid módszer
12.3 Látens tényezők
12.3.1 Bartlett-módszer
12.3.2 Thomson-módszer
12.4 Példa
13 Digitalizálás
13.1. Levelezési elemzés
13.1.1 Khi-négyzet távolság
13.1.2 Digitalizálás diszkriminanciaelemzési problémákhoz
13.2 Kettőnél több változó
13.2.1 Bináris adatmátrix használata leképezési mátrixként
13.2.2 Maximális korrelációk
13.3 Méret
13.4 Példa
13.5 Vegyes adateset
14 Többdimenziós méretezés
14.1 Bevezető megjegyzések
14.2 Thorgerson modell
14.2.1 Stressz-kritérium
14.3 Thorgerson-algoritmus
14.4 Egyéni különbségek
15 Idősorok
15.1 Általános
15.2 Véletlenszerűségi kritériumok
15.2.1 Csúcsok és gödrök
15.2.2 Fázishossz-eloszlás
15.2.3 A rangsoroláson alapuló kritériumok
15.2.4 Korrelogram
15.3 Trend és szezonalitás
15.3.1 Polinomiális trendek
15.3.2 A trend mértékének kiválasztása
15.3.3 Simítás
15.3.4 Szezonális ingadozások becslése
A Normál eloszlás
Az X2 disztribúcióban
Student-féle t-eloszlással
D Fisher-eloszlás.


Ingyenesen letölthető e-könyv kényelmes formátumban, nézze meg és olvassa el:
Töltse le a Többváltozós statisztikai elemzés könyvet, Dronov SV, 2003 - fileskachat.com, gyorsan és ingyenesen letölthető.

Letöltés pdf
Az alábbiakban megvásárolhatja ezt a könyvet a legjobb kedvezményes áron, kiszállítással Oroszország egész területén.


minta táblázat. konjugációs max., valószínű becslések:

G2= -2 ^ p sch Sht t ■ p w)

aszimptotikus χ 2 -eloszlású. Ez a stat. kapcsolati hipotézis tesztelése.

Adatfeldolgozásban szerzett tapasztalat A.l. megmutatta hatékonyságát a többdimenziós táblázatok célzott elemzésének módszereként. ragozás, amely (értelmesen ésszerű változóválasztás esetén) a kétdimenziós táblázatokhoz képest hatalmas mennyiségű információt tartalmaz a szociológus számára. A módszer lehetővé teszi ennek a táblázatnak a tömör leírását. (összefüggésekre vonatkozó hipotézis formájában) és egyúttal részletesen elemezni konc. kapcsolat. Al. rendszerint több szakaszban alkalmazzák, szociológus-számítógépes párbeszéd formájában. Így A.l. jelentős rugalmassággal rendelkezik, lehetőséget ad a kapcsolatokra vonatkozó különféle feltételezések megfogalmazására, a szociológusi tapasztalatok bevonására a formális adatelemzés folyamatába.

Megvilágított.: Felső G. A táblázat elemzése. konjugáltság. M., 1982; Tipológia és osztályozás a szociológiában. kutatás. M., 1982; Püspök Y.M.M. et ai. Diszkrét többváltozós elemzés. N.Y., 1975; Agresti A. Bevezetés a kategorikus adatelemzésbe. N.Y., 1966.

A.A. Mirzoev

TÖBBVÁLTOZÓS STATISZTIKAI ELEMZÉS- sec. matematikai statisztika, a matematikának szentelt. módszerek, amelyek célja a vizsgált összetevők közötti kapcsolatok jellegének és szerkezetének azonosítása többdimenziós jeleés tudományos fogadtatásra szánták. és gyakorlati vonatkozásai. A többdimenziós adatok kezdeti tömbje az A.m.s. általában egy többdimenziós attribútum összetevőinek mérési eredményeiként szolgálnak a vizsgált sokaság minden egyes objektumára, pl. többváltozós megfigyelések sorozata (lásd megfigyelés a statisztikákban). A többdimenziós jellemzőt leggyakrabban többdimenziósként értelmezik vezette-


rangsor véletlenszerű,és a többváltozós megfigyelések sorozata - mintaként az általános sokaságból. Ebben az esetben az eredeti stat feldolgozási módjának megválasztása. az adatok a természetre vonatkozó bizonyos feltételezések alapján készülnek elosztási törvény tanulmányozott többdimenziós jellemzőt (lásd. Valószínűségi eloszlás).

1. A.m.s. többváltozós eloszlások és fő. A jellemzők olyan helyzeteket takarnak, amikor a feldolgozott megfigyelések valószínűségi jellegűek, pl. mintaként értelmezik acc. az általános lakosság. A főbe Ennek az alszakasznak a céljai a következők: statisztikai becslés többváltozós eloszlásokat és azok főbb elemeit vizsgáltam. paraméterek; kutatási tulajdonságai a felhasznált stat. minősítések; valószínűségi eloszlások tanulmányozása számos statisztika esetében, amelyek segítségével statisztikákat készítenek. vizsgálati kritériumok diff. hipotézisek az elemzett többváltozós adatok valószínűségi természetéről (lásd Statisztikai hipotézisek tesztelése).

2. A.m.s. a vizsgált többdimenziós jellemző összetevői összefüggéseinek természete és szerkezete egyesíti az olyan módszerekben és modellekben rejlő fogalmakat és eredményeket, mint pl. regresszióanalízis, diszperzióanalízis, kovarianciaanalízis, faktoranalízis, látens-strukturális elemzés, loggery elemzés, interakciók keresése. Az ebbe a csoportba tartozó módszerek közé tartozik mindkét algoritmus, fő. az adatok valószínűségi jellegének feltételezése alapján, valamint a k.-l. keretébe nem illeszkedő módszerek. valószínűségi modell (ez utóbbiakat gyakran módszereknek nevezik adatelemzés).

3. A.m.s. A vizsgált többdimenziós megfigyelések halmazának geometriai szerkezete egyesíti az olyan modellekben és módszerekben rejlő fogalmakat és eredményeket, mint pl. diszkriminancia elemzés, klaszteranalízis (lásd. Osztályozási módszerek, Skála). Csomópont ezekhez a modellekhez yavl. a távolság vagy a közelség mértékének fogalma az elemzett elemek, mint valamiféle pontok között

OKOZATI ELEMZÉS


vándorlások. Ebben az esetben mind az objektumok (mint a jellemzőtérben megadott pontok), mind a jellemzők (mint az „objektum” térben meghatározott pontok) elemezhetők.

Alkalmazott érték A.m.s. főből áll következő szolgáltatásban. három probléma: stat. a vizsgált mutatók közötti függőségek vizsgálata; elemek (objektumok) vagy jellemzők osztályozása; a vizsgált jellemzőtér méretének csökkentése és a leginkább informatív jellemzők kiválasztása.

Lit.: Stat. szociológiai elemzés módszerei. információ. M., 1979; Tipológia és osztályozás a szociológiában. kutatás. M., 1982; Adatok értelmezése, elemzése a szociológiában, kutatás. M., 1987; Ayvazyan S.A., Mkhitaryan V.S. Alkalmazott statisztika és az ökonometria alapjai: Proc. M., 1998; Soshnikova L.A. stb. Többdimenziós stat. elemzés a közgazdaságtanban. M., 1999; Dubrov A.M., Mkhitaryan V.S., Troshin L.I. Többdimenziós stat. módszerek közgazdászok és menedzserek számára. M., 2000; Rostovtsev B.C., Kovaleva T.D. Szociológiai elemzés. adatok segítségével stat. SPSS csomag. Novoszibirszk, 2001; Tyurin Yu.N., Makarov A.A. Adatelemzés számítógépen. Y., 2003; Krys-tanovsky A. O. Szociológiai elemzés. adatokat az SPSS csomag használatával. M., 2006.

YUN. Tolstova

OKOZATI ELEMZÉS- metódusok a jellemzők közötti ok-okozati összefüggések modellezésére stat rendszerek segítségével. egyenletek, leggyakrabban regresszió (lásd. regresszió analízis). Ennek a meglehetősen kiterjedt és folyamatosan változó módszerterületnek más elnevezései is vannak: útelemzés, ahogy alapítója, S. Wright nevezte először; strukturális ökonometriai egyenletek módszerei, az ökonometriában megszokott módon stb. Osn. fogalmak A.p. yavl.: út (szerkezeti, oksági) diagram, oksági (út) együttható, a jelek közötti kapcsolat közvetlen, közvetett és képzeletbeli összetevői. Használt A.p. az "ok-okozati összefüggés * fogalma nem érinti a komplex fi-


los. az „oksági összefüggés” fogalmával kapcsolatos problémák. Oksági együttható meghatározva. egészen működőképes. Mat. A készülék lehetővé teszi az előjelek közötti közvetlen és közvetett ok-okozati összefüggések meglétének ellenőrzését, valamint a korrelációs együtthatók azon összetevőinek azonosítását (lásd 1. ábra). Korreláció), to-rye közvetlen, közvetett és képzeletbeli összefüggésekkel.

Az útdiagram grafikusan hipotetikusan feltételezett ok-okozati, irányított kapcsolatokat tükröz a jellemzők között. Az egyirányú hivatkozásokkal rendelkező jellemzőrendszert rekurzívnak nevezzük. A nem rekurzív ok-okozati rendszerek a visszacsatolásokat is figyelembe veszik, például egy rendszer két jellemzője egymáshoz képest lehet ok és okozat is. Minden jel fel van osztva jelekre-következményekre (függő, endogén) és jelekre-okokra (független, exogén). Egy egyenletrendszerben azonban az egyik egyenlet endogén jellemzői lehetnek más egyenletek exogén jellemzői. Négy jellemző esetén a jellemzők közötti összes lehetséges összefüggés rekurzív diagramja a következőképpen alakul:

x 2
/ N
*1 NAK NEK
G
Nak nek S

Kapcsolati diagram készítése yavl. a matematikának szükséges előfeltétele. a rendszer stat. diagramban bemutatott hatásokat tükröző egyenletek. Fő A regressziós egyenletrendszer felépítésének alapelveit ugyanazzal a négy jellemzővel szemléltetjük példaként. A nyilak irányába haladva, innen indulva megtalálni az első endogént

ELEMZÉS OKOZATI


egy jelet, és vegye figyelembe azokat a jeleket, amelyek közvetlenül (közvetlenül) és közvetve (közvetetten) és más jeleken keresztül is érintik. Az első standardizált regressziós egyenlet az első endogén tulajdonságnak felel meg Xjés függőséget fejez ki Χι azoktól a jelektől, amelyek őt érintik, pl. tól től Χγ. Így az első egyenlet a következőképpen alakul: Χι = bi\X\.

Ezután felfedjük a második endogén jelet, a to-ry kommunikációja van rá. Ez az Aj jele, exogén változóknak felel meg X\és Χι, ezért a második regressziós egyenlet standardizált formában a következőképpen fogalmazódik meg: Aj = bcx\+ bpXg stb. Mérési hibák figyelembe vétele U a standardizált regressziós modellek rendszere az adott oksági diagramunkhoz: X\u003d Ui, A? =

- b->\X\+ Ui, xt,= 631ΑΊ + byiXi+ Jaj, Χα -

- baXi+ binXi+ J43A3 + SCH. Az együtthatók értékelésére b, s, meg kell oldani. A döntés azzal a feltétellel létezik, hogy az adatok megfelelnek egy bizonyos természetnek. statisztika. követelményeknek. b$ ok-okozati tényezőknek nevezik, és gyakran jelölik RU. Hogy., R# megmutatja az endogén tulajdonság variációjában bekövetkezett változásnak azt az arányát, amely akkor következik be, amikor az exogén tulajdonság megváltozik j ennek a jellemzőnek egységnyi szórása, feltéve, hogy az egyenlet többi jellemzőjének hatását kizárjuk (lásd. regresszió analízis). Más szóval, a P,y-nek közvetlen jellemző hatása van j a tulajdonságon d) A tulajdonság közvetett hatása j on;) az összes befolyási út figyelembevétele alapján kerül kiszámításra j a én kivéve a közvetlen.

Az ábrán az első jellemző közvetlen hatását a negyedikre sematikusan egy egyenes nyíl ábrázolja, amely közvetlenül a Χι Nak nek xt, szimbolikusan 1->4-ként ábrázolva; egyenlő a P, X 2 okozati hatás együtthatójával,..., H R. A szigorúan regresszív függőséget a következőképpen határozhatjuk meg. út.

Hadd U X\, Xr,..., X p - véletlen
mennyiségek adott ízülettel versenyek
valószínűségek.
Ha mindegyikhez
hosszú értékkészlet X λ \u003d x \, X 2= hg,...,
X p \u003d x p feltételes matematika. várjon
Dánia Υ(χ\, X2,..., Xp) - E(Y/(X]= xj,
Χι = X2, ..., X p \u003d Xp)), majd a függvény Υ(Χ],
x2,
..., Xp) nagyságrendi regressziónak nevezzük
ns Y nagyságrend szerint X\, Xr,..., x r,és ő
grafikon – Y regressziós egyenes X\, Xr,
..., X p,
vagy regressziós egyenlet. Zavi
Y függése ΛΊ-tól, hg....... X o abban nyilvánul meg

Vpri átlagértékeinek változása től
változó X\, Xr........ Chr. Bár mindenkor

rögzített értékkészlet X]- xj, xg = xg,» , Xp ~ Xp a Τ mennyiség definícióval rendelkező valószínűségi változó marad. szétszóródás. Annak megállapításához, hogy a regresszió mennyire pontosan becsüli meg az Y változását ΑΊ változásával, hg,..., x r, az Y variancia átlagértékét használjuk különböző értékkészletekhez X\, Xr,..., Xp(valójában a függő változó regressziós egyenes körüli szórásának mértékéről beszélünk).

A gyakorlatban a regressziós egyenest leggyakrabban Y = lineáris függvény formájában keresik bx + biXi + bxxr+ - + bpXp(lineáris regresszió), amely a legjobban közelíti a kívánt görbét. Ez a legkisebb négyzetek módszerével történik, amikor a ténylegesen megfigyelt Y Y becslésétől való négyzetes eltéréseinek összege minimalizálva van (vagyis a kívánt regressziós függést reprezentáló egyenest használó becsléseket): w

U (U -U) => min (Ν - mintanagyság), s

Ez a megközelítés azon a jól ismert tényen alapul, hogy a fenti kifejezésben megjelenő összeg mini-nim-et vesz fel. érték arra az esetre, amikor Y= Υ(χ\, xr, --, x R). Alkalmazás

Hasonló cikkek

2022 ganarts.ru. Üvegház és kert. Elrendezés. Növekvő. Betegségek és kártevők. Palánta.