Ievads daļas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16_pielikums

12. Kovariācijas analīze

 

12.1. Uzdevuma  nostādne  un  kovariācijas  analīzes  veidi

 

12.1.1. Dispersijas, regresijas un kovariācijas analīzes specifika

 

            Salīdzināsim savā starpā dispersijas un regresijas - korelācijas analīžu iespējas.

            Dispersijas analīze pētī galvenokārt atributīvu pazīmju sakarības, noskaidrojot šo sakarību statistisko nozīmību. Ar dispersijas analīzi var pētīt arī kvantitatīvu pazīmju sakarības, uzlūkojot izdalītās variācijas grupas par kvalitatīvi atšķirīgām, tātad nosacīti par atributīvām. Bet tad dispersijas analīze nav tik efektīva kā regresijas - korelācijas analīze, jo nedod iespēju izstrādāt sakarību modeli. Citiem vārdiem, dispersijas analīze neprasa uzrādīt metriskas attiecības izdalīto grupu jeb pazīmes varianšu starpā.Tā ir viņas priekšrocība.

            Regresijas un korelācijas analīze pētī kvantitatīvu pazīmju sakarības. Atributīvām pazīmēm tā nav piemērota, jo neeksistē metriskas (izmērāmas) attiecības atributīvas pazīmes varianšu starpā, kas, lietojot regresijas un korelācijas analīzi, ir nepieciešams. Toties, pētījot kvantitatīvu pazīmju sakarības, regresijas - korelācijas analīze dod iespēju nevien novērtēt sakarību nozīmību, ko dod arī dispersijas analīze, bet arī aprēķināt sakarību modeli un noteikt sakarību ciešumu. Dispersijas analīze tādas iespējas nedod. Tādēļ, pētījot kvantitatīvu pazīmju sakarības, regresijas un korelācijas analīzei ir lielas priešrocības.

            Ja interesējošo rezultatīvo pazīmi vienlaikus ietekmē tiklab atributīvas kā kvantitatīvas faktorālas pazīmes, tad regresijas un korelācijas analīzi tiešā veidā nevar izmantot. Dispersijas analīze tiešā veidā ir lietojama, bet tā nedod iespēju izstrādāt skaitlisku modeli kvantitatīvo pazīmju sakarībām. Tādēļ dispersijas analīzes patstāvīgs lietojums šādā gadījumā ir maz efektīvs.

            Kovariācijas analīze zināmā mērā savieno dispersijas un regresijas analīzes īpašības. Tādēļ tā ir vispiemērotākā sakarību pētīšanas un modelēšanas metode, ja sakarībās kā faktori vienlaikus ieiet tiklab atributīvas, kā arī kvantitatīvas pazīmes.

            Atkarībā no uzdevuma satura lieto vienu no divām kovariācijas analīzes pamatformām.

            Ja pētījumā svarīgākās ir kvantitatīvās pazīmes, tad kovariācijas analīzē dominē regresijas analīzes algoritms un galīgos rezultātus iegūst modificēta regresijas vienādojuma veidā. Darba gaitā tiek izslēgta atributīvo pazīmju līdzietekme, kura, ja tai nepievērstu vērību, varētu izkropļot interesējošo kvantitatīvo pazīmju sakarības.

            Ja pētījumā svarīgākās ir atributīvās pazīmes, tad kovariācijas analīzes algoritmā dominē dispersijas analīzes metodes, un rezultātā iegūst dispersijas analīzei raksturīgus secinājumus. Tikai darba gaitā tiek izslēgta kvantitatīvo pazīmju līdzietekme, kura traucē pētīt atributīvo pazīmju ietekmi uz rezultatīvo pazīmi.

            Ekonomikas pētījumos parasti lielāka interese ir par kvantitatīvo pazīmju sakarībām. Tādēļ turpmākais kovariācijas analīzes apskats atbilst pirmai pamatformai. Otrai pamatformai varētu būt nozīme dažos socialoģijas pētījumos.

 

 

12.1.2.  Vienkārša kovariācijas analīzes uzdevuma  nostādne

 

            Kovariācijas analīzi ekonomikā bieži lieto, ja ir nepieciešams modelēt kvantitatīvas sakarības pēc vairāku gadu datiem. Atsevišķus gadus tad uzlūko par vienas atributīvas pazīmes (laika) variantiem.

            Pieņemsim, ka pēc 20 lauksaimniecības uzņēmumu viena gada datiem ir iegūts regresijas vienādojums, kurš atspoguļo minerālmēslojuma ietekmi uz graudaugu ražību    .

            Ja ir nepieciešams palielināt modeļa parametru statistisko nozīmību, piemēram, lai tos izmantotu kā normatīvus prognozēšanā, ir jāpalielina statistiskā kopa (datu apjoms), pēc kuras šie parametri aprēķināti. Tad, saskaņā ar lielā skaita likuma darbību, aprēķinātie parametri kļūst statistiski nozīmīgāki un stabilāki.

            Pētījumam izmantojamo datu apjomu var palielināt, ietverot analīzē lielāku uzņēmumu skaitu. Bet samērā bieži tas nav iespējams vai nu tādēļ, ka šajā nozarē vairāk uzņēmumu vienkārši nav, vai arī tādēļ, ka, palielinot kopu teritorijā, tā pārsniedz pieļaujamo iekšējo neviendabību. Tādā gadījumā apstrādājamo datu kopu var palielināt, ņemot datus par esošajiem uzņēmumiem nevis  par vienu, bet par diviem vai vairākiem gadiem. Katra uzņēmuma - gada datus uzlūko par patstāvīgu novērojumu.

            Piemēram, ņemot vienu gadu vecākus datus par iepriekš minētajiem 20 lauksaimniecības uzņēmumiem, iegūstam regresijas vienādojumu , kurš ir gan līdzīgs iepriekšējam, tomēr no tā atšķiras.

            Lai izveidotu šo pašu sakarību modeli pēc divu gadu datiem, var rīkoties dažādi. Trīs vienkāršākie paņēmieni ir šādi.

 

            1. Aprēķina regresijas vienādojumu par katru gadu atsevišķi, izskaitļo visu parametru vidējās vērtības un no tām sastāda ''vidējo'' vienādojumu. Tā rīkojas, ja uzdevuma risinājums neprasa matemātisku pamatojumu un precizitāti. Kā atrastais vienādojums atbilst vismazāko kvadrātu metodei, nav zināms.

            2. Abu divu gadu datus apvieno kopējā masīvā un apstrādā ar parastajām regresijas un korelācijas analīzes metodēm. Tā var rīkoties tad, ja visu mainīgo lielumu aritmētiskie vidējie laika gaitā ir maz mainījušies. Bet, ja vidējo lielumu izmaiņas ir lielas, tās būtiski ietekmē regresijas parametru vērtības, novedot pat pie statistiskiem paradoksiem. Paradokss izpaužas tā, ka, piemēram, regresijas koeficients, kurš aprēķināts pēc divu gadu kopējiem datiem ir ārpus variācijas apgabala, ko veido atsevišķu gadu koeficienti, piemērā mazāks par 8,28 vai lielāks par 9,72.

            3. Lai izvairītos no loģiski nepieņemamiem rezultātiem un vienlaikus saglabātu matemātisku pamatotību, minēto uzdevumu var risināt, izmantojot kovariācijas analīzi.

            Kovariācijas analīzes rezultātā iegūst vienu regresijas vienādojuma vidējo formu, kas modelē kvantitatīvo pazīmju sakarības pēc vairāku gadu datiem un tā saucamos gada efektus skaitlisku konstanšu veidā katram gadam atsevišķi. Šīs konstantes secīgi var pieskaitīt vienādojuma vidējās formas brīvajam loceklim. Tādējādi iegūst tik vienādojumu, cik ir analīzē izmantoto gadu. Šiem vienādojumiem ir viens un tas pats regresijas koeficients, bet atšķirīgi brīvie locekļi.

            Var aprēķināt virkni sakarību ciešuma radītāju un parametru izlases kļūdu.

            Citos uzdevumos datu masīva kvalitatīvās grupas var veidot teritoriāli areāli (novadi, rajoni), vai citādi kvalitatīvi atšķirīgas kopas (piemēram, lauksaimniecībā - statūtsabiedrības, zemnieku saimniecības, piemājas saimniecības).

 

 

12.1.3.  Kovariācijas analīzes ģeometriska interpretācija un būtība

 

            Kovariācijas analīzes būtību var uzskatāmi parādīt grafiskā attēlā (12.1. attēls).

           

Vienā korelācijas diagrammā ir iezīmēti divi korelācijas lauki, kuri atbilst divu gadu datiem un attēlo vienu un to pašu mainīgo sakarības, piemēram, mēslojums - ražība. Atbilstoši katram korelācijas laukam ir aprēķināta un iezīmēta attēlā regresijas taisne. Regresijas taisnēm abos gadījumos ir aptuveni vienādi leņķa koeficienti, jo faktora ietekme jeb saimnieciskā atdeve ir maz mainījusies.

            Tālāk pieņemam, ka otrajā gadā, salīdzinot ar pirmo, sakarā ar saimniecisko progresu, ir izmantotas ievērojami lielākas mēslojuma devas. Toties metereoloģiskie apstākļi ir bijuši neizdevīgāki. Tādēļ rezultatīvās pazīmes (ražības) vidējais lielums abos gados atšķiras maz. Apvienojot abu gadu datus vienā masīvā un pēc tiem rēķinot regresijas taisnes vienādojumu, iegūstam taisni, kuras leņķa koeficients ir būtiski mazāks nekā atsevišķo gadu taišņu leņķu koeficienti, veidojot statistisko paradoksu.

 

 

12.1. attēls. Divu korelācijas lauku apvienošanas problēma : 0 - bāzes gadā, 1 - pārskata gadā.

 

            Lai vidējo lielumu izmaiņas neietekmētu regresijas un korelācijas rādītājus, domās izdarām šādas darbības. Uzzīmējam uz caurspīdīga papīra katra gada korelācijas lauku atsevišķi. Pēc tam uzliekam vienu attēlu uz otra un pārbīdām vienu pret otru tā, lai, saglabājoties koordinātu asu paralelitātei sakristu abu korelācijas lauku viduspunkti, proti , kas aprēķināts pēc pārskata un  ,  kas aprēķināts pēc bāzes gada datiem. Tādā gadījumā, ja laika gaitā nebūs izmainījies   un   sakarību raksturs, abi korelācijas lauki pareizi uzklāsies viens uz otra, veidojot kopēju masīvu. Pēc šāda kopējā korelācijas lauka aprēķināta regresijas taisne pareizi atspoguļos reālās sakarības, novēršot statistiskos paradoksus un citas sakarību rādītāju nobīdes vidējo lielumu izmaiņu rezultātā. Pēdējo ietekmi atspoguļos speciāli rādītāji, t.s. gradāciju efekti, piemērā - gadu efekti.

            Šādu nostādni matemātiski realizē tā, ka kopējā masīvā neapvieno vis datu summas, kvadrātu un pāru reizinājumu summas   , bet gan noviržu, to kvadrātu un noviržu reizinājumu summas. Pie tam novirzes ņem nevis no kopējiem vidējiem, bet gan no attiecīgu gadu vidējiem.

Tādējādi par katru gadu atsevišķi aprēķina:

 

                      ,

 

kur   un  - attiecīgā gada vidējie, un pēc tam summē par visiem gadiem.

 

            No iegūtām kopsummām sastāda normālvienādojumu sistēmu, un to atrisina parastā kārtībā.   Šīs darbības izsaka kovariācijas analīzes būtību.

 

12.1.4. Kovariācijas analīzes veidi

 

            Kovariācijas analizes modeļus un līdz ar to analīzes veidus klasificē pēc :

            - analīzē iekļauto atributīvo pazīmju skaita, izšķirot vienas un vairāku atributīvo pazīmju
                kompleksus;

            - analīzē iekļauto kvantitatīvo pazīmju skaita, izšķirot vienkāršo un daudzfaktoru
                kovariācijas analīzi;

            - sakarību formas, izšķirot lineāro un nelineāro kovariācijas analīzi.

            Apstrādājot vienkopus vairāku gadu datus, iegūstam viena atributīvā faktora kompleksu. Vienīgais atributīvais faktors ir laiks ar tik gradācijām, cik ir ņemto gadu.

            Kvantitatīvās pazīmes ekonomikas pētījumos parasti ir jāņem vairākas, tādēļ visbiežāk ir jālieto daudzfaktoru kovariācijas analīze. Sakarību formu parasti izvēlās lineāru kā vienkāršāko un pietiekami tuvu īstajai reālai sakarību formai.

            Tā kā mums nav iespējams aplūkot visus kovariācijas paveidus, aplūkosim pēc mūsu domām vajadzīgāko - lineāru daudzfaktoru kovariācijas analīzi ar vienu atributīvo faktoru. Pieņemam, ka lasītājam ir zināma daudzfaktoru regresija un korelācija. Vienkāršo kovariācijas analīzi var saprast kā dauzfaktoru analīzes speciālu gadījumu, ja kvantitatīvo faktoru skaits ir viens.

 

 

12.2. Kovariācijas analīzes modelis un normālvienādojumu sistēma

 

12.2.1. Kovariācijas analīzes modelis

 

            Aplūkojam viena atributīva faktora lineāru kvantitatīvu daudzfaktoru kovariācijas analīzi. Interpretācijas vienkāršošanai pieņemam, ka atributīvais faktors ir laiks ar gadu gradācijām, kuras nav metriski samērojamas. Citos uzdevumos atributīvā pazīme var būt arī teritorijas, nozares vai jebkura cita pazīme.

            Tātad  pēc vairāku gadu datiem ir jāaprēķina daudzfaktoru regresijas vienādojums

 

             ,                                     (12.1)

kur     teorētiskais jeb aprēķinātais rezultatīvās pazīmes lielums,    

         faktorālās pazīmes,

         regresijas parametri, aprēķināti ar kovariācijas analīzi.

 

Vienādojumu (12.1) sauc par regresijas vienādojumu vidējo formu, bet dažreiz, lai uzsvērtu metodi, par kovariācijas vienādojumu.

            Lai labāk atklātu metodes specifiku, modelī parāda arī atributīvās pazīmes gradāciju (resp. gadu) efektus. Parasti tajā ietver arī neizskaidroto jeb gadījuma komponenti un faktorālās pazīmes izsaka novirzēs no vidējiem lielumiem. Tādā gadījumā ir jāaprēķina šādas izteiksmes parametri:

 

,        (12.2)

 

kur

i -- kopas vienības (saimniecības)  numurs,

j -- gradācijas (gada) numurs,

g -- faktora numurs; ja ir nepieciešams uzrādīt vispārīgā veidā

      divu aišķirīgu faktoru numurus, izmanto otru simbolu h ,

m -- faktoru skaits ( arī pēdējā faktora Nr;  g = m ).

Tādējādi:

 -- rezultatīvās pazīmes faktiskais lielums i vienībā j -jā gadā;

   -- rezultatīvās pazīmes kopējais vidējais; punkti indeksā nozīmē šo

           numuru trūkumu, faktoru indeksus uzrādīt nav vajadzīgs;

 --   g - faktora daudzfaktoru regresijas koeficients, kas aprēķināts ar        

            kovariācijas analīzi;

  -- j -tās gradācijas (gada) efekts, skaitliska konstante, ko aprēķina    

            katrai  gradācijai atsevišķi;

   -- rezultatīvās pazīmes faktiskā lieluma novirze no teorētiskā, i  -ai  

             vienībai j - jā gadā, tātad    .

             To sauc par analīzes atlikumu, gadījuma komponenti.

 

            Tā kā   katrai gradācijai (gadam) ir atšķirīgs, tad šādu modeļu (12.2) ir tik daudz, cik ir gradāciju (gadu). Tādēļ arī izteiksmes kreisajā pusē pie rezultatīvās pazīmes simbola    ir indekss j ;   j = 1 , ... , k.

 

 

12.2.2. Dažas kovariācijas modeļa īpašības

 

            Kovariācijas modeļa (12.2)  parametrus aprēķina tā, lai modelim būtu šādas īpašības.

 

            1. Neizskaidroto  noviržu algebriskā summa katras gradācijas (gada) ietvaros ir nulle.

                                                            .                                         (12.3)

 

Teorētiskās rezultatīvās pazīmes lielumus, kas ir noviržu  aprēķināšanas pamatā, rēķina pēc atsevišķu gradāciju (gadu) vienādojumiem.

            Ja teorētiskos lielumus rēķina pēc vienādojuma vidējās formas (12.1), tad nulles īpašības ir spēkā tikai visā daudzgradāciju (daudzgadu) teritoriālajā kopumā:

 

                          .                                                       (12.4)

 

            2.Katra faktora efektu summa visā kopumā (daudzgadu teritoriālajā kopumā) ir nulle.

 

                               (12.5)

 

kur

        k -- gradāciju (gadu) skaits,

       -- kopas vienību (saimniecību) skaits j -  gradācijā (gadā).

Summēšana pēc  i  nozīmē summēšanu pa vienībām atsevišķas gradācijas (gada) ietvaros; summēšana pēc  j - iepriešējo summu saskaitīšana visās gradācijās (gados).

            3. Gradāciju (gadu) efektu summa ir  nulle. Par svariem jāņem vienību (saimniecību) skaits katrā gradācijā (gadā):

 

                                                              (12.6)

            Ja vienību skaits visās gradācijās ir vienāds, svaru lietošana nav vajadzīga. Pašu gadu efektu summa ir nulle.

            Kovariācijas analīzes lietošanas priekšnoteikums prasa, lai kvantitatīvo faktoru un rezultatīvās pazīmes sakarību raksturs visās gradācijās (gados) saglabātos nemainīgs. Tādēļ pirms kovariācijas analīzes uzsākšanas  ir lietderīgi aprēķināt parastos daudzfaktoru regresijas vienādojumus par katru gradāciju (gadu) atsevišķi. Šādu vienādojumu atbilstošie regresijas koeficienti nedrīkst būtiski atšķirties. Atšķirību statistisko nozīmību var novērtēt ekspertīzes ceļā vai pārbaudot attiecīgās nulles hipotēzēs. Vienādojuma brīvie locekļi var atšķirties būtiski. Ja regresijas koeficienti atšķiras būtiski, tad sakarībām katras gradācijas (gada) ietvaros ir cits raksturs un nekāda metode nedod iespēju atrast kopēju sakarību modeli. Tad kovariācijas analīzes lietošana vispārīgā gadījumā nav pamatota.     Šo priekšnoteikumu neievēro, un kovariācijas analīzi tomēr lieto tad, ja ekspertīzes ceļā novērtē, ka atsevišķo gradāciju (gadu) vienādojumu koeficienti atšķiras nevis tādēļ, ka izmainījies sakarību raksturs, bet gan novērošanas un citu kļūdu rezultātā.

 

 

12.2.3. Kovariācijas analīzes normālvienādojumu sistēma

 

            Kovariācijas modeli  (12.2)  aprēķina tā, lai rezultatīvās pazīmes faktisko lielumu  noviržu kvadrātu summa no tās pašas pazīmes teorētiskajiem lielumiem būtu minimāla.

            Teorētiskos lielumus savukārt aprēķina, ņemot vērā gradāciju efektu    vai, kas ir tas pats, pēc atsevišķu gradāciju vienādojumiem.

            Tātad izdarot minimizāciju

 

 

simbola    vietā jāliek kovariācijas modeļa (12.2) labā puse, bez . Kā redzams visi mainīgie modelī ir izteikti novirzēs no gradāciju (gadu) vidējiem. Tālāk normālvienādojumu sistēmas izvedums ir analogs parastajam.

            Lai vienkāršotu pierakstu, noviržu, to kvadrātu un pāru reizinājumu summas apzīmē ar simbolu Q, izmantojot vajadzīgās norādes indeksu formā.

            Citiem vārdiem, kovariācijas analīzē atsevišķu gradāciju (gadu) datu masīvus apvieno, aprēķinot un summējot novirzes no šo gradāciju vidējiem lielumiem, tāpat aprēķina to kvadrātus un pāru reizinājumu summas, t. s. krossummas. Tādēļ par katru gradāciju atsevišķi ir jāaprēķina šādi lielumi.

            Rezultatīvās pazīmes katras gradācijas vidējie:

                                                 (12.7)

kur j - gradācijas (gada) indekss, i - novērojuma (saimniecības) indekss;  rēķinot gradācijas vidējos, tas zūd.

 

            Visu faktorālo pazīmju gadu vidējie:

                                              (12.8)

 

kur   g  - faktorālās pazīmes indekss; pavisam m faktorālo pazīmju, tātad   

              jāaprēķina šāds skaits vidējo;

        - vienību (saimniecību) skaits j - jā gradācijā.

 

            Noviržu kvadrātu summas visām gradācijām rezultatīvai pazīmei un visām

faktorālām pazīmēm:

                                            (12.9)

                                         (12.10)

 

            Noviržu    skaits ir  k  atbilstoši gradāciju skaitam, bet noviržu  

skaits ir  m k - atbilstoši gradāciju un faktoru skaita reizinājumam.

            Atsevišķu gradāciju jaukto noviržu reizinājumu summas:

                           (12.11)

                   (12.12)

           

            Tā kā      tad lielumus  h > g  patstāvīgi neizskaitļo.

 

            Tālāk atsevišķo gadu summas (12.9) - (12.12) summē pa visām gradācijām (gadiem):

 

                                                                              (12.13)

                                                        (12.14)

                                                          (12.15)

                                              (12.16)

kur z - dispersijas analīzē pieņemtais atlikuma (gadījuma) komponents, simbols.

            Ievērojot formulās (12.13) - (12.16) definētos simbolus, kuru saturs tālāk atklāts formulās (12.9) - (12.12), normālvienādojuma sistēmu kovariācijas analīzei var pierakstīt šādi:

 

     ...       ...       ...      ...       ...      ...      ...

     ...       ...       ...      ...       ...      ...      ...

                (12.17)

 

            Sistēmas koeficientu matrica ir simetriska pa galveno diagonāli, jo  tādēļ šos lielumus patstāvīgi izskaitļot nevajag.

            Sistēmu (12.17) matemātiski pierāda līdzīgi parastai normālvienādojumu  sistēmai, tikai teorētiskos lielumus definē kā aprēķinātus ar kovariācijas analīzi.

            Sistēmu (12.17) var atrisināt ar jebkuru paņēmienu. Kā parasti, var ieteikt izmantot inverso matricu, jo tās elementi atvieglo dažādu sakarību ciešuma un izlases kļūdu rādītāju izskaitļošanu.Sistēmas atrisinājums dod regresijas vienādojuma vispārīgās formas (12.1) koeficientus. Brīvais loceklis ir jāaprēķina atsevišķi ar šādu formulu:

 

                                                (12.18)

kur    

          visas daudzgradāciju (daudzgadu) kopas mainīgo vidējie lielumi.

 

 

12.2.4. Skaitļošanas darba vienkāršošana, izmantojot momentu metodes formulas

 

            Formulas (12.9) - (12.18) labi atklāj kovariācijas analīzei izmantojamās sākotnējās informācijas sagatavošanas loģiku. Tās izsaka šīs metodes būtību. Bet viņas nav ērtas praktiskam skaitļošanas darbam. Bez tam, ja vairāku gadu datus uzkrāj pakāpeniski dinamikas rindu veidā vai izmantojot automatizētas datu bankas, daudz ērtāk fiksēt sākotnējo datu, to kvadrātu  un pāru reizinājumu summas nekā attiecīgās noviržu kvadrātu un reizinājumu summas. Tādēļ darbam ļoti ērtas ir formulas, kas dod iespēju izskaitļot vajadzīgās noviržu kvadrātu un reizinājumu summas, izmantojot sākotnējo datu, to kvadrātu un reizinājumu summas. Vajadzīgās formulas iegūst, pareizinot ar kopas vienību skaitu  n  dispersijas momentu formulas abas puses un tāpat kovariācijas formulas abas puses.

           

            Atgādinam no statistikas teorijas zināmās momentu metodes formulas.

 

            Dispersija                                

 

            noviržu  kvadrātu summa          

 

 

 

            Aprēķini jāizdara par katru gadu atsevišķi. Tādēļ sekojošās formulas ir pierakstītas  j- jam gadam.

                                                  (12.19)

                                                  (12.20)

 

                                 (12.21)

                                (12.22)

 

            Formulu (12.19) - (12.22) pēdējos locekļus parasti sauc par korekcijas vai redukcijas locekļiem pārejai no vienas atskaites sistēmas uz otru un dažkārt apzīmē ar īpašu simbolu. Minētās formulas realizē pāreju no parastajām krossummām uz noviržu krossummām.

            Ja izmanto vairāku gadu datus, tad atsevišķo gadu summas (12.19) - (12.22) tālāk summē pa visiem gadiem saskaņā ar formulām (12.13) - (12.16), pēc tam sastādot normālvienādojumu sistēmu (12.17).

 

 

12.2.5. Kovariācijas analīzes piemērs un rezultātu interpretācija

 

            Pieņemam, ka pēc pārskata gada datiem ir aprēķināts šāds divu faktoru vienādojums

 

 

kas raksturo, kā graudaugu ražību   ietekmē tīrumu kvalitāte   un minerālmēslojumu devas     Aprēķiniem izmantotās krossummas ir šādas:

 

       ,

      

                

 

        n=20   (12.1. tabulas 7. aile).

 

 

 

 

 

12.1 tabula

 

Sakotnējās informācijas sagatavošana daudzfaktoru kovariācijas analīzei

 

Tabulā uzrādīto lielumu vienkāršoti simboli (skat.  formulas 19. -  22.)

Pirmais  (iepriekšējais)  gads

Otrais (pārskata)  gads

Noviržu

kvadrātu

Abi  gadi  kopā 

(abu gadu tieša apvienošana)

Summas, kvadrātu un pāru reizināju-mu summas

Redukcijas lielumi

Noviržu kvadrātu un reizināju-mu summas

(1. - 2. aile)

Summas, kvadrātu un pāru reizinā-jumu summas

Redukci-jas lielumi

Noviržu kvadrātu un reizinā-jumu summas

(4. - 5. aile)

Summas, kvadrātu un pāru reizinā-jumu summas

Redukci-jas lielumi

Noviržu kvadrātu un reizinā-jumu summas

(7. - 8. aile)

un reizinā-jumu summas kovariā-cijas analīzei

(6. + 9. aile)

Summas, kvadrātu un pāru reizinā-jumu summas

(4. + 7. aile)

Redukci-jas lielumi

Noviržu kvadrātu un reizinā-jumu summas

(11.- 12. aile)

1

2

3

4

5

6

7

8

9

10

11

12

13

-

-

      576  

-

-

666

-

-

-

1242

-

-

-

-

       800

-

-

800

-

-

-

1600

-

-

-

-

37,3

-

-

42

-

-

-

79.3

-

-

 17672

16588,8

  1083,2

23802.6

22177.8

1624.8

2708.8

41475

38564.1

2910.9

 33180

  32000

     1180

33180

32000

1180

2360.0

66360

64000

2360

74,95

69,5645

5,3855

106.969

88.2

18.769

24.1545

181.92

157.212

24.708

 23920

   23040

       880

27715.8

26640

1075.8

1955.8

51636

49680

1956

1126,6

1074,24

52,36 

1554.09

1398.6

155.49

207.85

2680.7

2462.3

218.4

1525,9

1492,0

    33,9

1753.61

1680

73.61

107.51

3279.5

3172

107.5

 

             Pieņemam, ka šādi aprēķini ir veikti jau otro gadu. Iepriekšējā gadā pēc to pašu saimniecību datiem ir iegūts analogs vienādojums:

 

.

 

Ir saglabātas arī aprēķinos izmantotās krossummas.

 

 

 

 

 

              n= 20 (12.1.tabulas 4. aile).

 

            Salīdzinot abus regresijas vienādojumus, redzam, ka attiecīgie regresijas koeficienti ir samērā līdzīgi. Pētīto faktoru ietekme uz ražību, acīmredzot, nav mainījusies. Lai noskaidrotu statistiski drošākus  šos ietekmes rādītājus, kurus tad varētu izmantot kā normatīvus, nolemjam tos aprēķināt, izmantojot vienlaikus abu gadu datus.

            Tā kā abu vienādojumu brīvie locekļi ir ievērojami atšķirīgi, abu datu masīvu tieša apvienošana, summējot uzrādītās summas, apmierinošus rezultātus parasti nedos. Lai pārliecinātos par teikto, izdarām tādus aprēķinus, summējot 12.1. tabulas 4. un 7. aili un rezultātus uzrādot 11. ailē. Sastādot no šīm summām normālvienādojuma sistēmu un to atrisinot, iegūstam

 

 

            Otrais regresijas koeficients dod statististisku paradoksu. Minerālmēslojuma ietekmes rādītājs pēc divu gadu datiem  6,53  ir lielāks, nekā abos šajos gados, ņemot tos atsevišķi: 6,23  un  6,14.

            Tādēļ datu masīvi ir jāapvieno, summējot nevis sākotnējās summas, bet noviržu kvadrātu un to reizinājumu summas. Citiem vārdiem, ir jālieto kovariācijas analīze. Sākotnējās informācijas sagatavošanai nepieciešamie aprēķini ir sakopoti 12.1. tabulā. Tās 4. un 7. ailē ir sākotnējo datu krossummas, 5. un 8. ailē ir   parādīti redukcijas locekļi saskaņā ar formulu ( 12.19 - 12.22) labo pušu pēdējiem locekļiem. Tos atņemot no pašām krossummām ( tabulas 4. un 7. aile ) izpildām visas formulās (12.19 - 12.22) prasītās darbības. Noviržu kvadrātu un reizinājumu summas (tabulas 6. un 9. aile) summējot pa abiem gadiem, izpildām formulās (12.13 - 12.16) paredzētās darbības (skat. tabulas 10. aili ). Pēc pēdējās ailes datiem arī tiek sastādīta normālvienādojuma sistēma kovariācijas analīzei.

                        

 ,                      

 

 

            To atrisinot iegūstam, ka   =0,547785,    =6,16712.                   

Lidz ar to kovariācijas vienādojums novirzēs no vidējiem ir šāds:

 

 

 

            Brīvo locekli aprēķina pēc formulas (12.18), vispirms izskaitļojot vispārējos vidējos lielumus:

 

 

 

            Līdz ar to

 

 .

 

            Viss vienādojums saskaņā ar modeli ir šāds:

 

 .

   

 

 

 

12.2.6. Gradāciju efekti un gradāciju  vienādojumi

 

            Regresijas vienādojuma vidējā forma labi atspoguļo sakarības vispārējo raksturu. Šī vienādojuma koeficienti raksturo faktoru vidējo ietekmi uz rezultatīvo pazīmi. Vienādojuma vispārīgo formu var izmantot normatīvajā analīzē un prognozēšanā.

             Analīzes vajadzībām atsevišķu gradāciju (piemērā - gadu) ietvaros vienādojuma vispārīgā  forma nav piemērota. Ja pēc tās izskaitļo teorētisko ražību saimniecībām, tad vienam gadam iegūstam sistemātiski palielinātus, bet otram  samazinātus lielumus. Tāda parādība izskaidrojama ar to, ka atsevišķu gadu vidējā ražība  nesakrīt ar divu gadu vidējo ražību. No matemātikas viedokļa vienādojuma vidējā forma nenodrošina noviržu   nulles īpašību, summējot atsevišķu gadu ietvaros (skat. 12.4.). Tādēļ analīzes vajadzībām izmanto  gradāciju (piemērā - atsevišķu gadu)  vienādojumus, kuri no vidējās formas atšķiras ar t. s. gradācijas ( piemērā - gada ) efektu.

 

            Gradācijas efektu j - jai gradācijai    aprēķina ar šādu formulu  :

 

           (12.23)

 

kur

-

vienas  j  - tās gradācijas (gada) vidējie lielumi

pirmajā indeksā uzrādītajiem mainīgiem lielumiem;

 -

vispārīgie vidējie visās gradācijās.

 

            Aprēķināsim gada efektus pēc formulas (12.23) iepriekš aplūkotajam  piemēram.

 

;

 

 

            Tā kā aplūkojam tikai divus gadus un saimniecību skaits abos gados ir vienāds, tad gadu efekti skaitliski sakrīt, bet atšķiras ar zīmēm.

            Gadu efektus secīgi pieskaitot regresijas vienādojuma vidējai formai, iegūstam atsevišķu gadu vienādojumus. Vidējā forma bija :

 

 

 

            Gadu vienādojumi:

 

           

 

 

            Pēc šiem vienādojumiem aprēķinātās teorētiskās ražības nodrošina pozitīvo un negatīvo noviržu līdzsvarošanos katra gada ietvaros, skat. formulu (12.4). Tādēļ šie vienādojumi ir piemēroti analīzes vajadzībām.

            Efekti  raksturo katra gada specifisko apstākļu ietekmi uz ražību, kuru rezultātā  tā novirzās no vairāku gadu vidējās ražības.

 

12.3. Kovariācijas  sakarību  ciešuma  rādītāji

 

12.3.1. Sakarību ciešuma rādītāju veidi

 

            Tā kā kovariācijas analīzē vienlaikus izmanto atributīvus un kvantitatīvus faktorus, tad, vadoties no pētījuma satura, var izšķirt vairākus sakarību ciešuma rādītājus:

 

            1. Kvantitatīvajām pazīmēm ar rezultatīvo pazīmi, pēc tam kad atributīvo pazīmju līdzietekme ir izslēgta.

            2. Atributīvajām pazīmēm ar rezultatīvo pazīmi, pēc tam, kad kvantitatīvo pazīmju līdzietekme ir izslēgta.

            3. Visām faktorālām pazīmēm un pētītai rezultatīvai pazīmei.

 

            Ja pētījumā svarīgākās ir kvantitatīvās pazīmes, tad parasti izskaitļo tikai pirmās un dažreiz vēl trešās grupas rādītājus.

No formas viedokļa sakarību ciešuma rādītājus kā parasti iedala trīs grupās.

 

            1. Bāzes rādītāji, kurus izmanto citu rādītāju izskaitļošanai. Te jāpieskaita neizskaidrotā, izskaidrotā un kopējā rezultatīvās pazīmes noviržu kvadrātu summa, neizskaidrotā, izskaidrotā un kopējā rezultatīvās pazīmes dispersija. Šo lielumu skaitliskās vērtības ir atkarīgas no rezultatīvās pazīmes mērvienībām, bet pašiem šiem rādītājiem nav pēc satura interpretējamas mērvienības (formāli sākotnējo datu mērvienības kvadrāts). Bāzes sakarību ciešuma rādītājus izmanto nosaukto un nenosaukto sakarību ciešuma rādītāju izskaitļošanai.

            2. Nosauktie sakarību ciešuma rādītāji ir vērtējuma standartkļūda un robežkļūda. Vērtējuma standartkļūdu atrod, aprēķinot kvadrātsakni no neizskaidrotās dispersijas, bet robežkļūdu  -  pareizinot standartkļūdu ar varbūtības koeficientu. Vērtējuma standartkļūdai un robežkļūdai ir rezultatīvās pazīmes mērvienība.

            3. Nenosauktie sakarību ciešuma rādītāji ir determinācijas un korelācijas koeficienti.

 

 

12.3.2. Neizskaidrotā noviržu kvadrātu summa un vērtējuma standartkļūda

 

            Visu sakarību ciešuma rādītāju pamatā, tāpat kā daudzfaktoru regresijas un korelācijas uzdevumos, ir neizskaidrotā  noviržu kvadrātu summa. Tās definīcijas formula ir šāda:

 

                                       (12.24)

kur

             rezultatīvās pazīmes   teorētiskais lielums  i - tai kopas vienībai     

                 j - jā  gradācijā (gadā).

            Tātad    ir jāaprēķina pēc atsevišķu gradāciju (gadu) vienādojumiem. Noviržu kvadrātus summē vispirms katra gada ietvaros, pēc tam pa visiem gadiem. Ir izslēgta visa variācija, kas saistīta tiklab ar kvantitatīviem, kā arī ar kvalitatīvajiem faktoriem, kuri atspoguļoti modelī.

 

 

 

            Formula (12.24) izsaka aprēķināmā rādītāja būtību, bet nav ērta praktiskai izskaitļošanai. Praktiskam darbam ērtāka ir šāda pārveidota formula, analoga kā

lieto regresijas analīzē:

 

                              (12.25)

 

kur

   rezultatīvās pazīmes noviržu  no gradāciju (gadu) vidējiem                                                    lielumiem  kvadrātu summa;

 noviržu no gradāciju (gadu) vidējiem lielumiem reizinājumu                                       summas; nultā pazīme šeit visur ir rezultatīvā,

  regresijas koeficienti. Tie ir jāaprēķina ar kovariācijas analīzi.

 

            Piemēram vajadzīgās summas  var atrast 12.1. tabulā, bet regresijas koeficienti   un   bija aprēķināti 2.5. paragrāfā.

Līdz ar to

 

.

           

            Neizskaidroto dispersiju aprēķina, dalot šo noviržu kvadrātu summu ar novērojumu skaitu visā kompleksā . Vērtējuma standartkļūdu atrod, aprēķinot kvadrātsakni no neizskaidrotās dispersijas:

                                                              (12.26)

                                                            (12.27)

 

            Piemērā                       

                                               

 

            Tātad aprēķinātie atsevišķu gadu vienādojumi neizskaidro graudaugu ražības variāciju vidēji par 3,0 cnt/ha. Vērtējuma intervāls    ir saistīts ar varbūtību, kas saistās ar standartnovirzi. Lielas izlases gadījumā tā ir 0,68. Ja ir nepieciešams izveidot vērtējuma intervālu, kurš ir saistīts  ar citu varbūtību, jāatrod vērtējuma robežķūda, pareizinot standartkļūdu ar varbūtības koeficientu  Pēdējo, atbilstoši esošajam brīvības pakāpju skaitam un izvēlētai varbūtībai, nolasa Stjudenta tabulās.

            Var aprēķināt arī vērtējuma standartnovirzi no vidējā vienādojuma, bet to dara retāk.

 

 

 

 

 

 

 

12.3.3. Determinācijas un korelācijas koeficienti

 

            Determinācijas koeficientu aprēķina parastā kārtībā, dalot izskaidroto dispersiju ar visu dispersiju. Korelācijas koeficientu atrod, aprēķinot kvadrātsakni no determinācijas koeficienta.

            Izskaidroto dispersiju  parasti neaprēķina tieši, bet to atrod, atskaitot no kopējās dispersijas neizskaidroto dispersiju.

            Kovariācijas analīzē aprēķina vairākus determinācijas un korelācijas koeficientus. Viņi atšķiras ar to, ko ņem par visu jeb kopējo dispersiju determinācijas attiecībā (tāpat arī aprēķinot izskaidroto dispersiju).

            Ja interesē kvantitatīvo faktoru sakarību ciešums ar rezultatīvo pazīmi pēc tam, kad kvalitatīvā faktora (gradāciju) ietekme ir izslēgta, tad kopējo dispersiju (variācijas bāzi) aprēķina kā atsevišķu gradāciju dispersiju vidējo. Citiem vārdiem, ņem rezultatīvās pazīmes indviduālo datu novirzes nevis no kopējā, bet no atsevišķu gradāciju (gadu) vidējiem lielumiem. Starpgradāciju (gadu) variācija paliek ārpus pētījuma ietvariem.  Šādu nostādni realizē formulas

 

                                                         (12.28)

un                                                                (12.29)

 

            Skaitliskajam piemēram atbilstošā dispersija  bija izskaitļota iepriekš, bet   

 

Līdz ar to          

                        

                        

 

            Divu pētīto kvantitatīvo faktoru ietekme graudaugu ražības variāciju izskaidro aptuveni par 87% pēc tam, kad gadu, resp., meteoroloģisko faktoru ietekme ir izslēgta (determinācijas koeficients).

            Determinācijas un korelācijas koeficientus dažreiz ērtāk izskaitļot, izmantojot  nevis dispersijas, bet noviržu kvadrātu summas.

 

 Tā kā       

 

tad           .                                                                                                     (12.30)

 

  Piemērā                

 

 

            Ja pētījuma ietvaros interesē noteikt visu faktoru (kvantitatīvo un atributīvo) sakarību ciešumu ar rezultatīvo pazīmi, tad kopējo dispersiju aprēķina, ņemot indviduālo datu novirzes ap visa kompleksa rezultatīvās pazīmes kopējo vidējo lielumu jeb daudzgadu vidējo. Citādi formulas ir analogas iepriekšējām.

                                                                                                                     (12.31)

 vai                                                                                                              (12.32)

 

            Attiecīgo korelācijas koeficientu atrod, aprēķinot kvadrātsakni no determinācijas koeficienta:

 

                                                                                                                  (12.33)

 

            Skaitliskajam piemēram vajadzīgo   var nolasīt 12.1. tabulā, bet

 kā iepriekš.

 Lidz ar to   

                                                                                

                                                                                     

 

            Tā tad kvantitatīvo faktoru darbība un gadu īpatnības piemērā minētajās saimniecībās izskaidro ap 88% no graudaugu ražības variācijas. Attiecīgais daudzfaktoru korelācijas koeficients 0,937 rāda, ka sakarība  ir ciešas.

 

 

12.4. Izlases kļūdas un nulles hipotēžu pārbaude

 

12.4.1. Regresijas koeficientu izlases kļūdas

 

            Kovariācijas analīzei var izstrādāt visu modeļu parametru un teorētisko lielumu izlases kļūdu vērtēšanas sistēmu  tāpat kā parastās regresijas un korelācijas gadījumā. Īsi aplūkosim tikai regresijas koeficientu izlases kļūdas, jo tās parasti visvairāk interesē, noskaidrojot atklāto sakarību statistisko nozīmību. Tā kā  kopējam un gradāciju vienādojumiem koeficienti sakrīt, vērtējam tikai kopējā vienādojuma koeficientus.

            Regresijas koeficienta standartkļūdas formulas kovariācijas analīzei izveido līdzīgi kā parastās regresijas gadījumā. Tā kā  praktiskai lietošanai ir ērtāka formula, ka satur inversās matricas elementu, minēsim to:

                                                                                                                     (12.34)

kur      --  g -tā faktora regresijas koeficienta standartkļūdas kvadrāts;

            --  visu faktoru neizskaidrotās dispersijas nenobīdīts vērtējums.      

 

            Ja ir zināma parastā neizskaidrotā dispersija, tad 

                                                 

 

            (m -- faktoru skaits,  k -- gradāciju, resp., gadu skaits)

 -- normālvienādojumu sistēmas (12.7) koeficientu inversās matricas diagonālelements, kurš atrodas  g -jā rindiņā un stabiņā.

 

            Analizējamam skaitliskajam piemēram normālvienādojuma sistēma bija sastādīta  12.2.4. paragrafā. Tās koeficientu matrica ir

                                   .      

 Ja sistēma tika atrisināta ar inversās matricas palīdzību, tad kā starprezultāts bija jāfiksē šī matrica:

                                  .       

             Inversās matricas atrašana, īpaši ja tā ir liela, jāveic, izmantojot lielu zīmīgo ciparu skaitu. Izdarāmās darbības ir tādas, ka to rezulttātā bieži samazinās  zīmīgo ciparu skaits, kas ved pie skaitļošanas kļūdu uzkrāšanās..

            Tālāk koriģējam neizskaidroto dispersiju:

 

                         

            Līdz ar to ir  visi sākotnējie dati regresijas koeficientu standartkļūdu aprēķināšanai ar formulu (12.34):

 

 

            Regresijas koeficientu standartkļūdas izmanto attiecīgo robežkļūdu un vērtējumu robežu aprēķināšanai. Robežkļūdu atrod, standartkļūdu pareizinot ar t koeficientu, kas atbilst attiecīgajam brīvības pakāpju skaitam un izvēlētai varbūtībai. Piemērā mums ir  n - m - k = 40 - 2 - 2  = 36  brīvības pakāpes. Ja izvēlamies intervāla drošības varbūtību  0,95, tad  t  koeficients pēc Stjudenta tabulām ir  2,028.  

Līdz ar to                     

 

 

 

 

 

 

            Regresijas koeficientu vērtējumu robežas atrod no pašiem koeficientiem atskaitot un tiem pieskaitot robežkļūdas.

 

 

            Ar varbūtību  0,95  var apgalvot, ka ģenerālkopā, no kuras ir ņemta izlase, tīrumu kvalitātes nosacīti tīrā papildus ietekme uz  graudaugu ražību nav mazāka par  0,401  cnt/ha uz vienu balli un nav lielāka par 0,695  cnt/ha uz vienu balli. Tāpat minerālmēslojuma papildus ietekme nav mazāka par  4,72  un lielāka par  7,62 cnt uz   1  cnt  mēslojumu tīrvielās, rēķinot abus rādītājus uz  1  ha.

 

 

12.4.2. Svarīgāko nulles hipotēžu pārbaude

 

            Nulles hipotēzi par regresijas koeficientu var pārbaudīt, aprēķinot empīrisko  t  attiecību                                                                                                

                                                                   (12.35)

un to salīdzinot ar  t  - sadalījuma kritisko robežvērtību, ņemot vērā vajadzīgo varbūtību  un  n - m -k  brīvības pakāpes.

 

            Piemēram:

                                                                                                               

                               

                                                                                                                     

 

            Ja saglabājam iepriekš lietoto varbūtību  0,95,  tad pie n - m - k  = 36      

brīvības pakāpēm  t  =  2,028.  Abas empīriskās   t  attiecības ievērojami pārsniedz šo robežvērtību. Tātad nulles hipotēzes par abiem regresijas koeficientiem var noraidīt ar varbūtību, kas ir ievērojami augstāka par 0,95. Abi pētītie faktori šajās sakarībās ir statistiski nozīmīgi.

            Nulles hipotēzi par daudzfaktoru korelācijas koeficientu lietderīgi pārbaudīt,izmantojot  F  kritēriju. To parasti dara tad, ja pietiek pārbaudīt visa vienādojuma statistisko nozīmību. Mazāk atbildīgos uzdevumos tā var rīkoties, ja nav aprēķināta normālvienādojumu sistēmas koeficientu inversā matrica. Tādā gadījumā grūti izskaitļot regresijas koeficientu standartkļūdas. Ja turpretī nulles hipotēzes par regresijas koeficientiem ir pārbaudīts un vismaz viens no tiem ir statistiski nozīmīgs, tad statistiski nozīmīgs būs arī daudzfaktoru korelācijas koeficients.. Tādēļ tā nozīmību var arī nepārbaudīt.

 

 

 

 

 

 

            Daudzfaktoru korelācijas koeficienta empīrisko  F attiecību aprēķina ar formulu

 

                                                    (12.36)

 

Piemēram:       

 

            Ja izmantojam agrāk lietoto varbūtību   0,95,  tad kritiskā  F robežvērtība pie          un       brīvības pakāpēm ir 3,3. Empīriskā  F  attiecība tālu pārsniedz kritisko. Tādēļ nulles hipotēzi par daudzfaktoru korelācijas koeficientu var noraidīt ar varbūtību, kas ir daudz augstāka par  0,95.  Pētītās sakarības kopumā ir statistiski nozīmīgas.