Ievads daļas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16_pielikums

15. Neparametriskās statistikas metodes

 

Ja statistikas datus grib izmantot kādu likumsakarību noskaidrošanai un lēmumu pieņemšanai, tad gandrīz vienmēr savāktie dati ir jāuzskata par izlasi no plašākas ģenerālkopas. Izplatītākās metodes, kuras lieto izlases teorijā un praksē, statistiko hipotēžu pārbaudē un statistisko  lēmumu pieņemšanā, paredz, ka pētāmā objekta vienības ģenerālkopā pēc interesējošās pazīmes veido normālu vai tam tuvu sadalījumu. Patiešām liela daļa statistikas objektu, ar kuriem sastopamies tautsaimniecībā, socioloģijā, preču kvalitātes pētījumos, inženierzinātnēs u.c., veido normālam tuvu sadalījumu vai tā modifikāciju - logaritmiski normālu sadalījumu. Tad parastās metodes ir nevien pamatotas, bet arī efektīvas.

Lai statistikas vērtējumus un secinājumus padarītu drošākus tajos gadījumos, kad pētāmā objekta vienību sadalījums būtiski atšķiras no normālā sadalījuma, apmēram no šī gadsimta vidus, bet īpaši tā pēdējā ceturtdaļā zinātniski ir veltījuši lielas pūles tādu metožu izstrādei, kuru lietošana neparedz īpašus priekšnoteikumus par sadalījumu raksturu. Visas šīs metodes kopā veido neparametriskās statistikas  metodes jeb neparametrisko statistiku.

Ja neparametriskās metodes saprot plašā nozīmē, tad pie tām pieder arī virkne aprakstošās jeb empīriskās statistikas metožu un rādītāju, kuri raksturo statistiskā objekta vienību sadalījumu pēc vienas pazīmes vai vairāku pazīmju sakarības un visbiežāk balstās uz izlases vienību (novērojumu) ranžēšanu. Te pieder, piemēram, kvantiles (mediāna, kvartiles, kvintiles, deciles) un pamatojoties uz tām izveidotie rādītāji, rangu korelācijas koeficienti, kontingences koeficienti u.c.

Par neparametriskās statistikas metodēm šaurā nozīmē apzīmē specifiskas analītiskās statistikas metodes, kuras izmanto statistisko hipotēžu pārbaudei, vērtējumu intervālu noteikšanai un lēmumu pieņemšanai tādos apstākļos, kad pētāmā objekta vienību sadalījums nav zināms, tātad var būt jebkurš, un īpaši tad, ja ir zināms, ka tas ievērojami atšķiras no normālā sadalījuma.

Speciālos izdevumos neparametriskās statistikas metodes aplūko g.k. šaurā izpratnē, vispirms kā specifiskas statistisko hipotēžu pārbaudes  metodes. Tomēr uzskatījām par lietderīgu šajā darbā ietvert arī dažas aprakstošās (empīriskās) metodes, kuras var vērtēt kā sagatavošānās posmu, lai studētu neparametriskās statistikas metodes šaurā nozīmē.

Klasisko jeb parametrisko statistikas metožu lietošanā ir izveidojušās noteiktas tradīcijas. Katra raksturīga uzdevuma tipa risināšanai parasti ieteic tikai vienu metodi, kura vislabāk sevi ir attaisnojusi. Alternatīvas metodes mācību grāmatās parasti nemaz neuzrāda. Neparametriskajā statistikā turpretīm daudzu uzdevumu risināšanai piedāvā dažādas metodeas, koeficientus un kritērijus, kuru savstarpējās priekšrocības un trūkumi ir tikai daļēji noskaidroti. Visbiežāk šos kritērijus un paņēmienus sauc to izstrādātāju vārdos.

Neparametriskās statistikas metodes ir saistītas ar daudz un plašu matemātisko (skaitļošanas) tabulu lietošanu. Tādēļ vajadzīgos gadījumos izmantosim mazus izvilkumus no šim tabulām, parādot to lietošanu, un uzrādīsim vienu vai divas grāmatas, kurās šīs tabulas iespiestas samērā pilnīgā veidā.

Šī nodaļa sastāv no divām daļām.

Pirmā daļā aplūkota empīrisko datu apstrāde ar neparametriskām metodēm bez rezultātu izvērtēšanas ar varbūtību teorijas palīdzību. (15.1. iedaļa).

Otrā daļā (tālākās iedaļas) satur ievadu neparametriskajās statistikas metodēs šaurā nozīmē: nulles hipotēžu pārbaudi, neparametrisko vērtējumu iegūšanu ar skaitli (punktu) un ar intervālu raksturīgiem uzdevumu tipiem.

 

 

 

 

 

 

15.1. Variācijas rindas neparametriska apstrāde

 un neparametriski rādītāji

 

15.1.1. Variācijas rinda un tās novērtēšana

 

Savākto statistikas datu apstrādi sāk ar grupēšanu. Grupējot kopas vienības pēc vienas pazīmes, iegūstam sadalījuma rindu, bet, ja šī pazīme ir nepārtraukta - intervālu variācijas rindu, kā sadalījumu rindu paveidu.

 

15.1. tabula

 

Latvijas iedzīvotāju sadalījums pēc vecuma 1995.g. sākumā

 

Vecums,

Skaits

Īpatsvars, %

gadi

tiešais

uzkrātais

tiešais

uzkrātais

0 - 4

148 220

148 220

5,86

5,86

5 - 9

192 968

341 188

7,63

13,49

10 - 14

183 512

524 700

7,25

20,74

15 - 19

165 484

690184

6,54

27,28

20 - 24

175 024

865 208

6,92

34,20

25 - 29

173 431

1 038 639

6,85

41,05

30 - 34

189 966

1 228 605

7,51

48,56

35 - 39

186 908

1 415 513

7,39

55,95

40 - 44

167 865

1 583 378

6,64

62,59

45 - 49

150 683

1 734 061

5,96

68,55

50 - 54

155 150

1 889 211

6,13

74,68

55 - 59

163 112

2 052 323

6,45

81,13

60 - 64

139 488

2 191 811

5,51

86,64

65 - 69

128 937

2 320 748

5,10

91,74

70 - 74

88 500

2 409248

3,50

95,24

75 -79

48 200

2 457448

1,91

97,15

80 - 84

43 813

2 501261

1,73

98,88

85 - 89

21118

2 522 379

0,83

99,71

90 - 94

6303

2 528 682

0,25

99,96

95 - 99

636

2 529 318

0,03

99,99

100 un

vairāk

145

2 529463

0,01

100,00

 

Kopā

2 529463

-

100

-

 

 

Datu avots: Latvijas demogrāfijas gadagrāmata 1995. - R.: VSK, 1995. - 21. - 22 lpp.

                   

1.1. Uzdevums.

15.1. tabulā ir parādīts Latvijas iedzīvotāju sadalījums pēc vecuma. Jāatzīme, ka demogrāfiskajā statistikā reģistrē pilnus nodzīvotos gadus, bet nodzīvotos sešus un vairāk mēnešus uz augšu nenoapaļo. Tādēļ uzrādītie vecuma intervāli īstenībā ir 0 - 4,99; 5 - 9,99 utt. ar centriem 2,5, 7,5 u.t.t. gadi (nevis 2; 7; 12 u.t.t gadi).

 

Lai labāk uztvertu variācijas rindas raksturu, to attēlo ar histogrammu, skat. 15.1. attēlu.


 

 

 

 

 

 

15.1. attēls. Latvijas iedzīvotāju sadalījums pēc vecuma 1995.g. sākumā, procentos.

 

 

 

 

 

 

 
 



Novērtējot šo sadalījumu, ir redzams, ka tas ļoti būtiski atšķiras no normālā sadalījuma. Nav viena modālā vecuma intervāla ar vislielāko biežumu, ap kuru koncentrētos citi intervāli ar lieliem biežumiem. Vāji izteikti ir trīs submodālie intervāli: 5 -15 g., 30 - 35 g. un 55 - 60 g . Ļoti tuvināti vērtējot, no 0 līdz 60 g. vecumam, iedzīvotāju sadalījums pēc vecuma ir gandrīz vienmērīgs, tālāk - vienpusēji dilstošs.

Šādam sadalījumam, tāpat kā iebkuram nepārtraukta lieluma sadalījumam, var izrēķināt parastos raksturotājus - aritmētisko vidējo, standartnovirzi u.c., bet to saturs ir ierobežots.

Aritmētiskais vidējais un standartnovirze ir normālā sadalījuma parametri, no šejienes termins - parametriskā statistika.

Ja sadalījums ir tuvs normālam, tad aritmētiskais vidējais rāda sadalījuma centrālo tendenci: variantu vai intervālu ap kuru grupējas vislielākie biežumi. Latvijas iedzīvotāju sadalījumam pēc vecuma nekāda centrālā tendence nav vērojama.

Ja aritmētisko vidējo tomēr izrēķina, var teikt, ka tas raksturo sadalījuma novietojumu uz skaitļu ass jeb svešvārdā - lokāciju. Ja histogrammu izgatavotu no materiāla ar zināmu masu, tad punktā, kurš atbilst aritmētiskajam vidējam, atbalstītais ķermenis varētu saglabāt līdzsvaru. Tāda interpretācija ir mazāk izteiksmīga nekā normālā sadalījuma gadījumā, kad aritmētiskais vidējais rāda centrālo tendenci.

Latvijas iedzīvotāju vidējo vecumu  aprēķinājām pēc sīkāka grupējuma, nekā parādīts 15.1. tabulā. Latvijas demogrāfijas gadagrāmatā 1995. ir uzrādīts iedzīvotāju skaits  vienu gadu lielos vecuma intervālos no 0 līdz 64.g. vecumam, tālāk izmantojot piecu gadu lielus intervālos. Pēc šāda grupējuma ieguvām  vidējo iedzīvotāju vecumu 37,33 gadi  ar standartnovirzi 22,42 gadi. Pēc pēdējās 1989.g. tautas skaitīšānas datiem iedzīvotāju vidējais vecums bija 36,3 gadi. Tas nozīme, ka nepietiekamas dzimstības rezultātā 1990. - 1995.g. laikā ir notikusi iedzīvotāju novecošanās par vienu gadu.

Ja kopas vienību sadalījums krasi atšķiras no normālā sadalījuma, šādu sadalījumu var raksturot ar neparametriskiem rādītājiem, kuri dažkārt ir izteiksmīgāki nekā parametriskie.

 

15.1.2. Mediāna

 

Rādītājs, kurš interpretācijas iespēju ziņā var konkurēt ar aritmētisko vidējo, ir  mediāna.

Mediānas un daudzu citu neparametrisko rādītāju aprēķināšana balstās uz kopas vienību sakārtošanu jeb ranžēšanu pēc aplūkojomās pazīmes.

Pirms aprēķināt Latvijas iedzīvotāju vecuma mediānu pēc 15.1. tabulas datiem, izmantosim vienkāršāku piemēru.

 

1.2. Uzdevums.

Pieņemsim, ka ir dati par 10 cilvēku vecumu: 5; 37; 4; 74; 40; 22; 27; 14; 1; 31 gads. Ja šos vecumos (līdz ar to cilvēkus, kā šīs īpašības nesējus) sakārto pazīmes augošā (retāk - dilstošā) secībā un sanumurē sākot ar vienu, tad piešķirtie kārtas numuri ir rangi (15.2. tabula).

 

                                                                                                            15.2. tabula

 

Kopas vienību tieša ranžēšana

 

Vecums,

gadi

1   4   5   14   22  27   31   37   40   74

Rangs

1.   2.  3.   4.   5.    6.    7.    8.    9.  10.

 

Mediāna ir tā pazīmes nozīme (vecums), kura ranžētu rindu dala uz pusēm: pa abām pusēm no mediānas ir vienāds novērojumu skaits. Ja kopējais novērojumu skaits ir nepārskaitlis, mediānu var nolasīt tieši. Ja tas ir pārskaitlis, ņem divu centrā esošo novērojumu vidējo:

 

                                  (gadi).

 

Ja kopas vienību ir daudz (kā 15.1. tabulā), visu to ranžēšana bez datora nav iespējama un nav arī vajadzīga. Lai atrastu medianu pēc intervālu variācijas rindas, vispirms ir jāatrod mediānas intervāls.

Mediānas intervāls ir tas, kurā uzkrāto biežumu summa (15.1. tabulas 3. aile) pirmo reizi pārsniedz pusi no visa kopas vienību skaita. Uzdevumā tas ir vecuma intervāls 35 - 39 gadi (1415513 > 2529463:2). Vēl vieglāk mediānas intervālu atrast pēc uzkrātajiem relatīvajiem biežumiem (5.aile). Mediānas intervāls ir tas intervāls, kurā uzkrāto relatīvo biežuma summa pirmo reizi pārsniedz 50%.

Pašu mediānu mediānas intervāla ietvaros atrod ar šādu interpolācijas formulu, pieņemot, ka vienību sadalījums intervāla ietvaros ir vienmērīgs:

 

                          ,                                                              (15.1)

kur:

             -  mediānas (2.kvartiles) intervāla apakšējā robeža;

              -  mediānas intervāla lielums (garums);

             - kopējais vienību skaits variācijas rindā, arī n;

             - uzkrātais biežums intervālā, kas atrodas pirms mediānas intervāla;

             - mediānas intervāla vienību skaits.

 

Izdarot ievietojums pēc 15.1. tabulas datiem (iedzīvotāju skaits noapaļots tūkstošos), iegūstam:

 

                       .

Ja relatīvie biežumi ir uzrādīti ar pietiekami daudziem zīmīgajiem cīpariem, mediānu var izskaitļot arī pēc tiem:

 

                      .

 

Mediānai vienmār jāatrodas mediānas intervāla ietvaros, piemērā - intervālā no 35 līdz 39,99 gadi.

Tātad Latvijas iedzīvotāju vecuma mediāna 1995.g. bija gandrīz 36 gadi. Tas nozīmē, ka puse iedzīvotāju bija  jaunāki, bet puse - vecāki par šo vecumu. Tādējādi mediānai ir skaidra saturiska interpretācija jebkura sadalījuma gadījumā.

Tā kā mediānu  negrupētu datu gadījumā nosaka tikai viena sakārtotas rindas vidū esošā vienība, bet grupētu datu gadījumā - mediānas intervāls, mediānas lielumu neietekmē krasi atšķirīgas vienības (artefakti)1, ja tādas ir statistiskajā kopā.

 

 

 

 

____________________

1 Krastiņš O. Ievads stabīlo vērtējumu metodēs. - R.: LVU, 1987. -25 lpp.

            Mediānu tāpat kā visus citus neparametriskos rādītājus var aprēķināt arī tad, ja kopas sadalījums ir normāls vai tuvs tam. Tādēļ neparametriskie rādītāji ir universālāki nekā parametriskie.

Tomēr neparametrisko rādītāju lietošanu parametrisko rādītāju vietā, kad ir pamatoti lietot arī parametriskos, nevar ieteikt tādēļ, ka neparametriskie rādītāji ir mazāk efektīvi. Piemēram, lai sasniegtu vienādu izlases kļūdu, rēķinot mediānu, jāņem 1000 vienību, bet, rēķinot aritmētisko vidējo - tikai 637. Atšķirību var izskaidrot ar to, ka, rēķinot aritmētisko vidējo, ņem vērā katras kopas vienības tiešo pazīmes vērtību (datu), bet, rēķinot mediānu, - vienīgi šo vienību vietas ranžētā rindā. Tādēļ daļa derīgās informācijas netiek izmantota.

 

15.1.3. Neparametriskie struktūras rādītāji

 

Arī mediānu var uzlūkot par struktūras rādītāju, jo tā dala statistisko kopu divās vienādās daļas. Tomēr ar tik vienkāršu (rupju) dalījumu sadalījuma struktūru kaut cik pilnīgi raksturot nevar.

Skaitļus, kas sakārtotu statistisko kopu dala četrās, piecās, desmit, simts vienādās daļās, sauc par sadalījuma kvantilēm. Sadalījumu četrās daļās dala kvartiles, piecās - kvintiles, desmit - deciles, simts - centiles jeb procentiles.

Sadalījuma daļas, grupas, kas atrodas starp divām blakus esošām kvartilēm, sauc par kvartiļu grupām, starp divām decilēm - par deciļu grupām u.t.t. Visās kvartiļu grupās ir 25% no kopas vienību skaita, deciļu grupās - 10% no kopas vienību skaita utt. Līdz ar to  visas šādi izdalītas grupas ir vienādi reprezentatīvas.

Kvantiles tāpat kā mediānu var aprēķināt tieši pēc sākotnējiem datiem, kopas vienības ranžējot. Tāds paņēmiens dod visprecizākos rezultātus. Ja ir izstrādāts grupējums, atrod tajā vajadzīgās kvantiles intervālu, bet pašu kvantili izskaitļo ar interpolācijas formulu. Šis paņēmiens dod tuvinātus rezultātus.

Lai aprēķinātu kvartiles pēc 15.1. tabulas datiem, atrod pirmo un trešo kvartili saturošos intervālus. Otrā kvartile vienlaikus ir mediāna, un tā ir jau aprēķināta.

Pirmās kvartiles intervāls ir tas, kurā uzkrāto relatīvo biežumu summa pirmo reizi pārsniedz 25%.  Uzdevumā tas ir intervāls 15 - 19,99 gadi.

Trešās kvartiles intervāls ir tas, kurā uzkrāto relatīvo biežumu summa pirmo reizi pāsniedz 75%.

Uzdevumā tas ir intervāls 55 - 59,99 gadi. Pašas kvartiles atrod ar interpolācijas formulām, kuras ir izveidotas līdzīgi mediānas formulai:

 

                                                                                       (15.2)

                                                                                        (15.3)

 

kur:

             un  - pirmā un  trešā kvartile;

             un  - pirmās un trešās kvartiles intervāla apakšējā robeža;

             - kopas vienību skaits;

             - uzkrātais biežums intervālā, kas atrodas pirms attiecīgās kvartiles

                                 intervāla;

             - attiecīgās kvartiles intervāla biežums.

 

 

 

Pēc 15.1 tabulas datiem var izrēķināt, ka

 

                    ,

                     .

 

Tātad 1955.g. ceturtā daļa Latvijas iedzīvotāju bija jaunāki par 18,26 gadiem un ceturtā daļa - vecāki par 55,25 gadiem. Ņemot vēl vērā mediānu, visa statistiskā kopa ir sadalīta pēc biežumiem (vienību skaita) četrās vienādi lielās grupās.

Līdzīgi var izrēķināt deciles. Vienīgi, ja grib izmantot grupētus datus, izdalīto grupu skaitam ir jābūt vairāki desmiti.

15.1. tabulā ir izdalīta 21 grupa. Deciļu grupējumā vajag 10 grupas. Tādēļ,  aprēķinot deciles pēc 15.1. tabulas datiem, lielu īpatsvaru iegūst interpolācija pēc iepriekšējām analogām formulām, kas samazina deciļu precizitāti. Tādēļ pēdējā laikā statistikas praksē deciles aprēķina ar datoru, ranžējot tieši sākotnējās kopas vienības. Deciļu grupējumā nav tik liela nozīme skaitļiem, kas nodala vienu deciles grupu no otras, kā pašām deciļu grupām.Šim grupām var aprēķināt grupu vidējos un grupu variācijas rādītājus, pretstatīt vienu grupu otrai u.t.t, iegūstot plašu un vispusīgu materiālu par kopas sadalījumu. Katrai deciles grupai var aprēķināt arī kādu citu ar grupēšanas pazīmi saistītu pazīmju vidējos lielumus. Sakārtojot šādu materiālu tabulā, iegūstot deciļu analītisko grupējumu, kurš tāpat kā parastais analītiskais grupējums rāda sakarību esamību un raksturu starp grupējumā ietvertajām pazīmēm (skat. 9.4. tabulu 9. nodaļā).

Aprēķnāsim pirmo un devīto decili pēc 15.1. tabulas datiem.

Pirmā  decile atrodas grupā, kurā uzkrātais relatīvais biežums pirmo reizi pārsniedz 10%. Uzdevumā tā ir vecuma grupa 5 - 9,99 gadi. Pašu decili šīs grupas ietvaros atrod ar interpolācijas formulu

 

                      ,                                                                   (15.4)

 

kur simboli analogi iepriekšējiem, tikai kvartiļu grupu vietā deciļu grupas. Uzdevumā

 

                  .

 

Devītā decile atrodas grupā, kur uzkrātais relatīvais biežums pirmo reizi pārsniedz 90%. Uzdevumā tā ir vecuma grupa 65 - 69,99 gadi. Pašu decili aprēķinam ar interpolācijas formulu

 

                           ;                                                              (15.5)

 

                 .

 

Iegūtie rezultāti jānovērtē kā tuvināti. Interpretējot iegūtos rezultātus, var teikt, ka 1995.g. Latvijā bija 10% iedzīvotāju jaunāki par 7,7 gadiem un 10% vecāki par 68,3 gadiem.

 

15.1.4. Kvantiļu variācijas rādītāji

 

Izmantojot kvantiles (kvartiles, deciles u.c.), var izveidot variācijas rādītājus, kuriem ir analoģija ar parastajiem parametriskajiem variācijas rādītājiem. Pēdējie bāzējas uz normālā sadalījuma otro parametru - standartnovirzi.

Par absolūtās variācijas rādītājiem var izmantot divu kvantiļu (parasti pēdējās un pirmās) starpību.

Izmantojot kvartiles

 

                                                                                                                         (15.6)

 

uzdevumā Q = 55,25 - 18,26 = 36,99 (gadi).

 

Izmantojot deciles

 

                                                ,                                                                       (15.7)

 

uzdevumā

                        D = 68,29 - 7,69 = 60,60 (gadi).

 

Interpretējot iegūtos rezultātus, var secināt ka 50% Latvijas iedzīvotāju vecums variēja 37 gadu robežās (noapaļojot)  bet 80% iedzīvotāju - 60,6 gadu robežās.

Ja pieņemtu, ka minētie rezultāti ir iegūti pēc reprezentatīvas izlases datiem un ģenerāl -kopas sadalījums ir tāds pat kā izlasei,tas var būt jebkurš, tad uzrādītos kvantiļu intervālus var saistīt ar noteiktām varbūtībām.

Varbūtība, ka nejauši no ģenerālkopas ņemta vienība nonāks intervālā  ir 0,5, bet intervālā .

Kā kvantiļu vidējo novirzi var izmantot pusi no kvantiļu intervāla:

 

                                         ;                                                                             (15.8)

 

                                         ;                                                                            (15.9)

 

Uzdevumā

                                 ,

                                 .

 

Salīdzināšanai aprēķināsim iedzīvotāju vecuma standartnovirzi un vērtējuma intervālus, izmantojot parametriskās metodes un ignorējot to, ka iedzīvotāju sadalījums pēc vecuma atšķiras no normālā sadalījuma.

Izmantojot iedzīvotāju grupējumu pēc vecuma vienu gadu lielos intervālos vecumā no 0 līdz 64 gadiem un piecu gadu lielos intervālos lielākiem vecumiem, ieguvām standartnovirzi 22,42 gadi.

Kvartiļu vidējā novirze 18,5 ir ievērojami mazāka nekā parastā standartnovirze 22,4, jo atspoguļo pazīmes variāciju tikai variācijas apgabala centrālajā daļā (50% novērojumu), bet parastā standartnovirze - visā variācijas apgabalā.

Spriežot līdzīgi varētu sagaidīt, ka arī deciļu vidējā novirze būs mazāka  (šoreiz nedaudz) par parasto standartnovirzi, jo aptver tikai 80% novērojumu. Uzdevuma  atrisinājums parāda pretējo: deciļu vidējā novirze 30,3 ir ievērojami lielāka nekā parastā standartnovirze - 22,4.

Izskaidrojums ir jāmeklē tajā apstāklī, ka uzdevumā izmantotais sadalījums krasi atšķiras no normālā ar daudz lielāku vienību koncentrāciju sadalījuma kreisajā zarā 2. Tas nozīmē, ka vidēji lielu noviržu no vidējā empiriskajā sadalījumā ir daudz vairāk nekā normālajā. Tieši šīs vidēji lielās novirzes palielina deciļu vidējo novirzi.

Salīdzināšanai varam apŗēķināt arī vērtējuma intervālus pēc normālā sadalījuma likuma, kuri atbilst kvartiļu un deciļu intervāliem.

Normālā sadalījuma varbūtību koeficienti, kas atbilst varbūtībām 0,5 un 0,8, ir 0,67 un 1,28. Līdz ar to robežkļūdas

 

                                                                                                                                (15.10)

 

ir

un .

 

Izmantojot vidējo vecumu  gadi, varam izveidot atbilstošos vērtējuma intervālus

 

                                         .                                                                    (15.11)

 

Ar varbūtību 0,5 saistītais intervals iznāk

 

                                       (gadi),

 

bet ar varbūtību 0,8

 

                                      (gadi).

 

Atšķirības ir jāizskaidro līdzīgi kā to darijām, salīdzinot parasto standartnovirzi ar kvartiļu un deciļu vidējām novirzēm.

Neparametriskos relatīvās variācijas rādītājus var veidot līdzīgi variācijas koeficientam, tikai parastās standartnovirzes vietā jāņēm kvartiļu vai deciļu vidējā novirze, bet aritmētiskā vidējā vietā - mediāna. Šos rādītājus var izteikt procentos.

 

                                                ;                                                                  (15.12)

 

                                                .                                                                  (15.13)

 

 

 

 

 

_________________

2 Empīriskā sadalījuma asimetrijas koeficients ir 0,23, normālā sadalījumā jābūt 0,

    bet ekscesa koeficients 2,08, normālā sadalījuma jābūt 3,0.  

Uzdevumā

                                   ,

                                  .

 

Deciļu variācijas koeficients vienmēr būs lielāks nekā kvartiļu variācijas koeficients, jo deciļu variācijas koeficients atspoguļo dažādību 80% novērojumu masā, kamēr kvartiļu variācijas koeficients - tikai 50% pamatmasā.

Salīdzinājumam izrēķināsim parasto variacijas koeficientu izmantojamiem 15.1. tabulas datiem

 

                        .

 

Šis koefiecients pēc skaitliskās vērtības atrodas vidū starp kvartiļu un deciļu variācijas koeficientiem to pašu iemeslu dēļ, kuri bija uzrādīti, apspriežot vidējās un standartnovirzes, jo variācijas koefiecienti ir tieši atkarīgi  no šim novirzēm.

Jāatzīmē, ka visi variācijas koeficienti ir daudz lielāki par 33 %, kas ir augšējā robeža lai empīrisko sadalījumu varētu vērtēt kā tuvu normālam sadalījumam.

Nobeigumā jāsecina, ka ir iespējami vairāki, skaitliski atšķirīgi neparametriskie variācijas rādītāji. Bez tiem, kurus ieguvām pretstatot trešo un pirmo kvartili un devīto  un pirmo decili, varam izveidot vēl citus. Piemēram, pretstatot astoto decili otrai. Pēdējā gadījumā raksturosim variāciju 60% novērojumu galvenajā masīvā. Līdzīgus rādītājus var izveidot, izmantojot kvintiles, centiles u.c. struktūras rādītājus.

Zināma nenoteiktība ir jāvērtē kā šo rādītāju trūkums. Izvēle starp tiem ir jāizdara atbilstoši uzdevuma profesionālai nostādnei: kāda pētāmās kopas daļa dod atbildi uz izvirzītajiem jautājumiem. Ja tā ir kopas centrālā daļa, var lietot  kvartiļu rādītājus, ja t.s. galvenais masīvs - deciļu (atstājot ārpusē 20% novērojumu). Ja grib izmantot visus novērojuma datus, atsijājot tikai krasi atšķīrīgos artefaktus dažu procentu robežās, jāizmanto centiles un uz tiem balstīti rādītāji. Lietojot datortehniku, aprēķināt centiles var samērā viegli. Turklāt nav jāizdrukā visas centiles, bet vairumā gadījumu pietiek izdrukāt tikai dažas vienā vai abos sadalījuma zaros.

 

15.2. Hī kvadrāta kritērijs neparametriskā statistikā

 

Kā jau bija minēts, par neparametriskām  statistikas metodēm šaurā nozīmē sauc dažādas metodes un kritērijus statistisko hipotēžu pārbaudei; vērtējumu intervālu aprēķināšanai, statistisko lēmumu pieņemšanai. Visu šādu uzdevumu risināšana prasa izmantot varbūtību teoriju.

Hī kvadrāta kritēriju izmanto statistisko hipotēžu pārbaudei dažāda rakstura uzdevumos.

Lietojot Hī kvadrāta kritēriju, savā starpā nesalīdzina kādus divu izlašu parametrus (aritmētiskos vidējos, standartnovirzes u.c.), ne arī neparametriskos rādītājus (modas, kvartiles v.c.), bet pašus šo izlašu empīriskos sadalījumus pēc interesējošās pazīmes.

Lai salīdzinātu divu izlašu empīriskos sadalījumus, var izmantot grupējumus tiklab pēc kvantitatīvām kā atributivām pazīmēm. Vienīgi grupu skaitam un intervāliem abu sadalījumu grupējumos ir jābūt vienādiem. Vēl jāseko, lai vienību skaits visās grupās būtu pietiekami liels, katrā ziņā ne mazāks par 5.  No pēdējā priekšnoteikuma seko, ka absolūto biežumu vietā nevar izmantot relatīvos.

 

Bieži Hī kvadrātu lieto, lai pārbaudītu empīriskā sadalījuma atbilstību kādam teoretiskam sadalījumam (vienmērīgam, normālam, logaritmiski normālam u.c.). Teorētisko sadalījumu izvēlas un aprēķina atbilstoši izvirzītai hipotēzei. Pēdējās grupas uzdevumu atrisināšana arī tehniski vienkāršāka.

Tā kā pēdējā gadījumā viens no salīdzināmajiem sadalījumiem ir teorētisks un arī pirmajā gadījumā lēmumu par hipotēzi pieņem, izmantojot Hī kvadrāta teorētisko sadalījumu, daži autori Hī kvadrāta kritēriju un attiecīgos uzdevumus  nepieskaita neparametriskiem. Citi autori, turpretīm, tos neparametriskiem pieskaita. Jāatzīst, ka arī citos gadījumos parametrisko un neparametrisko metožu lietošana nav stingri norobežojama, piemēram, izdarot aprēķinus, kas balstās uz varbūtību binomiālo sadalījumu.

 

15.2.1. Sadalījuma vienmērīguma novērtēšana

 

15.2.1. Uzdevums. Latvijas iedzīvotāju dzīves apstākļu pētījuma ietvaros 1994.g. septembra aptaujā  respondentiem jautāja, kam pieder mājoklis, kurā ģimene (mājasaimniecība) dzīvo. Latviešu un citu tautību ģimenes deva pēc apkopošanas vizuāli atšķirīgas atbildes (15.3. tabula).

 

15.3. tabula

 

Latviešu un citu tautību mājsaimniecību sadalījums pēc īpašnieka,

 kam pieder aizņemtais mājoklis

 

 

Mājokļa īpašnieks

 

 

Tautībtips

valsts vai

pašvaldība

ģimene, tās loceklis,

cita privātpersona

 

Kopā

Latvieši

671

723

1394

Citu tautību

807

207

1014

Kopā

1478

930

2408

 

Datu avots: LR Valsts Statistikas komitejas 1994.g. septembra iedzīvotāju dzīves apstākļu aptauja.

     Tautību ziņā jauktas mājsaimniecības šajā tabulā nav atspoguļotas.

 

Ja vairāk nekā 50% latviešu ģimeņu dzīvoja savā, savas ģimenes loceklim vai svešam privātīpašniekam piederošā mājoklī, tad 80% citu tautību (g.k. krievu) ģimenes - valstij vai pašvaldībai piederošā mājoklī. Pirms no šiem faktiem izdarīt vēsturiskus un sociālus secinājums, ir jāpārbauda minēto atšķirību statistiskā nozīmība, jo dati neatspoguļo visas Latvijas ģimenes, bet tikai 2408 ģimeņu lielu izlasi.

Izvirzām nulles hipotēzi, ka latviešu un citu tautību ģimenes pēc aizņemtā mājokļa piederības ģenerālkopā neatšķiras un vērojamās atšķirības izlasē var izskaidrot ar nejaušību.

Uzdevumā dotais izlases ģimeņu grupējums četrās elementārgrupās un četrās marginālās (starpsummu) grupās ir empīriskais sadalījums.

Lai pilnībā formulētu pārbaudāmo hipotēzi, ir jāaprēķina teorētiskais sadalījums, kas atbilst hipotēzei, ka mājokļa īpašumtiesiskā piederība statistiski nav saistīta šī mājokļa iedzīvotāju tautību. Tas ir vienmērīgs sadalījums, kurā, salīdzinot ar empīrisko, tiek saglabāts kopējais ģimeņu skaits (2408) un tā sadalījums marginālās grupās.

Teorētiskais ģimeņu skaits elementārgrupās ir jāaprēķina, sadalot marginālās summas (1394 un 1014)  proporcionāli visu tautību ģimeņu sadalījumam dažādos īpašumtiesiskās piederības mājokļos, t.i. proporcionāli summām 1478 un 930, resp. 0,6138 un 0,3862 viena daļās.

 

 

Iegūstam 15.4. tabulu, kurā biežumi visās rindiņās ir proporcionāli.

Tagad pārbaudamo hipotēzi var formulēt šādi. 15.3. un 15.4. tabulās uzrādītie sadalījumi neatšķiras būtiski; var uzskatīt, ka tie ir divas dažādas izlases no vienas ģenerālkopas.

 

15.4. tabula

 

15.3. tabulai atbilstošs vienmērīgs sadalījums, saskaņā ar hipotēzi, ka visu tautību izvietojums dažādiem īpašniekiem piederošos mājokļos ir nejaušs.

 

 

Mājokļa īpašnieks

 

 

Tautībtips

valsts vai

pašvaldība

ģimene, tās loceklis, vai cita privātpersona

 

Kopā

Latvieši

856

538

1394

Citu tautību

622

392

1014

Kopā

1478

930

2408

 

Lai izvirzīto hipotēzi pārbaudītu ar Hī kvadrāta kritēriju, ir jāizdara sekojošais.

 

            1. Izmantojot empīriskā un teorētiskā sadalījuma biežumus, jāaprēķina empīriskā Hī kvadrāta lielums, izmantojot formulu

 

                                      ,                                                                    (15.14)

 

 kur       - empīriskā sadalījuma biežumi i grupās;

             - teorētiskā sadalījuma biežumi atbilstošās grupās;

             k   - grupu skaits.

 

Jāievēro, ka par  jāņem empīriskā, bet par  - teorētiskā sadalījuma biežumi; pēdējie jāizmanto  daļskaitļu saucējos.

Tā kā uzdevumā ir tikai četras grupas, aprēķinus var izdarīt, tieši ievietojot formulā vajadzīgos skaitļus. Ja grupu būtu vairāk, būtu lietderīgi aprēķinus sakārtot darba tabulā vai sastādīt programmu skaitļotājam, izmantojot atmiņas.

 

           

 

2. Lai Hī kvadrāta kritisko vērtību tabulā nolasītu vajadzīgo robežvērtību, ir jāizvēlās (jāpamato) nulles hipotēzes pārbaudes varbūtība, resp., nozīmības līmenis. Vairumā mācību grāmatu ir publicētas tabulas hipotēzes pārbaudei ar varbūtību 0,95 (nozīmības līmenis 0,05) un 0,99 (0,01). Ekonomikas pētījumos parasti pietiek ar mazāko varbūtību, tādēļ izvēlamies to. Vēl ir jānosaka brīvības pakāpju skaits. Šajā gadījumā to aprēķina no elementārgrupu skaita 4 atskaitot neatkarīgo lineāro saistību skaitu, kas saista tabulas datus. Tādas ir 3: kopējā summa un rindu (vai aiļu) summas. Vēl var saskatīt arī citas saistības, bet tās izriet no iepriekšējām. Līdz ar to grupējumā ir tikai viena brīvības pakāpe. Par pēdējo apgalvojumu var pārliecināties vēl citādi. Izgatavojiet tabulas maketu atbilstoši 15.3. tabulai un ierakstiet tajā rindu, aiļu un  kopējo summu. Vienā no tukšajām centrālajām rūtiņām variet ierakstīt jebkuru skaitli (ja citās negribat rakstīt negatīvus skaitļus, tad gan nevar rakstīt  lielāku par kopsummu -2408). Tūliņ viegli pārliecināties, ka pārējās trīs rūtiņās, lai   saglabātu summu pareizību, ir jāraksta pilnīgi noteikti skaitļi. Iespēja vienā rūtiņā ņemt jebkuru skaitli ir tā viena brīvības pakāpe.

 

3. Tālāk matemātiskajās tabulās ir jāatrod Hī kvadrāta robežvērtība, kas atbilst varbūtībai 0,95  un viena brīvības pakāpei . Fragments no vajadzīgām tabulām ir parādīts 15.5. tabulā.

 

15.5. tabula

Fragments Hī kvadrāta kritiskajām robežām hipotēzes pārbaudei

ar varbūtību 0,95 (a = 0,05)

 

Brīvības pakāpju skaits

1            2       3      4          5       6     7      8     10

Kritiskā robeža

3,84   5,99   7,81  9,49  11,1  12,6  14,1  15,5 18,3

 

Redzam ka .

 

4. Empiriskais  jāsalīdzina ar  kritisko robežu  un jāpieņem lēmums. 245,93 > 3,84, resp., , un nulles hipotēzi var noraidīt ar prasīto varbūtību. Tā kā salīdzināmie lielumi atšķiras vairākkārt, nulles hipotēzi var noraidīt ar daudz lielāku varbūtību nekā izvēlētā 0,95 jeb kā saka ''ar lielu pārsvaru''.

Izlases aptauja ir pierādījusi ka latvieši statistiski nozīmīgi  vairāk dzīvo pašiem vai citiem privātīpašniekiem piederošos mājokļos, bet citu tautību ģimenes ir būtiski vairāk saņēmušas dzīvokļus valsts un pašvaldību namos.

Kādi vēsturiski un sociāli apstākļi ir izraisījuši šīs atšķirības, tas jau ir profesionālas sociāli ekonomiskas analīzes uzdevums.

Empīrisko Hī kvadrātu 2 x 2 sadalījuma tabulai var aprēķināt arī tieši, neizveidojot hipotētisko vienmērīgo sadalījumu (15.4. tabulu). Tas atvieglo izskaitļošanu, bet starprezultāti ir mazāk uzskatāmi.

 

Jālieto formula

 

                                                                             (15.15)

 

kur a ... d - absolūtie biežumi 2 x 2 tabulā pēc šādas shēmas

 

a

b

a+b

c

d

c+d

a+c

b+d

n

 

n - novērojumu skaits.

 

Iepriekšējā uzdevumā, ievietojot formulā 15.3. tabulas datus, iegūstam

 

              .

Rezultāts, kas iegūts, lietojot pamatformulu, atšķiras vienīgi starprezultātu noapaļošanas rezultātā.

Ievietojot 15.15. formulā vienmērīga sadalījuma datus (15.4. tabula), ir jāiegūst Hī kvadrāts, kas no nulles drīkst atšķirties vienīgi noapaļošanas kļūdu rezultātā.

 

            

 

15.2.2. Divu izlašu sadalījumu savstarpēja salīdzināšana

 

Nereti rodas vajadzība pārbaudīt, vai divas izlases pēc to sadalījumiem var vērtēt kā

ņemtas no vienas un tās pašas ģenerālkopas, vai tās pārstāv divas atšķirīgas ģenerālkopas. Šādi  uzdevumi  bieži  rodas biometrijā,  kad  nepieciešams   savā starpā salīdzināt kādas divas augu, dzīvnieku v.c. paraugkopas. Hipotēze par to, kāds ir abu salīdzināmo izlašu sadalījums, nav jāizvirza. Ir vajadzīgs vienīgi, lai abu izlašu vienības būtu sagrupētas grupās, izmantojot vienus un tos pašus intervālus. Tehniski darbs ir nedaudz sarežģitāks, nekā salīdzinot  empīrisko sadalījumu ar teorētisko (skat. iepriekšējo paragrāfu).

Var izšķirt divus gadījumus: 1) abu salīdzināmo izlašu lielums (vienību skaits tajās) ir vienāds un  2) abu salīdzināmo izlašu lielums ir dažāds.

 

1. Ja abu salīdzināmo izlašu lielums ir vienāds empīrisko Hī kvadrātu aprēķina pēc formulas ³

 

                                    ,                                                                   (15.16)

 

kur:

             - pirmās izlases vienību skaits i grupā,

             - otrās izlases vienību skaits i  grupā,

              k   - grupu skaits.

 

Brīvības pakāpju skaitu nosaka kā , jo abas izdalītās izlases saista viens nosacījums - grupu kopskaits. Hī kvadrāta kritisko vērtību tāpat kā iepriekš nolasa matemātiskajās tabulās, salīdzina empīrisko Hī kvadrātu ar tā kritisko robežvērtību un pieņem lēmumu.

Praksē tomēr biežāk ir jāsalīdzina divu dažāda lieluma izlašu sadalījumi, tādēļ piemēru dosim šim gadījumam.

 

2. Ja abu salīdzināmo izlašu vienību skaits nav vienāds, tad iepriekš minētajā empīriskā Hī kvadrāta formulā ir jāiestrādā statistiskie svari, par tiem ņemot abu izlašu kopējo vienību skaitu

 

                                                                                (15.17)

 

 

 

___________________

3 Formulas pamatojums ir pievienots paragrāfa beigās.

kur  un  - pirmās un otrās izlases vienību kopskaits 4:

 

                              .

 

15.2.2. Uzdevums. Ir izdarīti koku augstuma x mērījumi divās ar dažādām metodēm ierīkotās priežu kultūru audzēs, iegūstot šādus datus (15.6. tabula). Pārbaudīt vai abas audzes pārstāv vienu un to pašu ģenerālkopu, vai tās ir ņemtas dažādām ģenerālkopām.

 

15.6. tabula

 

Empīriskā Hī kvadrāta aprēķins divu izlašu salīdzināšanai 5

 

 

Priežu

 

Koku skaits

 

Aprēķinātie lielumi

augstums

metri

1.audzē

 

2.audzē

 

 

 

 

 

 

 

 

 

1000

500

500

250000

10

25000

3,90

6

18

1200

1800

-600

360000

24

15000

4,00

10

37

2000

3700

-1700

2890000

47

61489

4,10

23

83

4600

8300

-3700

13690000

106

129151

4,20

28

42

5600

4200

1400

1960000

70

28000

4,30

19

8

3800

800

3000

9000000

27

333333

1800

700

1100

1210000

16

75625

Kopā

100

200

20000

2000

0

X

300

667598

 

Tā kā rēķinot Hī kvadrātu, nevienā grupā nedrīkst būt mazāk kā pieci novērojumi, turklāt abos sadalījumos grupām (intervāliem) jābūt vienādiem, abos sadalījumos pirmās trīs un pēdējās trīs grupas ir jāapvieno.

 

                                      .

 

 

 

 

_________________

4 Ar N tradicionāli apzīmē vienību skaitu ģenerālkopā. Šeit un arī turpmāk izņēmuma kārtā ar to apzīmējam vienību skaitu izlasē, lai izvairītos no sarežģītas n indeksācijas, piemēram, ar augšējiem indeksiem.

5 Datu avots: Liepa I. Biometrija. R.: 1974. - 92.lpp. (aprēķini precizēti).

Brīvības pakāpju skaitu, kas nepieciešams Hī kvadrāta kritiskās vērtības nolasīšanai, divu izlašu salīdzināšanas gadījumā, aprēķina no grupu skaita (cik palikušas pēc apvienošanas) atskaitot vienu , jo pastāv tikai viens saistošs nosacījums - abu izlašu kopīgais grupu skaits. Tātad mūsu uzdevumā .

Saglabājot iepriekšejā uzdevumā izmantoto hipotēzes pārbaudes varbūtību , kritisko Hī kvadrāta vērtību var nolasīt 15.5. tabulā

 

                                               

 

Tā kā 33,38>12,6, resp., , nulles hipotēze, kas apgalvo, ka abas izlases ņemtas no vienas ģenerālkopas, ir jānoraida. Katra izlase pārstāv citu ģenerālkopu, priežu audzes pēc koku garuma atšķiras statistiski nozīmīgi.

Empīriskā Hī kvadrāta aprēķināšanas speciālo formulu (15.16), salīdzinot ar pamatformulu (15.4.) pamato šādi.

Kā nezināmā teorētiskā sadalījuma biežumu  pirmo tuvinājumu pieņem abu empirisko sadalījumu atbilstošo intervālu biežumu vidējos katrā  i grupā (indeksi  i turpmāk, kur tas nerada pārpratumus, izlaisti).

 

                                              ;                                                                  (15.18)

 

Ievietojot šos lielumus Hī kvadrāta pamatformulā (15.14.) iegūstam 2k saskaitāmos

 

 

kur pirmais indekss - izlases numurs ( 0 - vidējais biežums), otrais indekss - grupas numurs.

 

 

 

Ņemot vērā, ka

 

                                        ,                                                                   (15.19)

 

katru kvadrātiekavu

 

       

 

 

saturu var pārveidot: ievietojot no vietā tā vērtību no (15.19.), izdarot kāpināšanas darbības un izteiksmi vienkāršojot:

 

                      

 

Tā kā Hī kvadrāta formulā ir k šādi saskaitāmie (atbilstoši grupu skaitam), tad

 

                                     

 

kas atbilst formulai (15.16.).

 

15.3. Hī kvadrāta alternatīvi kritēriji

 

15.3.1. Vulfa G - kritērijs

 

Vulfa G - kritēriju lieto, lai pārbaudītu hipotēzi par to, ka sadalījums četrās elementārgrupās (četru rūtiņu sadalījums) ir vienmērīgs. Tatad šis kritērijs ir derīgs kā alternatīva 15.2.1. paragrāfā parādīta un tam analogu uzdevumu risināšanai.

Empīrisko G lielumu aprēķina pēc īpašas formulas, bet teorētisko robežvērtību atrod   kvadrāta kritisko vērtību tabulās.

Empīrisko G lielumu aprēķina ar šādu formulu

 

                                  ,                                                                              (15.20)

 

kur

           

 

 

 

kur savukārt n - absolūtie biežumi četrās elementārgrupās (četri saskaitāmie);

 

           

 

kur N - visu novērojumu skaits;

 

           

 

kur  - novērojumu skaits marginālās (starpsummu) grupās (četri saskaitāmie).

 

Izmantojot 15.2.1. paragrāfa piemēru (15.3. tabula), visus vajadzīgos lielumus  aprēķināšanai var sakārtot 15.7. tabulā:

 

                                                                                    15.7. tabula

 

                                   

8734,77

9519,61

20184,93

10803,02

2207,75

14037,12

21574,20

12713,44

37500,03

 

 

 

Ievērojam, ka  G  lielums  ir diezgan   līdzīgs   empiriskajam , ko  aprēķinajām

15.2.1. paragrāfā 245,93.

Teorētisko   robežvērtību nolasa tāpat kā 1.1. paragrāfā: .

Tā kā  hipotēzi par sadalījuma vienmērīgumu noraida ar varbūtību, lielāku par 0,95.

Ir norādes, ka empīriskais G - rādītājs ir pat teorētiski pamatotāks nekā parastais  rādītājs.

Ja vienību skaits elementārgrupās nav liels un lēmumu par hipotēzi nevar pieņemt ar lielu pārsvaru, ir lietderīgi izmantot elementārgrupu biežumu korekciju, kā to ieteicis Jeits.

Korekciju izdara tā, ka tos biežumus, kuri ir mazāki nekā sagaidāms, ja hipotēze par sadalījuma vienmērību būtu pareiza, palielina par 0,5, bet kuri lielāki - samazina par 0,5. Uzdevumā   būtu jaizskaitļo no lielumiem (jāsalīdzina ar 15.3. tabulu):

 

671,5

722,5

  806,5 

207,5,

 

Iegūstam    nemainās. .

Koriģētais  vienmēr ir nedaudz mazāks nekā nekoriģētais G un tuvāks empīriskajam  .

15.3.2. Kolmagorova-Smirnova  kritērijs

 

Kā alternatīvu  kvadrāta kritērijam, pārbaudot hipotēzi par divu empīrisko sadalījumu atšķirības statistisko nozīmību, var izmantot Kolmagorova-Smirnova  kritēriju.

Empīrisko  lielumu aprēķina, balstoties uz salīdzināmo empīrisko sadalījumu uzkrāto relatīvo biežumu starpībām, lietojot formulu

 

                                                                                                       (15.21)

 

kur    - divu uzkrāto relatīvo biežumu lielākā starpība;

          un  - novērojumu skaits abās izlasēs.

 

Metodi var lietot gan savstarpēji neatkarīgu, gan atkarīgu izlašu salīdzināšanai. Nav jānodrošina, lai absolūtie biežumi visās grupās būtu pietiekami lieli.

Kā piemēru vēlreiz izmantosim 15.6. tabulā dotos datus, aprēķinus sakārtojot 16.8. tabulā.

 

15.8. tabula

 

Empīriskā Kolmagorova-Smirnova  aprēķins divu izlašu salīdzināšanai

 

3,60

 1

 0

0,01

0

0,01

0,000

0,010

3,70

 1

 1

0,01

0,005

0,02

0,005

0,015

3,80

 3

 4

0,03

0,020

0,05

0,025

0,025

3,90

 6

18

0,06

0,090

0,11

0,115

0,005

4,00

10

37

0,11

0,185

0,21

0,300

0,090

4,10

23

83

0,23

0,415

0,44

0,715

0,275

4,20

28

42

0,28

0,210

0,72

0,925

0,205

4,30

19

 8

0,19

0,040

0,91

0,965

0,055

4,40

 7

 4

0,07

0,020

0,98

0,985

0,005

4,50

 1

 2

0,01

0,010

0,99

0,995

0,005

4,60

 1

 1

0,01

0,005

1,00

1,000

0,000

Kopā

100=

200=

1

1

x

x

 

 

 

 kritisko vērtību var aprēķināt ar samērā vienkāršu formulu

 

                                           ,                                                                       (15.22)

 

kur  - izvēlētais nozīmības  līmenis. Tādēļ  nav  nepieciešamas  šo  vērtību matemātiskās tabulas.

 

 

Izvēloties  ,

 

                               

 

Lēmumu, kā parasti, pieņem, salīdzinot empīrisko  vērtību ar kritisko robežu. Uzdevumā . Tas ļauj noraidīt nulles hipotēzi par to, ka abas izlases ņemtas no vienas ģenerālkopas. Izlases pārstāv dažādas ģenerālkopas.

 

15.4. Atkārtotu novērojumu izvērtēšana ar binomiālo sadalījumu

 

15.4.1. Trīskāršā testa rezultātu novērtēšana

 

Nosakot standartus preču šķirām pēc kvalitātes, kā arī kontrolējot kvalitātes radītāju izpildi, ir ļoti svarīgi zināt cilvēka jūtīgumu pret nelielām kvalitātes izmaiņām, piem., cukura īpatsvaru ievārījumā, alkohola saturu alū, piena skābumu u.tt. Šajā nolūkā bieži izmanto t.s. trīskāršo testu. Vienādi sagatavotai ekspertu grupai piedāvā novērtēt trīs paraugus, no kuriem divi ir pilnīgi vienādi, bet trešais nedaudz atšķiras - ar sākotnēji iecerēto pielaidi. Paraugu pasniegšanas secība ir nejauša un ekspertiem nav zināma. Ja eksperts atšķirīgo paraugu ir atradis, uzskata, ka gadījuma notikums ir noticis; ja eksperts norāda citu paraugu - nav noticis. Tā kā darbojas vairāki eksperti, rezultāti jāvērtē kā atkārtoti izmēģinājumi.

Daļa ekspertu norādīs īstenībā atšķirīgos paraugus arī tad, ja patiesībā viņus neatšķirs. Ja ievērojama daļa ekspertu atšķirīgos paraugus spēj atšķirt, tad pareizo norādījumu būs būtiski vairāk nekā to nodrošina nejaušība.

 

15.4.1. Uzdevums. Trīskāršo testu ir izpildījuši 8 eksperti, no viņiem 4 atšķirīgo paraugu ir norādījuši pareizi, bet 4 - nē. Novērtēt, vai šāds rezultāts liecina, ka paraugu atšķirības cilvēki spēj sajust,  vai iegūtais rezultāts varēja rasties arī nejaušības dēļ.

 

Uzdevuma analīze un atrisinājums. Novērojumu rezultātus šajā gadījumā fiksē kā alternatīvas atbildes:   paraugs ir atšķirts, paraugs nav atšķirts. Rezultātu var izteikt arī ar atbildēm ''ja'' un ''nē'', kodēt ar skaitļiem 1 un 0. Kādi skaitliski vai procentu samēri starp novērojumiem netiek prasīti un netiek pielaisti. Piemēram,  ekspertam neprasa norādīt, ka paraugs ir ''ļoti'' atšķirīgs, vai ''tikko manāmi'' atšķirīgs, vēl jo mazāk - mēģināt noteikt kādas vielas daudzumu paraugos vai citu kvantitatīvu rādītāju. Tātad ir savāktas alternatīvas atbildes par atkārtotiem novērojumiem.

Izpildot trīskāršu testu, ja visi paraugi īstenībā būtu vienādi, bet viens no viņiem iezīmēts ar ekspertam nezināmu zīmi, iezīmētā parauga uzrādīšanas varbūtība būtu 1/3. Tā ir rezultātu novērtēšanas apriorā bāze.

 

 

 

Izvērtējot novērojumā faktiski iegūtos rezultātus, vispirms aprēķina atšķirīga parauga uzrādīšanas relatīvo biežumu. Apzīmējot novērojumu (ekspertu) skaitu ar n, bet pareizo norādījumu skaitu ar m, iegūstam, ka relatīvais biežums v ir

 

                                                   .

 

Tas ir lielāks  par aprioro varbūtību, ja visi paraugi  būtu vienādi.

Talāk ir jāpārbauda, vai relatīvais biežums 0,5 būtiski atšķiras no varbūtības 1/3 = 0,333, vai šo atšķirību var izskaidrot ar nejaušību.

Apzīmējam ar p relatīvā biežuma (v = 0,5) robežu, uz kuru tas tiektos, ja trīskāršo testu izpildītu neierobežoti daudz ekspertu; ar  - aprioro varbūtību uzrādīt iezīmētu paraugu, ja visi paraugi ir vienādi (p = 1/3). Tad var matemātiski formulēt nulles hipotēzi .  jeb  un saukt to par nulles hipotēzi.

Saskaņā ar šo hipotēzi, ja atšķirīgā parauga īpatnības ir zem cilvēka jūtīguma robežas, atkārtojot triskāršo testu neierobežoti daudz reižu, abas varbūtības (p un ) būtu vienādas.

Uzdevuma atrisinājums ir saistīts ar jautājumu, vai vienīgā izdarītā novērojumu sērija atļauj noraidīt izvirzīto hipotēzi ar pietiekami augstu varbūtību.

Šajā nolūkā atradīsim vismazāko pareizo atbildi noteikušo ekspretu skaitu , kurš jau atļauj noraidīt izvirzīto nulles hipotēzi ar vajadzīgo varbūtību. Tad, ja vienīgajā izdarītajā novērojumu sērijā iznāks, ka , hipotēzi noraidisim, bet ja , hipotēze paliks spēkā.

Ir zināms, ka, izdarot atkārtotus novērojumus, no kuriem gadījuma notikums katrā novērojuma notiek ar varbūtību p, varbūtību, ka n novērojumos notikums notiks tieši  m reizes, var aprēķināt ar Bernulli formulu

 

                        .                                                                  (15.23.)

 

Ņemot m = 0; 1; 2; ... un aprēķinot to varbūtības, iegūstam binomiālo sadalījumu .

Izvirzītajā uzdevumā p = 1/3  0,3333, n = 8, m = 0; 11; 2; ...; 8. Atbilstošo binomiālo sadalījumu var aprēķināt ar Bernulli formulu vai izrakstīt no speciālām matemātiskām tabulām.

15.9. tabulas pirmajā rindā ir parādīts ekspertu skaits m (no n = 8), kuri potenciāli var norādīt iezīmēto paraugu. Otrajā rindā - varbūtība, ka tieši tāds ekspertu skaits to izdarīs. Kā redzams, vislielākās varbūtības ir, ka to izdarīs 2 vai 3 eksperti, kas aptuveni atbilst trešdaļai no visu ekspertu skaita (8).

15.9. tabulas trešajā rindā ir parādītas uzkrātās varbūtības sadalījuma labajā zarā, pakāpeniski  summējot no labās puses. Lasām kopā tabulas pirmo un trešo rindu.

Ja visi paraugi būtu vienādi, tad, varbūtība, ka iezīmētos paraugus uzrādīs visi 8 eksperti, ir praktiski nulle. Varbūtība, ka tos uzrādīs 7 vai vairāk eksperti, ir niecīga - 0,003; varbūtība, ka tos uzrādīs 6 vai vairāk eksperti, ir maza - 0,02. Ja tik daudz ekspertu (vismaz 6) būtu  uzrādījuši pareizos paraugus reālajā ekperimentā, nulles hipotēzi  varētu droši noraidīt, jo tāds rezultāts nav izskaidrojams ar nejaušību, tātad paraugi ir pazīti.

 

 

 

 

 

 

 

15.9. tabula

 

Binomiālais sadalījums6, ja n = 8, p = 0,333

 

m

0

1

2

3

4

5

6

7

8

0,039

0,156

0,273

0,273

0,171

0,068

0,017

0,003

0,000

,

saskaitot

no labās

puses

 

 

 

1,000

 

 

 

0,961

 

 

 

0,805

 

 

 

0,532

 

 

 

0,259

 

 

 

0,088

 

 

 

0,020

 

 

 

0,003

 

 

 

0,000

,

saskaitot

no kreisās

puses

 

 

 

0,039

 

 

 

0,195

 

 

 

0,468

 

 

 

0,741

 

 

 

0,911

 

 

 

0,979

 

 

 

0,996

 

 

 

0,999

 

 

 

1,000

 

 

Ja konkrētajā eksperimentā atšķirīgos paraugus būtu uzrādījuši 5 vai vairāk eksperti, tad, noraidot nulles hipotēzi, mēs riskētu kļūdīties, pieļaujot t.s. pirmā veida kļūdu7, ar varbūtību 0,088. Citiem vārdiem, nulles hipotēzi varētu noraidīt ar varbūtību 1 - 0,088 = 0,912. Parasti ekonomikas uzdevumos tas ir samērā pietiekami.

Ja konkretajā eksperimentā pareizo paraugu ir uzrādījuši 4 eksperti, tad, noraidot nulles hipotēzi, riskējam kļūdīties jau ar varbūtību 0,259. Tā ir pietiekoši liela; šādā gadījumā nulles hipotēzi nenoraida.

Līdz ar to esam noteikuši . Nulles hipotēzi varētu noraidīt (ar varbūtību 0,912), ja atšķirīgos paraugus būtu uzrādījuši vismaz 5 eksperti  no 8. Tā kā uzdevumā to izdarija četri eksperti (m = 4),  tad  un nulles hipotēzi ar pietiekoši augstu varbūtību noraidīt nevar. Precīzāk : to var noraidīt ar varbūtību 1 - 0,259 = 0,741, ko parasti uzskata par nepietiekošu.

 

15.4.2. Grafiska ilustrācija

 

15.2. attēlā ir parādīts binomiālā sadalījuma p = 0,333; n = 8 varbūtību sadalījums, kas atbilst iepriekšējā uzdevuma nulles hipotēzes saturam un 15.9. tabulas pirmo divu rindu skaitļiem.

Laukumu zem poligona līnijas pieņemam par vienu vienību lielu, jo varbūtību summa (15.9. tabula 2. rinda) ir viens.

Nulles hipotēzes noraidīšanas kritiskais apgabals ir poligona labajā zarā. Ja izvirzīto nulles hipotēzi gribam pārbaudīt ar varbūtību 0,95, resp., pieļaujam pirmā veida kļūdu ar varbūtību 0,05, tad ir jāatrod tāds punkts uz skaitļu m ass, pret kuru vilktais perpendikuls nodala laukuma daļu labajā zarā, kura lielums ir 0,05 no visa laukuma.

 

 

 

 

______________________

6   Tabulas otrā rinda ir mazs izvilkums no plašākām tabulām, piem.

      {jkktylth V. Deka. Ytgfhfvtnhbxtcrbt vtnjls cnfnbcnbrb. c. 272. (visas tabulas 270.-274.lpp.)

      vai Nf,kbws vfntvfnbxtcrjq cnfnbcnbrb. V. DW FY CCCH 1968. - c. 346. - 347.

7   Pirmā veida kļūda ir kļūda, kuru pieļaujam noraidot īstenībā pareizu nulles hipotēzi. Piemērā

      atzīstot, ka eksperti spēj paraugus izšķirt, ja īstenībā viņi to nespēj.

 

15.2. attēls. Binomiālā sadalījuma p = 0,333;  n = 8

           varbūtību sadalījums (poligons)

 

Šāda uzdevuma ilustrācija ir labi pazīstama no normālā sadalījuma netiešajiem uzdevumiem, bet binomiālā sadalījuma gadījumā to tieši izmantot nevar. Laukuma daļas zem sadalījuma līknes kā integrālās funkcijas var aprēķināt un tabulēt nepārtrauktiem gadījuma lielumiem. Binomiālais sadalījums turpretī ir diskrētu lielumu sadalījums. Tadēļ praktiskām vajadzībām ir jaizgatavo attēls, kurā uz ordinātu ass ir atlikta uzkrāto varbūtību skala.

15.3. attēlā ar 1.poligonu ir parādīts uzkrāto varbūtību  sadalījums, summējot no labās puses.  Ar bultām ir parādīts, kā atrast nulles hipotēzes noraidīšanas jeb kritisko apgabalu. Šajā nolūkā izvēlas hipotēzes pārbaudes nozīmības līmeni, resp., varbūtību, ar kuru pieļauj pirmā veida kļūdu. Pieņemam . No šim skaitlim atbilstoša punkta uz ordinātu ass velkam horizontālu taisni  a līdz krustpunktam ar poligonu. No šī punkta velkam vertikālu taisni b līdz krustpunktam ar abscisu asi. Pēdējais punkts norāda robežu, aiz kuras pa labi atrodas nulles hipotēzes noraidīšanas apgabals.

 

15.3. attēls. Binomiālā sadalījuma p = 0,333; n = 8   komulatīvo (uzkrāto)

                     varbūtību  sadalījums,  summējot no labās puses (1.poligons)

                                           un summējot no kreisās puses (2.poligons).

Kritiskais punkts ir . Tā kā pēc uzdevuma satura  var būt tikai vesels skaitlis (ekspertu skaits, kas pareizi  uzrādījuši atšķirīgo paraugu), tad ir jaizvēlās tuvākais veselais skaitlis, līdz ar to  nedaudz paaugstinot vai pazeminot nulles hipotēzes pārbaudes varbūtību.

Pieņemam, ka . Velkam no šī punkta vertikālu taisni līdz poligonam, tālāk horizontālu taisni līdz ordinātu asij un nolasām jauno hipotēzes noraidīšanas nozīmības līmeni (precizais skaitlis 15.9. tabulas 3. rindā).

Tātad, ja izpildot trīskāršo testu, no 8 ekspertiem 6 vai vairāk atšķirīgo paraugu ir norādījuši pareizi, tad nulles hipotēzi, kas apgalvo, ka cilvēks šī parauga atšķirības nespēj sajust, var noraidīt ar varbūtību 0,98, riskējot pieļaut pirmā veida kļūdu ar varbūtību 0,02.

Citos gadījumos, piemēram, tabulējot normālā sadalījuma integrālo funkciju, uzkrātos varbūtību skaitļus atrod summējot (resp. atrodot noteikto integrāli) no kreisās puses (2.poligons 15.3. attēlā).  Mūsu piemērā saprotamāku uzdevuma ilustrāciju iegūstam, summējot varbūtības no labās puses.

 

15.4.3. Dažas varbūtību binomiālā sadalījuma īpašības

 un sadalījuma robeža

 

Varbūtību binomiālā sadalījuma raksturs (poligona veids grafiskajā attēlā) ir atkarīgs no varbūtības p un novērojumu sērijas lieluma n.

Ja varbūtība p daudz neatšķiras no 0,5 (līdz ar to arī q ir tuvs 0,5), sadalījuma poligons ir tuvs simetriskam. Ja vai nu  p vai q  ir mazs skaitlis, piemēram 0,1, sadalījuma poligons pie nelielām n vērtībām ir krasi asimetrisks.

Ja novērojumu sērija ir liela (n >50) sadalījuma poligons kļūst tuvs simetriskam arī tad, ja p vai q  ir samērā mazs skaitlis, piem., p,g  0,1.

Ja var pieņemt, ka binomiālā sadalījuma poligons ir tuvs simetriskam, tad kā binomiālā sadalījuma tuvinātu modeli var  izmantot normālo sadalījumu un statistiskās hipotēzes pārbaudīt ar klasiskām metodēm. Ja tuvinājums ir nepietiekams, ir jāizdara aprēķini ar Bernulli formulu, kā parādīts iepriekš, vai arī jāizmanto binomiālā sadalījuma matemātiskās tabulas.

Orientējoši  var  pieņemt,  ka tuvinājums  ir  pietiekams, ja  p,q >0,1  un  n >50, bet,  ja

p,q >0,3,  tad  pietiek  n>30.

Ir gadījumi, ka savāktie dati it tādi, kas neļauj pieņemt lēmumu par statistisko hipotēzi ar pietiekamu pārsvaru, to noraidot vai paturot spēkā. Tieši šādos gadījumos ir lietderīgi izmantot precīzas metodes. Ja dati ir tādi, ka hipotēzi var noraidīt vai nenoraidīt ar lielu drošību, tad ir pilnīgi pietiekamas tuvinātas metodes. Tādēļ dažreiz var sākt ar tuvinātām metodēm un tad, ja tās nedod atbildi ar ''lielu pārsvaru'', atkārtot aprēķinus jau ar precīzakām metodēm.

Dažos gadījumos, kad lēmumu nevar pieņemt ar ''lielu pārsvaru'', kā arī tad, ja nav īsti pamatots hipotēzes pārbaudes nozīmības līmenis, var pieņemt trešo lēmumu: novērojumu ir jāturpina. Tāds galīgais lēmums varētu būt lietderīgs arī uzdevumā dotajā situācijā: vēlams novērojumu atkārtot ar citiem ekspertiem un, ja iespējams, palielināt ekspertu skaitu.

 

15.5. Hipotēzes par retiem notikumiem

tieša pārbaude

 

Vienkāršākajā gadījumā ir dots četrlauciņu jeb 2 x 2 sadalījums un ir jāpārbauda, vai divas izdalītās grupas pēc kādas pazīmes relatīvajiem biežumiem atšķiras statistiski nozīmīgi. Turklāt relatīvie biežumi ir mazi.

Metodi raksturo 15.5.1. uzdevums.

Ir jāvērtē divi piegādātāji pēc izbrāķēto partiju skaita, kuru abiem ir tik maz, ka izbrāķētās partijas jāvērtē kā reti notikumi.

 

15.10. tabula

 

Piegādāto partiju sadalījums derīgās un izbrāķētās

 

Piegādātāji

Partiju skaits

tajā skaitā

 

 

izbrāķētas

derīgas

 

 

 

 

Pirmais

50

1

  49

Otrais

70

2

  68

 

 

 

 

K o p ā

120

3

117

 

 

Analīze un atrisinājums.

Izbrāķēto partiju īpatsvars pirmajam piegādātājam ir 0,020, otrajam 0,0286, tātad  pirmajam piegādātājam nedaudz mazāks. Bet šie rādītāji ir iegūti, vadoties no retiem notikumiem - piegādāto partiju izbrāķēšanas, Tādēļ rodas uzdevums pārbaudīt, vai pirmais piegādātājs, vadoties no produkcijas kvalitātes viedokļa, ir uzticamāks nekā otrais.

No formālā viedokļa šis uzdevums atgādina 15.2.1. uzdevumu, kuru risinājām nodaļā '' kvadrāts''. Taču šoreiz kvadrāta kritēriju izmantot nevar. Lai strādātu ar kvadrātu, absolūtajiem biežumiem (novērojumu skaitam) katrā elementārgrupā (rūtiņā) ir jābūt pietiekami lieliem, katrā ziņā  lielākiem par 5.

Tā kā izdalīto grupu ir tikai divas (divi piegādātāji), to apvienošana, tādējādi palielinot novērojumu skaitu grupās, nav iespējama. Tādēļ nulles hipotēzes pārbaudei gadījumos, kur izšķiroša nozīme ir retiem notikumiem, ir jālieto kāda cita metode.

Ja teorētiski iespējamo biežumu sadalījumu četrlauciņu tabulā, kas nodrošina kopējo un marģinālās (kopsummas rindas un ailes) summas, nav daudz, tad katra šāda iespējamā sadalījuma varbūtību var aprēķināt tieši, izmantojot kombinatorikas formulas8.

Ja no divām ģenerālkopām (divu piegādātāju partijām) ir ņemtas izlases un konstatēts notikuma iestāšanās skaits (izbrāķēto partiju skaits), tad iegūstam 2 x 2 rūtiņu sadalījumu

 

 

Ja ir fiksētas summas  tad vienu no biežumiem, piemēram , var izvēlēties brīvi, bet tiklīdz šī izvēle ir izdarīta, pārējie biežumi kļūst fiksēti skaitļi, kuri var vienīgi  nodrošināt vajadzīgās summas.

Tādēļ, izrēķinot piemēram  varbūtību, tā vienlaikus raksturo arī viena konkrēta 2 x 2 sadalījuma varbūtību.

 

 

 

 

 

_____________________

8  Skat. Mothers J. Previsions et decisions statistiques dans L'entreprise. - Paris,

1962. tulk. krievu val.:  Vjn :. Cnfnbcnbxtcrbt ghtldbltybz b htitybz yf ghtlghbznbb. - V:

1966. - 512 c. (c. 208. - 209.).

 

Šādu varbūtību, izmantojot kombinatoriku, var izskaitļot ar formulu

 

                                 .                                                       (15.24.)

 

Ja iespējamo  vērtību skaits nav liels, visas varbūtības var aprēķināt skaitliski. Citos uzdevumos neliels iespējamo vertību skaits var būt , . Konkrētajā uzdevumā  var būt skaitļi 0; 1; 2;

3. Pārējie trīs skaitļi četrlauciņu tabulā seko automātiski.

 

Skaitliskie aprēķini ir šādi

0

50

 

 

3

 

67

                                   

 

1

49

 

 

2

 

68

 

 

2

48

 

 

1

 

69

 

 

3

48

 

 

0

 

70

 

Aprēķināto četru varbūtību summa ir 1.

Jāatzīmē, ka skaitļu, kuri lielāki par 69, faktoriālus ar parastiem skaitļotājiem tieši izrēķināt nevar. Skaitļošanas grūtības var pārvarēt, izteiksmes logaritmējot un faktoriālu logaritmus nolasot speciālās tabulās.

Konkrētajā gadījumā ir iespējams faktoriālus saīsināt un izskaitļot tieši.

Piemēram

 

                                   

 

Ja no divu piegādātāju 120 partijām 3 ir izbrāķētas, turklāt izbrāķēto partiju sadalījums starp piegādātājiem ir nejaušs, tad varbūtība, ka pirmajam piegādātājam izbrāķēto partiju nebūs, ir 0,195; ka būs viena izbrāķēta partija - 0,430; divas - 0,305. Visas tās ir pietiekami lielas, lai tādu iznākumu varētu vērtēt kā nejaušu. Vienīgi, ja visas trīs izbrāķētās partijas būtu no pirmā piegādātāja, šādu rezultātu jau būtu grūti izskaidrot ar nejaušību: varbūtība, ka tāds rezultāts radies nejauši, ir 0,07.

Ja turpretī trīs brāķa partijas būtu piegādājis otrais piegādātājs, bet pirmais nevienu (p = 0,195), tad analogu secinājumu ar pietiekoši augstu varbūtību vēl nevarētu izdarīt, jo otrais piegādātājs ir piegādājis lielāku skaitu partiju, tādēļ arī nejauši iespējamo izbrāķēto partiju skaits var būt lielāks.

Tāds izbrāķēto partiju sadalījums starp piegādātājiem, kāds dots uzdevumā, ir sagaidāms ar varbūtību 0,43, tātad ar samērā lielu, un šādu sadalījumu var uzskatīt par nejaušu. No produkcijas kvalitātes viedokļa abi piegādatāji joprojām jāvērtē kā līdzvērtīgi.

 

15.6. Rangu kritēriji

 

15.6.1. Divu savstarpēji neatkarīgu izlašu salīdzināšana ar U kritēriju

 

U kritērijs izstrādāts Vilkoksona, Manna, Vitneja darbos un bieži literatūrā tiek saukts viņu vārdos. Ar U kritēriju pārbauda nulles hipotēzi, ka divas neatkarīgi veidotas izlases pieder vienai un tai pašai ģenerālkopai. Citā formulējumā: divām ģenerālkopām, no kurām ņemtas divas izlases, ir vienādi sadalījumi. Pēdējais apgalvojums satur  arī apgalvojumu, ka šīm ģenerālkopām ir vienādas mediānas un vidējie. Tas ļauj izteikt pirmo apgalvojumu, ka abas ģenerālkopas var apvienot un uzlūkot par vienu un to pašu ģenerālkopu.

Daži autori uzskata, ka U kritērijs ir pats drošākais neparametriskais kritērijs9.

U kritērijs pieder rangu kritērijiem un ir analogs t kritērijam, kuru izmanto, piemēram, divu vidējo starpības nozīmības pārbaudei ar parametriskām metodēm.

15.6.1. Uzdevums. Firma savu izstrādājumu realizē deviņos vispārēja rakstura un septiņos specializētos veikalos. Visi veikali atrodas vienā pilsētā, izstrādājums paredzēts ilgstošai lietošanai, tādēļ veikala atrašanās vietai nav izšķirošas nozīmes. Firmas vadība vēlas uzzināt, vai pircēji šo izstrādājumu labprātāk iegādājas vispārēja rakstura, vai speciālizētos veikalos. Lai to noskaidrotu, ir savākti dati par minētā izstrādājuma pārdošanu visos veikalos zināmā laika vienībā (dienā, nedēļā, mēnesī). Sakārtojot veikalus ranžētās rindās pēc pārdoto izstrādājumu daudzuma, ir iegūti šādi dati (15.11. tabula).

 

15.11. tabula

 

Pārdoto izstrādājumu skaits pa veikaliem (veikali ranžēti)

 

 

Veikalu rangs

Veikali

1.

2.

3.

4.

5.

6.

7.

8.

9.

1. Vispārējas nozīmes

3

5

6

10

17

18

20

39

51

2. Specializētie

7

14

22

36

40

49

52

-

-

 

Noskaidrot, vai pircēju izvēle par labu vienai no veikalu grupām ir statistiski nozīmīga vai nē (vai atšķirības var izskaidrot ar nejaušību).

Pirmo priekšstatu par tirdzniecības intensitāti abās veikalu grupās dod pārdoto izstrādājumu skaita mediānas. Pirmajā grupā mediāna ir 5.veikala pārdoto izstrādājumu skaits 17, otrajā grupā 4.veikala pārdoto izstrādājumu skaits 36.

 

 

 

_________________

9  Sachs L. Statistische Auswertungsmethoden. Dritte Auflage, 1972.

    Tulk. krievu val. Pfrc K. Cnfnbcnbxtcrjt jwtybdfybt. - V.> 1976. - c. 270. - 281.

Tā kā otrajā veikalu grupā mediāna ir vairāk nekā divas reizes lielāka, var izdarīt empīrisku secinājumu, ka tirdzniecības intensitāte ar firmas izstrādājumu ir lielāka specializētajos veikalos.

To pašu rāda arī  aritmētiskie vidējie  un .

Vairāk darba ir jāveic, lai pārbaudītu tirdzniecības intensitātes atšķirības nozīmību abās veikālu grupās. Šim nolūkam  izmantosim Vilkoksona - Manna - Vitneja jeb  U kritēriju. Tas pārbauda pašu sadalījumu atbilstību, vienlaikus pārbaudot arī to lokācijas, piem., mediānu atbilstību.

Lai pārbaudītu nulles hipotēzi, kas apgalvo, ka abu grupu sadalījumi ir vienādi, resp., abas izlases ir ņemtas no vienas ģenerālkopas, ir jāizdara šādas darbības:

 

            1. Jāaprēķina empiriskie U lielumi.

            2. Jānolasa matemātiskajās tabulās U kritiskā vērtība, atbilstoši izvēlētajam nozīmības

    līmenim un novēroto vienību skaitam.

            3. Jāpieņem lēmums par hipotēzi.

 

1. Lai aprēkinātu U kritērija empīrisko lielumu, abu salīdzināmo grupu vienības (veikalus) apvieno un ranžē kopējā rindā un saskaita rangus katrai grupai atsevišķi. (15.12. tab.)

 

15.12. tabula

 

Darba tabula empīriskā U kritērija aprēķināšanai

 

Novērojumi

3

5

6

7

10

14

17

18

20

22

36

39

40

49

51

52

Rangi

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

Grupa:

 

pirmā - A,

otrā    - B

 

 

A

 

 

A

 

 

A

 

 

B

 

 

A

 

 

B

 

 

A

 

 

A

 

 

A

 

 

B

 

 

 

B

 

 

 

A

 

 

B

 

 

B

 

 

A

 

 

B

Rangi  1.grupā

1

2

3

 

5

 

7

8

9

 

 

12

 

 

15

 

Rangi   2.grupā

 

 

 

4

 

6

 

 

 

10

11

 

13

14

 

16

 

Rangu summas  pirmajā un otrajā grupā ir šādas: .

Var aprēķināt divus empīriskus U lielumus

 

                                                                                                (15.25.)                                                                                                                                                           

                                                                                              (15.26)

 

kur n un m - vienību skaits grupās.

 

Uzdevumā

Aprēķinu pārbaudei var izmantot sakarību

 

                       

 

Tā kā mazāka U vērtība ved pie drošākas nulles hipotēzes noraidīšanas, ar tabulu kritēriju salīdzina mazāko no divām  aprēķinātajām U vērtībām: . Loģiski tas nozīmē pārbaudīt  vienpusēju hipotēzi: tirdzniecības intensitāte var būt lielāka vai nu specializētajos veikalos, vai abās veikalu grupās vienādi.

 

2. Lai atrastu U kritisko vērtību matemātiskajās tabulās, ir jāizvēlas nulles hipotēzes pārbaudes nozīmības līmenis a. Pieņemot to vienpusējam kritērijam 0,1, var izmantot šādu tabulas fragmentu (15.13. tabula).

 

Par m jāpieņem lielākais, par n - mazākais novērojumu skaits salīdzināmajās izlasēs.

 

Līdz ar to U

 

15.13. tabula

 

Fragments no Vilkoksona - Manna - Vitnija U kritisko vērtību tabulām

vienpusējam nozīmības līmenim 

(divpusējam )10

 

 

n

m

4

5

6

7

8

9

10

4

3

 

 

 

 

 

 

5

4

5

 

 

 

 

 

6

5

7

9

 

 

 

 

7

6

8

11

13

 

 

 

8

7

10

13

16

19

 

 

9

9

12

15

18

22

25

 

10

10

13

17

21

24

28

32

 

 

3. Lēmuma pieņemšana. Tā kā 17<18,  nulles hipotēzi var noraidīt ar izvēlēto varbūtību. Specializētajos veikalos tirdzniecības intensitāte ir lielāka un intensitātes starpība ir statistiski nozīmīga.

Lēmuma pieņemšanas kārtību viegli atcerēties, un arī empīriskos  un  orientējoši var novērtēt šādi. Ja abi  un  ir samērā līdzīgi skaitļi, tas norāda, ka nulles hipotēzi nevarēs noraidīt. Ja viens no viņiem ir vairākārt lielāks nekā otrs - var prognozēt hipotēzes noraidīšanu.

Ja m un n nav sevišķi mazi, vismaz  ne mazāki kā 8, un nav viegli pieejamas U kritisko vērtību tabulas, tad nulles hipotēzes pārbaudei var izmantot arī normālā sadalījuma tabulas. Šajā nolūkā aprēķina empīrisko t vērtību

 

 

 

__________________

10  Plašākas tabulas skat. Pfrc K. Cnfnbcnbxtcrjt jwtybdfybt. - V.> 1976. - c. 272. - 277.

 

                                                                                                        (15.27)

 

Uzdevumā

                                   

 

Atrasto t var uzlūkot kā standartizētu normālā sadalījuma argumentu. Varbūtību, ka normālais sadalījums pārsniegs šo robežvērtību, var nolasīt integrālajās tabulās kā  Tā ir pirmā veida kļūdas  varbūtība, ko riskējam pieļaut, noraidot nulles hipotēzi (nozīmības līmenis). Citiem vārdiem, nulles hipotēzi uzdevumā var noraidīt ar varbūtību 0,937. Tā ir pietiekami liela, lai hipotēzi noraidītu. Ar abām metodēm esam ieguvuši vienu un to pašu secinājumu.

Vispār uzdevuma saturam un priekšnoteikumiem vispiemērotākā metode ir jālieto tad, ja izvirzīto hipotēzi nevar ne noraidīt, ne pieņemt ar ''lielu pārsvaru''. Ja dati ir tādi, ka lēmumu var pieņemt ar ''lielu pārsvaru'', tad praktiski visas iespējamās metodes novedīs pie viena un tā paša lēmuma.

Tādēļ, izvērtējot praktisku uzdevumu, datus var apstrādāt ar vislabāk zināmo metodi  un tad,  ja tā nedod rezultātus ar ''lielu pārsvaru'', meklēt vispiemērotāko un jūtīgāko metodi.

 

15.6.2. Iedarbības efekta novērtēšana; Vilkoksona rangu kritērijs

 

Metodes ilustrēšanai izmantosim 15.6.2. uzdevumu.

15.6.2. uzdevums.  Firma pārdod savus izstrādājumus 10 veikalos. Lai pievērstu pircēju uzmanību, firmas vadība izmantoja reklāmu televīzijā. Ir savākti dati par veikalu apgrozījumiem pirms un pēc reklāmas salīdzināmos periodos (noteiktā nedēļas dienā, nedēļā, mēnesī vai taml.) un tie parādīti 15.14. tabulā.

 

     15.14. tabula

 

Pārdoto preču vērtība, tūkst. latu

 

 

Veikalu numuri

 

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

 

 

 

 

 

 

 

 

 

 

 

Pirms reklāmas

25

40

32

70

51

15

37

60

45

21

 

 

 

 

 

 

 

 

 

 

 

Pēc  reklāmas

30

35

45

64

70

22

44

74

51

40

 

Noskaidrot, vai reklāma ir bijusi iedarbīga un vai šī iedarbība ir statistiski nozīmīga.

 

 

Uzdevuma analīze un atrisinājums. Vienkāršu empīrisku atbildi var iegūt, saskaitot apgrozījumu kopsummu pa visiem veikaliem, pēc kuras var izrēķināt vidējo apgrozījumu vienā veikalā pirms un pēc reklāmas. Apgrozījumu summa pirms reklāmas ir 396, bet pēc reklāmas 475, vidēji vienā  veikalā  un .

Apgrozījums pēc reklāmas ir palielinājies. Lai tāds empīriskais secinājums  būtu korekts, jāseko, lai salīdzināmajos periodos nebūtu kādas specifiskas īpatnības: svētku dienas, masu pasākumi, lai abos periodos būtu vienādas nedēļas dienas u.t.t.

Tālāk jānoskaidro, vai atrastā atšķirība ir statistiski nozīmīga. Lai to izdarītu, jāaprēķina apgrozījuma izmaiņas visos veikalos (15.14. tabulas otrās un pirmās rindas starpības), kuras ir ierakstītas 15.15. tabulas pirmajā rindā.

 

15.15. tabula

 

Darba tabula statistiskās hipotēzes

 neparametriskai pārbaudei

 

 

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

Izmaiņas

 

5

 

-5

 

13

 

-6

 

19

 

7

 

7

 

14

 

6

 

19

 

79

  rangs

1,5

1,5

7

3,5

9,5

5,5

5,5

8

3,5

9,5

x

Pozitīvie rangi

 

1,5

 

 

7

 

 

9,5

 

5,5

 

5,5

 

8

 

3,5

 

9,5

 

50

Negatīvie rangi

 

 

 

1,5

 

 

3,5

 

 

 

 

 

 

 

5

 

Pēc pirmās rindas kopsummas var aprēķināt vidējo efektu  vienā veikalā . Izmantojot parametrisko kritēriju, pārbaudītu, vai ar pietiekoši augstu varbūtību var noraidīt nulles hipotēzi, kura apgalvo, ka  ģenerālkopā (ja veikalu būtu neierobežoti daudz) ir nulle, resp. .

To pašu hipotēzi var pārbaudīt ar neparametrisko Vilkoksona rangu kritēriju. Pēdējais ieteicams tad, ja novirzes  veido no normālā krasi atšķirīgu sadalījumu, piemēram, daži veikali ir vairākas reizes lielāki nekā citi, tāpat - ja novērojumu (veikalu) skaits ir mazs.

Lai realizētu nulles hipotēzes pārbaudi ar Vilkoksona kritēriju, novirzes ir jasaranžē pēc to absolūtā lieluma, piešķirot tām rangu numurus dabisko skaitļu veidā: 1, 2, 3 ...

Vismazākās novirzes  15.15. tabulā 2. rindā ir 1. un 2. veikalam. Šiem veikaliem būtu jāpiekārto rangi 1. un 2. Bet tā kā abas novirzes ir vienādas, viņām piešķir vidējo rangu 1,5 (tabulas 3. rinda).   3. un 4. rangs ir jāpiešķir 4. un 9. veikalam. Ta kā  atkal abas novirzes ir vienādas, atzīmējam vidējo rangu 3,5. Tā aizpilda visu tabulas trešo rindu.

Tālāk izdala atsevišķi pozitīvos rangus (tabulas 4.rinda) un negatīvos rangus (5.rinda) un atrod to summas (pēdējā aile). Pozitīvo rangu summu apzīmē ar , bet negatīvo - ar .

Aprēķināto summu pareizību var pārbaudīt, izmantojot sakarību

 

                                    

 

Par empīrisko skaitli, ko izmanto hipotēzes pārbaudei, izmanto mazāko (pozitīvo vai negatīvo) rangu summu. Uzdevumā tā ir . Nulles hipotēzi noraida, ja tā ir mazāka vai vienāda ar kritisko robežu, kuru nolasa speciālās Vilkoksona kritērija tabulās pa pāriem saistītu novērojumu starpībām. Neliels izvilkums no šīm tabulām ir dots 15.16. tabulā.

 

15.16. tabula

 

    Vilkoksona kritērijs par pa pāriem saistītiem novērojumiem11

 

 

Vienpusējs

Abpusējs

n

5 %

1 %

5 %

1 %

 8

 5

1

 3

0

 9

 8

3

 5

1

10

10

5

 8

3

11

13

7

10

5

12

17

9

13

7

 

Tā kā reklāmas rezultātā pircēju interese par preci var vienīgi uzlaboties, var izmantot vienpusēju kritēriju. Redzam, ka, ja n = 10, tad kritiskā robeža nozīmības līmenim 0,05 ir 10, bet nozīmības līmenim 0,01 - 5. Empīriskais , kas mazāks par . Līdz ar to nulles hipotēzi var noraidīt ar varbūtību, lielāku par 0,95. Bet ar varbūtību, lielāku par 0,99, to pašu hipotēzi droši noraidīt vairs nevar, jo .

Kā ilustratīvs materiāls 15.4. attēlā ir parādītā  apgrozījuma noviržu  diagramma (A daļa) un rangu diagramma (B daļa).

Rangu sadalījumā izteikti lielākas par  ir četras novirzes, mazākas - arī četras novirzes, bet divas novirzes ir tuvas vidējam rangam.

Vērtējot apgrozījuma noviržu sadalījumu, jāatzīmē, ka lielākas par vidējo novirzi  ir četru veikalu novirzes, kuras ir lielas. Savukārt mazākas par 7,9 ir sešas novirzes, kuras ir salīdzinoši mazākas. Tādēļ noviržu sadalījums nav īsti  tuvs normālam.

 

15.6.3. Aproksimācija ar normālo sadalījumu

 

Ja izlase, piemērā - veikalu skaits, ir liela, izvirzīto nulles hipotēzi var pārbaudīt, izmantojot normālo sadalījumu. Šajā gadījumā nav nepieciešams izmantot sākotnējās novirzes, kuru sadalījums var krasi atšķirties no normālā, bet ir iespējams empīrisko t koeficientu aprēķināt, izejot no minimālās rangu summas  (mazākās pozitīvo vai negatīvo rangu summas). Izmanto formulu 15.28:

 

                                                                                                     (15.28)

 

Pārejot no novirzēm naturālā skalā uz rangiem un to novirzēm, ekstremālie novērojumi zaudē savu ekstremālo raksturu. Zaudējot daļu informācijas, atlikusī informācija kļūst viendabīgāka.

Empīrisko t vērtību salīdzina ar kritisko robežvērtību sadalījuma tabulās.

Iepriekšējā uzdevumā (15.15. tabulā) n = 10, tādēļ šo metodi lietot nevajadzētu. Tomēr metodes demonstrēšanai aprēķinus izdarīsim.

___________________

11  Plašāku tabulu skat. piem.: Pfrc K. Cnfnbcnbxtcrjt jwtybdfybt. - c. 289.

            A daļa          

 

 

 

 

 

 

 

 

 

 

 

 

            B daļa          

 

 

 

 

 

 

 

15.4. attēls. Apgrozījuma noviržu  un rangu diagrammas

 

 

 

                                               

 

Ja grib izmantot vienpusēju kritēriju, ir jāatrod normālā sadalījuma integrālā funkcija  F(2,29) = 0,989.

Ar šādu varbūtību var noraidīt izvirzīto nulles hipotēzi. Pirmā veida kļūdas varbūtība (nozīmības līmenis) ir 1 - 0,989 = 0,011. Redzam, ka pat izteikti mazas izlases gadījumā abas metodes ir devušas praktiski vienādus rezultātus.

 

15.7. Neparametriski sakarību rādītāji

 

Vienkāršas variācijas rindas veido pēc vienas pazīmes, un metodes, kuras izmanto to apstrādei un analīzei, sauc par viendimensijas statistikas metodēm. Ja analīzē vienlaikus un kompleksi ir jāaplūko divas pazīmes, runā par divu dimensiju statistikas metodēm, ja vairāk - par daudzdimensiju metodēm. Starp divu un daudzdimensiju metodēm svarīgākās ir metodes, ar kurām skaitliski raksturo divu (vairāku) statistisku pazīmju sakarības.

Parametriskās statistikas ietvaros statistisko sakarību pētīšanai visbiežāk izmanto regresijas un korelācijas analīzi, kuru pamatā ir vismazāko kvadrātu metode.

Tādēļ neparametriskās statistikas uzdevums ir izstrādāt metodes un rādītājus, kuri saturētu regresijas un korelācijas koeficientiem līdzīgu informāciju, bet nebūtu saistīti ar korelācijas un regresijas analīzei izvirzāmiem priekšnoteikumiem.

 

15.7.1. Spirmena un Kendela rangu korelācijas koefiecinti

 

15.7.1. Uzdevums. Inženieris, kura darbs saistīts ar gāzes piegādi dzīvokļu apsildīšanai, vēlas noskaidrot, kā gaisa temperatūra  ietekmē gāzes patēriņu. Šim nolūkam viņš ir savācis datus par gada  10 mēnešiem (15.17. tabula).

 

15.17. tabula

 

Atmosfēras temperatūra un gāzes patēriņš apsildināšanai

 

Mēnesis

Gaisa temperatūra

grādos, x

Gāzes patēriņš,

milj. m3 , y

Oktobris

 10,7

18,3

Novembris

  5,2

40,1

Decembris

  3,6

50,3

Janvāris

  3,5

46,1

Februāris

  3,5

44,5

Marts

  8,6

30,2

Aprīlis

13,0

10,9

Maijs

16,2

  5,5

 

 

___________________

12  Datu avots. Vjn :. Cnfnbcnbxtcrbt ghtldbltybz b htitybz yf ghtlghbznbb. Gth. c ahfyw. -

             V. Ghjuhtcc> 1966.-c. 297.

Vizuālu priekšstatu par sakarību esamību un to raksturu var iegūt, izgatavojot korelācijas diagrammu (15.5. att.)

 

 

15.5. attēls. Gāzes patēriņa y izmaiņas mainoties gaisa temperatūrai x

 

Pēc attēla ir redzams, ka punkti, skatoties no kreisās puses uz labo, ir novietoti arvien tuvāk abscisu asij. Tas nozīmē, ka pazīmes  x un y saista negatīva sakarība. Pēc samērā maza novērojumu skaita  diezgan grūti pateikt, kādā mērā izpildās klasiskās regresijas un korelācijas analīzes priekšnoteikumi.

Izmantojot klasisko metodi, iegūstam, ka sakarības raksturo regresijas vienādojums.   un korelācijas koeficients r = - 0,988. Paagstinoties atmosfēras temperatūrai par 1 c, gāzes patēriņš šajā rajonā samazinās vidēji par 3,48 milj.m3. Sakarības ir ļoti ciešas, par ko liecina korelācijas koeficients, kurš ir tuvs vienam.

Tālāk iedomāsimies, ka vēl ir novērojumi par vienu mēnesi, kurā  (attēlā šis novērojums attēlots ar aplīti). Ir redzams, ka šis novērojums krasi atšķiras no pārējiem. Tas var būt radies objektīvu apstākļu dēļ (liela avārija gāzes padeves sistēmā, kas neļāva piegādāt temperatūrai atbilstošo daudzumu) vai vienkārši kādu statistiskās novērošanas kļūdu dēļ.

Tā vai citādi šis novērojums neiekļaujas vispārējā likumsakarībā. Ja krasi atšķirīgo novērojumu paturam datu masīvā un to no jauna apstrādājam ar vismazāko kvadrātu metodi, tad iegūstam , kas ievērojami atšķiras no sakarībām kopas pamatmasā.

Šajā un līdzīgos gadījumos ir jālemj vai nu krasi atšķirīgos novērojumus pirms datu apstrādes anulēt vai arī precīzāko parametrisko metožu vietā lietot neparametriskās, kuras ir mazāk jūtīgas pret krasi atšķirīgiem novērojumiem un vispār pret sadalījuma novirzi no normālā (šoreiz no divu dimensiju normālā sadalījuma).

No neparametriskiem sakarību ciešuma rādītājiem ērti lietot Spirmena rangu korelācijas koeficientu. To aprēķina ar formulu

 

                                                                                                              (15.29)

 

kur d - starpība starp faktorālās un rezultatīvās pazīmes rangiem jeb x un y skaitlisko lielumu kārtas numuriem.

 

Ja neizmanto datoru vai programmējamu skaitļotāju, jāsagatavo darba tabula (15.18. tabula.).

 

15.18. tabula

 

Darba tabula Spirmena rangu korelācijas koeficienta aprēķināšanai

 

Novērojumu

Nr.

 

 

 

 

Novērojumu rangi

pēc

Rangu

starpība

Rangu

starpības

 

x

y

x

y

d

kvadrāts

 

 

 

 

 

 

 

1

10,7

18,3

6

3

3

9

2

5,2

40,1

4

5

-1

1

3

3,6

50,3

3

8

-5

25

4

3,5

46,1

1,5

7

-5,5

30,25

5

3,5

44,5

1,5

6

-4,5

20,25

6

8,6

30,2

5

4

1

1

7

13,0

10,9

7

2

5

25

8

16,2

5,5

8

1

7

49

 

 

 

 

 

 

 

K o p ā

x

x

x

x

x

160,5

 

 

                                               

 

Spirmena rangu korelācijas koeficients arī norāda uz ciešām, negatīvām sakarībam.

Pievienojot vienu neraksturīgu novērojumu, Spirmena rangu korelācijas koeficients pēc absolūtas vērtības m samazinās no 0,911 līdz 0,888, kamēr parastais jeb Pirsona korelācijas koeficients - no 0,988 līdz 0,864. Uzdevums parādīja, ka neparametriskais rādītājs ir mazāk jūtīgs pret neraksturīgiem novērojumiem.

Kā alternatīvu neparametrisku sakarību ciešuma rādītāju var izmantot Kendela rangu korelācijas koeficientu u.c.

Lai aprēķinātu Kendela rangu korelācijas koeficientu, novērojumu sakārto pēc  pirmās pazīmes rangiem un izraksta atbilstošā secībā otrās pazīmes rangus. Pēc 15.18. tabulas datiem iegūstam:

x

1,5

1,5

3

4

5

6

7

8

y

7

6

8

5

4

3

2

1

 

Tālāk apstrādājam tikai otrās pazīmes rangus.  Pirmā novērojuma otrās pazīmes rangs ir 7.

Saskaitām, cik šim skaitlim labajā pusē ir lielāku rangu par 7 . Tāds ir viens.  Pierakstām nelielā darba tabuliņā:

 

+

1

1

0

0

0

0

0

P = 2

-

6

5

5

4

3

2

1

Q = 26

 

Saskaitām, cik pa labi no 7 ir mazāki rangi. Tādu ir 6. Ierakstām šo skaitli darba tabuliņas otrajā rindā. Tāpat apstrādājam otro novērojumu, kura otrās pazīmes rangs ir 6. Pa labi no 6 ir viens lielāks un 5 mazāki rangi. Ierakstām šos skaitļus darba tabuliņā.

Nākošo izvērtējam trešo novērojumu. Pa labi no 8 lielāku skaitļu nav, bet ir pieci mazāki skaitļi.

Līdzīgi apstrādājam visus parējos novērojumus. Aprēķinu pareizību kontrolē tā, ka katra nākošā novērojuma ''plus'' un ''mīnus'' skaitļu summa ir par vienu mazāka nekā iepriekšējā.

Visu ''plus'' skaitļu summu M.Kendels apzīmē ar P, bet ''mīnus'' skaitļu summu ar Q. Kad tās ir saskaitītas, var aprēķināt Kendela rangu korelācijas koeficientu pēc formulas

 

                                                                                                                (15.30)

 

kur n - novērojumu skaits.

 

Uzdevumā

 

                                   

 

M.Kendels parāda, ka aprēķinu var vienkāršot saskaitot tikai par kārtējo lielāko rangu skaitu. Tad izmanto formulu

 

                                                                                                            (15.31)

 

Uzdevumā

 

                                   

 

Kendela rangu korelācijas koeficients kļūst nedaudz nenoteikts, ja novērojumiem ir piešķirti dalīti rangi, kā tas ir arī 15.18. tabulā pazīmei x.

Rangu korelācijas koeficientus visplašāk izmanto, izvērtējot, cik saskaņoti darbojas dažādas ekspertu komisijas, kuru locekļi dod novērošanas vienībām savus subjektīvos novērtējumus, piemēram, izliek atzīmes vai saranžē sportistes mākslas vingrošanā.

 

 

15.7.2. Kontingences koeficients

 

Ja vismaz viena no savstarpēji saistītām pazīmēm ir atributīva (jēdzieniska) vai citādi metriski nesamērojama, tad ne parasto Pirsona, ne rangu korelācijas koeficientu aprēķināt nevar. Šādos gadījumos divu pazīmju sakarību ciešumu var raksturot, izmantojot kādu kontingences koeficientu.

15.7.2. Uzdevums. Daļa no studentiem pirms iestāšanas augstskolā ir strādājuši. Noskaidrot, vai pirmsstudiju nodarbošanās raksturs ir statistiski saistīts ar sekmību augstskolā. Ir sakopoti dati, kuri parādīti 15.19. tabulā.

 

15.19. tabula

 

Studentu sadalījums pēc pirmsstudiju nodarbošanās un sekmības augstskola13

 

Pirmsstudiju

Studentu

Studentu skaits ar vidējo atzīmi eksāmenu sesijā

nodarbošanās

skaits

līdz 3,49

3,5 -3,99

4,0 - 4,49

4,5 - 4,99

5,0

 

 

 

 

 

 

 

Strādnieks

210

26

66

72

33

13

Laukstrādnieks

29

4

9

13

3

0

Ierēdnis bez spe-

ciālās izglītības

 

269

 

16

 

55

 

110

 

69

 

19

Ierēdnis ar spe-

ciālo izglītību

 

152

 

8

 

27

 

56

 

50

 

11

Karavīrs

79

8

22

34

14

1

Sagatavošanas nodaļas

klausītājs

 

 

224

 

 

40

 

 

75

 

 

85

 

 

19

 

 

5

 

 

 

 

 

 

 

K o  p ā - Skaits

963

102

254

370

188

49

 

Pirmsstudiju nodarbošanās ir atributīva pazīme; tās nozīmes (nodarbošanās veidus) nevar ranžēt. Arī atzīmes sesijā tikai nosacīti var uzlūkot par kvantitatīvi samērojamām. Par atzīmēm piecu ballu sistēmā nav īsti zināms, vai atzīme ''teicami'' atspoguļo tikpat pārākas zināšanas, salīdzinot ar ''labi'', kā ''labi'', salīdzinot ar ''apmierinoši''.

Tādēļ sakarību ciešumu starp pirmsstudiju nodarbošanos un sekmību augstskolā raksturosim ar kontingences koefiecientu.

Ir dažādi kontingences koeficienti: tetrahorie, polihorie, Čuprova, Pirsona, parastie un entropijas; aprēķinos var izmantot absolūtos un relatīvos biežumus.

Tā kā uzdevumā (15.19. tabula) ir vairāk nekā 2 x 2 grupas, jāizmanto polihorais koeficients. Aprēķināsim Pirsona koeficientu tieši no absolūtajiem biežumiem, jo tas ir vienkāršāk.

Tādā gadījumā ir jāizmanto formula

 

                                                            ,                                                           (15.32)

kur:

            p - Pirsona polihorais kontingences koeficients,

 

 

 

___________________

13  Šī ir viena no daudzfāzu izlases fāzēm. Tajā ieteverti tie studenti no primārās izlases (4420),

      kuriem ir bijusi pirmsstudiju nodarbošanās bez mācībām vidusskolā.   Avots:   I.Ciemiņa, 

      O.Krastiņš. Kontingences koeficienti - R.: LU, - 1991. - 6.lpp. Tur arī  kontingences 

      koeficienti aplūkoti plašāk.

 

                                               

kur savukārt:

                         - vienību skaits s rindiņā (grupā pēc pirmās pazīmes) un t ailē

                          (grupā   pēc otrās pazīmes);

                         un  - vienību skaits marginālo kopsummu rindā un ailē 

                                     (punkts  nozīmē, ka attiecīgā indeksa nav);

                         un  - grupu skaits pēc pirmās un otrās pazīmes.

 

Strādājot ar neprogrammējamu skaitļotāju, ir jāizmanto un jāizskaitļo šāds polinoms:

 

           

 

(pavisam 31 saskaitāmais).

 

Līdz ar to Pirsona kontingences koeficients ir

 

                                               

 

Ja aprēķinātais lielums būtu korelācijas koeficients, sakarības vērtētu kā vājas, tikko manāmas. Korelācijas koeficientam ir īpašība, pieaugot sakarību ciešumam, sākumā pieaugt ļoti strauji (apmēram līdz 0,5 - 0,6), tālāk - lēni (apmēram līdz 0,8) un visbeidzot tikko manāmi (robežās no 0,9 līdz 1). Kontingences koeficients, pieaugot sakarību ciešumam, palielinās vienmērīgāk. Tādēļ kontingences koeficients 0,286 raksturo jau vidēji ciešas sakarības.

Ja aprēķina citu - entropijas kontingences koeficientu divu dimensiju normālam sadalījumam (mūsu uzdevumā sadalījums nevar būt normāls, jo tas nemaz nav kvantitatīvs), tad var atrast ekvivalentu korelācijas koeficientu, kurš raksturo tikpat ciešas sakarības. Piemēram, entropijas kontingences koeficientam 0,30 ir ekvivalents korelācijas koeficients 0,58. Par parasto kontingences koeficientu šāda salīdzināšanas metode nav zināma.

 

15.7.3. Teila regresijas koeficients

 

Ja pētējot sakarības nepietiek ar sakarību ciešuma rādītājiem, bet ir vajadzīgs noskaidrot, kā faktorālās izmaiņas kvantitatīvi ietekmē rezultatīvo pazīmi, arī šo uzdevumu var atrisināt ar neparametriskām metodēm. To, piemēram, var izdarīt ar Teila metodi, aprēķinot koeficientu, kurš pēc satura ir līdzīgs parastajam vienkāršas lineāras regresijas koeficientam. Metode prasa, lai abas saistītās pazīmes būtu kvantitatīvas, t.i., metriski samērojamas.

 

15.7.3. uzdevums. Firma izgatavo plastmasas tilpnes, presējot zem spiediena. Produkcijas kvalitātes statistika bija novērojusi, ka svārstās defektīvo izstrādājumu īpatsvars tādēļ, ka neiznāk vienāds trauku sieniņu biezums. Speciālisti izteica domu, ka to varētu radīt gaisa spiediena svārstības presē. Lai pārbaudītu šo pieņēmumu, trīs mēnešu laikā reģistrēja gaisa spiedienu presē un defektīvo izstrādājumu īpatsvaru procentos. Ņemam mazu izlasi no tādējādi iegūtajiem datiem un aprēķināsim, par cik procentiem vidēji pieaug brāķa īpatsvars, pieaugot spiedienam presē par 1 kg/m2 (15.20. tabula).

 

 

                                                                                                15.20. tabula

 

Izlases dati tehnoloģisku sakarību pētīšanai14

 

Novērojuma Nr.1

1

2

3

4

5

Spiediens kg/cm2

x

 

8,6

 

9,2

 

8,2

 

8,5

 

8,3

Brāķa izstrādājumu īpatsvars, %

 

0.89

 

0.91

 

0.86

 

0.87

 

0.88

 

Izgatavojot korelācijas diagrammu (15.6.attēls), redzam, ka pieaugot gaisa spiedienam presē x, visumā pieaug arī brāķa izstrādājumu īpatsvars. Sakarības ir pozitīvas un lineāras (15.6 att.) Apstrādājot datus ar vismazāko kvadrātu metodi, iegūstam regresijas vienādojumu

 

 

 

un korelācijas koeficientu r = 0,910, kas norāda uz ciešām sakarībām. Zināmas bažas rada tas, ka priekš regresijas analīzes ar vismazāko kvadrātu metodi 5 novērojumi ir ļoti maz. Bez tam novērojums x = 9,2; y = 0,91 (punkts attēla labajā augšas stūrī) diezgan manāmi izdalās no pārējiem. Tādēļ apstrādāsim datus ar mazāk jūtīgām pret artefaktiem  neparametriskām metodēm.

 

 

15.6. attēls. Gaisa spiediena x ietekme uz brāķa izstrādājumu īpatsvaru y (korelācijas diagramma)

 

Jau pazīstamais Spirmena rangu korelācijas koefieicnts iznāk 0,90, kas ir ļoti tuvs parastajam Pirsona korelācijas koeficientam - 0,91.

Tālāk aprēķināsim regresijas koeficientu bez vismazāko kvadrātu metodes izmantošanas ar Teila paņēmienu. Lai to realizētu, ir jāizpilda šāds algoritms.

 

1. Jāaprēķina attiecības

                                                                                                                         (15.33)

 

__________________

14  Datu avots:  Rey' {. Cnfnbcnbxtcrbt vtnjls gjdsitybz rfxtcndf. Gth. c fyuk. - V.%

              Abyfycs b cnfnbcnbrf> 1990.-c. 89.

Ir jāprēķina m tādas attiecības, kur  - visas iespējamās kombinācijas no n novērojumiem, ņemot tos pa divi. Būtībā ir jāatrod  leņķa koeficienti taisnēm, kas savieno katrus divus punktus korelācijas diagrammā. Citiem vārdiem, ir it kā jātrod katriem diviem novērojumiem savi regresijas vienādojumi, lai pēc tam atrastu šo koeficientu mediānu.

Ja neizmanto datoru vai programmējamu skaitļotāju, starprezultātus ērti sakārtot tabulā 15.21.

 

15.21. tabula

Pāru novērojumu regresijas koeficienti Teila metodei

 

Kombinācija (novērojumu Nr.)

 

 

 

 

1; 2

0,89 - 0,91 = - 0,02 

8,6 - 9,2 = - 0,6

0,033

1; 3

0,89 - 0,86 =   0,03

8,6 - 8,2 =   0,4

0,075

1; 4

0,89 - 0,87 =   0,02

8,6 - 8,5 =   0,1

0,200

1; 5

0,89 - 0,88 =   0,01

8,6 - 8,3 =   0,3

0,033

2; 3

0,91 - 0,86 =   0,05

9,2 - 8,2 =   1,0

0,050

2; 4

0,91 - 0,87 =   0,04

9,2 - 8,5 =   0,7

0,057

2; 5

0,91 - 0,88 =   0,03

9,2 - 8,3 =   0,9

0,033

3; 4

0,86 - 0,87 = - 0,01

8,2 - 8,5 = - 0,3

0,033

3; 5

0,86 - 0,88 = - 0,02

8,2 - 8,3 = - 0,1

0,200

4; 5

0,87 - 0,88 = - 0,01

8,5 - 8,3 =   0,2

  - 0,050

 

2. Atrastās  vērtības jāranžē, ņemot vērā algebriskās zīmes:

            - 0,050; 0,033; 0,033; 0,033; 0,033; 0,050; 0,057; 0,075; 0,200; 0,200.

 

3. Jāatrod  mediāna. Tā kā mums ir pārskaitlis,  vērtību, mediānu atrod kā

                divu ranžētās rindas vidū esošo skaitļu vidējo:

 

                                               

 

Tas arī ir regresijas koeficienta neparametriskais vērtējums. Viņš ir ļoti tuvs ar vismazāko kvadrātu metodi iegūtajam vērtējumam 0,045.

Konkrētajā uzdevumā Teila regresijas koeficienta ģeometriskā interpretācija ir diezgan sarežģita. Vispirms tādēļ, ka mediāna bija jāprēķina kā divu  vērtības locekļu vidējais, un bez tam sakarā ar to, ka viens no šiem locekļiem 0,033 atkārtojas 4 reizes. Ja novērojumu skaits būtu nepāraskaitlis un mediāna iznāktu 0,050 (sestais skaitlis rindā), tad Teila regresijas koeficientu noteiktu tikai divi punkti korelācijas diagrammā - otrais un trešais, kuri attēlā ir savienoti ar līniju. Vienīgi sagadīšanās dēļ tie ir vistālāk viens no otra.

Pētījums būtu jāturpina, pārliecinoties, vai tik mazs novērojumu skaits, kāds bija uzdevumā, ļauj uzskatīt, ka atklātās sakarības ir statistiski nozīmīgas. Tam nolūkam jāpārbauda nulles hipotēze vai nu par korelācijas, vai regresijas koeficientu. Ja to izdodas noraidīt, tad būtu lietderīgi veikt jaunu eksperimentu, noskaidrojot kā spiediens presē ietekmē nevis brāķa procentu, bet tieši interesējošo tilpņu sienu biezumu. Tā rezultātā, ņemot vērā sienu projekta biezumu, varētu noteikt optimālo gaisa spiedienu presē, kurš, eksperimentu sākot, acīmredzot ir bijis nedaudz par lielu un nestabilu.

Vēl jātzīmē, ka, palielinot novērojumu skaitu, strauji pieaug aprēķināmo attiecību  skaits. Ja vien neizmanto datoru un speciālu programmu, Teila metode kļūst ļoti darbietilpīga.