Ievads daļas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16_pielikums

7. Lielā skaita likums un teorētiskie sadalījumi

 

7.1. Lielā skaita likums

 

7.1.1. Loģiski statistiskā un matemātiskā interpretācija

 

            Lielā skaita likums speciālajā literatūrā ir aprakstīts no dažādiem aspektiem un dažādās interpretācijās. Var izšķirt loģiski statistisko un matemātisko interpretāciju.

            No loģiski statistiskā viedokļa lielā skaita likums ir vispārējs princips, saskaņā ar kuru veidojas masveida objektu un parādību īpašības, tādas, kuras nav novērojamas atsevišķām šo objektu un parādību vienībām.

            Piemēram, katrā valstī, katrā laika periodā ir raksturīgs iedzīvotāju vidējais mūža ilgums. Latvijā 1994.g. jaundzimušā paredzamais mūža ilgums bija vīriešiem 60,72 gadi, sievietēm 72,87, vidēji 66,38 gadi. Šis rādītājs mainās, mainoties vispārējam tautas dzīves līmenim, veselības aprūpei u.c. Bet neko tādu mēs nevaram novērot pie atsevišķa cilvēka. Atsevišķa cilvēka mūža ilgums var svārstīties no 0 gadiem līdz vairāk nekā 100 gadiem, un nekādas tiešas saites ar tautas vidējo mūža ilgumu nav novērojamas.

            Katra atsevišķa cilvēka mūža ilgumu noska individuāli ģenētiski, medicīniski un sociāli faktori.

            Saskaņā ar lielā skaita likumu, aplūkojot šos individus lielā kopumā, piemēram, visā tautā, individuālo faktoru iedarbība savstarpēji kompensējas jeb dzēšas. Saglabājas galveno, visu kopumu ietekmējošo faktoru darbība, kas formē masveida objektu un parādību īpašības. Tās atspoguļo statistiskie rādītāji.

            Individuālo faktoru darbības savstarpēja kompensēšanās jeb dzēšanās, tādejādi ļaujot atklāties masveida objekta pamatīpašībām, ir lielā skaita likuma loģiski statistikā satura pamats.

            Ar lielā skaita likuma matemātisko interpretāciju (saturu) saprot virkni matemātisku teorēmu, uz kurām balstās varbūtību teorija, izlases metode un, tiešāk vai netiešāk, - citas statistikas nodaļas. Starp šīm teorēmām nozīmīgas ir t.s. robežteorēmas.

 

7.1.2. Lielā skaita likuma robežteorēmas

           

            Vecākā un viena no nozīmīgākajām robežteorēmām ir Bernulli teorēma. Tā apgalvo, ka pastāvot zināmiem nosacījumiem, relatīvais biežums  tiecas uz varbūtību p, ja neierobežoti palielina novērojumu skaitu. Uz šīs robežteorēmas balstās varbūtības statistiskā definīcija.

            Ar matemātisku izteiksmi Bernulli robežteorēmu pieraksta šādi:

 

                        .                                                                      (7.1)

 

            Vārdos šī teorēma skan diezgan smagi: Ja katrā no n neatkarīgiem novērojumiem gadījuma A notikšanas varbūtība p (mazais) ir nemainīga, tad, neierobežoti palielinot novērojumu skaitu n, var panākt, lai varbūtība P (lielais), ka relatīvais biežums  neatšķiras no varbūtības p vairāk par brīvi izvēlētu, pēc patikas mazu lielumu e, ir pēc patikas tuvu vienam.

            Otra robežteorēma ir Čebiševa teorēma. Tā pierāda, ka līdzīgos apstākļos aritmētiskais vidējais neierobežoti tuvojas matemātiskai cerībai.

            Saprotamāka ir Čebiševa teorēma speciālam gadījumam, to interpretējot no izlases metodes viedokļa.

 

                        ,                                                                 (7.2)

 

                        kur - izlases vidējais,

                               m - ģenerālās kopas vidējais.

 

Vārdos: Neierobežoti palielinot izlases vienību skaitu n, var panākt, lai izlases un ģenerālkopas vidējo starpība būtu pēc patikas mazs skaitlis. Par šī apgalvojuma pareizību varam būt droši ar varbūtību, kas ir pēc patikas tuvu vienam.

            Vārds "pēc patikas" jāsaprot tā, ka varbūtība P var būt arvien tuvāka vienam, ja kopas vienību skaits būs arvien lielāks (tuvāks bezgalībai).

 

7.1.3. Gadījumlieluma vērtēšana, nezinot tā sadalījumu. Čebiševa nevienādība

           

            Izdarot gadījumlieluma vērtēšanu (atrodot varbūtību tam atrasties prasītā intervālā, vai intervāla robežas, kas atbilst prasītai varbūtībai), parasti pieņem, ka gadījumlielumam ir normāls sadalījums. Var būt gadījumi, ka šādam pieņēmumam nav pamata, vai pat tieši ir zināms, ka sadalījums neatbilst normālā sadalījuma likumam.

            Ja jāizdara gadījuma lieluma vērtēšana, neko nezinot par tā sadalījumu, var izmantot Čebiševa nevienādību.

            Pierakstot ar matemātisku izteiksmi, Čebiševa nevienādība ir šāda:

 

                        ,                                                                 (7.3)

 

kur simboliem , s², e parastās nozīmes, tikai ar e nesaprot pēc patikas mazu, bet brīvi izvēlētu skaitli.

            Vārdos: Varbūtība, ka gadījuma lieluma x novirze no aritmētiskā vidējā  pēc abssolūtās vērtības nepārsniedz brīvi izvēlētu skaitli, ir lielāka par skaitli nevienādības labajā pusē. Pēdējo aprēķina, atņemot no viena daļskaitli, kuras skaitītājā ir gadījuma lieluma dispersija s², bet saucējā - pieļaujamās kļūdas kvadrāts e². Pēdējo nosaka, vadoties no profesionāliem apsvērumiem.

 

            Piemērs. Strādnieku grupā, kura izpilda vienu darbu, vidējais darba ražīgums ir 100 izstrādājumi maiņā, rēķinot uz vienu strādnieku, ar standartnovirzi 5 izstrādājumi. Aprēķināt varbūtību, ka kārtējā novērotā strādnieka izstrāde nenovirzīsies no vidējās vairāk kā par 10 izstrādājumiem. Citiem vārdiem, cik procentu strādnieku pēc darba ražīguma iekļausies intervālā 90-110 izstrādājumi ? Strādnieku sadalījums pēc darba ražīguma nav zināms.

 

            Analīze un atrisinājums. Tāda satura uzdevumus parasti risina ar normālā sadalījuma palīdzību, pieņemot, ka reālais sadalījums ir tuvs normālajam. Šoreiz uzdevumā ir atruna, ka sadalījuma raksturs nav zināms. Tādēļ uzdevums jārisina ar Čebiševa nevienādību.

            No uzdevuma izriet, = 100; s = 5, s² = 5² = 25, e = Dx = 10 (pieļaujamā absolūtā kļūda). Tie visi ir vajadzīgie lielumi, kas jāievieto Čebiševa nevienādībā.

 

                        .

 

Secinājums. Varbūtība, ka konkrēta strādnieka izstrāde nenovirzīsies no vidējās izstrādes vairāk nekā par 10 izstrādājumiem ir lielāka par 0,75.

            Secinājuma alternatīva redakcija. Pieļauto novirzi 10 pieskaitot un atskaitot no vidējā, varam izveidot intervālu, kura varbūtību meklējam, un tā robežas:

 

                                    x1 = 100 - 10 = 90,

 

                                    x2 = 100 + 10 = 110,

 

                                    90 < X > 110

 

un atrisinājumu pierakstīt šādi:

 

                                    P (90 < X < 110) > 0,75.

 

Varbūtība, ka kārtējā strādnieka izstrāde nebūs mazāka par 90 un lielāka par 110, nav mazāka par 0,75. No tā var secināt, ka vismaz 75% strādnieku pēc darba ražīguma iekļausies šajā intervālā.

            Var rasties jautājums, kāpēc Čebiševa nevienādību nelieto vienmēr, risinot šāda tipa uzdevumus, jo vajadzīgie izskaitļojumi ir vienkāršāki nekā izmantojot normālā sadalījuma likumu ? Turklāt risinājuma drošība nav saistīta ar papildus nosacījumiem par sadalījuma raksturu.

            Lai pārliecinātos, kā iegūtos secinājumus ietekmē informācija par sadalījuma raksturu, atrisināsim iepriekšējo uzdevumu, papildus nosakot, ka strādnieku sadalījums pēc darba ražīguma ir normāls.

            Tad uzdevums ir atrisināms kā normālā sadalījuma tiešais uzdevums.

 

 

7.1. attēls. Normālā sadalījuma uzdevuma ilustrācija.

 

                        ,

 

                        ,

                        .

 

            Salīdzinot iegūto rezultātu ar to, ko aprēķinājām ar Čebiševa nevienādību, atrodam divas būtiskas priekšrocības.

 

            1. Atrisinājums ar normālā sadalījuma likumu dod konkrētu ar prasīto intervālu saistītu varbūtību 0,95, kamēr Čebiševa nevienādība deva tikai šīs varbūtības vērtējuma zemāko robežu 0,75.

 

            2. Tā kā skaitlis 0,75 varbūtību skalā ir daudz mazāks par 0,95, tad normālā sadalījuma likums dod daudz lielāku drošību par to, ko dod Čebiševa nevienādība.

 

            Tajā pat laikā jāievēro, ka atrisinājumi nav pretrunīgi. Čebiševa nevienādība apgalvoja, ka varbūtība nav mazāka par 0,75, resp. ir vienāda vai lielāka par šo skaitli. 0,95 ir lielāks par 0,75, tātad formāli nav pretrunā ar Čebiševa teorēmas apgalvojumu. Tikai Čebiševa nevienādība dod mazāk un nekonkrētāku informāciju.

 

            Vēl noskaidrosim, ar kādu varbūtību varētu saistīt iepriekšējā uzdevumā prasīto intervālu, ja papildus noteiktu, ka strādnieku sadalījums pēc darba ražīguma nav vis normāls, bet vienmērīgs. Tas gan ir tīri formāls pieņemums, jo reāli vienmēr būs vairāk strādnieku ar vidējam tuvu darba ražību, bet maz - ar ļoti lielu vai ļoti mazu darba ražību.

            Vienmērīga sadalījuma grafiks ir taisnstūris x ar robežvērtībām a, b.

 

 

7.2. attēls. Vienmērīga sadalījuma ilustrācija.

 

Lai atrisinātu uzdevumu, ir jāatrod, kur uz skaitļu ass x attiecībā pret a un b atrodas uzdevumā dotās robežvērtības 90 un 100. To varēs izdarīt, ja būs aprēķinātas a un b skaitliskās vērtības. To izdarām, zinot vienmērīga sadalījuma dotos parametrus = 100 un s = 5 un iesaistot viņus šo parametru aprēķināšanas formulās:

 

                        ,                                                                                                    (7.4)

 

                        .                                                                                          (7.5)

 

Izdarot aizvietojumus un izteiksmes vienkāršojot, iegūstam:

 

                        ;                       a + b = 200.

 

, no kurienes  b - a =17,32.

 

Līdz ar to a un b vērtības varam iegūt, atrisinot sistēmu:

 

                       

 

To izdarot, iegūstam, ka a = 91,34; b= 108,66 (kuri atrodas vienādos attālumos no =100).

Uzskatāmības dēļ visus èetrus punktus (x1 = 90, x2 = 110, a = 91, b = 109) atliekam kopējā grafikā (7.3. attēls).

 

 

7.3. attēls. Atrisinājuma ilustrācija.

 

Redzam, ka viss teorētiskais sadalījums atrodas starp uzdevumā prasītajiem punktiem 90 un 110.

            Tātad pie hipotēzes, ka strādnieku sadalījums ir vienmērīgs, nevar būt strādnieku ar darba ražīgumu zemāku par 90 un augstāku par 110. Par to, ka kārtējā strādnieka darba ražīgums atradīsies šajā intervālā varam būt droši ar vaarbūtību 1:

 

                       

 

            Arī tas nav pretrunā ar Čebiševa nevienādību, jo 1 > 0,75.

 

 

 

 

 

 

 

 

7.2. Normālā un logaritmiski normālā sadalījuma aprēķināšana

 

7.2.1. Normālā sadalījuma aprēķināšana

 

            Variācijas rindā, ja tā ir izveidota pēc izlases vai citādi ierobežotas kopas datiem, biežumi no grupas uz grupu neizmainās laideni, plūstoši, bet ar dažādām atkāpēm no sadalījuma likumsakarības. Var pieņemt, ka sadalījuma pamatraksturu nosaka pētījamā statistiskā objekta būtiskas īpašības, bet dažādas novirzes no šī pamatrakstura - nejaušu, gadījuma faktoru darbība. Pēdējā ir jo manāmāka, jo mazāka ir apstrādājamo datu kopa.

            Variācijas rindas novirzes no sadalījuma pamatrakstura līdz ar to var vērtēt kā izlases kļūdas.

            Lai atbrīvotos no šīm izlases kļūdām, variācijas rinda, ko sauksim par empīrisko sadalījumu, ir jāizlīdzina ar kādu laidenu līkni, citiem vārdiem, empīriskais sadalījums ir jāaizstāj ar teorētisko.

            Ja empīriskais sadalījums ir saistīts ar konkrētu izlasi, tad teorētiskais sadalījums ir atbilstošās ģenerālās vai hipotētiskās kopas vērtējums. Tādejādi teorētiskā sadalījuma aprēķināšana no izlases teorijas viedokļa nozīmē izlases empīriskā sadalījuma izplatīšanu uz ģenerālkopu.

            Atrastais teorētiskais sadalījums dod iespēju izdarīt interpolāciju novērotā izlases variācijas apgabala ietvaros: precizēt interesējošo intervālu absolūtos un relatīvos biežumus, atbrīvojoties no izlases kļūdām, aprēķināt biežumus pēc vajadzības šaurākos un plašākos intervālos. Teorētiskais sadalījums dod arī iespēju izdarīt ekstrapolāciju ārpus izlases variācijas apgabala, nosakot, kādi varētu būt biežumi intervālos, kuri izlasē ir palikušsi tukši, ja tālāk palielinātu izlases lielumu, resp. vienību skaitu tajā.

            Lai aprēķinātu zinātniski pamatotu teorētisko sadalījumu, ir jābūt šādai informācijai:

 

            1. Zinātniskai teorijai vai vismaz hipotēzei par statistiskā objekta būtiskām īpašībām, kuras nosaka sadalījuma vispārējo raksturu. Tas dod iespēju izdarīt izvēli starp dažādām teorētisko sadalījumu funkcijām (modeļiem), kādus piedāvā varbūtību teorija un matemātiskā statistika. Statistikas teorijā un praksē visbiežāk un plašāk izmanto normālo sadalījumu un logaritmiski normālo sadalījumu. Tos aplūkosim plašāk, mēģinot noskaidrot viņu piemērotību konkrētajam pētījumu objektam;

 

            2. Ir jābūt iepriekš aprēķinātiem izraudzītā sadalījuma parametriem, kuri vispārīgam teorētiskam sadalījumam piešķir konkrētas īpašības. Normālo sadalījumu nosaka divi tā parametri: aritmētiskais vidējais (vispārinot - matemātiskā cerība) un standartnovirze.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7.1. tabula

 

Mājsaimniecību sadalījums pēc gada kopienākuma, rēķinot uz vienu mājsaimniecības locekli un normālā un logaritmiski normālā sadalījuma biežumi

 

Kopienākums

Intervāla

Mājsaimniecību

Normālais

Logaritmiski normālais

gadā Ls

centrs x

skaits faktiski

sadalījums

sadalījums (lg)

 

x

f

f1

f - f1

f2

f - f2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

   0 - 200

100

-

7,0

-7,0

0,1

-0,1

200 - 400

300

10

9,4

0,6

7,5

2,5

400 - 600

500

26

16,6

9,4

26,7

-0,7

600 - 800

700

29

24,8

4,2

37,3

-8,3

 800 - 1000

900

37

31,0

6,0

35,3

1,7

1000 - 1200

1100

22

32,7

-10,7

27,9

-5,9

1200 - 1400

1300

30

28,9

1,1

20,2

9,8

1400 - 1600

1500

14

21,5

-7,5

13,9

0,1

1600 - 1800

1700

14

13,4

0,6

9,3

4,7

1800 - 2000

1900

6

7,1

-1,1

6,2

-0,2

2000 - 2200

2100

5

3,1

1,9

4,1

0,9

2200 - 2400

2300

4

1,2

2,8

2,7

1,3

2400 - 2600

2500

-

0,4

-0,4

1,8

-1,8

2600 - 3000

...

-

0,1

-0,1

2,0

-2,0

3000 - 6000

...

-

 

 

1,8

-1,8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Kopā

-

197

197,2»197

-0,2»0

196,8

0,2»0

 

 

 

 

 

7.4. attēls. Empīriskā sadalījuma izlīdzināšana ar normālo un logaritmiski normālo sadalījumu.

                        _ _ _ _  normālais sadalījums,

                        ------ logaritmiski normālais sadalījums.

 

            Izstrādājamā teorētiskā sadalījuma parametri ir jāaprēķina pēc izlases vai cita rakstura reāli novērotas statistikas kopas datiem. Nav obligāti, lai abi parametri būtu aprēķināti no vienas un tās pašas kopas datiem.

            Statistikas praksē datu apstrāde parasti ir organizēta tā, ka vienmēr tiek aprēķināti novēroto pazīmju aritmētiskie vidējie un relatīvie biežumi. Tajā pat laikā ļoti reti aprēķina variācijas rādītājus. Tādēļ, aprēķinot teorētisko sadalījumu, ir iespējams izmantot aritmētisko vidējo, kurš ir  noteikts vai nu pēc ģenerālkopas vai citādas plašas statistikas kopas datiem. Turpretim standartnovirze bieži ir jāaprēķina pēc daudz mazākas izlases datiem, bet atsevišķos gadījumos jānovērtē ekspertīzes ceļā.

            Teiktais nenozīmē, ka visus vajadzīgos parametrus nevarētu aprēķināt pēc vienas un tās pašas izlases datiem. Tas pat ir vēlams, īpaši tad, ja izdarītā izlases nav maza. Tā rīkosimies turpmāk.

            7.1. tabulas pirmajās trīs ailēs un 7.4. attēlā ar histogrammu ir parādīts vēsturiskais 1936/37.g. izlases mājsaimniecību sadalījums pēc gada kopienākuma, rēķinot uz vienu patērētāja vienību. Tā kā stabiņi histogrammā neveido pakāpeniski augošu un pēc tam dilstošu piramīdveida figūru, ir pamats šo histogrammu izlīdzināt ar kādu teorētisku sadalījumu. Sākumam izvēlēsimies normālo sadalījumu.

            Normālo sadalījumu parasti aprēķina vai nu ar datoru vai vismaz programmētas vadības kalkulātoru, tādēļ izskaitļojumus parādīsim tikai vienam intervālam.

            Lai sāktu aprēķināt normālā sadalījuma biežumus, ir jāzina sadalījuma aritmētiskais vidējais un standartnovirze. Apstrādājot 7.1. tabulas datus, par variantiem pieņemot intervālu centrus, iegūstam, ka = 1059,39 un s = 476,00. Kopas vienību skaits n = 197.

            Aprēķinot normālā sadalījuma biežumus, parasti izvēlas tādas pašas intervālu robežas kā empīriskajā sadalījumā, jo tas atvieglo abu sadalījumu salīdzināšanu piemēram ar Hī kvadrāta kritēriju. Tomēr tas nav obligāti. Tabulas lejasdaļā esam izveidojuši divus plašākus intervālus, kuros nav biežumi empīriskajā, bet varētu būt biežumi teorētiskajā sadalījumā.

            Normālā sadalījuma aprēķināšana būtībā neatšķiras no normālā sadalījuma tiešajiem uzdevumiem, tikai varbūtība (biežumi) jāaprēķina nevis dažiem, bet samērā daudziem intervāliem, lai varētu uzzīmēt normālā sadalījuma līkni.

            Kā piemēru aprēķināsim normālā sadalījuma biežumu 3.intervālā, kura zemākā robeža xz = 400 un augstākā (augšējā) robeža za = 600. Ir jāizpilda šādas darbības.

 

            1. Abas kritiskās robežas jāstandartizē:

 

                       

 

                       

 

            2. Matemātiskajās tabulās jāatrod vai jāizskaitļo šīm vērtībām atbilstošās normālā sadalījuma F(t) funkcijas un to starpība.

 

                        F(ta = -0,96) = 0,1685;

                       

                        F(tz = -1,38) = 0,0838.

 

            Varbūtība kārtējai mājsaimniecībai nonākt 3.intervālā ir 0,1685 - 0,0838 = 0,0847. Tas ir arī normālā sadalījuma biežums viena daļās.

 

            3. Lai iegūtu normālā sadalījuma biežumu šajā intervālā, kas atbilstu empīriskā sadalījuma biežumam, biežumu viena daļās jāpareizina ar n = 197.

 

                        n3(norm.) = 0,0847 × 197 = 16,7 (mājsaimniecības).

 

            Šis skaitlis, izskaitļots ar programmu (ar lielāku starprezultātu precizitāti) 16,6 ir ierakstīts 7.1. tabulas 4. ailes 3. rindā.

            Pārējos normālā sadalījma biežumus izskaitļo analogi. Ja izmanto neprogrammējamu skaitļošanas tehniku, aprēķinus lietderīgi sakārtot darba tabulā.

            Darbu beidzot, jāpārbauda, vai teorētisko biežumu summa, neskaitot noapaļošanas kļūdas, atbilst empīrisko biežumu summai.

            Normālo sadalījumu iezīmē attēlā, atliekot tajā punktus, kuru koordinātes atbilst intervālu centriem un normālā sadalījuma biežumiem. Pēc tam tos savieno ar laidenu līkni. Ja grib uzzīmēt precīzāku līkni, jāņem vairāk un šaurāki intervāli normālajā sadalījumā.

            7.4. attēlā redzam, ka normālā sadalījuma līkne empīriskā sadalījuma histogrammu izlīdzina diezgan tuvināti.

 

7.2.2. Logaritmiski normālā sadalījuma aprēķināšana

 

            Sociāli ekonomiskajā statistikā ir bieži jāsastopas ar sadalījumiem, kuriem ir raksturīga pozitīva asimetrija: sadalījuma labais zars ir vairāk vai mazāk izstiepts, bet kreisais - aprauts. Tādu sadalījumu bieži veido iedzīvotāju sadalījums pēc ienākumiem un līdz ar to arī pēc galvenajām izdevumu grupām.

            Minimālo ienākumu nereti reglamentē likumdošanas ceļā likumi par minimālo darba algu, par minimālo pensiju utt. Maksimāli pieļaujamie ienākumi tādā veidā reglamentēti netiek. Arī reālā cilvēka izdzīvošana ir saistīta ar zināmu minimālu ienākumu. Tie ir tiesiski - materiālie priekšnoteikumi, lai iedzīvotāju sadalījums pēc ienākumiem un izdevumiem būtu ar pozitīvu asimetriju.

            Normālais sadalījums, kā zināms, ir simetrisks pret aritmētisko vidējo. Tādēļ minētajos un līdzīgos gadījumos tas nevar būt pietiekami labs empīrisko sadalījumu matemātiskais modelis, jo neatklāj vienu būtisku empīriskā sadalījuma īpatnību. Šādos gadījumos samērā bieži ar labām sekmēm var izmantot logaritmiski normālo sadalījumu.

            Kopas vienību sadalījums ir logaritmiski normāls, ja normālo sadalījumu veido nevis paši sākotnējie dati (grupētu datu gadījumā - intervālu vidējie vai to centri), bet viņu logaritmi.

            Skaitļu logaritmi vienmēr ir daudz mazāki nekā paši skaitļi. Turklāt mazu skaitļu un viņu logaritmu starpība nav tik liela kā lielu skaitļu un viņu logaritmu starpība. Pārejot no skaitļu skalas uz logaritmu skalu, viss variācijas apgabals tiek "saspiests", taèu nevienmērīgi. Lielo skaitļu apgabalā, sadalījuma labajā zarā, skalas "saspiešana" ir daudz intensīvāka. Tādēļ, ja sadalījums sākotnējo datu skalā ir ar izteiktu pozitīvo asimetriju, pārceļot viņu logaritmiskajā skalā, zināmos apstākļos tas kļūst simetrisks.

            Ja pēc datu logaritmēšanas empīriskais sadalījums kļūst tuvs normālam, par sākotnējā sadalījuma matemātisku modeli var noderēt logaritmiski normālais sadalījums.

            Logaritmiski normālo sadalījumu aprēķina līdzīgi kā normālo sadalījumu, ,tikai visos galvenajos darba posmos dati ir jālogaritmē.

            Kā teorētiskā sadalījuma parametri datu aritmētiskā vidējā un standartnovirzes vietā ir jāņem datu logaritmu aritmētiskais vidējais un datu logaritmu standartnovirze. Logaritmu bāzei nav būtiskas nozīmes. Strādājot ar skaitļotāju, bieži izmanto naturālos logaritmus, bet, strādājot ar tabulām, ērtāki ir decimāllogaritmi.

            Logaritmu vidējo un standartnovirzi var rēķināt trejādi.

            Ja datus apstrādā ar skaitļotāju un izmanto iepriekš nesagrupētus datus, visprecīzākos rezultātus var iegūt, logaritmējot katra atsevišķa novērojuma datus un iegūtajiem logaritmiem rēķinot aritmētisko vidējo un standartnovirzi ar parastajām formulām

            Ja apstrādā grupētus datus (viendimensijas variācijas rindu), logaritmē grupu vidējos vai intervālu centrus un no iegūtajiem logaritmiem izskaitļo svērto aritmētisko vidējo un svērto standartnovirzi. Par statistiskajiem svariem izmanto vienību skaitu katrā grupā (intervālā).

            Ja arī sākotnējo datu variācijas rinda nav pieejama, bet ir zināms interesējošās pazīmes aritmētiskais vidējais un standartnovirze, no pēdējiem var tuvināti izrēķināt logaritmu vidējo un logaritmu standartnovirzi, izmantojot speciālas redukcijas formulas (decimāllogaritmiem):

 

                        ;                                                                  (7.6)

 

                        .                                                                  (7.7)

 

            Par to, kurš no pēdējiem diviem paņēmieniem dod precīzākus rezultātus, literatūrā nav īstas vienprātības.

            Pēc mūsu ekspertīzes vērtējuma, ja datu aritmētiskais vidējais un standartnovirze arī ir aprēķināti pēc grupētiem nevis nesagrupētiem datiem un pēc tā paša grupējuma, ar to pašu intervālu skaitu rēķina logaritmu vidējo un logaritmu standartnovirzi, precīzāks varētu būt otrais paņēmiens, un to lietosim turpmāk.

            Ja turpretim datu vidējais un standartnovirze ir aprēķināti precīzāk pēc nesagrupētiem datiem vai izvērsta grupējuma ar daudziem intervāliem, bet logaritmu vidējo un logaritmu standartnovirzi grib rēķināt pēc vienkāršota grupējuma ar nedaudz intervāliem, šis paņēmiens var neattaisnoties. Tad precīzākus rezultātus, zināmos apstākļos var dot redukcijas formulas (7.6.-7.7.), kuru izmantošana ir daudz vienkāršāka.

            Tā ka logaritmiski normālais sadalījums kā jebkurš modelis interesējošo objektu apraksta tikai tuvināti, no prakses viedokļa parasti nav būtiskas nozīmes, vai logaritmu vidējais un logaritmu standartnovirze ir aprēķināti ar lielāku vai mazāku precizitāti, ja vien tie nav būtiski kļūdaini.

            Logaritmiski normālo sadalījumu parasti vispirms aprēķina tādiem pat intervāliem, kādi izmantoti empīriskajā sadalījumā. Intervālu robežas standartizē ar formulu

 

                        .

 

            Ja sākotnējo skaitļu skalā izmantoti vienāda lieluma intervāli, kā to parasti dara praksē, tad logaritmu skalā intervāli kļūst nevienādi. Šaurāki intervāli veidojas pazīmes lielo vērtību apgabalā (labajā zarā), bet plašāki - mazo vērtību apgabalā (kreisajā zarā). Tādēļ ir vērojams, ka logaritmiski normālais sadalījums labāk izlīdzina empīriskā sadalījuma labo zaru, bet nereti sliktāk - kreiso zaru.

            Parādīsim ar piemēru logaritmiski normālā sadalījuma aprēķināšanu vienam intervālam. Iepriekš pēc 7.1. tabulas datiem ir aprēķināts, ka , slgx=0,2122. Izmantosim vēlreiz trešā intervāla robežās xz = 400; xa = 600.

 

 

 

 

 

 

            1. Kritisko robežu logaritmu standartizēšana:

 

                        ;

 

 

                        .

 

 

            2. Atbilstošo F(t) un to starpības atrašana:

 

                        F(-1,77) = 0,0384;

                       

                        F(-0,94) = 0,1736;

 

                        F(ta) - F(tz) = 0,1736 - 0,0384 = 0,1352.

 

            3. Atbilstošā logaritmiski normālā sadalījuma biežuma atrašana:

 

                        0,1352 × 197 = 26,6.

 

            Pēdējais, izskaitļojot ar programmu 26,7 ir ierakstīts 7.1. tabulas 6.ailē līdz ar citiem logaritmiski normālā sadalījuma biežumiem. Logaritmiski normālais sadalījums 7.4. attēlā ir iezīmēts ar punktētu līniju. Kā jau bija sagaidāms, tas empīrisko sadalījumu labāk izlīdzina tā labajā zarā, sliktāk - kreisajā, mazo x vērtību apgabalā.

 

7.2.3. Izlīdzināšanas kvalitātes novērtēšana ar Hī kvadrāta kritēriju

 

            Ar Hī - kvadrāta kritēriju salīdzina savā starpā divus sadalījumus un noskaidro, vai tie atšķiras statistiski nozīmīgi, vai nē. Visbiežāk salīdzina empīrisko sadalījumu ar teorētisko, noskaidrojot, vai teorētiskais sadalījums ir labs empīriskā sadalījuma modelis, vai nē. Citos gadījumos salīdzina savā starpā divus empīriskos sadalījumus, īpaši tad, ja tie veidoti pēc atributīvas pazīmes. Pēdējā gadījumā parastie variācijas, asimetrijas un citi rādītāji nav aprēķināmi. Hī - kvadrāta metode ir tehniski vienkārši realizējama, nav darbietilpīga.

 

            Hī - kvadrāta metodei ir raksturīga parastā hipotēzes pārbaudes shēma: aprēķina empīrisko rādītāju, šajā gadījumā Hī kvadrātu un to salīdzina ar tabulu robežvērtību. Atkarībā no tā, kurš skaitlis lielāks, pieņem lēmumu.

 

            Empīrisko skaitli Hī kvadrāts aprēķina ar formulu

 

                        ,                                                                       (7.8)

 

kur f1 un f2 ir salīdzināmo sadalījuma rindu biežumi atbilstošajos intervālos (ar Nr. i). Summēšana notiek pa visiem intervāliem.

           

            Lielumam Hī - kvadrāts ir absolūtā skaitļa īpašības. Ja atsevišķi daļskaitļi

 

                       

 

nav nulles, tad summa parasti būs lielāka, ja saskaitāmo ir vairāk.

 

            Jāievēro, kurus biežumus ņemt par f1 un kurus par f2, jo formulā šie lielumi nav simetriski. Ja salīdzina empīrisko sadalījumu ar teorētisko, par f2 jāņem teorētiskā sadalījuma biežumi. Salīdzinot eksperimenta rezultātus ar kontroles rezultātiem, par f2 jāņem kontroles rezultāti. Salīdzinot divus empīriskos sadalījumus,  f2 (saucējā) aprēķina pēc speciālas metodikas.

 

            Izmantojot Hī kvadrāta kritēriju, empīrisko sadalījumu var salīdzināt ar jebkuru teorētisko sadalījumu: normālo, logaritmiski normālo, binomiālo u.c.

 

            Lai novērtētu empīriskā sadalījuma atbilstību teorētiskam sadalījumam, pieņemot, ka tas jau aprēķināts, ir jāizdara šādas darbības:

 

                        1. jāaprēķina empīriskais Hī kvadrāts c²;

                        2. jānoteic brīvības pakāpju skaits n;

                        3. jāatrod atbilstošais tabulas kritērijs vai empīriskā c² varbūtība un jāizdara

    vajadzīgais secinājums.

 

            Empīriskais Hī kvadrāts ir summa. Lai kāds saskaitāmais tajā nekļūtu nesamērīgi liels, jāseko, lai biežumi visās grupās, īpaši teorētiskajā sadalījumā, būtu pietiekami lieli skaitļi, vismaz lielāki par 5. Ja tas tā nav, daži intervāli ir jāapvieno. Hī kvadrāta kritērijs mazāk reaģē uz intervālu apvienošanu nekā uz iespēju , ka kāds f2i formulas (7.8) saucējā ir mazs skaitlis. Tādēļ pirms empīriskā Hī kvadrāta izskaitļôšanas apvienojam 7.1. tabulā pirmos divus intervālus, iegūstot "0-400 latu" un visus pēdējos intervālus, iegūstot "vairāk nekā 2000 latu".

 

            Tad empīrisko Hī kvadrātu normālajam sadalījumam var izskaitļot šādi

 

            .

 

Summā tik saskaitāmo, cik salīdzināmo grupu; izskaitļošanu ieteicams izdarīt ar nelielu programmu.

 

            Salīdzinot empīrisko sadalījumu ar logaritmiski normālo sadalījumu, iegūstam c²=12,0. Brīvības pakāpju skaitu nosaka, atskaitot no salīdzināmo grupu (intervālu) skaita k savstarpēji neatkarīgo nosacījumu skaitu l, kas izriet no uzdevuma nosacījumiem, kā arī parametru skaitu, kas izmantots aprēķinot teorētisko sadalījumu, m:

 

                   n = k - l - m.

 

            Pēc intervālu apvienošanas tiek salīdzinātas 10 grupas, tātad k = 10. Lineāro nosacījumu skaits ir viens - absolūto biežumu summai jābūt 197, tātad l = 1. aprēķinot normālo sadalījumu, tika izmantoti divi no izlases sadalījuma ņemti parametri  un s². Tātad m = 2. Līdz ar to brīvības pakāpju skaits ir šāds:

 

                   n = l0 - 1 - 2 = 7.

 

            Darba noslēdzošajā posmā jāaizvēlas varbūtība resp. nozīmības līmenis, ar kuru pārbauda hipotēzi par eempīriskāa un teorētiskā sadalījuma atbilstību. Izmantojam klasisko varbūtību 0,95 (a = 0,05). Tad speciālās Hī kvadrāta kritisko robežu tabulās var nolasīt skaitli, kuru empīriskajam Hī kvadrātam pārsniedzot, hipotēze par abu sadalījumu atbilstību ir jānoraida.

 

            Atrodam, ka

 

                        .

 

            Empīriskais Hī - kvadrāts normālam sadalījumam bija 79,7, tātad hipotēze par sadalījumu atbilstību ir jānoraida. Logaritmiski normālajam sadalījumam empīriskais Hī kvadrāts bija 12,0, t.i. mazāks par kritisko robežu. Tātad logaritmiski normālo sadalījumu varam uzlūkot par apmierinošu dotā empīriskā sadalījuma modeli.

 

            Hī kvadrāta kritēriju plaši lieto arī dažādu citu statistikas hipotēžu pārbaudei, t.sk. neparametriskās statistikas metodēs.

 

            Izmantojot Hī kvadrāta kritēriju, jāievēro šādi galvenie nosacījumi:

 

                        1. kopējam empīriskā sadalījuma vienību skaitam jābūt pietiekami lielam, vismaz

    n > 50;

2. biežumiem visos sadalījumu intervālos jābūt pietiekami lieliem, ne mazākiem kā

    5 - 10;

3. absolūto biežumu vietā nedrīkst ņemt relatīvos biežumus procentos vai viena

    daļās;

4. secinājumi, pamatojoties uz šo kritēriju nedrīkst būt kategoriski, jo grupu skaits

    empīriskajā sadalījumā ir noteikts ekspertīzes ceļā.