Ievads daļas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16_pielikums

6. Statistiskās hipotēzes

 

6.1. Uzdevuma nostādne

 

Analizējot statistikas datus, bieži ir jāsalīdzina divas statistiskās kopas vai vienas kopas divas daļas. Ja šo kopu vidējie lielumi vai citi analīzei nozīmīgi rādītāji atšķiras, tad parasti secina, ka atšķiras arī pašas kopas, kuras šie rādītāji raksturo.

Piemēram, kādā cehā izdarīja strādnieku darba ražīguma novērošanu. Izrādījās, ka rīta maiņā strādnieki izgatavoja vidēji 3,7 izstrādājumus maiņā, bet vakara maiņā - 3,5.

Varētu secināt, ka ir apstiprinājusies vispār pieņemtā  atziņa, ka rīta maiņā darbs ir ražīgāks. Tomēr tika reģistrēti daudzi gadījumi, kas ir pretrunā ar šo atziņu. Piemēram, pats ražīgākais strādnieks vakara maiņā deva 5,1 izstrādājumus stundā, bet pats neveiksmīgākais rīta maiņā - tikai 1,7.

Rodas jautājums, vai nelielu vidējo lielumu starpību šādos apstākļos var atzīt par statistiski nozīmīgu, vai var sagaidīt, ka tāda viņa būs arī turpmākos novērojumos, vai arī šādu atšķirību varēja izraisīt vienkārši nejaušības.

Tādēļ statistikas (arī ekonometrijas, biometrijas) uzdevums ir ne tikai konstatēt kādu rādītāju atšķirību, bet arī dot atbildi, vai šī atšķirība ir statististiski nozīmīga.

Jautājumu var formulēt arī citādi. Var jautāt, vai salīdzināmās grupas var uzlūkot par divām nejaušām izlasēm, kas ņemtas no vienas un tās pašās ģenerālkopas? Tad tās ir jāvērtē kā viens un tas pats statistisks (ekonomisks, sociāls, bioloģisks) tips, un grupu atšķirība jāvērtē kā nejauša. Ja tas nav iespējams, katra grupa pārstāv citu statistisku tipu, atšķirības ir būtiskas.

Šāda veida jautājumus izvirza un atbild, pārbaudot statistiskās hipotēzes.

Tā kā daļa novēroto faktu praktiski vienmēr hipotēzi apstiprina, bet daļā ir tai pretrunīgi, secinājumus nevar izdarīt absolūti, bet tikai ar noteiktu varbūtību.

Hipotēzes pārbaudes rezultātā ir jāpieņem kaut kāds lēmums, tādēļ šo statistikas nodaļu uzskata par statistisko lēmumu pieņemšanu.

 

Vēl daži statistisko hipotēžu piemēri.

 

1. Firma  pasūtīja  savas  produkcijas  reklāmu   televizijā. Pēc pārraides tika novērots neliels apgrozījuma pieaugums firmas veikalos. Vai tas ir statistiski nozīmīgs un reklāma ir attaisnojusies, vai atšķirības apgrozījumā varēja izraisīt vienkārši gadījuma apstākļi?

 

2. Veikals pasūta preci no divām vairumtirdzniecības bāzēm. Veikalvedim šķiet, ka viena no bāzēm pasūtījumus izpilda ātrāk. Vai tādi novērojumi ir statistiski nozīmīgi un turpmāk priekšroka būtu jādod šim vairumtirdzniecības uzņēmumam?

 

3. Mājsaimniecību budžetu statistikas dati rāda, ka mājsaimniecībās ar augstāku ienākumu līmeni ir caurmērā lielāks gaļas produktu un mazāks kartupeļu patēriņš, rēķinot uz vienu mājsaimniecības locekli, nekā mājsaimniecībās ar zemāku ienākumu līmeni (vidējie lielumi atšķirās). Tomēr ir arī daudz mājsaimniecību ar pretēju pārtikas produktu patēriņa tendenci. Rodas jautājums, vai pārtikas produktu patēriņa struktūra būtiski atšķirās grupās ar dažādu ienākuma līmeni, vai nē.

 

4. Izmēģinājumu saimniecību apstākļos šķirnes govīm ir augstāks piena izslaukums nekā bezšķirnes  govīm. Ir saprātīgi spriest, ka tāpat vajadzētu būt arī ražošanas apstākļos. Vai lauksaimniecības statististikas dati  apstiprina šo hipotēzi?

 

5. Strādājot pie konveijera, strādniekiem ir nepieciešamas šauri specializētas zināšanas un praktiskās iemaņas. Tomēr ir sapratīgi domāt, ka arī vispārējās izglītības līmenis ietekmē darba ražīgumu. Vai statistikas dati apstiprina vai noraida šo hipotēzi?

 

6. Bieži dzird apgalvojam, ka studentiem vīriešiem labāk padodas matemātikas priekšmetu mācīšanās, bet studentēm  sievietēm svešvalodas. Vai šajos priekšmetos iegūtās atzīmes  apsiprina tādus apgalvojumus?

 

6.2. Statistisko hipotēžu pamatjēdzieni

 

Par hipotēzi jēdziena plašākā nozīmē sauc zinātnisku pieņēmumu, kurš ir loģiski saprātīgs un ticams, tomēr prasa  tālāku pārbaudi, pierādījumus. Kad  tādi ir savākti, hipotēze kļūst par zinātnisku teoriju.

Statistiska hipotēze tāpat kā jebkura hipotēze ir zinātnisks pieņēmums. Tā izsaka spriedumus vai slēdzienus par statistiskiem faktiem, vai likumsakarībām. Hipotēze tuprmāk jāpārbauda un jāpamato.

Statistiskām hipotēzēm ir virkne īpatnību gan pēc satura gan formas.

Par statistisku hipotēzi sauc pieņēmumu par  statistiskās kopas vai divu kopu īpašībām. Statistiskās hipotēzes izvirza vai nu par atsevišķiem kopas parametriem, vai par  sadalījumu visumā. Statistisko hipotēzi pārbauda, salīdzinot hipotēzi ar datiem, kuri savākti tās pārbaudei. Parasti vienmēr daļa faktu hipotēzi apstiprina, bet daļa ir tai pretrunīgi. Tādēļ secinājumus var izdarīt tikai par kopu visumā. Bet tie nav attiecināmi uz visām tās vienībām.

            Turklāt secinājumiem ir varbūtības raksturs. Hipotēzes pārbaudes rezultātā atzīst par pieņemamu vienu no šādiem slēdzieniem:

 

            1. hipotēzi var pieņemt. Precizāk to pašu izsaka šādi: vairums novēroto faktu runā par labu

    hipotēzei, nav ar to pretrunīgi; hipotēzi nevar noraidīt.

 

            2. hipotēze ir jānoraida. Precizāk: vairums novēroto faktu nav savienojami ar hipotēzi.

 

Vienu vai otru no šiem slēdzieniem pieņem nevis absolūti, bet tikai ar zināmu iepriekš izvēlētu varbūtību, piem., 0,95. Ja fakti sadalās tā, ka nav pietiekama pārsvara hipotēzes pieņemšanai vai noraidīšanai, dažreiz pieņem trešo iespējamo slēdzienu:

 

            3. novērojumi ir jāturpina. Precizāk: ievērojama daļa faktu runā par labu, bet ievērojama daļa par sliktu hipotēzei, to nevar ne pieņemt, ne noraidīt ar pietiekami augstu varbūtību.

 

Lēmums par vienkāršu hipotēzi ir atkarīgs no viena rādītāja (parametra). Visbiežāk - no  aritmētiskā vidējā.

Piemēram, par hipotēzi, ka darbs rīta un vakara maiņā ir vienādi ražīgs, nepieciešamos datus dod strādnieku darba ražīguma novērojumi.

Ja šādu novērojumu būtu neierobežoti daudz, tad pat neliela darba ražīguma atsķirība pamatotu, kura maiņa ir ekonomiski izdevīgāka. Citiem vārdiem, mēs salīdzinātu divu ģenerālkopu vidējos, un konstatētu, ka  .

 

Šī starpība vienmēr būtu statistiski nozīmīga.

 

Reāli novērojumu skaits ir ierobežots un  bieži pat neliels. Tādēļ  mēs salīdzinām divas izlases un, konstatējot, ka , vēl nevar secināt, ka šī starpība ir nozīmīga, ka  tā saglabāsies arī turpmāk.

 

Tādēļ izvirzām hipotēzi, ka ģenerālkopā  jeb citādi

Šādu hipotēzi sauc par nulles hipotēzi un pieraksta šādi:

 

                                           

 

Datu par  un  lielumu nav. Ir tikai izlašu dati  un .

Aprēķinām šo lielumu starpību, parasti absolūtā izteikmē , iegūstot konkrētu skaitli, piem. 0,2.  Šī starpība būs nozīmīgāka tad, ja:

 

            1. abi vidējie aprēķināti pēc lielāku izlašu datiem, izmantojot lielu novērojumu  skaitu;

 

            2. variācija katras izlases ietvaros ir maza, novērojumi blīvi koncentrējas ap atbilstošo

    vidējo, un otrādi.

 

Grafiski vienkāršas nulles hipotēzes loģiku var ilustrēt šādi. Uz skaitļu ass atliekam abus vidējos  un . Ņemot vērā individuālo datu variāciju (retāk - arī asimetriju) konstruējam atbilstošos teorētiskos sadalījumos (parasti - normālos sadalījumus, 6.1. attēls).

 

 

6.1 attēls. Divu normālo sadalījumu transgresija

 

Ja abi sadalījumi ievērojami pārsedzas jeb transgresē, tas runā par labu nulles hipotēzei, kura apgalvoja, ka ģenerālajās kopās abi vidējie ir vienādi: . Ja sadalījumi pārsedzas ļoti nedaudz, izvirzītā nulles hipotēze ir jānoraida :

 

.

 

Tātad lēmumu par nulles hipotēzi nosaka laukumu daļa, kas vienlaikus atrodas zem abām līknēm.

Lai izrēķinātu šī laukuma lielumu, būtu jāaprēķina abu līkņu krustošanas punkta abscisa. Praktiski šo hipotēzi pārbauda nedaudz citādi un tehniski vienkāršāk.

Lēmumi un slēdzieni, kas pieņemti, pārbaudot statistiskās hipotēzes, dažos gadījumos var izrādīties nepareizi, jo tie pamatojas uz varbūtību likumiem.

Tomēr, ja tie balstās uz pareizu parādību izpratni un to skaitlisku novērtējumu, pareizi lēmumi tiks pieņemti biežāk nekā kļūdaini.

Turklāt ir iespējams nodrošināt racionālu pareizu un kļūdainu lēmumu skaita attiecību.

 

6.3. Nulles hipotēze par divu aritmētisko vidējo starpību

 

Metodi ilustrēsim, izmantojot nodaļas sākumā doto piemēru par darba ražīgumu rīta un vakara maiņā.

Lai pārbaudītu izvirzīto statistisko hipotēzi, ir jāveic virkne loģisku un aritmētisku darbību,  kuras var sakārtot šādā secībā.

 

6.3.1. Hipotēzes formulēšana un tās pārbaudes priekšnoteikumu konstatēšana.

 

1.1. Lai pieņemtu lēmumu par divu aritmētisko vidējo starpības nozīmību, parasti hipotēzi formulē tā, ka apgalvo, ka abi salīdzināmie vidējie ģenerālkopā ir vienādi. Šādu hipotēzi var reducēt uz nulles hipotēzi  un viegli pārbaudīt.

Alternatīva hipotēze būtu apgalvojums, ka abi vidējie ģenerālkopā atšķiras: 

. Šādu hipotēzi uz nulles hipotēzi nevar reducēt un tās pārbaude ir sarežģīta.

Pirmajā skatījumā šķiet, ka abos gadījumos izvirzītās hipotēzes noraidīšana nozīmē alternatīvas hipotēzes pieņemšanu, tādēļ ir vienalga, kuru hipotēzi pārbauda.

Atšķirība veidojas tādēl, ka lēmumu par hipotēzi nepieņemam absolūti, bet ar noteiktu varbūtību, tātad rēķināmies, ka pieņemot lēmumu varam kļūdīties. Nulles un alternatīvās hipotēzes pārbaude paredz kontrolēt loģiski atšķirīgas kļūdas. Jautājuma dziļāka izpēte prasa noskaidrot, kādas kļūdas var pieļaut hipotēžu pārbaudē.

 

1.2. Jānovērtē, vai novērojumi abās salīdzināmajās kopās ir savstrapēji saistīti vai nē. Piemēra ietvaros - vai abās maiņās strādāja vieni un tie paši, vai citi strādnieki. Parasti strādnieki divas maiņas pēc kārtas nestrādā, tādēļ mūsu novērojumi ir nesaistīti.

Ja novērojumi būtu savā starpā saistīti, hipotēzes pārbaudei būtu iespējams piesaistīt papildus informāciju un lietderīgi izmantot modificētu shēmu.

 

1.3. Jānovērtē, vai:

 

            - abi salīdzināmie vidējie ir aprēķināti pēc vienādi lielu vai dažāda lieluma izlašu datiem,

   resp. vai  ;

            - vai pazīmes variācija abās kopās ir būtiski atšķirīga, vai nē (lai atbildītu uz šo

  jautājumu ir jāzina dispersija abās salīdzināmajās kopās, bet ja tā nav zināma, jāaprēķina).

 

Šajā apakšpunktā minētie priekšnoteikumi pamato formulu izvēli turpmākam darbam.

 

6.3.2. Hipotēzes pārbaudei vajadzīgo datu apstrāde

 

Lai pārbaudītu nulles hipotēzi par divu vidējo starpību, ir jāzina šie vidējie un ar tiem saistītās dispersijas (vai noviržu kvadrātu summas, vai standartnovirzes).

Uzsākot hipotēzes pārbaudi, šie lielumi var būt jau zināmi. Ja viņi nav zināmi, visprecīzākos rezultātus dod sākotnējo, negrupētu datu apstrāde (6.1.tabula). Mazāk precīzus, bet pieņemamus rezultātus iegūstam, apstrādājot grupētus datus (variācijas rindu, 6.2. tabula).

 

 

 

 

 

 

 

                                                                                                                                    6.1. tabula

 

Ceha strādnieku darba ražīgums rīta un vakara maiņā

(izstrādājumi vidēji stundā) novērojuma izdarīšanas dienā

 

Novērojumu

(strādnieka) Nr.

1

2

3

4

5

6

7

8

9

Rīta maiņā

3,1

4,4

3,6

1,7

4,3

4,1

5,1

2,9

5,4

Vakara maiņā

3,6

2,6

5,1

4,0

3,1

3,8

3,4

4,4

3,9

 

10

11

12

13

14

15

16

17

18

19

20

4,0

2,7

3,7

2,3

4,0

2,8

4,6

3,9

3,7

3,4

4,1

2,9

3,3

1,7

3,7

4,2

2,8

-

-

-

-

-

 

                      

 

6.2.tabula

 

Ceha strādnieku darba ražīgums rīta un vakara maiņā (izstrādājumi vidēji stundā) novērojuma izdarīšanas dienā (grupēti dati)

 

 

Darba ražīgums,

 

Intervālu centri

 

Strādnieku skaits

izstrādājumi stundā

x

rīta maiņā

vakara maiņā

 

1,5 - 2,5

 

2

 

2

 

1

2,5 - 3,5

3

5

6

3,5 - 4,5

4

10

7

4,5 - 5,5

5

3

1

-

20

15

-

74

53

-

288

195

-

3,700

3,533

-

0,7100

0,5156

-

0,8426

0,7180

 

 

 

 

 

 

Piemērā iegūstam:

 

                                               

 

6.3.3. Empiriskā t koeficienta aprēķināšana

 

3.1. Empirisko t koeficientu aprēķina ar  formulu

 

                                ,                                                                                          (6.1)

 

kur   - vidējo lielumu starpības standartkļūda.

 

Parasti pieļauj, ka saskaņā ar nulles hipotēzei alternatīvo hipotēzi ģenerālkopā tiklab , kā    var būt lielāks. Tad var rēķināt un starpības absolūto vērtību, resp. un mainīt vietām. Speciālā gadījumā saskaņā ar alternatīvo hipotēzi ģenerālkopā viens vidējais noteikti ir lielāks par otru. Tas aprēķinus sarežģī.

 

Piemērā .

 

3.2. Darbietilpīgāka ir vidējo lielumu starpības standartkļūdas aprēķināšana. Šim nolūkam ir jāizvēlas viena no formulām, atbilstoši 1.3. punktā minētajiem priekšnoteikumiem. Formulas, no kurām izvēlēties, parasti sakārto tabulā (skat. 6.3. tabulu).

 

Piemērā vienību skaits kopās nav vienāds, jo  20   15 (strādnieku skaits maiņās).

 

Dispersijas  un  starpību uzskatīsim par statistiski nenozīmīgu.

 

Vēlāk aplūkosim, kā to noteikt precīzi. Līdz ar to lietojamā formula ir šāda:

 

                  (6.2)

 

Formulā ir paredzēts ievietot noviržu kvadrātu summas, bet mēs kā starprezultātus pierakstijām dispersijas. Tādēļ jāatceras, ka

 

,

 

no kā seko, ka

 

.

 

             6.3. tabula

 

Pamatformulas hipotēžu pārbaudei par divu aritmetisko vidējo atšķirības statistisko nozīmību

 

                             un var mainīt vietām

 

 

 

 

 

 

 

Izdarot ievietojumus, iegūstam, ka

 

 

 

 

 

 

6.3.4. t koeficienta kritiskās robežvērtības atrašana un lēmuma pieņemšana

 

4.1. Lai noteiktu t koeficienta kritisko robežu, vispirms ekspertīzes ceļā jāizšķiras par varbūtību, kuru uzskatām par pietiekamu hipotēzes noraidīšanai.

Biometrijā kā standartus lieto varbūtības 0,95 un 0,99. Tās parasti izmanto arī matemātiskās statistikas demonstrējumos. Ekonomikas pētījumos šādas varbūtības šķiet augstas. Varbūt pietiktu 0,7 - 0,8, bet to grūti profesionāli pamatot.

Ja pieņemam varbūtību 0,95, tad atlikusī varbūtība 1 - 0,95 = 0,05 jeb 5% ir risks, izdarot slēdzienu, pieļaut pirmā veida kļūdu. Pirmā veida kļūdu pieļaujam, ja īstenībā pareizu hipotēzi (nulles hipotēzi) nepamatoti, kļūdas dēļ noraidām. Kļūda rodas tad, ja izlases dati nav reprezentatīvi.

Otrā veida kļūdu pieļaujam, ja pārbaudāmā hipotēze īstenībā ir nepareiza, bet kļūdas dēļ to atstājam nenoraidītu. Šo varbūtību nevar brīvi izvēlēties, bet var aprēķināt, ja ir izraudzīta pirmā veida kļūdas varbūtība. Tehniski tas ir sarežģīti, tādēļ parasti to nerēķina.

 

4.2. Jānosaka brīvības pakāpju skaits. Par brīvības pakāpju skaitu sauc kopas vienību skaitu n, pēc kura datiem aprēķināts empiriskais t koeficients, no tā atskaitot aprēķinos izmantoto saistošo nosacījumu skaitu.

Salīdzinot divus aritmētiskos vidējos, ir divi saistošie nosacījumi. Resp., lai divas reizes lietotu dispersijas aprēķināšanas formulu, tajā ir jaievieto divi vidējie. Ja ir fiksēti šie vidējie, tad visi novērojumi var būt jeb kuri skaitļi (brīvi), bet pēdējiem diviem (katrā kopā pa vienam) ir jābūt tādiem, lai nodrošinātu atbilstošu vidējo. Tātad

 

                              .                                                                                     (6.3)

 

Piemērā

 

                              .

 

4.3. Speciālās matemātiskās tabulās nolasa izvēlētās pirmā veida kļūdas varbūtību un esošam brīvības pakāpju skaitam atbilstošo t koeficienta kritisko robežu

 

                              .

 

Kritiskās robežas skaitlis ir lielāks, ja ņemam lielāku hipotēzēs pārbaudes varbūtību, resp., mazāku pieļaujam pirmā veida kļūdas risku.

Kritiskās robežas skaitlis ir mazāks, ja ir lielāks brīvības pakāpju skaits, citiem vārdiem, hipotēzes pārbaudē ir izmantoti vairāk novērojumu.

 

3.5. Salīdzina empirisko t koeficientu ar tā kritisko robežu un pieņem lēmumu.

 

Ja  ,

 

nulles hipotēzi noraida ar prasīto varbūtību.

 

Ja ,

 

nulles hipotēzi ar prasīto varbūtību nevar noraidīt. Tā paliek spēkā, vidējā atšķirība nav statistiski nozīmīga.

 

Piemērā  t = 0,633;   tātad  un darba ražīguma atšķirības statistiskā nozīmība rīta un vakara maiņā paliek nepierādīta. Faktiski novēroto atšķirību var izkaidrot arī ar izlases kļūdu.

Konkrētajā gadījumā samērā atšķirīgi vidējie nedeva iespēju noraidiīt nulles hipotēzi tādēļ, ka:

 

                        -novērojumu (strādnieku) skaits ir mazs;

                        -ir liela iekšgrupu variācija (atsevišķu strādnieku darba ražīgums abu grupu ietvaros

  ir ļoti atšķirīgs).

 

Studenti diezgan bieži kļūdās darba pēdējā punktā, pieņemot lēmumu, jo neatceras, kura no nevienādībām pie kāda lēmuma ved. To arī  no galvas mācīties nav vajadzīgs. Šaubu gadījumā ir jāatceras empiriskā t koeficienta formula (vienkāršotā pierakstā)

 

 

Ja starpības standartkļūdu (saucējā) pieņem par konstantu, tad t ir lielāks, ja lielāka ir vidējo starpība. Ja starpība ir liela, ir skaidrs, ka nulles hipotēze jānoraida, ja maza - nav pamata to noraidīt. Tātad liels empiriskais t koeficients ved pie hipotēzes noraidīšanas un otrādi.  Kritiskā robeža kalpo vienīgi tam, lai novērtētu kādu t uzskatīt par ‘’lielu’’ un kādu par ‘’mazu’’.

Ja empiriskais t iznāk mazāks par vienu, nav pat nepieciešams tabulās meklēt kritisko robežvērtību, jo ne ar vienu parasti izmantojamo varbūtību nulles hipotēzi noraidīt nevar.

Ja empiriskais t koeficients nedaudz pārsniedz vienu, nulles hipotēzi nevar noraidīt ar biometrijā lietotām varbūtībām 0,95 vai 0,99, bet to, atkarībā no brīvības pakāpju skaita, var noraidīt ar mazāku drošību - varbūtību 0,6 - 0,8, kas ekonometrijas pētījumos dažreiz ir pietiekami. Ja empīriskais t pārsniedz 3-4, nulles hipotēzi var noraidīt ar augstu varbūtību.

 

6.4. Nulles hipotēzes pārbaude par divu dispersiju starpību

 

Nulles hipotēzi  pārbauda vairāku uzdevumu risināšanai:

 

            1. lai izvēlētos piemērotas formulas divu aritmētisko vidējo starpības nozīmības pārbaudei.

    Iepriekš to izdarījām ekspertīzes ceļā bez aprēķiniem;

            2. lai dotu atbildi par  pašu dispersiju atšķirību nozīmību, ja pazīmes variācijai ir būtiska

                nozīme pētījumā;

            3. lai salīdzinātu iekšgrupu un starpgrupu dispersijas, tādējādi noskaidrojot, vai

                grupējums ir izdalījis raksturīgus ekonomiskus (sociālus, bioloģiskus) tipus. Šādu

                uzdevumu risina dispersijas analīze.

 

Nulles hipotēzes pārbaude par divu dispersiju starpību ir daudz vienkaršāka nekā par divu aritmētisko vidējo starpību, kaut gan visumā saglabājas tie paši izpildāmā darba soļi.

 

            1. Ir jāaprēķina abas salīdzināmās empiriskās dispersijas  un , ja tās nav dotas tieši.

    Aprēķini kļūst precīzāki, ja turpmāk lieto šo dispersiju nenobīdītos vērtējumus.

 

 

 

Tos aprēķina ar formulu

                                                        .                                                                          (6.4)

 

 

            2. Atrod empirisko F attiecību (Fišera attiecību), dalot lielāko no

              salīdzināmajām dispersijām ar mazāko :

 

                                                        lielākā izlases dispersija

                        F   =                       -------------------------------  .                                                    (6.5)  

                                                        mazākā izlases dispersija

 

            3. Nosaka katras dispersijas brīvības pakāpju skaitu. Ja salīdzina divu grupu parastās, jeb

    pilnās dispersijas, tad   un .

 

Ja salīdzina iekšgrupu un starpgrupu  dispersijas, tad iekšgrupu (jeb grupu vidējai, jeb intragrupu) dispersijai ir  brīvības pakāpes, kur k - grupu skaits, bet starpgrupu (intergrupu) dispersijai  brīvības pakāpes.

 

4. Vadoties no hipotēzes pārbaudei izvēlētās varbūtības un brīvības pakāpju skaita, matemātiskās tabulās atrod F attiecības kritisko robežu .

Parastajos tabulu krājumos F kritiskās robežas ir tabulētas diviem nozīmības līmeņiem 0,05 un 0,01, kas dod iespēju noraidīt nulles hipotēzi ar varbūtību 0,95 un 0,99.

Tabulas ir šahveida. Kritiskais skaitlis ir jānolasa ailes un rindas krustojumā esošā rūtiņā. Jāņem aile, kuras galvā ir uzrādīts lielākās dispersijas brīvības pakāpju skaits , un rinda, kuras galvā uzrādots mazākās dispersijas brīvības pakāpju skaits .

 

5. Izdara salīdzināšanu un pieņem lēmumu. Ja empiriskā F attiecība ir lielāka

    par kritisko robežu , t.i.

                                                    

 

                                                  ,

nulles hipotēzi, kas apgalvo, ka salīdzināmās dispersijas neatšķiras būtiski, noraida ar izvēlēto varbūtību. Ja

 

,

 

šādu nulles hipotēzi ar prasīto varbūtību noraidīt nevar. Abu dispersiju atšķirība var būt radusies izlases kļūdu rezultātā.

Iepriekšējā piemērā par darba ražīgumu rīta un vakara maiņā aprēķinātās dispersijas bija   , kuras iegūtas novērojot pirmajā grupā , otrajā   strādniekos.

 

Pārbaudīsim, vai šīs dispersijas atšķiras statistiski nozīmīgi ar varbūtību 0,95.

 

 

 

            1. Dispersiju nenobīdīti vērtējumi

 

                                               

 

            2. 

 

            3.  .

 

 

            4. Tabulas fragments

                       

 

 

 

2,388

 

 

 

 

            5. 1,254 < 2,388  resp.  un nulles hipotēzi ar prasīto varbūtību noraidīt nevar. Novērotā dispersiju starpība varēja rasties izlases kļūdu rezultātā.

Iepriekš pieņemtais ekspertīzes lēmums ir bijis pareizs.

 

6.5. Hipotēzes pārbaude par ik pa pāriem saistītu novērojumu aritmetisko vidējo starpību

 

6.5.1. Uzdevuma nostādne un piemērs

 

Izvērtējot speciāli organizētu izmēģinājumu un eksperimentu rezultātus, ir raksturīgi, ka katram novērojumam izmēģinājuma apstākļos ir iekārtots atbilstošs novērojums t.s. kontroles apstākļos. Piemēram, lai pārbaudītu, vai kāds jauns minērālmēslojuma veids būtiski ietekmē ražību, iekārto vairākus paralēlus izmēģinājumu lauciņus. Katrā pārī vienā lauciņā lieto parbaudāmo vielu (tas ir izmēģinājuma lauciņš šaurā nozīmē), bet otrā - nē (kontroles  lauciņš). Visus pārējos apstākļus paralēlajos lauciņos cenšas saglabāt vienādus. Pēc tam aprēķina vidējo ražību atsevišķi izmēģinājuma un kontroles lauciņos, un ir jānovērtē, vai vidējo lielumu atšķirība ir statistiski nozīmīga.

Tādā pat veidā ir iespējāms organizēt arī pasīvos novērojumus, piemēram, aptaujājot vienus un tos pašus respondentus pirms un pēc cenu paaugstināšanas.

No statistikas metožu viedokļa mums ir divas izlases, kuras savstarpēji saistītas tā, ka katram novērojumam vienā izlasē atbilst viens noteikts novērojums otrā izlasē.

 

Iepriekš aplūkotās metodes nulles hipotēzes pārbaude par divu vidējo starpību šādu priekšnoteikumu neparedzēja. Abas salīdzināmās izlases domājām kā nejaušas, bez garantijas, ka katram novērojumam vienā izlasē atbilst noteikts novērojums otrā izlasē.

Ja mums ir ik pa novērojumu pāriem saistītas izlases, var izmantot parasto nulles hipotēzes pārbaudes shēmu, kas bija parādīta iepriekš. Tikai tā nav efektīva. Lietojot vispārējo shēmu, par neizskaidroto variāciju iznāk uzskatīt arī variāciju starp novērojumu pāriem, kura var būt liela. Ja novērojumi ir ik pa pāriem saistīti, šo variāciju var neņemt vērā, resp., izslēgt. To izdara, lietojot speciālu paņēmienu, kuru aplūkosim turpmāk.

Tādēļ, lietojot parasto paņēmienu, nulles hipotēze var palikt nenoraidīta un izmēģinājums atzīts par neveiksmīgu. Lietojot speciālo paņēmienu, kurš ievēro novērojumu savstarpējo saistību, var izradīties, ka nulles hipotēzi var noraidīt. Līdz ar to izmēģinājums kļūst nozīmīgs.

No tā var secināt arī, ka ik pa pāriem saistītie novērojumi ir informātīvāki nekā nesaistītie. Tādēļ tos plaši lieto dabas zinātnēs un zināmos gadījumos arī socioloģijā.

Kā pārbaudīt  nulles hipotēzi par ik pa pāriem saistītu novērojumu aritmētisko vidējo starpību, parādīsim, izmantojot ilustratīvu piemēru.

 

Piemērs. Agronomijas zinātne apgalvo, ka lupīnas sējumi bagātina augsni ar aktīvo fosforu. Lai vēlreiz pārbaudītu šo atziņu, veica augsnes  ķīmisko analīzi piecos laukos lupīnas dīgšanas un ziedēšanas periodā, skat. 6.4. tabulas pirmās trīs ailes.

 

6.4. tabula

 

Aktīvā fosfora saturs augsnē divās lupīnas attīstības fāzēs

 

 

Aktīvā fosforskābe

(mg) uz 100 g. augsnes

 

Novirzes

 

Noviržu kvadrāti

Lauka

Nr.

dīgšanas

stadījā

ziedēšanas stadīja

 

1

4,5

5,1

0,6

0,36

2

3,5

4,7

1,2

1,44

3

4,7

4,8

0,1

0,01

4

3,7

3,9

0,2

0,04

5

3,6

4,5

0,9

0,81

Summas

20,0

23,0

3,0

2,66

Vidēji

4,0

4,6

0,6

0,532

 

 

6.5.2. Rezultātu novērtēšana un nulles hipotēzes formulēšana

 

Izrēķinot aktīvās fosforskābes daudzuma aritmētiskos vidējos lupīnas dīgšanas stadījā    un ziedēšanas stadijā   redzam, ka pēdējais vidējais ir lielāks, kas sākotnēji apstriprina pārbaudāmo hipotēzi.

Lai apstiprinātu šīs starpības statistisko nozīmību, varētu izvirzīt un pārbaudīt parasto nulles hipotēzi , kur attiecīgos ģenerālos vidējos  un  reprezentē izlašu vidējie 4,0 un 4,6.

Taču jārēķinās, ka šādas hipotēzes pārbaudi traucēs ļoti nopietns blakus faktors: dabiskais jeb sākotnējais aktīvās fosforskābes saturs augsnē. Piemēram, pirmajā laukā tas ir relatīvi liels, bet otrajā un ceturtajā laukā - mazs. Šī dažādība, uz kuras fona notika izmēģinājums, var traucēt  pierādīt izmēģinājuma rezultātu nozīmību.

 

Īstenībā mūs interesē nevis fosforskābes absolūtais daudzums augsnē, bet tās pieaugums divās novērojumu reizēs: lupīnas ziedēšanas stadijā un dīgšanas stadījā. To atspoguļo novirzes

                                          ,                                                                               (6.6)

 

kas aprēķinātas 6.4. tabulas 4.ailē. Šīs starpības, atbilstoši teorijai, varam vērtēt, kā lupīnas pozītīvo iedarbību uz augsnes kvalitāti un tieši  par to nozīmību ir jāizvirza nulles hipotēze.

Tādēļ nulles hipotēze ir jāformulē šādi:

 

                                          ,                                                                            (6.7)

kur  - noviržu matemātiskā cerība, jeb vidējā novirze ģenerālkopā.

 

Izlasē to reprezentē  .

Izdarītie izmēģinājumi atbilst ik pa pāriem saistītu izmēģinājumu shēmai, jo katrā konkrētā laukā ar savām dabiskām īpašībām ir izdarīti divi novērojumi. Pirmais pirms izmēginājuma šaurā nozīmē (kontrole) un otrais - pēc izmēģinājuma saprotot to šaurā nozīmē.

 

6.5.3. Nulles hipotēzes pārbaude

 

Lai pārbaudītu izvirzīto nulles hipotēzi

 

                                         ,

 

ir jāizdara šādas darbības (darbību soļi apvienoti jeb agreģēti, salīdzinot ar pamatshēmu).

 

            1. Jāaprēķina empiriskais t koeficients

 

                                          ,                                                                (6.8)

jo saskaņā ar hipotēzi ir nulle.

 

            1.1.    jau ir apēķināts tabulā, un tas ir 0,6.

 

            1.2. Lai aprēķinātu vidējās novirzes standartkļūdu, ir secīgi jāizmanto divas formulas:

 

            - jāprēķina noviržu dispersija, izmantojot vai nu definīcijas formulu

 

                                                ,                                                           (6.9)

 

                        vai momentu formulu

 

                                         .                                         (6.10)

Abas šīs formulas ir vienīgi citiem simboliem pierakstītas parastās dispersijas formulas. Turklāt ir izdarīta korekcija ar brīvības pakāpju zudumu , jo izlase uzdevumā ir ļoti maza, n = 5;

 

            -  jāaprēķina pati vidējās novirzes standartkļūda ar formulu

 

                                               .                                                                            (6.11)

Izvēloties noviržu dispersijas aprēķināšanai momentu formulu, tabulas pēdējā ailē ir izskaitļoti noviržu kvadrāti un to summa, ko kopā ar noviržu summu varam ievietot formulā:

 

                                .

 

Vidējās novirzes standartkļūda ir

 

                                         .

 

Atgādinām, ka  ir vienkāršs variācijas rādītājs, bet  jau ir izlases kļūdas rādītājs.

 

            1.3. Aprēķinām empirisko t koeficientu:

 

                                              .

 

2. Jāizvēlas hipotēzes pārbaudes varbūtība, resp., nozīmības līmenis, jāatrod tam un esošajam brīvības pakāpju skaitam atbilstošā t kritiskā robeža, empiriskais t jāsalīdzina ar šo robežu un jāpieņem lēmums.

 

            2.1. Izvēlamies biometrijā tradicionālo nozīmības līmeni , kas ir hipotēzes pārbaudē pieļaujamā pirmā kļūdas veida varbūtība.

 

            2.2. Brīvības pakāpju skaits ir

 

                                       

 

            2.3. t - tabulās (Stjudenta tabulās) atrodam, ka

 

                                  .

 

            2.4                        .

tātad izvirzīto nulles hipotēzi var noraidīt ar varbūtību, augstāku par 0,95. Lupīnas pozītīvā ietekme uz augsnes auglību ir izrādījusies statistiski nozīmīga.

 

6.6. Nulles hipotēzes pārbaude par divu relatīvo biežumu starpību

 

Pārbaudot nulles hipotēzi par divu aritmētisko vidējo starpību, t koeficienta kritisko vērtību atradām, izmantojot normālā sadalījuma likumu. Tā var rīkoties tādēļ, ka izlases aritmētiskie vidējie, daudzkārt atkārtojot izlasi, veido aptuveni normālu sadalījumu ap ģenerālkopas vidējo. Pirmais priekšnoteikums, kas to veicina, bet ne garantē, ir tas, ka aritmētiskais vidējais principā var būt jebkurš skaitlis. Izlases vidējais no ģenerālkopas vidējā vairumā gadījumu var novirzīties vienlīdz tālu kā samazināšanās tā palielināšanās virzienā.

Relatīvais biežums turpretī ir ierobežots skaitlis. Tas nevar būt mazāks par nulli un lielāks par vienu. Tādēļ relatīvajam biežumam ir ierobežots variācijas apgabals. Ja relatīvais biežums ģenerālkopā (varbūtība) turklāt ir tuvs vienai no šim robežvērtībām, tad izlases relatīvajiem biežumiem jāveido krasi asimetrisks sadalījums.

Piemēram, ja ņēmam daudz izlašu no ģenerālkopas, kur interesējošās pazīmes relatīvais biežums p = 0,01, tad pusē no izlasēm ir sagaidāms relatīvais biežums ļoti šaurā intervālā 0 - 0,01, bet otrā pusē - plašā intervālā 0,01 -1.

 

Tādēļ, lai pārbaudītu nulles hipotēzi par divu relatīvo biežumu starpību

 

                                    ,                                                                            (6.12)

 

tās vietā pārbauda hipotēzi                           

 

                                   ,                                                                             (6.13)

 

kur j ir funkcija no p, turklāt tāda, kuras sadalījums ir tuvs normālam.

R.Fišers ir pierādījis, ka šīm prasībām atbilst funkcija (p uztverts grādos):

 

                                                                                                     (6.14)

 

jeb                                 .                                                    (6.15)

 

Ar p apzīmējam relatīvo biežumu ģenerālkopā, resp., varbūtību. Turpmāk aprēķinos tā būs jāaizstāj ar relatīvo biežumu izlases: secīgi ar   un .

Nulles hipotēzi par to, ka divu izlašu relatīvo biežumu starpība neatšķiras statistiski nozīmīgi, pārbauda šādi.

 

1. Aprēķina empirisko t attiecību

 

                                   .                                                              (6.16)

Divu funkciju  un  starpības standratkļūda ir atkarīga vienīgi no novērojumu skaita salīdzināmajās izlasēs  un .

 

2. Ņemot vērā izraudzīto hipotēzes pārbaudes nozīmības līmeni  un brīvības pakāpju skaitu , t tabulās nolasa t kritisko vērtību. Salīdzina empirisko t ar tā robežvērtību un pieņem lēmumu.

 

Piemērs. Esam izrakstījuši tuvākajos pēcpensijas vecuma gados (55 - 64 g.) mirušo iedzīvtāju skaitu Latvijā un Zviedrijā¹.  Attiecinot to pret šī vecuma iedzīvotāju kopskaitu, izrādās ka mirstība Latvijā ir lielāka. Vai šī atšķirība ir statistiski nozīmīga?

 

6.5 tabula

Daži demogrāfijas rādītāji Latvijā un Zviedrijā

 

 

  Latvijā

Zviedrijā

Miruši 55 - 64.g. vecumā

6811

6920

Iedzīvotāju skaits 55  - 64.g. vecumā  

306436

841386

Mirušo īpatsvars šajā vecuma grupā

0,02223

0,008224

0,2993

0,1816

 

Aprēķinam  empirisko t attiecību

 

        

 

Praksē, ja rezuktāti iegūti pēc tik lielu statistisko kopu datiem, nulles hipotēzes parasti nemaz nepārbauda.

Iegūstot tik lielu t vērtību, nulles hipotēzi var tūliņ noraidīt ar vislielāko izvēlēto varbūtību. Ja ar hipotēzes pārbaudē iespējamo pirmā veida kļūdas varbūtību saprot laukuma daļu zem normālā sadalījuma līknes no perpendikula, vilktā punktā t = -55,8, un pa labi no perpendikula, vilktā punkta t = + 55,8, tad šī daļa ir atomāri maza. Publicētajās matemātiskajās tabulās to nolasīt  nemaz  nevar.

Tātad praktiski ar varbūtību 1 varam apgalvot, ka  pēcpensijas vecuma iedzīvotāju mirstība Latvijā ir lielāka nekā Zviedrijā.

Tik drošus secinājumus ieguvām tādēļ, ka  novērojumu (attiecīgā vecuma iedzīvotāju) abās  valstīs ir vairāki simti tūkstošu. Īstenībā šeit nav runa par divām izlasēm, bet divam ģenerālkopām.

Tagad pieņemsim, ka šie paši relatīvie  biežumi ir iegūti pēc mazpilsētu datiem, no kurām pirmajā ir 150, bet otrajā 200 attiecīgā vecuma iedzīvotāji. Jautājam, vai pēcpensijas vecuma iedzīvotāju mirstība pirmajā pilsētā ir būtiski lielāka nekā otrajā?

 

 

 

 

 

 

___________________

¹ Aprēķināts pēc ‘’Baltijas valstis un ziemeļvalstis. Statistisko datu krājums‘’. - R. : VSK 1996. -
  32., 35. - 36., 44. - 45. lpp. (1993.g. dati)

 

Izvēlamies hipotēzes pārbaudes varbūtību 0,95 , aprēķinam    .

 

Tabulās var atrast, ka .

 

Tātad    ,

un nulles hipotēzi nevar noraidīt pat ar samērā pieticīgo varbūtību 0,95. Mirstības starpību abās pilsētas var izskaidrot ar gadījuma faktoriem.

 

Varam secināt, ka statistisko hipotēžu pārbaude ir nepieciešama tad, ja salīdzināmo kopu raksturotāji ir iegūti pēc mazām izlasēm (daži desmiti - daži simti vienību).