Klassiske metoder for statistikk: kjikvadrattest. Pearson-kriterium for å teste hypotesen om formen til fordelingsloven til en tilfeldig variabel

Til sent XIXårhundre ble normalfordelingen ansett som den universelle variasjonsloven i data. K. Pearson bemerket imidlertid at empiriske frekvenser kan avvike sterkt fra normalfordelingen. Spørsmålet oppsto om hvordan man skulle bevise dette. Ikke bare en grafisk sammenligning, som er subjektiv, var nødvendig, men også en streng kvantitativ begrunnelse.

Slik ble kriteriet oppfunnet χ 2(chi square), som tester betydningen av avviket mellom empiriske (observerte) og teoretiske (forventede) frekvenser. Dette skjedde tilbake i 1900, men kriteriet er fortsatt i bruk i dag. Dessuten er den tilpasset for å løse et bredt spekter av problemer. For det første er dette analysen av kategoriske data, dvs. de som ikke uttrykkes ved mengde, men ved å tilhøre en kategori. For eksempel bilens klasse, kjønn på eksperimentdeltakeren, type plante, etc. Matematiske operasjoner som addisjon og multiplikasjon kan ikke brukes på slike frekvenser, kan bare beregnes for dem.

Vi angir de observerte frekvensene Om (observert), forventet – E (Forventet). Som et eksempel, la oss ta resultatet av å kaste en terning 60 ganger. Hvis den er symmetrisk og ensartet, er sannsynligheten for å få en side 1/6, og derfor er det forventede antallet å få hver side 10 (1/6∙60). Vi skriver de observerte og forventede frekvensene i en tabell og tegner et histogram.

Nullhypotesen er at frekvensene er konsistente, det vil si at de faktiske dataene ikke motsier de forventede dataene. En alternativ hypotese er at avvikene i frekvenser går utover tilfeldige svingninger, avvikene er statistisk signifikante. For å trekke en streng konklusjon, trenger vi.

  1. Et oppsummerende mål på avviket mellom observert og forventet frekvens.
  2. Fordelingen av dette målet hvis hypotesen om at det ikke er forskjeller er sann.

La oss starte med avstanden mellom frekvensene. Hvis du bare tar forskjellen O - E, så vil et slikt mål avhenge av omfanget av dataene (frekvensene). For eksempel, 20 - 5 = 15 og 1020 - 1005 = 15. I begge tilfeller er forskjellen 15. Men i det første tilfellet er de forventede frekvensene 3 ganger mindre enn de observerte, og i det andre tilfellet - bare 1,5 %. Vi trenger et relativt mål som ikke er avhengig av skala.

La oss ta hensyn til følgende fakta. Generelt kan antallet kategorier som frekvenser måles i være mye større, så sannsynligheten for at en enkelt observasjon faller inn i en eller annen kategori er ganske liten. I så fall vil fordelingen av en slik tilfeldig variabel følge loven om sjeldne hendelser, kjent som Poissons lov. I Poissons lov er som kjent verdien matematisk forventning og variansene sammenfaller (parameter λ ). Dette betyr at den forventede frekvensen for en kategori av den nominelle variabelen E i vil være samtidig og dens spredning. Videre har Poissons lov en tendens til å være normal med et stort antall observasjoner. Ved å kombinere disse to fakta, får vi at hvis hypotesen om samsvaret mellom de observerte og forventede frekvensene er riktig, så med et stort antall observasjoner, uttrykk

Det er viktig å huske at normalitet kun vil vises ved tilstrekkelig høye frekvenser. I statistikk er det generelt akseptert at det totale antallet observasjoner (summen av frekvenser) må være minst 50 og forventet frekvens i hver gradering må være minst 5. Bare i dette tilfellet har verdien vist ovenfor en standard normalfordeling . La oss anta at denne betingelsen er oppfylt.

Standard normalfordeling har nesten alle verdier innenfor ±3 (tre-sigma-regelen). Dermed oppnådde vi den relative forskjellen i frekvenser for en gradering. Vi trenger et generaliserbart tiltak. Du kan ikke bare legge sammen alle avvikene - vi får 0 (gjett hvorfor). Pearson foreslo å legge sammen kvadratene til disse avvikene.

Dette er tegnet Chi-kvadrat test Pearson. Hvis frekvensene virkelig tilsvarer de forventede, vil verdien av kriteriet være relativt liten (siden de fleste avvikene er rundt null). Men hvis kriteriet viser seg å være stort, indikerer dette betydelige forskjeller mellom frekvenser.

Pearson-kriteriet blir "stort" når forekomsten av en slik eller en enda større verdi blir usannsynlig. Og for å beregne en slik sannsynlighet, er det nødvendig å vite fordelingen av kriteriet når eksperimentet gjentas mange ganger, når hypotesen om frekvensavtale er riktig.

Som det er lett å se, avhenger kjikvadratverdien også av antall ledd. Jo flere det er, jo større verdi bør kriteriet ha, fordi hvert ledd vil bidra til totalen. Derfor for hver mengde selvstendig vilkår, vil det være egen distribusjon. Det viser seg at χ 2 er en hel familie av distribusjoner.

Og her kommer vi til et delikat øyeblikk. Hva er et tall selvstendig vilkår? Det virker som ethvert begrep (dvs. avvik) er uavhengig. Det mente også K. Pearson, men han viste seg å ta feil. Faktisk vil antallet uavhengige ledd være én mindre enn antallet graderinger av den nominelle variabelen n. Hvorfor? For hvis vi har et utvalg som summen av frekvenser allerede er beregnet for, så kan en av frekvensene alltid bestemmes som differansen mellom det totale antallet og summen av alle de andre. Derfor blir variasjonen noe mindre. Ronald Fisher la merke til dette faktum 20 år etter at Pearson utviklet sitt kriterium. Selv bordene måtte gjøres om.

Ved denne anledningen introduserte Fisher et nytt konsept i statistikk - grad av frihet(frihetsgrader), som representerer antall uavhengige ledd i summen. Begrepet frihetsgrader har en matematisk forklaring og vises kun i fordelinger knyttet til det normale (Student's, Fisher-Snedecor og chi-square selv).

For bedre å forstå betydningen av grader av frihet, la oss vende oss til en fysisk analog. La oss forestille oss et punkt som beveger seg fritt i rommet. Den har 3 frihetsgrader, fordi kan bevege seg i alle retninger i tredimensjonalt rom. Hvis et punkt beveger seg langs en overflate, har det allerede to frihetsgrader (forover-bakover, høyre-venstre), selv om det fortsetter å være i tredimensjonalt rom. Et punkt som beveger seg langs en fjær er igjen i tredimensjonalt rom, men har bare én frihetsgrad, fordi kan bevege seg enten fremover eller bakover. Som du kan se, samsvarer ikke plassen der objektet befinner seg alltid med reell bevegelsesfrihet.

På omtrent samme måte kan fordelingen av et statistisk kriterium avhenge av et mindre antall elementer enn vilkårene som trengs for å beregne det. Generelt er antallet frihetsgrader mindre enn antall observasjoner med antall eksisterende avhengigheter.

Dermed chi-kvadratfordelingen ( χ 2) er en familie av distribusjoner, som hver avhenger av frihetsgradsparameteren. Og den formelle definisjonen av kjikvadrattesten er som følger. Distribusjon χ 2(chi-kvadrat) s k frihetsgrader er fordelingen av summen av kvadrater k uavhengige standard normale tilfeldige variabler.

Deretter kan vi gå videre til selve formelen som kjikvadratfordelingsfunksjonen beregnes med, men heldigvis har alt lenge blitt beregnet for oss. For å få sannsynligheten for interesse kan du bruke enten den aktuelle statistiske tabellen eller en ferdig funksjon i Excel.

Det er interessant å se hvordan formen på kjikvadratfordelingen endres avhengig av antall frihetsgrader.

Med økende frihetsgrader har kjikvadratfordelingen en tendens til å være normal. Dette forklares av handlingen til den sentrale grensesetningen, ifølge hvilken summen av et stort antall uavhengige tilfeldige variabler har en normalfordeling. Det står ikke noe om ruter)).

Testing av hypotesen ved hjelp av Pearson kjikvadrattest

Nå kommer vi til å teste hypoteser ved hjelp av kjikvadratmetoden. Generelt forblir teknologien. Nullhypotesen er at de observerte frekvensene tilsvarer de forventede (dvs. det er ingen forskjell mellom dem fordi de er hentet fra samme populasjon). Hvis dette er tilfelle, vil spredningen være relativt liten, innenfor grensene for tilfeldige svingninger. Spredningsmålet bestemmes ved bruk av kjikvadrattesten. Deretter sammenlignes enten selve kriteriet med den kritiske verdien (for tilsvarende betydningsnivå og frihetsgrader), eller, hva som er riktigere, beregnes den observerte p-verdien, dvs. sannsynligheten for å oppnå samme eller enda større kriterieverdi hvis nullhypotesen er sann.

Fordi vi er interessert i samsvar mellom frekvenser, da vil hypotesen bli forkastet når kriteriet er større enn det kritiske nivået. De. kriteriet er ensidig. Noen ganger (noen ganger) er det imidlertid nødvendig å teste hypotesen til venstre. For eksempel når empiriske data ligner veldig på teoretiske data. Da kan kriteriet falle inn i en usannsynlig region, men til venstre. Faktum er at det under naturlige forhold er usannsynlig å oppnå frekvenser som praktisk talt sammenfaller med de teoretiske. Det er alltid en eller annen tilfeldighet som gir feil. Men hvis det ikke er en slik feil, er kanskje dataene forfalsket. Men likevel blir den høyresidige hypotesen vanligvis testet.

La oss gå tilbake til terningproblemet. La oss beregne verdien av kjikvadrattesten ved å bruke tilgjengelige data.

La oss nå finne den kritiske verdien ved 5 frihetsgrader ( k) og signifikansnivå 0,05 ( α ) i henhold til tabellen over kritiske verdier for chi-kvadratfordelingen.

Det vil si 0,05 kvantil chi-kvadratfordeling (høyre hale) med 5 frihetsgrader x 2 0,05; 5 = 11,1.

La oss sammenligne den faktiske og tabellverdi. 3,4 (χ 2) < 11,1 (x 2 0,05; 5). Det beregnede kriteriet viste seg å være mindre, noe som betyr at hypotesen om likhet (avtale) av frekvenser ikke forkastes. På figuren ser situasjonen slik ut.

Hvis den beregnede verdien falt innenfor det kritiske området, ville nullhypotesen bli forkastet.

Det vil være mer riktig å også beregne p-verdien. For å gjøre dette må du finne den nærmeste verdien i tabellen for et gitt antall frihetsgrader og se på det tilsvarende signifikansnivået. Men dette er forrige århundre. Vi vil bruke en datamaskin, spesielt MS Excel. Excel har flere funksjoner knyttet til kjikvadrat.

Nedenfor er en kort beskrivelse av dem.

CH2.OBR– kritisk verdi av kriteriet ved en gitt sannsynlighet til venstre (som i statistiske tabeller)

CH2.OBR.PH– kritisk verdi av kriteriet for en gitt sannsynlighet til høyre. Funksjonen dupliserer i hovedsak den forrige. Men her kan du umiddelbart angi nivået α , i stedet for å trekke den fra 1. Dette er mer praktisk, fordi i de fleste tilfeller er det høyre hale av fordelingen som trengs.

CH2.DIST– p-verdi til venstre (tetthet kan beregnes).

CH2.DIST.PH– p-verdi til høyre.

CHI2.TEST– utfører umiddelbart en kjikvadrattest for to frekvensområder. Antall frihetsgrader antas å være én mindre enn antall frekvenser i kolonnen (som det burde være), og returnerer en p-verdi.

La oss beregne for vårt eksperiment den kritiske (tabellformede) verdien for 5 frihetsgrader og alfa 0,05. Excel-formelen vil se slik ut:

CH2.OBR(0,95;5)

CH2.OBR.PH(0,05;5)

Resultatet blir det samme - 11.0705. Dette er verdien vi ser i tabellen (avrundet til 1 desimal).

La oss til slutt beregne p-verdien for kriteriet for 5 frihetsgrader χ 2= 3,4. Vi trenger sannsynligheten til høyre, så vi tar funksjonen med tillegg av HH (høyre hale)

CH2.DIST.PH(3,4;5) = 0,63857

Dette betyr at med 5 frihetsgrader er sannsynligheten for å oppnå kriterieverdien χ 2= 3,4 og mer tilsvarer nesten 64 %. Hypotesen forkastes naturligvis ikke (p-verdi er større enn 5%), frekvensene stemmer meget godt overens.

La oss nå sjekke hypotesen om samsvar mellom frekvenser ved å bruke kjikvadrattesten og Excel-funksjonen CHI2.TEST.

Ingen tabeller, ingen tungvinte beregninger. Ved å spesifisere kolonner med observerte og forventede frekvenser som funksjonsargumenter får vi umiddelbart p-verdien. Skjønnhet.

Forestill deg nå at du spiller terninger med en mistenkelig fyr. Fordelingen av poeng fra 1 til 5 forblir den samme, men han kaster 26 seksere (totalt antall kast blir 78).

P-verdien i dette tilfellet viser seg å være 0,003, som er mye mindre enn 0,05. Det er gode grunner til å tvile på terningens gyldighet. Slik ser denne sannsynligheten ut på et kjikvadratfordelingsdiagram.

Selve kjikvadratkriteriet viser seg her å være 17,8, som naturligvis er større enn tabell en (11,1).

Jeg håper jeg klarte å forklare hva kriteriet for avtale er χ 2(Pearson chi-square) og hvordan det kan brukes til å teste statistiske hypoteser.

Til slutt, nok en gang om viktig tilstand! Kjikvadrattesten fungerer bare riktig når antallet av alle frekvenser overstiger 50, og minimum forventet verdi for hver gradering ikke er mindre enn 5. Hvis i en kategori er forventet frekvens mindre enn 5, men summen av alle frekvenser overskrider 50, så kombineres en slik kategori med den nærmeste slik at deres totale frekvens overstiger 5. Hvis dette ikke er mulig, eller summen av frekvensene er mindre enn 50, bør mer nøyaktige metoder for hypotesetesting brukes. Vi snakker om dem en annen gang.

Nedenfor er en video om hvordan du tester en hypotese i Excel ved hjelp av kjikvadrattesten.

Vurder søknaden iMSEXCELPearson kjikvadrattest for å teste enkle hypoteser.

Etter å ha innhentet eksperimentelle data (dvs. når det er noen prøve) vanligvis velges fordelingslov som best beskriver den stokastiske variabelen representert ved en gitt prøvetaking. Kontroll av hvor godt de eksperimentelle dataene er beskrevet av den valgte teoretiske distribusjonsloven utføres ved hjelp av avtalekriterier. Nullhypotese, er det vanligvis en hypotese om likheten i fordelingen av en tilfeldig variabel til noen teoretisk lov.

La oss først se på søknaden Pearsons godhet-of-fit test X 2 (chi-kvadrat) i forhold til enkle hypoteser (parametrene til den teoretiske fordelingen anses som kjent). Deretter - , når bare formen på distribusjonen er spesifisert, og parametrene for denne fordelingen og verdien statistikk X 2 vurderes/beregnes ut fra det samme prøver.

Note: I engelskspråklig litteratur, søknadsprosedyren Pearson godhet-of-fit test X 2 har et navn Chi-square godhet til passform test.

La oss huske prosedyren for å teste hypoteser:

  • basert på prøver verdien beregnes statistikk, som tilsvarer typen hypotese som testes. For eksempel for brukt t-statistikk(hvis ikke kjent);
  • underlagt sannheten nullhypotese, fordelingen av dette statistikk er kjent og kan brukes til å beregne sannsynligheter (for eksempel for t-statistikk Dette);
  • beregnet ut fra prøver betydning statistikk sammenlignet med den kritiske verdien for en gitt verdi ();
  • nullhypotese avvise hvis verdi statistikk større enn kritisk (eller hvis sannsynligheten for å få denne verdien statistikk() mindre betydningsnivå, som er en tilsvarende tilnærming).

La oss gjennomføre hypotesetesting for ulike distribusjoner.

Diskret sak

Anta at to personer spiller terninger. Hver spiller har sitt eget sett med terninger. Spillerne bytter på å kaste 3 terninger samtidig. Hver runde vinnes av den som kaster flest seksere om gangen. Resultatene registreres. En av spillerne hadde etter 100 runder en mistanke om at motstanderens terninger var asymmetriske, fordi han vinner ofte (han kaster ofte seksere). Han bestemte seg for å analysere hvor sannsynlig et slikt antall fiendtlige utfall var.

Note: Fordi Det er 3 kuber, så kan du rulle 0 om gangen; 1; 2 eller 3 seksere, dvs. en tilfeldig variabel kan ha 4 verdier.

Fra sannsynlighetsteori vet vi at hvis terningene er symmetriske, så adlyder sannsynligheten for å få seksere. Derfor, etter 100 runder, kan frekvensene til seksere beregnes ved hjelp av formelen
=BINOM.FORDELING(A7;3;1/6;USANN)*100

Formelen antar at i cellen A7 inneholder det tilsvarende antallet seksere rullet i en runde.

Note: Beregninger er gitt i eksempelfil på det diskrete arket.

Til sammenligning observert(Observert) og teoretiske frekvenser(Forventet) praktisk å bruke.

Hvis de observerte frekvensene avviker betydelig fra den teoretiske fordelingen, nullhypotese om fordelingen av en stokastisk variabel etter en teoretisk lov må forkastes. Det vil si at hvis motstanderens terninger er asymmetriske, vil de observerte frekvensene være "vesentlig forskjellig" fra binomial fordeling.

I vårt tilfelle, ved første øyekast, er frekvensene ganske nærme og uten beregninger er det vanskelig å trekke en entydig konklusjon. Anvendelig Pearson godhet-of-fit test X 2, slik at i stedet for det subjektive utsagnet "vesentlig annerledes", som kan gjøres basert på sammenligning histogrammer, bruk et matematisk riktig utsagn.

Vi bruker det faktum at pga lov om store tall observert frekvens (Observert) med økende volum prøver n har en tendens til sannsynligheten som tilsvarer den teoretiske loven (i vårt tilfelle, binomial lov). I vårt tilfelle er prøvestørrelsen n 100.

La oss introdusere test statistikk, som vi betegner med X 2:

hvor O l er den observerte frekvensen av hendelser som den stokastiske variabelen har tatt visse akseptable verdier, E l er den tilsvarende teoretiske frekvensen (Forventet). L er antall verdier som en tilfeldig variabel kan ta (i vårt tilfelle er det 4).

Som man kan se av formelen, dette statistikk er et mål på nærheten av observerte frekvenser til teoretiske, dvs. den kan brukes til å estimere "avstandene" mellom disse frekvensene. Hvis summen av disse "avstandene" er "for store", så er disse frekvensene "vesentlig forskjellige." Det er klart at hvis kuben vår er symmetrisk (dvs. aktuelt binomial lov), da vil sannsynligheten for at summen av "avstander" blir "for stor" være liten. For å beregne denne sannsynligheten må vi kjenne fordelingen statistikk X 2 ( statistikk X 2 beregnet basert på tilfeldig prøver, derfor er den en tilfeldig variabel og har derfor sin egen sannsynlighetsfordeling).

Fra den flerdimensjonale analogen Moivre-Laplace integralteorem det er kjent at for n->∞ er vår stokastiske variabel X 2 asymptotisk med L - 1 frihetsgrader.

Så hvis den beregnede verdien statistikk X 2 (summen av "avstandene" mellom frekvenser) vil være større enn en viss grenseverdi, da vil vi ha grunn til å avvise nullhypotese. Samme som å sjekke parametriske hypoteser, settes grenseverdien via betydningsnivå. Hvis sannsynligheten for at X 2-statistikken vil ha en verdi mindre enn eller lik den beregnede ( s-betydning), vil være mindre betydningsnivå, Det nullhypotese kan avvises.

I vårt tilfelle er den statistiske verdien 22.757. Sannsynligheten for at X2-statistikken tar en verdi større enn eller lik 22,757 er svært liten (0,000045) og kan beregnes ved hjelp av formlene
=CHI2.DIST.PH(22.757,4-1) eller
=CHI2.TEST(Observert; Forventet)

Note: Funksjonen CHI2.TEST() er spesielt utviklet for å teste forholdet mellom to kategoriske variabler (se).

Sannsynlighet 0,000045 er betydelig mindre enn vanlig betydningsnivå 0,05. Så spilleren har all grunn til å mistenke motstanderen sin for uærlighet ( nullhypotese hans ærlighet nektes).

Ved bruk kriterium X 2 det er nødvendig å sikre at volumet prøver n var stor nok, ellers ville ikke fordelingstilnærmingen være gyldig statistikk X 2. Det antas vanligvis at for dette er det tilstrekkelig at de observerte frekvensene (Observert) er større enn 5. Hvis dette ikke er tilfelle, kombineres små frekvenser til én eller legges til andre frekvenser, og den kombinerte verdien tildeles en total sannsynlighet og følgelig antall frihetsgrader reduseres X 2 fordelinger.

For å forbedre kvaliteten på søknaden kriterium X 2(), er det nødvendig å redusere partisjonsintervallene (øk L og øk deretter antallet grader av frihet), men dette forhindres av begrensningen på antall observasjoner inkludert i hvert intervall (db>5).

Kontinuerlig sak

Pearson godhet-of-fit test X 2 kan også brukes i tilfelle .

La oss vurdere en viss prøve, bestående av 200 verdier. Nullhypotese uttaler at prøve laget av.

Note: Tilfeldige variabler i eksempelfil på Kontinuerlig-arket generert ved hjelp av formelen =NORM.ST.INV(RAND()). Derfor nye verdier prøver genereres hver gang arket beregnes på nytt.

Hvorvidt det eksisterende datasettet er hensiktsmessig kan vurderes visuelt.

Som det fremgår av diagrammet, passer prøveverdiene ganske godt langs den rette linjen. Imidlertid, som for hypotesetesting anvendelig Pearson X 2 godhet-of-fit test.

For å gjøre dette deler vi endringsområdet til den tilfeldige variabelen i intervaller med et trinn på 0,5. La oss beregne de observerte og teoretiske frekvensene. Vi beregner de observerte frekvensene ved å bruke FREQUENCY()-funksjonen, og de teoretiske ved å bruke NORM.ST.DIST()-funksjonen.

Note: Samme som for diskret tilfelle, er det nødvendig å sikre det prøve var ganske stor, og intervallet inkluderte >5 verdier.

La oss beregne X2-statistikken og sammenligne den med den kritiske verdien for en gitt betydningsnivå(0,05). Fordi vi delte endringsområdet til en tilfeldig variabel i 10 intervaller, så er antallet frihetsgrader 9. Den kritiske verdien kan beregnes ved hjelp av formelen
=CHI2.OBR.PH(0,05;9) eller
=CHI2.OBR(1-0,05;9)

Diagrammet over viser at den statistiske verdien er 8,19, som er betydelig høyere kritisk verdinullhypotese blir ikke avvist.

Nedenfor er hvor prøve fikk en usannsynlig betydning og basert på kriterium Pearson-samtykke X 2 nullhypotesen ble forkastet (selv om tilfeldige verdier ble generert ved hjelp av formelen =NORM.ST.INV(RAND()), gir prøve fra standard normalfordeling).

Nullhypotese avvist, selv om dataene visuelt befinner seg ganske nær en rett linje.

La oss også ta som et eksempel prøve fra U(-3; 3). I dette tilfellet, selv fra grafen er det åpenbart at nullhypotese bør avvises.

Kriterium Pearson-samtykke X 2 bekrefter også det nullhypotese bør avvises.

Tidligere ble det vurdert hypoteser der fordelingsloven til befolkningen ble antatt å være kjent. Nå skal vi begynne å teste hypoteser om den antatte loven om ukjent fordeling, det vil si at vi skal teste nullhypotesen om at populasjonen er fordelt etter en eller annen kjent lov. Vanligvis kalles statistiske tester for å teste slike hypoteser samtykkekriterier.

Avtalekriterium kalles et kriterium for å teste en hypotese om den antatte loven for en ukjent fordeling. Det er et numerisk mål på diskrepansen mellom den empiriske og teoretiske fordelingen.

Hovedoppgave. Den empiriske fordelingen (utvalget) er gitt. Gjør en antagelse (legg frem en hypotese) om typen teoretisk fordeling og test hypotesen på et gitt signifikansnivå α.

Løsningen på hovedproblemet består av to deler:

1. Foreslå en hypotese.

2. Teste hypotesen på et gitt signifikansnivå.

La oss se på disse delene i detalj.

1. Hypotesevalg Det er praktisk å bestemme typen teoretisk fordeling ved hjelp av polygoner eller frekvenshistogrammer. Sammenlign det empiriske polygonet (eller histogrammet) med kjente distribusjonslover og velg den mest passende.

Her er grafer over de viktigste distribusjonslovene:

Eksempler på empiriske distribusjonslover er vist i figurene:



I tilfelle (a) fremsettes en hypotese om normalfordeling, i tilfelle (b) - hypotesen om jevn fordeling, i tilfelle (c) - hypotesen om Poisson-fordeling.

Grunnlaget for å stille en hypotese om den teoretiske fordelingen kan være teoretiske premisser om karakteren av endringen i karakteristikken. For eksempel, ved å oppfylle betingelsene i Lyapunovs teorem, kan vi lage en hypotese om normalfordeling. Likheten mellom gjennomsnitt og varians antyder en Poisson-fordeling.

I praksis møter vi oftest en normalfordeling, så i oppgavene våre trenger vi kun å teste hypotesen om en normalfordeling.

Hypotesetesting om den teoretiske fordelingen svarer på spørsmålet: kan avviket mellom den antatte teoretiske og empiriske fordelingen betraktes som tilfeldig, ubetydelig, forklart av tilfeldigheten til enkelte objekter som inngår i utvalget, eller indikerer dette avviket et betydelig avvik mellom fordelingene. Det finnes ulike metoder for verifisering (kriterier for godhet) - c 2 (chi-square), Kolmogorov, Romanovsky, etc.

Pearson-kriterium.

Fordelen med Pearson-kriteriet er dets universalitet: det kan brukes til å teste hypoteser om ulike distribusjonslover.

1. Teste hypotesen om normalfordeling. La en tilstrekkelig stor prøve fås n med mange forskjellige betydningsalternativer. For å gjøre det enklere å behandle det deler vi intervallet fra den minste til den største verdien av opsjonen i s like deler og vi vil anta at verdiene til alternativene som faller inn i hvert intervall er omtrent lik tallet som spesifiserer midten av intervallet. Ved å telle antall alternativer som faller inn i hvert intervall, vil vi lage et såkalt gruppert utvalg:

alternativer……….. X 1 X 2 … x s

frekvenser …………. n 1 n 2 … n s ,

Hvor x i er verdiene til midtpunktene til intervallene, og n i– antall alternativer inkludert i jeg-intervall (empiriske frekvenser). Fra de innhentede dataene kan du beregne prøvegjennomsnittet og prøvestandardavviket σ B. La oss sjekke antakelsen om at populasjonen er fordelt etter en normallov med parametere M(X) = , D(X) = . Deretter kan du finne antall tall fra prøvestørrelsen n, som skal vises i hvert intervall under denne forutsetningen (det vil si teoretiske frekvenser). For å gjøre dette, ved å bruke verditabellen til Laplace-funksjonen, finner vi sannsynligheten for å komme inn jeg intervall:

,

Hvor og jeg Og b i- grenser jeg-th intervall. Ved å multiplisere de oppnådde sannsynlighetene med prøvestørrelsen n, finner vi de teoretiske frekvensene: pi =n·pi Vårt mål er å sammenligne de empiriske og teoretiske frekvensene, som selvfølgelig er forskjellige fra hverandre, og finne ut om disse forskjellene er ubetydelige og ikke motbeviser hypotesen om en normalfordeling av den tilfeldige variabelen som studeres, eller om de er så store at de motsier denne hypotesen. Til dette formål brukes et kriterium i form av en tilfeldig variabel

. (7)

Dens betydning er åpenbar: delene som kvadratene til avvikene til empiriske frekvenser fra teoretiske utgjør fra de tilsvarende teoretiske frekvensene, summeres opp. Det kan bevises at, uavhengig av befolkningens reelle fordelingslov, tenderer fordelingsloven til tilfeldig variabel (7) til fordelingsloven med antall frihetsgrader k = s – 1 – r, Hvor r– antall parametere for den forventede fordelingen estimert fra prøvedataene. Normalfordelingen er derfor preget av to parametere k = s – 3. For det valgte kriteriet konstrueres et høyresidig kritisk område, bestemt av tilstanden

(8)

Hvor α – betydningsgrad. Følgelig er den kritiske regionen gitt av ulikheten og området for aksept av hypotesen er .

Så for å teste nullhypotesen N 0: populasjonen er normalfordelt - du må beregne den observerte verdien av kriteriet fra utvalget:

, (7`)

og fra tabellen over kritiske punkter i fordelingen χ 2 finn kritisk punkt, ved å bruke kjente verdier av α og k = s – 3. Hvis - nullhypotesen aksepteres, hvis den forkastes.

Eksempel. Resultatene av studien av etterspørselen etter produktet er presentert i tabellen:

Sett frem en hypotese om type distribusjon og test den på signifikansnivået a=0,01.

I. Foreslå en hypotese.

For å indikere typen empirisk distribusjon vil vi konstruere et histogram


120 160 180 200 220 280

Basert på utseendet til histogrammet kan man gjøre en antagelse om normalfordelingen av karakteristikken som studeres i den generelle befolkningen.

II. La oss sjekke hypotesen om normalfordeling ved å bruke Pearsons godhet-of-fit-test.

1. Beregn , s B. Som et alternativ, ta det aritmetiske gjennomsnittet av endene av intervallene:

2. Finn intervallene (Z i ; Z i+1): ; .

La oss ta (-¥) som venstre ende av det første intervallet, og (+¥) som høyre ende av siste intervall. Resultatene er presentert i tabell. 4.

3. La oss finne de teoretiske sannsynlighetene Р i og teoretiske frekvenser (se tabell 4).

Tabell 4

jeg Intervallgrense Ф(Zi) Ф(Z i+1) Pi = Ф(Z i+1)-Ф(Z i)
x i x i+1 Z i Z i+1
-1,14 -0,5 -0,3729 0,1271 6,36
-1,14 -0,52 -0,3729 -0,1985 0,1744 8,72
-0,52 0,11 -0,1985 0,0438 0,2423 12,12
0,11 0,73 0,0438 0,2673 0,2235 11,18
0,73 0,2673 0,5 0,2327 11,64

4. La oss sammenligne empiriske og teoretiske frekvenser. Slik gjør du dette:

a) beregne den observerte verdien av Pearson-kriteriet.

Beregningene er presentert i tabell 5.

Tabell 5

jeg
6,36 -1,36 1,8496 0,291
8,72 1,28 1,6384 0,188
12,12 1,88 3,5344 0,292
11,18 0,82 0,6724 0,060
11,64 -2,64 6,9696 0,599
S

b) ved å bruke tabellen over kritiske punkter for fordelingen c 2 på et gitt signifikansnivå a=0,01 og antall frihetsgrader k=m–3=5–3=2, finner vi det kritiske punktet; vi har .

Sammenlign c. . Følgelig er det ingen grunn til å forkaste hypotesen om normalfordelingsloven til den studerte egenskapen til den generelle befolkningen. De. avviket mellom de empiriske og teoretiske frekvensene er ubetydelig (tilfeldig). ◄

Kommentar. Intervaller som inneholder små empiriske frekvenser (n<5), следует объединить, а частоты этих интервалов сложить. Если производилось объединение интервалов, то при определении числа степеней свободы по формуле K=m-3 следует в качестве m принять число оставшихся после объединения интервалов.

Eksempel. Basert på et utvalg på 24 varianter ble det fremsatt en hypotese om normalfordelingen av befolkningen. Ved å bruke Pearson-kriteriet på signifikansnivå blant de gitte verdiene = (34, 35, 36, 37, 38) angir: a) den største som det ikke er noen grunn til å avvise hypotesen for; b) den minste verdien, fra hvilken hypotesen skal forkastes.

La oss finne antall frihetsgrader ved å bruke formelen:

hvor er antall utvalgsgrupper (opsjon), er antall distribusjonsparametere.

Siden normalfordelingen har 2 parametere ( og ), får vi

Ved å bruke tabellen over kritiske punkter i fordelingen, ved å bruke et gitt nivå av betydning og antall frihetsgrader, bestemmer vi det kritiske punktet.

I tilfelle a) for verdier lik 34 og 35, er det ingen grunn til å avvise hypotesen om en normalfordeling, siden . Og den største blant disse verdiene er .

I tilfelle b) for verdier 36, 37, 38 avvises hypotesen, siden . Den minste blant dem .◄

2. Teste hypotesen om jevn fordeling. Når du bruker Pearson-testen for å teste hypotesen om at populasjonen er jevnt fordelt med estimert sannsynlighetstetthet

Det er nødvendig, etter å ha beregnet verdien fra den tilgjengelige prøven, å estimere parametrene EN Og b i henhold til formlene:

Hvor EN* Og b*- vurderinger EN Og b. Faktisk for jevn fordeling M(X) = , , hvor du kan få et system for å bestemme EN* Og b*: , hvis løsning er uttrykk (9).

Så, forutsatt at , kan du finne de teoretiske frekvensene ved å bruke formlene

Her s– antall intervaller prøven er delt inn i.

Den observerte verdien av Pearson-kriteriet beregnes ved hjelp av formel (7`), og den kritiske verdien beregnes ved hjelp av tabellen, tatt i betraktning det faktum at antall frihetsgrader k = s – 3. Etter dette bestemmes grensene for det kritiske området på samme måte som for å teste hypotesen om normalfordeling.

3. Teste hypotesen om eksponentialfordelingen. I dette tilfellet, etter å ha delt den eksisterende prøven i intervaller med lik lengde, vurderer vi sekvensen av alternativer, likt fordelt fra hverandre (vi antar at alle alternativer som faller inn i jeg- th intervall, ta en verdi som faller sammen med midten), og deres tilsvarende frekvenser n i(antall eksempelalternativer inkludert i jeg– intervall). La oss beregne ut fra disse dataene og ta som et estimat av parameteren λ størrelse. Deretter beregnes de teoretiske frekvensene ved hjelp av formelen

Deretter sammenlignes den observerte og kritiske verdien av Pearson-kriteriet, under hensyntagen til det faktum at antall frihetsgrader k = s – 2.

Utdannings- og vitenskapsdepartementet i Den russiske føderasjonen

Det føderale byrået for utdanning i byen Irkutsk

Baikal State University of Economics and Law

Institutt for informatikk og kybernetikk

Chi-kvadratdistribusjon og dens applikasjoner

Kolmykova Anna Andreevna

2. års student

gruppe IS-09-1

For å behandle de innhentede dataene bruker vi kjikvadrattesten.

For å gjøre dette vil vi bygge en tabell over fordelingen av empiriske frekvenser, dvs. de frekvensene vi observerer:

Teoretisk sett forventer vi at frekvensene vil være likt fordelt, d.v.s. frekvensen vil fordeles proporsjonalt mellom gutter og jenter. La oss bygge en tabell over teoretiske frekvenser. For å gjøre dette, multipliser radsummen med kolonnesummen og del det resulterende tallet med totalsummen(e).


Den endelige tabellen for beregninger vil se slik ut:

χ2 = ∑(E - T)² / T

n = (R - 1), hvor R er antall rader i tabellen.

I vårt tilfelle er kjikvadrat = 4,21; n = 2.

Ved å bruke tabellen over kritiske verdier for kriteriet finner vi: med n = 2 og et feilnivå på 0,05, er den kritiske verdien χ2 = 5,99.

Den resulterende verdien er mindre enn den kritiske verdien, noe som betyr at nullhypotesen er akseptert.

Konklusjon: lærere legger ikke vekt på barnets kjønn når de skriver karakteristikker for ham.

Søknad

Kritiske punkter for χ2-fordelingen

Tabell 1

Konklusjon

Studenter av nesten alle spesialiteter studerer avsnittet "sannsynlighetsteori og matematisk statistikk" på slutten av det høyere matematikkkurset, blir de bare kjent med noen grunnleggende begreper og resultater, som tydeligvis ikke er nok for praktisk arbeid. Studentene blir introdusert for noen matematiske forskningsmetoder i spesialkurs (for eksempel "Prognosering og teknisk og økonomisk planlegging", "Teknisk og økonomisk analyse", "Produktkvalitetskontroll", "Markedsføring", "Kontrollering", "Matematiske metoder for prognoser". ”) ", "Statistikk", etc. - når det gjelder studenter av økonomiske spesialiteter), er imidlertid presentasjonen i de fleste tilfeller svært forkortet og formelt av natur. Som et resultat er kunnskapen til spesialister på anvendt statistikk utilstrekkelig.

Derfor er kurset "Anvendt statistikk" på tekniske universiteter av stor betydning, og kurset "Økonometri" i økonomiske universiteter, siden økonometri, som kjent, er den statistiske analysen av spesifikke økonomiske data.

Sannsynlighetsteori og matematisk statistikk gir grunnleggende kunnskap for anvendt statistikk og økonometri.

De er nødvendige for spesialister for praktisk arbeid.

Jeg så på den kontinuerlige sannsynlighetsmodellen og prøvde å vise bruken med eksempler.

Liste over brukt litteratur

1. Orlov A.I. Anvendt statistikk. M.: Forlag "Eksamen", 2004.

2. Gmurman V.E. Sannsynlighetsteori og matematisk statistikk. M.: Videregående skole, 1999. – 479 s.

3. Ayvozyan S.A. Sannsynlighetsteori og anvendt statistikk, vol. M.: Unity, 2001. – 656 s.

4. Khamitov G.P., Vedernikova T.I. Sannsynligheter og statistikk. Irkutsk: BGUEP, 2006 – 272 s.

5. Ezhova L.N. Økonometri. Irkutsk: BGUEP, 2002. – 314 s.

6. Mosteller F. Femti underholdende sannsynlighetsproblemer med løsninger. M.: Nauka, 1975. – 111 s.

7. Mosteller F. Sannsynlighet. M.: Mir, 1969. – 428 s.

8. Yaglom A.M. Sannsynlighet og informasjon. M.: Nauka, 1973. – 511 s.

9. Chistyakov V.P. Sannsynlighetsteorikurs. M.: Nauka, 1982. – 256 s.

10. Kremer N.Sh. Sannsynlighetsteori og matematisk statistikk. M.: UNITY, 2000. – 543 s.

11. Mathematical Encyclopedia, vol.1. M.: Soviet Encyclopedia, 1976. – 655 s.

12. http://psystat.at.ua/ - Statistikk i psykologi og pedagogikk. Artikkel Chi-kvadrat test.

\(\chi^2\)-testen ("chi-square", også "Pearson's goodness-of-fit-test") har ekstremt bred anvendelse i statistikk. Generelt kan vi si at den brukes til å teste nullhypotesen om at en observert tilfeldig variabel er underlagt en viss teoretisk distribusjonslov (for flere detaljer, se for eksempel). Den spesifikke formuleringen av hypotesen som testes vil variere fra tilfelle til tilfelle.

I dette innlegget vil jeg beskrive hvordan \(\chi^2\)-kriteriet fungerer ved hjelp av et (hypotetisk) eksempel fra immunologi. La oss forestille oss at vi har utført et eksperiment for å fastslå effektiviteten av å undertrykke utviklingen av en mikrobiell sykdom når passende antistoffer introduseres i kroppen. Totalt var 111 mus involvert i forsøket, som vi delte inn i to grupper, inkludert henholdsvis 57 og 54 dyr. Den første gruppen mus ble gitt injeksjoner av patogene bakterier, etterfulgt av introduksjon av blodserum som inneholder antistoffer mot disse bakteriene. Dyr fra den andre gruppen fungerte som kontroller - de fikk bare bakterielle injeksjoner. Etter en tid med inkubasjon viste det seg at 38 mus døde og 73 overlevde. Av de døde tilhørte 13 den første gruppen, og 25 til den andre (kontroll). Nullhypotesen testet i dette eksperimentet kan formuleres som følger: administrering av serum med antistoffer har ingen effekt på overlevelsen til mus. Med andre ord argumenterer vi for at de observerte forskjellene i museoverlevelse (77,2 % i den første gruppen mot 53,7 % i den andre gruppen) er helt tilfeldige og ikke er relatert til effekten av antistoffer.

Dataene oppnådd i eksperimentet kan presenteres i form av en tabell:

Total

Bakterier + serum

Bare bakterier

Total

Tabeller som den som vises kalles beredskapstabeller. I eksemplet under vurdering har tabellen en dimensjon på 2x2: det er to klasser av objekter ("Bakterier + serum" og "bare bakterier"), som undersøkes i henhold til to kriterier ("Døde" og "Overlevde"). Dette er det enkleste tilfellet av en beredskapstabell: selvfølgelig kan både antallet klasser som studeres og antallet funksjoner være større.

For å teste nullhypotesen nevnt ovenfor, må vi vite hvordan situasjonen ville vært dersom antistoffene faktisk ikke hadde noen effekt på overlevelsen til mus. Du må med andre ord regne ut forventede frekvenser for de tilsvarende cellene i beredskapstabellen. Hvordan gjøre dette? I forsøket døde totalt 38 mus, som er 34,2 % av det totale antallet involverte dyr. Hvis administrering av antistoffer ikke påvirker overlevelsen til mus, bør samme prosentandel av dødelighet observeres i begge forsøksgruppene, nemlig 34,2 %. Når vi regner ut hvor mye 34,2 % av 57 og 54 er, får vi 19,5 og 18,5. Dette er den forventede dødeligheten i våre forsøksgrupper. De forventede overlevelsesratene er beregnet på lignende måte: siden totalt 73 mus overlevde, eller 65,8 % av det totale antallet, vil de forventede overlevelsesratene være 37,5 og 35,5. La oss lage en ny beredskapstabell, nå med de forventede frekvensene:

Død

Overlevende

Total

Bakterier + serum

Bare bakterier

Total

Som vi kan se, er de forventede frekvensene ganske forskjellige fra de observerte, dvs. administrering av antistoffer ser ut til å ha en effekt på overlevelsen til mus infisert med patogenet. Vi kan kvantifisere dette inntrykket ved å bruke Pearsons godhet-of-fit-test \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


hvor \(f_o\) og \(f_e\) er henholdsvis de observerte og forventede frekvensene. Summeringen utføres over alle cellene i tabellen. Så, for eksempelet vi har

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]

Er den resulterende verdien av \(\chi^2\) stor nok til å forkaste nullhypotesen? For å svare på dette spørsmålet er det nødvendig å finne den tilsvarende kritiske verdien av kriteriet. Antall frihetsgrader for \(\chi^2\) beregnes som \(df = (R - 1)(C - 1)\), hvor \(R\) og \(C\) er tallet av rader og kolonner i tabellkonjugasjonen. I vårt tilfelle \(df = (2 -1)(2 - 1) = 1\). Når vi kjenner antall frihetsgrader, kan vi nå enkelt finne ut den kritiske verdien \(\chi^2\) ved å bruke standard R-funksjonen qchisq() :


Således, med én frihetsgrad, er det bare i 5% av tilfellene som overstiger verdien av kriteriet \(\chi^2\) 3,841. Verdien vi fikk, 6,79, overstiger denne kritiske verdien betydelig, noe som gir oss rett til å forkaste nullhypotesen om at det ikke er noen sammenheng mellom administrering av antistoffer og overlevelse av infiserte mus. Ved å forkaste denne hypotesen risikerer vi å ta feil med en sannsynlighet på mindre enn 5 %.

Det skal bemerkes at formelen ovenfor for kriteriet \(\chi^2\) gir litt oppblåste verdier når man arbeider med beredskapstabeller i størrelse 2x2. Årsaken er at fordelingen av selve kriteriet \(\chi^2\) er kontinuerlig, mens frekvensene til binære trekk ("døde" / "overlevde") per definisjon er diskrete. I denne forbindelse, når du beregner kriteriet, er det vanlig å introdusere den såkalte kontinuitetskorreksjon, eller Yates endring :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0.5)^2)(f_e).\]

Pearson "s Chi-kvadrattest med Yates" data for kontinuitetskorreksjon: mus X-kvadrat = 5,7923, df = 1, p-verdi = 0,0161


Som vi kan se, bruker R automatisk Yates kontinuitetskorreksjon ( Pearsons Chi-squared test med Yates" kontinuitetskorreksjon). Verdien av \(\chi^2\) beregnet av programmet var 5,79213. Vi kan forkaste nullhypotesen om ingen antistoffeffekt med risiko for å være feil med en sannsynlighet på litt over 1 % (p-verdi = 0,0161).