Funkcja rozkładu chi-kwadrat. Rozkład chi-kwadrat

Rozważmy rozkład chi-kwadrat. Korzystanie z funkcji MS EXCELROZKŁAD CH2() Narysujmy dystrybuantę i gęstość prawdopodobieństwa oraz wyjaśnijmy zastosowanie tego rozkładu na potrzeby statystyki matematycznej.

Rozkład chi-kwadrat (X2, XI2, angielskiChi- do kwadratudystrybucja) stosowane w różnych metodach statystyki matematycznej:

  • podczas budowy;
  • Na ;
  • at (czy dane empiryczne zgadzają się z naszymi założeniami o teoretycznej funkcji rozkładu, czy nie, angielski Goodness-of-fit)
  • at (używany do określenia związku między dwiema zmiennymi kategorycznymi, angielski test powiązania chi-kwadrat).

Definicja: Jeśli x 1 , x 2 , …, x n są niezależnymi zmiennymi losowymi rozłożonymi na N(0;1), to rozkład zmiennej losowej Y=x 1 2 + x 2 2 +…+ x n 2 ma dystrybucja X2 z n stopniami swobody.

Dystrybucja X2 zależy od jednego parametru o nazwie stopnie swobody (zm, stopniezwolność). Na przykład podczas budowy liczba stopni swobody równa się df=n-1, gdzie n jest rozmiarem próbki.

Gęstość dystrybucji X2 wyrażone wzorem:

Wykresy funkcji

Dystrybucja X2 ma kształt asymetryczny, równy n, równy 2n.

W przykładowy plik w arkuszu wykresu dany wykresy gęstości dystrybucji prawdopodobieństwa i funkcja dystrybucji skumulowanej.

Przydatna właściwość Dystrybucja CH2

Niech x 1, x 2, …, x n będą niezależnymi zmiennymi losowymi o rozkładzie normalne prawo o tych samych parametrach μ i σ oraz X ul Jest średnia arytmetyczna te wartości x.
Następnie zmienna losowa y równy

Ma X2 -dystrybucja z n-1 stopniami swobody. Korzystając z definicji, powyższe wyrażenie można przepisać w następujący sposób:

Stąd, rozkład próbek statystyki y, at próbka z rozkład normalny, ma X2 -dystrybucja z n-1 stopniami swobody.

Będziemy potrzebować tej właściwości, gdy . Ponieważ dyspersja może być tylko liczbą dodatnią, oraz X2 -dystrybucja służy następnie do jego oceny y pierś >0, jak podano w definicji.

Rozkład CH2 w MS EXCEL

W MS EXCEL od wersji 2010 dla X2 -dystrybucje istnieje specjalna funkcja CHI2.DIST(), Imię angielskie– ROZKŁ.CHISQ(), która pozwala na obliczenia gęstość prawdopodobieństwa(patrz wzór powyżej) i (prawdopodobieństwo, że zmienna losowa X ma CI2-dystrybucja, przyjmie wartość mniejszą lub równą x, P(X<= x}).

Notatka: Ponieważ Dystrybucja CH2 jest przypadkiem szczególnym, to formuła =ROKŁ.GAMMA(x;n/2;2;PRAWDA) dla dodatniej liczby całkowitej n zwraca taki sam wynik jak formuła = ROZKŁ.CHI2(x;n; PRAWDA) lub =1-CHI2.DIST.PH(x;n) . I formuła =ROKŁ.GAMMA(x;n/2;2;FAŁSZ) zwraca taki sam wynik jak formuła = ROZKŁ.CHI2(x;n; FAŁSZ), tj. gęstość prawdopodobieństwa Dystrybucja CH2.

Funkcja HI2.DIST.PH() zwraca funkcja dystrybucji, a dokładniej prawdopodobieństwo prawostronne, tj. P(X > x). Jest oczywiste, że równość jest prawdziwa
= ROZKŁ.CHI2.PH(x;n)+ROKŁ.CHI2.(x;n;PRAWDA)=1
ponieważ pierwszy człon oblicza prawdopodobieństwo P(X > x), a drugi P(X<= x}.

Przed MS EXCEL 2010, EXCEL miał tylko funkcję CHIDIST(), która pozwalała obliczyć prawdopodobieństwo prawostronne, tj. P(X > x). Możliwości nowych funkcji MS EXCEL 2010 XI2.DIST() i XI2.DIST.PH() pokrywają możliwości tej funkcji. Funkcja CH2DIST() została pozostawiona w MS EXCEL 2010 ze względu na kompatybilność.

ROZKŁ.CHI2.() jest jedyną funkcją, która zwraca gęstość prawdopodobieństwa rozkładu chi2(trzeci argument musi mieć wartość FAŁSZ). Reszta funkcji powraca funkcja dystrybucji skumulowanej, tj. prawdopodobieństwo, że zmienna losowa przyjmie wartość z podanego zakresu: P(X<= x}.

Powyższe funkcje MS EXCEL podano w .

Przykłady

Znajdźmy prawdopodobieństwo, że zmienna losowa X przyjmie wartość mniejszą lub równą podanej X: P(X<= x}. Это можно сделать несколькими функциями:

ROZKŁAD.CHI2(x; n; PRAWDA)
=1-HI2.ROZKŁ.PH(x; n)
=1-CHI2DIST(x; n)

Funkcja CH2.DIST.PH() zwraca prawdopodobieństwo P(X > x), tzw. prawdopodobieństwo prawej ręki, więc aby znaleźć P(X<= x}, необходимо вычесть ее результат от 1.

Znajdźmy prawdopodobieństwo, że zmienna losowa X przyjmie wartość większą od zadanej X: P(X > x). Można to zrobić za pomocą kilku funkcji:

ROZKŁ.1-CHI2(x; n; PRAWDA)
=HI2.ROZKŁ.PH(x; n)
= ROZKŁAD.CHI2(x; n)

Odwrotna funkcja rozkładu chi2

Do obliczeń używana jest funkcja odwrotna alfa- , tj. do obliczenia wartości X dla danego prawdopodobieństwa alfa, I X musi spełniać wyrażenie P(X<= x}=alfa.

Do obliczeń używana jest funkcja CH2.INV(). przedziały ufności wariancji rozkładu normalnego.

Do obliczenia , tj. służy funkcja CHI2.OBR.PH(). jeżeli jako argument funkcji zostanie podany poziom istotności, np. 0,05, to funkcja zwróci wartość zmiennej losowej x, dla której P(X>x)=0,05. Dla porównania: funkcja XI2.INR() zwróci wartość zmiennej losowej x, dla której P(X<=x}=0,05.

W MS EXCEL 2007 i wcześniejszych wersjach zamiast HI2.OBR.PH() zastosowano funkcję HI2OBR().

Powyższe funkcje można zamieniać, ponieważ poniższe formuły zwracają ten sam wynik:
=CHI.OBR(alfa;n)
=HI2.OBR.PH(1-alfa;n)
=CHI2INV(1- alfa;n)

Niektóre przykłady obliczeń podano w przykładowy plik na arkuszu Funkcje.

MS EXCEL działa w oparciu o rozkład CH2

Poniżej znajduje się zgodność między rosyjskimi i angielskimi nazwami funkcji:
ROZKŁ.CH2.PH() - angielski. nazwa CHISQ.DIST.RT, tj. ROZKŁAD CHI-kwadrat Prawy ogon, prawostronny rozkład Chi-kwadrat(d)
CH2.OBR() - angielski. nazwa CHISQ.INV, tj. Rozkład CHI-kwadrat INVerse
CH2.PH.OBR() - Angielski. nazwa CHISQ.INV.RT, tj. Rozkład CHI-kwadrat INVerse Right Tail
ROZKŁAD CH2() - angielski. nazwa ROZKŁAD.CHID, funkcja równoważna ROZKŁ.CHIS.RT
CH2OBR() - angielski. nazwa CHIINV, tj. Rozkład CHI-kwadrat INVerse

Estymacja parametrów rozkładu

Ponieważ zazwyczaj Dystrybucja CH2 wykorzystywane do celów statystyki matematycznej (obliczenia przedziały ufności, testowanie hipotez itp.), i prawie nigdy do konstruowania modeli wartości rzeczywistych, to dla tego rozkładu nie przeprowadza się tutaj dyskusji na temat szacowania parametrów rozkładu.

Aproksymacja rozkładu CI2 rozkładem normalnym

Przy liczbie stopni swobody n>30 dystrybucja X 2 dobrze przybliżone rozkład normalny z średnia wartośćμ=n i wariancja σ=2*n (patrz przykładowy plik arkusza Aproksymacja).

Test \(\chi^2\) („chi-kwadrat”, zwany także „testem dopasowania Pearsona”) ma niezwykle szerokie zastosowanie w statystyce. Ogólnie można powiedzieć, że służy do testowania hipotezy zerowej, że obserwowana zmienna losowa podlega pewnemu teoretycznemu prawu rozkładu (więcej szczegółów można znaleźć np.). Konkretne sformułowanie testowanej hipotezy będzie się różnić w zależności od przypadku.

W tym poście opiszę jak działa kryterium \(\chi^2\) na (hipotetycznym) przykładzie z immunologii. Wyobraźmy sobie, że przeprowadziliśmy eksperyment mający na celu określenie skuteczności hamowania rozwoju choroby drobnoustrojowej po wprowadzeniu do organizmu odpowiednich przeciwciał. W sumie w eksperymencie wzięło udział 111 myszy, które podzieliliśmy na dwie grupy, obejmujące odpowiednio 57 i 54 zwierzęta. Pierwsza grupa myszy otrzymała zastrzyki z bakterii chorobotwórczych, a następnie podano im surowicę krwi zawierającą przeciwciała przeciwko tym bakteriom. Zwierzęta z drugiej grupy służyły jako kontrola – otrzymywały jedynie zastrzyki bakteryjne. Po pewnym czasie inkubacji okazało się, że 38 myszy zmarło, a 73 przeżyły. Spośród zmarłych 13 należało do pierwszej grupy, a 25 do drugiej (kontrola). Hipotezę zerową testowaną w tym eksperymencie można sformułować następująco: podanie surowicy z przeciwciałami nie ma wpływu na przeżycie myszy. Innymi słowy, twierdzimy, że zaobserwowane różnice w przeżyciu myszy (77,2% w pierwszej grupie w porównaniu z 53,7% w drugiej grupie) są całkowicie losowe i nie są związane z działaniem przeciwciał.

Dane uzyskane w eksperymencie można przedstawić w formie tabeli:

Całkowity

Bakterie + surowica

Tylko bakterie

Całkowity

Tabele takie jak pokazana nazywane są tabelami kontyngencji. W rozpatrywanym przykładzie tabela ma wymiar 2x2: istnieją dwie klasy obiektów („Bakterie + surowica” i „Tylko bakterie”), które bada się według dwóch kryteriów („Martwe” i „Przeżyte”). Jest to najprostszy przypadek tabeli kontyngencji: oczywiście zarówno liczba badanych klas, jak i liczba cech może być większa.

Aby przetestować hipotezę zerową podaną powyżej, musimy wiedzieć, jaka byłaby sytuacja, gdyby przeciwciała faktycznie nie miały wpływu na przeżycie myszy. Innymi słowy, musisz obliczyć oczekiwane częstotliwości dla odpowiednich komórek tabeli kontyngencji. Jak to zrobić? W eksperymencie zginęło ogółem 38 myszy, co stanowi 34,2% całkowitej liczby zwierząt objętych eksperymentem. Jeżeli podanie przeciwciał nie wpływa na przeżycie myszy, to w obu grupach doświadczalnych należy zaobserwować taki sam procent śmiertelności, wynoszący 34,2%. Obliczając, ile wynosi 34,2% z 57 i 54, otrzymujemy 19,5 i 18,5. Są to oczekiwane współczynniki śmiertelności w naszych grupach eksperymentalnych. Oczekiwane wskaźniki przeżycia oblicza się w podobny sposób: ponieważ przeżyły łącznie 73 myszy, czyli 65,8% całkowitej liczby, oczekiwane wskaźniki przeżycia będą wynosić 37,5 i 35,5. Utwórzmy nową tabelę kontyngencji, teraz z oczekiwanymi częstotliwościami:

Martwy

Ocalali

Całkowity

Bakterie + surowica

Tylko bakterie

Całkowity

Jak widać, oczekiwane częstotliwości znacznie różnią się od obserwowanych, tj. wydaje się, że podawanie przeciwciał ma wpływ na przeżycie myszy zakażonych patogenem. Możemy określić ilościowo to wrażenie za pomocą testu dobroci dopasowania Pearsona \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


gdzie \(f_o\) i \(f_e\) to odpowiednio obserwowane i oczekiwane częstotliwości. Sumowanie odbywa się po wszystkich komórkach tabeli. Tak więc dla rozważanego przykładu mamy

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]

Czy wynikowa wartość \(\chi^2\) jest wystarczająco duża, aby odrzucić hipotezę zerową? Aby odpowiedzieć na to pytanie, należy znaleźć odpowiednią wartość krytyczną kryterium. Liczbę stopni swobody dla \(\chi^2\) oblicza się jako \(df = (R - 1)(C - 1)\), gdzie \(R\) i \(C\) są liczbą wierszy i kolumn w koniugacji tabeli. W naszym przypadku \(df = (2 -1)(2 - 1) = 1\). Znając liczbę stopni swobody, możemy teraz łatwo znaleźć wartość krytyczną \(\chi^2\) za pomocą standardowej funkcji R qchisq() :


Zatem przy jednym stopniu swobody tylko w 5% przypadków wartość kryterium \(\chi^2\) przekracza 3,841. Uzyskana przez nas wartość 6,79 znacznie przekracza tę wartość krytyczną, co daje nam prawo do odrzucenia hipotezy zerowej mówiącej, że nie ma związku pomiędzy podaniem przeciwciał a przeżyciem zakażonych myszy. Odrzucając tę ​​hipotezę, ryzykujemy, że się mylimy z prawdopodobieństwem mniejszym niż 5%.

Należy zauważyć, że powyższy wzór na kryterium \(\chi^2\) daje nieco zawyżone wartości podczas pracy z tabelami kontyngencji o rozmiarze 2x2. Powodem jest to, że rozkład samego kryterium \(\chi^2\) jest ciągły, natomiast częstotliwości cech binarnych („umarły” / „przeżyły”) są z definicji dyskretne. W związku z tym przy obliczaniu kryterium zwyczajowo wprowadza się tzw korekta ciągłości, Lub Poprawka Yatesa :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]

Pearsona „Test chi-kwadrat z Yatesem” dane dotyczące korekty ciągłości: myszy X-kwadrat = 5,7923, df = 1, wartość p = 0,0161


Jak widzimy, R automatycznie stosuje korekcję ciągłości Yatesa ( Test Chi-kwadrat Pearsona z korektą ciągłości Yatesa). Obliczona przez program wartość \(\chi^2\) wyniosła 5,79213. Możemy odrzucić hipotezę zerową o braku działania przeciwciał, ryzykując, że będzie błędna, z prawdopodobieństwem nieco ponad 1% (wartość p = 0,0161).

Ministerstwo Edukacji i Nauki Federacji Rosyjskiej

Federalna Agencja Edukacji Miasta Irkuck

Bajkał Państwowy Uniwersytet Ekonomii i Prawa

Katedra Informatyki i Cybernetyki

Rozkład chi-kwadrat i jego zastosowania

Kołmykowa Anna Andreevna

Studentka drugiego roku

grupa IS-09-1

Do przetwarzania uzyskanych danych wykorzystujemy test chi-kwadrat.

W tym celu zbudujemy tabelę rozkładu częstotliwości empirycznych, tj. te częstotliwości, które obserwujemy:

Teoretycznie oczekujemy, że częstotliwości będą równomiernie rozłożone, tj. częstotliwość zostanie rozdzielona proporcjonalnie pomiędzy chłopców i dziewczęta. Zbudujmy tabelę częstości teoretycznych. Aby to zrobić, pomnóż sumę wiersza przez sumę kolumny i podziel wynikową liczbę przez całkowitą sumę (sumy).


Ostateczna tabela do obliczeń będzie wyglądać następująco:

χ2 = ∑(E - T)² / T

n = (R - 1), gdzie R jest liczbą wierszy w tabeli.

W naszym przypadku chi-kwadrat = 4,21; n = 2.

Korzystając z tabeli wartości krytycznych kryterium, znajdujemy: przy n = 2 i poziomie błędu 0,05 wartość krytyczna wynosi χ2 = 5,99.

Otrzymana wartość jest mniejsza od wartości krytycznej, co oznacza przyjęcie hipotezy zerowej.

Wniosek: nauczyciele nie przywiązują wagi do płci dziecka, pisząc dla niego cechy.

Aplikacja

Punkty krytyczne rozkładu χ2

Tabela 1

Wniosek

Studenci niemal wszystkich specjalności studiują sekcję „Teoria prawdopodobieństwa i statystyka matematyczna” na końcu kursu matematyki wyższej; w rzeczywistości zapoznają się jedynie z pewnymi podstawowymi pojęciami i wynikami, które wyraźnie nie wystarczą do pracy praktycznej. Studenci zapoznają się z niektórymi matematycznymi metodami badań na kursach specjalnych (na przykład „Prognozowanie i planowanie techniczno-ekonomiczne”, „Analiza techniczno-ekonomiczna”, „Kontrola jakości produktu”, „Marketing”, „Controlling”, „Matematyczne metody prognozowania ”)”, „Statystyka” itp. – w przypadku studentów kierunków ekonomicznych), jednak prezentacja w większości przypadków ma charakter bardzo skrótowy i schematyczny. W efekcie wiedza specjalistów statystyki stosowanej jest niewystarczająca.

Dlatego też duże znaczenie ma kierunek „Statystyka stosowana” na uczelniach technicznych, a na uczelniach ekonomicznych kierunek „Ekonometria”, gdyż ekonometria to, jak wiadomo, analiza statystyczna określonych danych ekonomicznych.

Teoria prawdopodobieństwa i statystyka matematyczna dostarczają podstawowej wiedzy z zakresu statystyki stosowanej i ekonometrii.

Są niezbędne specjalistom do pracy praktycznej.

Przyjrzałem się ciągłemu modelowi probabilistycznemu i próbowałem pokazać jego zastosowanie na przykładach.

Wykaz używanej literatury

1. Orłow A.I. Statystyka stosowana. M.: Wydawnictwo „Egzamin”, 2004.

2. Gmurman V.E. Teoria prawdopodobieństwa i statystyka matematyczna. M.: Szkoła wyższa, 1999. – 479 s.

3. Ayvozyan S.A. Teoria prawdopodobieństwa i statystyka stosowana, tom 1. M.: Jedność, 2001. – 656 s.

4. Khamitov G.P., Vedernikova T.I. Prawdopodobieństwa i statystyka. Irkuck: BGUEP, 2006 – 272 s.

5. Ezhova L.N. Ekonometria. Irkuck: BGUEP, 2002. – 314 s.

6. Mosteller F. Pięćdziesiąt zabawnych problemów probabilistycznych z rozwiązaniami. M.: Nauka, 1975. – 111 s.

7. Mosteller F. Prawdopodobieństwo. M.: Mir, 1969. – 428 s.

8. Yaglom A.M. Prawdopodobieństwo i informacja. M.: Nauka, 1973. – 511 s.

9. Chistyakov V.P. Kurs teorii prawdopodobieństwa. M.: Nauka, 1982. – 256 s.

10. Kremer N.Sh. Teoria prawdopodobieństwa i statystyka matematyczna. M.: JEDNOŚĆ, 2000. – 543 s.

11. Encyklopedia matematyczna, tom 1. M.: Encyklopedia Radziecka, 1976. – 655 s.

12. http://psystat.at.ua/ - Statystyka w psychologii i pedagogice. Artykuł Test chi-kwadrat.

Do końca XIX wieku rozkład normalny uznawano za uniwersalne prawo zmienności danych. Jednak K. Pearson zauważył, że częstości empiryczne mogą znacznie różnić się od rozkładu normalnego. Pojawiło się pytanie, jak to udowodnić. Wymagane było nie tylko porównanie graficzne, które ma charakter subiektywny, ale także ścisłe uzasadnienie ilościowe.

W ten sposób wymyślono to kryterium χ 2(chi-kwadrat), która bada istotność rozbieżności pomiędzy częstotliwościami empirycznymi (obserwowanymi) i teoretycznymi (oczekiwanymi). Stało się to już w 1900 roku, ale kryterium to jest nadal w użyciu. Ponadto został przystosowany do rozwiązywania szerokiego zakresu problemów. Przede wszystkim jest to analiza danych kategorycznych, tj. te, które wyrażają się nie ilością, ale przynależnością do jakiejś kategorii. Na przykład klasa samochodu, płeć uczestnika eksperymentu, rodzaj rośliny itp. Operacji matematycznych, takich jak dodawanie i mnożenie, nie można zastosować do takich danych; można je dla nich jedynie obliczyć.

Oznaczamy obserwowane częstotliwości O (obserwowane), oczekiwany - E (oczekiwane). Jako przykład weźmy wynik 60-krotnego rzutu kostką. Jeśli jest symetryczny i jednolity, prawdopodobieństwo otrzymania dowolnej strony wynosi 1/6, a zatem oczekiwana liczba trafień w każdą stronę wynosi 10 (1/6∙60). Zapisujemy obserwowane i oczekiwane częstotliwości w tabeli i rysujemy histogram.

Hipoteza zerowa zakłada, że ​​częstotliwości są spójne, to znaczy rzeczywiste dane nie są sprzeczne z oczekiwanymi. Alternatywna hipoteza głosi, że odchylenia w częstotliwościach wykraczają poza wahania losowe, a rozbieżności są istotne statystycznie. Aby wyciągnąć rygorystyczne wnioski, potrzebujemy.

  1. Sumaryczna miara rozbieżności między obserwowanymi i oczekiwanymi częstotliwościami.
  2. Rozkład tej miary w przypadku, gdy prawdziwa jest hipoteza o braku różnic.

Zacznijmy od odległości pomiędzy częstotliwościami. Jeśli po prostu weźmiesz różnicę O - E, wówczas miara taka będzie zależała od skali danych (częstotliwości). Na przykład 20 - 5 = 15 i 1020 - 1005 = 15. W obu przypadkach różnica wynosi 15. Ale w pierwszym przypadku oczekiwane częstotliwości są 3 razy mniejsze niż obserwowane, a w drugim przypadku - tylko 1,5 %. Potrzebujemy miary względnej, która nie zależy od skali.

Zwróćmy uwagę na następujące fakty. Ogólnie rzecz biorąc, liczba kategorii, w których mierzone są częstotliwości, może być znacznie większa, więc prawdopodobieństwo, że pojedyncza obserwacja będzie należeć do tej czy innej kategorii, jest dość małe. Jeśli tak, to rozkład takiej zmiennej losowej będzie zgodny z prawem rzadkich zdarzeń, tzw Prawo Poissona. W prawie Poissona, jak wiadomo, wartość matematycznej wartości oczekiwanej i wariancji pokrywa się (parametr λ ). Oznacza to, że oczekiwana częstotliwość dla jakiejś kategorii zmiennej nominalnej E ja będzie równoczesny i jego rozproszenie. Co więcej, prawo Poissona ma tendencję do normalizacji przy dużej liczbie obserwacji. Łącząc te dwa fakty, otrzymujemy, że jeśli hipoteza o zgodności częstotliwości obserwowanych i oczekiwanych jest poprawna, to: z dużą liczbą obserwacji, wyrażenie

Należy pamiętać, że normalność pojawi się tylko przy wystarczająco wysokich częstotliwościach. W statystyce powszechnie przyjmuje się, że całkowita liczba obserwacji (suma częstości) musi wynosić co najmniej 50, a oczekiwana częstotliwość w każdej gradacji musi wynosić co najmniej 5. Tylko w tym przypadku pokazana powyżej wartość ma standardowy rozkład normalny . Załóżmy, że ten warunek jest spełniony.

Standardowy rozkład normalny ma prawie wszystkie wartości w granicach ±3 (reguła trzech sigma). W ten sposób uzyskaliśmy względną różnicę częstotliwości dla jednej gradacji. Potrzebujemy miary dającej się uogólnić. Nie można po prostu zsumować wszystkich odchyleń - otrzymujemy 0 (zgadnij dlaczego). Pearson zasugerował zsumowanie kwadratów tych odchyleń.

To jest znak Test chi-kwadrat Pearsona. Jeśli częstotliwości rzeczywiście odpowiadają oczekiwanym, wówczas wartość kryterium będzie stosunkowo niewielka (ponieważ większość odchyleń jest w pobliżu zera). Ale jeśli kryterium okaże się duże, oznacza to znaczne różnice między częstotliwościami.

Kryterium Pearsona staje się „duże”, gdy wystąpienie takiej lub nawet większej wartości staje się mało prawdopodobne. A żeby obliczyć takie prawdopodobieństwo, trzeba znać rozkład kryterium przy wielokrotnym powtarzaniu eksperymentu, gdy hipoteza zgodności częstotliwości jest prawidłowa.

Jak łatwo zauważyć, wartość chi-kwadrat zależy również od liczby wyrazów. Im jest ich więcej, tym większą wartość powinno mieć kryterium, ponieważ każdy termin będzie miał udział w sumie. Dlatego dla każdej ilości niezależny warunkach, będzie miała własną dystrybucję. Okazuje się, że χ 2 to cała rodzina dystrybucji.

I tu dochodzimy do delikatnego momentu. Co to jest liczba niezależny warunki? Wygląda na to, że każdy termin (tj. odchylenie) jest niezależny. K. Pearson też tak myślał, ale okazał się niesłuszny. W rzeczywistości liczba niezależnych składników będzie o jeden mniejsza niż liczba stopni zmiennej nominalnej N. Dlaczego? Bo jeśli mamy próbkę, dla której obliczono już sumę częstości, to zawsze jedną z częstości można wyznaczyć jako różnicę między liczbą całkowitą a sumą wszystkich pozostałych. Dlatego różnice będą nieco mniejsze. Ronald Fisher zauważył ten fakt 20 lat po opracowaniu przez Pearsona swojego kryterium. Nawet stoły musiały zostać przerobione.

Z tej okazji Fisher wprowadził do statystyki nowe pojęcie - stopień swobody(stopnie swobody), które reprezentują liczbę niezależnych składników sumy. Pojęcie stopni swobody ma wyjaśnienie matematyczne i pojawia się jedynie w rozkładach związanych z rozkładem normalnym (Studenta, Fishera-Snedecora i samego chi-kwadrat).

Aby lepiej zrozumieć znaczenie stopni swobody, przejdźmy do fizycznego odpowiednika. Wyobraźmy sobie punkt poruszający się swobodnie w przestrzeni. Ma 3 stopnie swobody, ponieważ może poruszać się w dowolnym kierunku w przestrzeni trójwymiarowej. Jeśli punkt porusza się po dowolnej powierzchni, to ma już dwa stopnie swobody (w przód i w tył, w lewo i w prawo), chociaż nadal znajduje się w przestrzeni trójwymiarowej. Punkt poruszający się po sprężynie ponownie znajduje się w przestrzeni trójwymiarowej, ale ma tylko jeden stopień swobody, ponieważ może poruszać się do przodu lub do tyłu. Jak widać przestrzeń, w której znajduje się obiekt, nie zawsze odpowiada rzeczywistej swobodzie poruszania się.

W przybliżeniu w ten sam sposób rozkład kryterium statystycznego może zależeć od mniejszej liczby elementów niż składniki potrzebne do jego obliczenia. Ogólnie rzecz biorąc, liczba stopni swobody jest mniejsza niż liczba obserwacji o liczbę istniejących zależności.

Zatem rozkład chi-kwadrat ( χ 2) jest rodziną rozkładów, z których każdy zależy od parametru stopni swobody. Formalna definicja testu chi-kwadrat jest następująca. Dystrybucja χ 2(chi-kwadrat) s k stopnie swobody to rozkład sumy kwadratów k niezależne standardowe normalne zmienne losowe.

Następnie moglibyśmy przejść do samego wzoru, za pomocą którego obliczana jest funkcja rozkładu chi-kwadrat, ale na szczęście wszystko już dawno zostało dla nas obliczone. Aby obliczyć prawdopodobieństwo zainteresowania, możesz skorzystać albo z odpowiedniej tabeli statystycznej, albo z gotowej funkcji w Excelu.

Interesujące jest obserwowanie, jak zmienia się kształt rozkładu chi-kwadrat w zależności od liczby stopni swobody.

Wraz ze wzrostem stopni swobody rozkład chi-kwadrat ma tendencję do bycia normalnym. Wyjaśnia to działanie centralnego twierdzenia granicznego, zgodnie z którym suma dużej liczby niezależnych zmiennych losowych ma rozkład normalny. Nie mówi nic o kwadratach)).

Testowanie hipotezy za pomocą testu chi-kwadrat Pearsona

Teraz dochodzimy do testowania hipotez metodą chi-kwadrat. Ogólnie rzecz biorąc, technologia pozostaje. Hipotezą zerową jest to, że obserwowane częstotliwości odpowiadają oczekiwanym (tj. nie ma między nimi różnicy, ponieważ pochodzą z tej samej populacji). Jeżeli tak jest, to rozrzut będzie stosunkowo niewielki, w granicach wahań losowych. Miarę dyspersji wyznacza się za pomocą testu chi-kwadrat. Następnie albo samo kryterium porównuje się z wartością krytyczną (dla odpowiedniego poziomu istotności i stopni swobody), albo, co jest bardziej poprawne, oblicza się zaobserwowaną wartość p, tj. prawdopodobieństwo uzyskania tej samej lub nawet większej wartości kryterium, jeśli hipoteza zerowa jest prawdziwa.

Ponieważ interesuje nas zgodność częstotliwości, wówczas hipoteza zostanie odrzucona, gdy kryterium będzie większe niż poziom krytyczny. Te. kryterium jest jednostronne. Czasami jednak (czasami) konieczne jest sprawdzenie hipotezy lewej ręki. Na przykład, gdy dane empiryczne są bardzo podobne do danych teoretycznych. Wtedy kryterium może należeć do mało prawdopodobnego obszaru, ale po lewej stronie. Faktem jest, że w warunkach naturalnych uzyskanie częstotliwości praktycznie pokrywających się z teoretycznymi jest mało prawdopodobne. Zawsze jest jakaś losowość, która powoduje błąd. Jeśli jednak nie ma takiego błędu, być może dane zostały sfałszowane. Mimo to hipoteza prawostronna jest zwykle testowana.

Wróćmy do problemu kości. Obliczmy wartość testu chi-kwadrat, korzystając z dostępnych danych.

Teraz znajdźmy wartość krytyczną przy 5 stopniach swobody ( k) i poziom istotności 0,05 ( α ) zgodnie z tabelą wartości krytycznych rozkładu chi-kwadrat.

Oznacza to, że kwantyl 0,05 jest rozkładem chi-kwadrat (prawy ogon) z 5 stopniami swobody χ2 0,05; 5 = 11,1.

Porównajmy wartości rzeczywiste i tabelaryczne. 3,4 ( χ 2) < 11,1 (χ2 0,05; 5). Obliczone kryterium okazało się mniejsze, co oznacza, że ​​hipoteza o równości (zgodności) częstotliwości nie zostaje odrzucona. Na rysunku sytuacja wygląda następująco.

Jeżeli obliczona wartość mieściłaby się w obszarze krytycznym, hipoteza zerowa zostałaby odrzucona.

Bardziej poprawne byłoby obliczenie również wartości p. Aby to zrobić, należy znaleźć w tabeli najbliższą wartość dla danej liczby stopni swobody i przyjrzeć się odpowiadającemu jej poziomowi istotności. Ale to jest ostatnie stulecie. Będziemy korzystać z komputera, w szczególności programu MS Excel. Excel ma kilka funkcji związanych z chi-kwadrat.

Poniżej znajduje się ich krótki opis.

CH2.OBR– wartość krytyczna kryterium przy danym prawdopodobieństwie po lewej stronie (jak w tablicach statystycznych)

CH2.OBR.PH– wartość krytyczna kryterium dla danego prawdopodobieństwa po prawej stronie. Funkcja zasadniczo powiela poprzednią. Ale tutaj możesz od razu wskazać poziom α , zamiast odejmować ją od 1. Jest to wygodniejsze, ponieważ w większości przypadków potrzebny jest prawy koniec rozkładu.

ROZKŁ.CH2– wartość p po lewej stronie (można obliczyć gęstość).

ROZKŁ.CH2.PH– wartość p po prawej stronie.

TEST CHI2– natychmiast przeprowadza test chi-kwadrat dla dwóch zakresów częstotliwości. Przyjmuje się, że liczba stopni swobody jest o jeden mniejsza niż liczba częstotliwości w kolumnie (tak jak powinna), zwracając wartość p.

Obliczmy dla naszego eksperymentu wartość krytyczną (tabelaryczną) dla 5 stopni swobody i alfa 0,05. Formuła Excela będzie wyglądać następująco:

CH2.OBR(0,95;5)

CH2.OBR.PH(0,05;5)

Wynik będzie taki sam - 11,0705. To jest dokładnie ta wartość, którą widzimy w tabeli (w zaokrągleniu do 1 miejsca po przecinku).

Na koniec obliczmy wartość p dla kryterium 5 stopni swobody χ 2= 3,4. Potrzebujemy prawdopodobieństwa po prawej stronie, więc bierzemy funkcję z dodaniem HH (prawy ogon)

ROZKŁ.CH2.PH(3,4;5) = 0,63857

Oznacza to, że przy 5 stopniach swobody prawdopodobieństwo uzyskania wartości kryterium wynosi χ 2= 3,4 i więcej to prawie 64%. Oczywiście hipoteza nie zostaje odrzucona (wartość p jest większa niż 5%), częstości są w bardzo dobrej zgodności.

Sprawdźmy teraz hipotezę o zgodności częstotliwości za pomocą testu chi-kwadrat i funkcji Excela CHI2.TEST.

Żadnych tabel, żadnych uciążliwych obliczeń. Podając jako argumenty funkcji kolumny z obserwowanymi i oczekiwanymi częstotliwościami, natychmiast otrzymujemy wartość p. Uroda.

A teraz wyobraź sobie, że grasz w kości z podejrzanym facetem. Podział punktów od 1 do 5 pozostaje taki sam, ale rzuca 26 szóstkami (łączna liczba rzutów wynosi 78).

Wartość p w tym przypadku okazuje się wynosić 0,003, czyli znacznie mniej niż 0,05. Istnieją uzasadnione powody, aby wątpić w ważność kości. Oto jak to prawdopodobieństwo wygląda na wykresie rozkładu chi-kwadrat.

Samo kryterium chi-kwadrat okazuje się tutaj wynosić 17,8, co oczywiście jest większe niż w tabeli (11,1).

Mam nadzieję, że udało mi się wyjaśnić, jakie jest kryterium zgodności χ 2(chi-kwadrat Pearsona) i jak można go wykorzystać do testowania hipotez statystycznych.

Na koniec jeszcze raz o ważnym warunku! Test chi-kwadrat działa prawidłowo tylko wtedy, gdy liczba wszystkich częstotliwości przekracza 50, a minimalna wartość oczekiwana dla każdej gradacji jest nie mniejsza niż 5. Jeżeli w dowolnej kategorii oczekiwana częstotliwość jest mniejsza niż 5, ale suma wszystkich częstotliwości przekracza 50, to taką kategorię łączy się z najbliższą, aby ich łączna częstotliwość przekraczała 5. Jeżeli nie jest to możliwe lub suma częstości jest mniejsza niż 50, należy zastosować dokładniejsze metody testowania hipotez. Porozmawiamy o nich innym razem.

Poniżej znajduje się film przedstawiający sposób testowania hipotezy w Excelu za pomocą testu chi-kwadrat.

Niech U 1, U 2, ..,U k będą niezależnymi standardowymi wartościami normalnymi. Rozkład zmiennej losowej K = U 1 2 +U 2 2 + .. + U k 2 nazywany jest rozkładem chi-kwadrat z k stopnie swobody (zapisz K~χ 2 (k)). Jest to rozkład jednomodalny o dodatniej skośności i charakteryzujący się: modą M=k-2 oczekiwaniem matematycznym m=k wariancją D=2k (rys.). Przy wystarczająco dużej wartości parametru k rozkład χ 2 (k) ma w przybliżeniu rozkład normalny z parametrami

Przy rozwiązywaniu problemów statystyki matematycznej wykorzystuje się punkty krytyczne χ 2 (k) w zależności od zadanego prawdopodobieństwa α i liczby stopni swobody k(Załącznik 2). Punkt krytyczny Χ 2 kr = Χ 2 (k; α) jest granicą obszaru, na prawo od którego leży 100- α % powierzchni pod krzywą gęstości rozkładu. Prawdopodobieństwo, że wartość zmiennej losowej K~χ 2 (k) podczas badania spadnie na prawo od punktu χ 2 (k) nie przekracza α P(K≥χ 2 kp)≤ α). Przykładowo dla zmiennej losowej K~χ 2 (20) ustalamy prawdopodobieństwo α=0,05. Korzystając z tabeli punktów krytycznych rozkładu chi-kwadrat (tablice), znajdujemy χ 2 kp = χ 2 (20;0,05) = 31,4. Oznacza to, że prawdopodobieństwo tej zmiennej losowej K przyjąć wartość większą niż 31,4, mniejszą niż 0,05 (ryc.).

Ryż. Wykres gęstości rozkładu χ 2 (k) dla różnych wartości liczby stopni swobody k

Punkty krytyczne χ 2 (k) wykorzystywane są w następujących kalkulatorach:

  1. Sprawdzanie obecności wielowspółliniowości (o wielowspółliniowości).
Testowanie hipotezy za pomocą Chi-kwadrat da jedynie odpowiedź na pytanie „czy istnieje związek?”, potrzebne są dalsze badania, aby sprawdzić kierunek zależności. Co więcej, test Chi-kwadrat ma pewien błąd podczas pracy z danymi o niskiej częstotliwości.

Dlatego do sprawdzenia kierunku powiązania wybiera się analizę korelacji, w szczególności weryfikację hipotezy z wykorzystaniem współczynnika korelacji Pearsona z dalszym badaniem istotności za pomocą testu t.

Dla dowolnej wartości poziomu istotności α Χ 2 można znaleźć za pomocą funkcji MS Excel: =HI2OBR(α;stopnie swobody)

n-1 .995 .990 .975 .950 .900 .750 .500 .250 .100 .050 .025 .010 .005
1 0.00004 0.00016 0.00098 0.00393 0.01579 0.10153 0.45494 1.32330 2.70554 3.84146 5.02389 6.63490 7.87944
2 0.01003 0.02010 0.05064 0.10259 0.21072 0.57536 1.38629 2.77259 4.60517 5.99146 7.37776 9.21034 10.59663
3 0.07172 0.11483 0.21580 0.35185 0.58437 1.21253 2.36597 4.10834 6.25139 7.81473 9.34840 11.34487 12.83816
4 0.20699 0.29711 0.48442 0.71072 1.06362 1.92256 3.35669 5.38527 7.77944 9.48773 11.14329 13.27670 14.86026
5 0.41174 0.55430 0.83121 1.14548 1.61031 2.67460 4.35146 6.62568 9.23636 11.07050 12.83250 15.08627 16.74960
6 0.67573 0.87209 1.23734 1.63538 2.20413 3.45460 5.34812 7.84080 10.64464 12.59159 14.44938 16.81189 18.54758
7 0.98926 1.23904 1.68987 2.16735 2.83311 4.25485 6.34581 9.03715 12.01704 14.06714 16.01276 18.47531 20.27774
8 1.34441 1.64650 2.17973 2.73264 3.48954 5.07064 7.34412 10.21885 13.36157 15.50731 17.53455 20.09024 21.95495
9 1.73493 2.08790 2.70039 3.32511 4.16816 5.89883 8.34283 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935
10 2.15586 2.55821 3.24697 3.94030 4.86518 6.73720 9.34182 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818
11 2.60322 3.05348 3.81575 4.57481 5.57778 7.58414 10.34100 13.70069 17.27501 19.67514 21.92005 24.72497 26.75685
12 3.07382 3.57057 4.40379 5.22603 6.30380 8.43842 11.34032 14.84540 18.54935 21.02607 23.33666 26.21697 28.29952
13 3.56503 4.10692 5.00875 5.89186 7.04150 9.29907 12.33976 15.98391 19.81193 22.36203 24.73560 27.68825 29.81947
14 4.07467 4.66043 5.62873 6.57063 7.78953 10.16531 13.33927 17.11693 21.06414 23.68479 26.11895 29.14124 31.31935
15 4.60092 5.22935 6.26214 7.26094 8.54676 11.03654 14.33886 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132
16 5.14221 5.81221 6.90766 7.96165 9.31224 11.91222 15.33850 19.36886 23.54183 26.29623 28.84535 31.99993 34.26719
17 5.69722 6.40776 7.56419 8.67176 10.08519 12.79193 16.33818 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847
18 6.26480 7.01491 8.23075 9.39046 10.86494 13.67529 17.33790 21.60489 25.98942 28.86930 31.52638 34.80531 37.15645
19 6.84397 7.63273 8.90652 10.11701 11.65091 14.56200 18.33765 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226
20 7.43384 8.26040 9.59078 10.85081 12.44261 15.45177 19.33743 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685
21 8.03365 8.89720 10.28290 11.59131 13.23960 16.34438 20.33723 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106
22 8.64272 9.54249 10.98232 12.33801 14.04149 17.23962 21.33704 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565
23 9.26042 10.19572 11.68855 13.09051 14.84796 18.13730 22.33688 27.14134 32.00690 35.17246 38.07563 41.63840 44.18128
24 9.88623 10.85636 12.40115 13.84843 15.65868 19.03725 23.33673 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851
25 10.51965 11.52398 13.11972 14.61141 16.47341 19.93934 24.33659 29.33885 34.38159 37.65248 40.64647 44.31410 46.92789
26 11.16024 12.19815 13.84390 15.37916 17.29188 20.84343 25.33646 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988
27 11.80759 12.87850 14.57338 16.15140 18.11390 21.74940 26.33634 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492
28 12.46134 13.56471 15.30786 16.92788 18.93924 22.65716 27.33623 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338
29 13.12115 14.25645 16.04707 17.70837 19.76774 23.56659 28.33613 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562
30 13.78672 14.95346 16.79077 18.49266 20.59923 24.47761 29.33603 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196
Liczba stopni swobody k Poziom istotności a
0,01 0,025 0.05 0,95 0,975 0.99
1 6.6 5.0 3.8 0.0039 0.00098 0.00016
2 9.2 7.4 6.0 0.103 0.051 0.020
3 11.3 9.4 7.8 0.352 0.216 0.115
4 13.3 11.1 9.5 0.711 0.484 0.297
5 15.1 12.8 11.1 1.15 0.831 0.554
6 16.8 14.4 12.6 1.64 1.24 0.872
7 18.5 16.0 14.1 2.17 1.69 1.24
8 20.1 17.5 15.5 2.73 2.18 1.65
9 21.7 19.0 16.9 3.33 2.70 2.09
10 23.2 20.5 18.3 3.94 3.25 2.56
11 24.7 21.9 19.7 4.57 3.82 3.05
12 26.2 23.3 21 .0 5.23 4.40 3.57
13 27.7 24.7 22.4 5.89 5.01 4.11
14 29.1 26.1 23.7 6.57 5.63 4.66
15 30.6 27.5 25.0 7.26 6.26 5.23
16 32.0 28.8 26.3 7.96 6.91 5.81
17 33.4 30.2 27.6 8.67 7.56 6.41
18 34.8 31.5 28.9 9.39 8.23 7.01
19 36.2 32.9 30.1 10.1 8.91 7.63
20 37.6 34.2 31.4 10.9 9.59 8.26
21 38.9 35.5 32.7 11.6 10.3 8.90
22 40.3 36.8 33.9 12.3 11.0 9.54
23 41.6 38.1 35.2 13.1 11.7 10.2
24 43.0 39.4 36.4 13.8 12.4 10.9
25 44.3 40.6 37.7 14.6 13.1 11.5
26 45.6 41.9 38.9 15.4 13.8 12.2
27 47.0 43.2 40.1 16.2 14.6 12.9
28 48.3 44.5 41.3 16.9 15.3 13.6
29 49.6 45.7 42.6 17.7 16.0 14.3
30 50.9 47.0 43.8 18.5 16.8 15.0