Rozważmy rozkład chi-kwadrat. Korzystanie z funkcji MS EXCELROZKŁAD CH2() Narysujmy dystrybuantę i gęstość prawdopodobieństwa oraz wyjaśnijmy zastosowanie tego rozkładu na potrzeby statystyki matematycznej.

Rozkład chi-kwadrat (X2, XI2, angielskiChi- do kwadratudystrybucja) stosowane w różnych metodach statystyki matematycznej:

podczas budowy;
Na ;
at (czy dane empiryczne zgadzają się z naszymi założeniami o teoretycznej funkcji rozkładu, czy nie, angielski Goodness-of-fit)
at (używany do określenia związku między dwiema zmiennymi kategorycznymi, angielski test powiązania chi-kwadrat).

Definicja: Jeśli x 1 , x 2 , …, x n są niezależnymi zmiennymi losowymi rozłożonymi na N(0;1), to rozkład zmiennej losowej Y=x 1 2 + x 2 2 +…+ x n 2 ma dystrybucja X2 z n stopniami swobody.

Dystrybucja X2 zależy od jednego parametru o nazwie stopnie swobody (zm, stopniezwolność). Na przykład podczas budowy liczba stopni swobody równa się df=n-1, gdzie n jest rozmiarem próbki.

Gęstość dystrybucji X2 wyrażone wzorem:

Wykresy funkcji

Dystrybucja X2 ma kształt asymetryczny, równy n, równy 2n.

W przykładowy plik w arkuszu wykresu dany wykresy gęstości dystrybucji prawdopodobieństwa i funkcja dystrybucji skumulowanej.

Przydatna właściwość Dystrybucja CH2

Niech x 1, x 2, …, x n będą niezależnymi zmiennymi losowymi o rozkładzie normalne prawo o tych samych parametrach μ i σ oraz X ul Jest średnia arytmetyczna te wartości x.
Następnie zmienna losowa y równy

Ma X2 -dystrybucja z n-1 stopniami swobody. Korzystając z definicji, powyższe wyrażenie można przepisać w następujący sposób:

Stąd, rozkład próbek statystyki y, at próbka z rozkład normalny, ma X2 -dystrybucja z n-1 stopniami swobody.

Będziemy potrzebować tej właściwości, gdy . Ponieważ dyspersja może być tylko liczbą dodatnią, oraz X2 -dystrybucja służy następnie do jego oceny y pierś >0, jak podano w definicji.

Rozkład CH2 w MS EXCEL

W MS EXCEL od wersji 2010 dla X2 -dystrybucje istnieje specjalna funkcja CHI2.DIST(), Imię angielskie– ROZKŁ.CHISQ(), która pozwala na obliczenia gęstość prawdopodobieństwa(patrz wzór powyżej) i (prawdopodobieństwo, że zmienna losowa X ma CI2-dystrybucja, przyjmie wartość mniejszą lub równą x, P(X<= x}).

Notatka: Ponieważ Dystrybucja CH2 jest przypadkiem szczególnym, to formuła =ROKŁ.GAMMA(x;n/2;2;PRAWDA) dla dodatniej liczby całkowitej n zwraca taki sam wynik jak formuła = ROZKŁ.CHI2(x;n; PRAWDA) lub =1-CHI2.DIST.PH(x;n) . I formuła =ROKŁ.GAMMA(x;n/2;2;FAŁSZ) zwraca taki sam wynik jak formuła = ROZKŁ.CHI2(x;n; FAŁSZ), tj. gęstość prawdopodobieństwa Dystrybucja CH2.

Funkcja HI2.DIST.PH() zwraca funkcja dystrybucji, a dokładniej prawdopodobieństwo prawostronne, tj. P(X > x). Jest oczywiste, że równość jest prawdziwa
= ROZKŁ.CHI2.PH(x;n)+ROKŁ.CHI2.(x;n;PRAWDA)=1
ponieważ pierwszy człon oblicza prawdopodobieństwo P(X > x), a drugi P(X<= x}.

Przed MS EXCEL 2010, EXCEL miał tylko funkcję CHIDIST(), która pozwalała obliczyć prawdopodobieństwo prawostronne, tj. P(X > x). Możliwości nowych funkcji MS EXCEL 2010 XI2.DIST() i XI2.DIST.PH() pokrywają możliwości tej funkcji. Funkcja CH2DIST() została pozostawiona w MS EXCEL 2010 ze względu na kompatybilność.

ROZKŁ.CHI2.() jest jedyną funkcją, która zwraca gęstość prawdopodobieństwa rozkładu chi2(trzeci argument musi mieć wartość FAŁSZ). Reszta funkcji powraca funkcja dystrybucji skumulowanej, tj. prawdopodobieństwo, że zmienna losowa przyjmie wartość z podanego zakresu: P(X<= x}.

Powyższe funkcje MS EXCEL podano w .

Przykłady

Znajdźmy prawdopodobieństwo, że zmienna losowa X przyjmie wartość mniejszą lub równą podanej X: P(X<= x}. Это можно сделать несколькими функциями:

ROZKŁAD.CHI2(x; n; PRAWDA)
=1-HI2.ROZKŁ.PH(x; n)
=1-CHI2DIST(x; n)

Funkcja CH2.DIST.PH() zwraca prawdopodobieństwo P(X > x), tzw. prawdopodobieństwo prawej ręki, więc aby znaleźć P(X<= x}, необходимо вычесть ее результат от 1.

Znajdźmy prawdopodobieństwo, że zmienna losowa X przyjmie wartość większą od zadanej X: P(X > x). Można to zrobić za pomocą kilku funkcji:

ROZKŁ.1-CHI2(x; n; PRAWDA)
=HI2.ROZKŁ.PH(x; n)
= ROZKŁAD.CHI2(x; n)

Odwrotna funkcja rozkładu chi2

Do obliczeń używana jest funkcja odwrotna alfa- , tj. do obliczenia wartości X dla danego prawdopodobieństwa alfa, I X musi spełniać wyrażenie P(X<= x}=alfa.

Do obliczeń używana jest funkcja CH2.INV(). przedziały ufności wariancji rozkładu normalnego.

Do obliczenia , tj. służy funkcja CHI2.OBR.PH(). jeżeli jako argument funkcji zostanie podany poziom istotności, np. 0,05, to funkcja zwróci wartość zmiennej losowej x, dla której P(X>x)=0,05. Dla porównania: funkcja XI2.INR() zwróci wartość zmiennej losowej x, dla której P(X<=x}=0,05.

W MS EXCEL 2007 i wcześniejszych wersjach zamiast HI2.OBR.PH() zastosowano funkcję HI2OBR().

Powyższe funkcje można zamieniać, ponieważ poniższe formuły zwracają ten sam wynik:
=CHI.OBR(alfa;n)
=HI2.OBR.PH(1-alfa;n)
=CHI2INV(1- alfa;n)

Niektóre przykłady obliczeń podano w przykładowy plik na arkuszu Funkcje.

MS EXCEL działa w oparciu o rozkład CH2

Poniżej znajduje się zgodność między rosyjskimi i angielskimi nazwami funkcji:
ROZKŁ.CH2.PH() - angielski. nazwa CHISQ.DIST.RT, tj. ROZKŁAD CHI-kwadrat Prawy ogon, prawostronny rozkład Chi-kwadrat(d)
CH2.OBR() - angielski. nazwa CHISQ.INV, tj. Rozkład CHI-kwadrat INVerse
CH2.PH.OBR() - Angielski. nazwa CHISQ.INV.RT, tj. Rozkład CHI-kwadrat INVerse Right Tail
ROZKŁAD CH2() - angielski. nazwa ROZKŁAD.CHID, funkcja równoważna ROZKŁ.CHIS.RT
CH2OBR() - angielski. nazwa CHIINV, tj. Rozkład CHI-kwadrat INVerse

Estymacja parametrów rozkładu

Ponieważ zazwyczaj Dystrybucja CH2 wykorzystywane do celów statystyki matematycznej (obliczenia przedziały ufności, testowanie hipotez itp.), i prawie nigdy do konstruowania modeli wartości rzeczywistych, to dla tego rozkładu nie przeprowadza się tutaj dyskusji na temat szacowania parametrów rozkładu.

Aproksymacja rozkładu CI2 rozkładem normalnym

Przy liczbie stopni swobody n>30 dystrybucja X 2 dobrze przybliżone rozkład normalny z średnia wartośćμ=n i wariancja σ=2*n (patrz przykładowy plik arkusza Aproksymacja).

Test \(\chi^2\) („chi-kwadrat”, zwany także „testem dopasowania Pearsona”) ma niezwykle szerokie zastosowanie w statystyce. Ogólnie można powiedzieć, że służy do testowania hipotezy zerowej, że obserwowana zmienna losowa podlega pewnemu teoretycznemu prawu rozkładu (więcej szczegółów można znaleźć np.). Konkretne sformułowanie testowanej hipotezy będzie się różnić w zależności od przypadku.

W tym poście opiszę jak działa kryterium \(\chi^2\) na (hipotetycznym) przykładzie z immunologii. Wyobraźmy sobie, że przeprowadziliśmy eksperyment mający na celu określenie skuteczności hamowania rozwoju choroby drobnoustrojowej po wprowadzeniu do organizmu odpowiednich przeciwciał. W sumie w eksperymencie wzięło udział 111 myszy, które podzieliliśmy na dwie grupy, obejmujące odpowiednio 57 i 54 zwierzęta. Pierwsza grupa myszy otrzymała zastrzyki z bakterii chorobotwórczych, a następnie podano im surowicę krwi zawierającą przeciwciała przeciwko tym bakteriom. Zwierzęta z drugiej grupy służyły jako kontrola – otrzymywały jedynie zastrzyki bakteryjne. Po pewnym czasie inkubacji okazało się, że 38 myszy zmarło, a 73 przeżyły. Spośród zmarłych 13 należało do pierwszej grupy, a 25 do drugiej (kontrola). Hipotezę zerową testowaną w tym eksperymencie można sformułować następująco: podanie surowicy z przeciwciałami nie ma wpływu na przeżycie myszy. Innymi słowy, twierdzimy, że zaobserwowane różnice w przeżyciu myszy (77,2% w pierwszej grupie w porównaniu z 53,7% w drugiej grupie) są całkowicie losowe i nie są związane z działaniem przeciwciał.

Dane uzyskane w eksperymencie można przedstawić w formie tabeli:

			Całkowity
Bakterie + surowica
Tylko bakterie
Całkowity

Tabele takie jak pokazana nazywane są tabelami kontyngencji. W rozpatrywanym przykładzie tabela ma wymiar 2x2: istnieją dwie klasy obiektów („Bakterie + surowica” i „Tylko bakterie”), które bada się według dwóch kryteriów („Martwe” i „Przeżyte”). Jest to najprostszy przypadek tabeli kontyngencji: oczywiście zarówno liczba badanych klas, jak i liczba cech może być większa.

Aby przetestować hipotezę zerową podaną powyżej, musimy wiedzieć, jaka byłaby sytuacja, gdyby przeciwciała faktycznie nie miały wpływu na przeżycie myszy. Innymi słowy, musisz obliczyć oczekiwane częstotliwości dla odpowiednich komórek tabeli kontyngencji. Jak to zrobić? W eksperymencie zginęło ogółem 38 myszy, co stanowi 34,2% całkowitej liczby zwierząt objętych eksperymentem. Jeżeli podanie przeciwciał nie wpływa na przeżycie myszy, to w obu grupach doświadczalnych należy zaobserwować taki sam procent śmiertelności, wynoszący 34,2%. Obliczając, ile wynosi 34,2% z 57 i 54, otrzymujemy 19,5 i 18,5. Są to oczekiwane współczynniki śmiertelności w naszych grupach eksperymentalnych. Oczekiwane wskaźniki przeżycia oblicza się w podobny sposób: ponieważ przeżyły łącznie 73 myszy, czyli 65,8% całkowitej liczby, oczekiwane wskaźniki przeżycia będą wynosić 37,5 i 35,5. Utwórzmy nową tabelę kontyngencji, teraz z oczekiwanymi częstotliwościami:

	Martwy	Ocalali	Całkowity
Bakterie + surowica
Tylko bakterie
Całkowity

Jak widać, oczekiwane częstotliwości znacznie różnią się od obserwowanych, tj. wydaje się, że podawanie przeciwciał ma wpływ na przeżycie myszy zakażonych patogenem. Możemy określić ilościowo to wrażenie za pomocą testu dobroci dopasowania Pearsona \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]

gdzie \(f_o\) i \(f_e\) to odpowiednio obserwowane i oczekiwane częstotliwości. Sumowanie odbywa się po wszystkich komórkach tabeli. Tak więc dla rozważanego przykładu mamy

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]

Czy wynikowa wartość \(\chi^2\) jest wystarczająco duża, aby odrzucić hipotezę zerową? Aby odpowiedzieć na to pytanie, należy znaleźć odpowiednią wartość krytyczną kryterium. Liczbę stopni swobody dla \(\chi^2\) oblicza się jako \(df = (R - 1)(C - 1)\), gdzie \(R\) i \(C\) są liczbą wierszy i kolumn w koniugacji tabeli. W naszym przypadku \(df = (2 -1)(2 - 1) = 1\). Znając liczbę stopni swobody, możemy teraz łatwo znaleźć wartość krytyczną \(\chi^2\) za pomocą standardowej funkcji R qchisq() :

Zatem przy jednym stopniu swobody tylko w 5% przypadków wartość kryterium \(\chi^2\) przekracza 3,841. Uzyskana przez nas wartość 6,79 znacznie przekracza tę wartość krytyczną, co daje nam prawo do odrzucenia hipotezy zerowej mówiącej, że nie ma związku pomiędzy podaniem przeciwciał a przeżyciem zakażonych myszy. Odrzucając tę hipotezę, ryzykujemy, że się mylimy z prawdopodobieństwem mniejszym niż 5%.

Należy zauważyć, że powyższy wzór na kryterium \(\chi^2\) daje nieco zawyżone wartości podczas pracy z tabelami kontyngencji o rozmiarze 2x2. Powodem jest to, że rozkład samego kryterium \(\chi^2\) jest ciągły, natomiast częstotliwości cech binarnych („umarły” / „przeżyły”) są z definicji dyskretne. W związku z tym przy obliczaniu kryterium zwyczajowo wprowadza się tzw korekta ciągłości, Lub Poprawka Yatesa :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]

Pearsona „Test chi-kwadrat z Yatesem” dane dotyczące korekty ciągłości: myszy X-kwadrat = 5,7923, df = 1, wartość p = 0,0161

Jak widzimy, R automatycznie stosuje korekcję ciągłości Yatesa ( Test Chi-kwadrat Pearsona z korektą ciągłości Yatesa). Obliczona przez program wartość \(\chi^2\) wyniosła 5,79213. Możemy odrzucić hipotezę zerową o braku działania przeciwciał, ryzykując, że będzie błędna, z prawdopodobieństwem nieco ponad 1% (wartość p = 0,0161).

Ministerstwo Edukacji i Nauki Federacji Rosyjskiej

Federalna Agencja Edukacji Miasta Irkuck

Bajkał Państwowy Uniwersytet Ekonomii i Prawa

Katedra Informatyki i Cybernetyki

Rozkład chi-kwadrat i jego zastosowania

Kołmykowa Anna Andreevna

Studentka drugiego roku

grupa IS-09-1

Do przetwarzania uzyskanych danych wykorzystujemy test chi-kwadrat.

W tym celu zbudujemy tabelę rozkładu częstotliwości empirycznych, tj. te częstotliwości, które obserwujemy:

Teoretycznie oczekujemy, że częstotliwości będą równomiernie rozłożone, tj. częstotliwość zostanie rozdzielona proporcjonalnie pomiędzy chłopców i dziewczęta. Zbudujmy tabelę częstości teoretycznych. Aby to zrobić, pomnóż sumę wiersza przez sumę kolumny i podziel wynikową liczbę przez całkowitą sumę (sumy).

Ostateczna tabela do obliczeń będzie wyglądać następująco:

χ2 = ∑(E - T)² / T

n = (R - 1), gdzie R jest liczbą wierszy w tabeli.

W naszym przypadku chi-kwadrat = 4,21; n = 2.

Korzystając z tabeli wartości krytycznych kryterium, znajdujemy: przy n = 2 i poziomie błędu 0,05 wartość krytyczna wynosi χ2 = 5,99.

Otrzymana wartość jest mniejsza od wartości krytycznej, co oznacza przyjęcie hipotezy zerowej.

Wniosek: nauczyciele nie przywiązują wagi do płci dziecka, pisząc dla niego cechy.

Aplikacja

Punkty krytyczne rozkładu χ2

Tabela 1

Wniosek

Studenci niemal wszystkich specjalności studiują sekcję „Teoria prawdopodobieństwa i statystyka matematyczna” na końcu kursu matematyki wyższej; w rzeczywistości zapoznają się jedynie z pewnymi podstawowymi pojęciami i wynikami, które wyraźnie nie wystarczą do pracy praktycznej. Studenci zapoznają się z niektórymi matematycznymi metodami badań na kursach specjalnych (na przykład „Prognozowanie i planowanie techniczno-ekonomiczne”, „Analiza techniczno-ekonomiczna”, „Kontrola jakości produktu”, „Marketing”, „Controlling”, „Matematyczne metody prognozowania ”)”, „Statystyka” itp. – w przypadku studentów kierunków ekonomicznych), jednak prezentacja w większości przypadków ma charakter bardzo skrótowy i schematyczny. W efekcie wiedza specjalistów statystyki stosowanej jest niewystarczająca.

Dlatego też duże znaczenie ma kierunek „Statystyka stosowana” na uczelniach technicznych, a na uczelniach ekonomicznych kierunek „Ekonometria”, gdyż ekonometria to, jak wiadomo, analiza statystyczna określonych danych ekonomicznych.

Teoria prawdopodobieństwa i statystyka matematyczna dostarczają podstawowej wiedzy z zakresu statystyki stosowanej i ekonometrii.

Są niezbędne specjalistom do pracy praktycznej.

Przyjrzałem się ciągłemu modelowi probabilistycznemu i próbowałem pokazać jego zastosowanie na przykładach.

Wykaz używanej literatury

1. Orłow A.I. Statystyka stosowana. M.: Wydawnictwo „Egzamin”, 2004.

2. Gmurman V.E. Teoria prawdopodobieństwa i statystyka matematyczna. M.: Szkoła wyższa, 1999. – 479 s.

3. Ayvozyan S.A. Teoria prawdopodobieństwa i statystyka stosowana, tom 1. M.: Jedność, 2001. – 656 s.

4. Khamitov G.P., Vedernikova T.I. Prawdopodobieństwa i statystyka. Irkuck: BGUEP, 2006 – 272 s.

5. Ezhova L.N. Ekonometria. Irkuck: BGUEP, 2002. – 314 s.

6. Mosteller F. Pięćdziesiąt zabawnych problemów probabilistycznych z rozwiązaniami. M.: Nauka, 1975. – 111 s.

7. Mosteller F. Prawdopodobieństwo. M.: Mir, 1969. – 428 s.

8. Yaglom A.M. Prawdopodobieństwo i informacja. M.: Nauka, 1973. – 511 s.

9. Chistyakov V.P. Kurs teorii prawdopodobieństwa. M.: Nauka, 1982. – 256 s.

10. Kremer N.Sh. Teoria prawdopodobieństwa i statystyka matematyczna. M.: JEDNOŚĆ, 2000. – 543 s.

11. Encyklopedia matematyczna, tom 1. M.: Encyklopedia Radziecka, 1976. – 655 s.

12. http://psystat.at.ua/ - Statystyka w psychologii i pedagogice. Artykuł Test chi-kwadrat.

Do końca XIX wieku rozkład normalny uznawano za uniwersalne prawo zmienności danych. Jednak K. Pearson zauważył, że częstości empiryczne mogą znacznie różnić się od rozkładu normalnego. Pojawiło się pytanie, jak to udowodnić. Wymagane było nie tylko porównanie graficzne, które ma charakter subiektywny, ale także ścisłe uzasadnienie ilościowe.

W ten sposób wymyślono to kryterium χ 2(chi-kwadrat), która bada istotność rozbieżności pomiędzy częstotliwościami empirycznymi (obserwowanymi) i teoretycznymi (oczekiwanymi). Stało się to już w 1900 roku, ale kryterium to jest nadal w użyciu. Ponadto został przystosowany do rozwiązywania szerokiego zakresu problemów. Przede wszystkim jest to analiza danych kategorycznych, tj. te, które wyrażają się nie ilością, ale przynależnością do jakiejś kategorii. Na przykład klasa samochodu, płeć uczestnika eksperymentu, rodzaj rośliny itp. Operacji matematycznych, takich jak dodawanie i mnożenie, nie można zastosować do takich danych; można je dla nich jedynie obliczyć.

Oznaczamy obserwowane częstotliwości O (obserwowane), oczekiwany - E (oczekiwane). Jako przykład weźmy wynik 60-krotnego rzutu kostką. Jeśli jest symetryczny i jednolity, prawdopodobieństwo otrzymania dowolnej strony wynosi 1/6, a zatem oczekiwana liczba trafień w każdą stronę wynosi 10 (1/6∙60). Zapisujemy obserwowane i oczekiwane częstotliwości w tabeli i rysujemy histogram.

Hipoteza zerowa zakłada, że częstotliwości są spójne, to znaczy rzeczywiste dane nie są sprzeczne z oczekiwanymi. Alternatywna hipoteza głosi, że odchylenia w częstotliwościach wykraczają poza wahania losowe, a rozbieżności są istotne statystycznie. Aby wyciągnąć rygorystyczne wnioski, potrzebujemy.

Sumaryczna miara rozbieżności między obserwowanymi i oczekiwanymi częstotliwościami.
Rozkład tej miary w przypadku, gdy prawdziwa jest hipoteza o braku różnic.

Zacznijmy od odległości pomiędzy częstotliwościami. Jeśli po prostu weźmiesz różnicę O - E, wówczas miara taka będzie zależała od skali danych (częstotliwości). Na przykład 20 - 5 = 15 i 1020 - 1005 = 15. W obu przypadkach różnica wynosi 15. Ale w pierwszym przypadku oczekiwane częstotliwości są 3 razy mniejsze niż obserwowane, a w drugim przypadku - tylko 1,5 %. Potrzebujemy miary względnej, która nie zależy od skali.

Zwróćmy uwagę na następujące fakty. Ogólnie rzecz biorąc, liczba kategorii, w których mierzone są częstotliwości, może być znacznie większa, więc prawdopodobieństwo, że pojedyncza obserwacja będzie należeć do tej czy innej kategorii, jest dość małe. Jeśli tak, to rozkład takiej zmiennej losowej będzie zgodny z prawem rzadkich zdarzeń, tzw Prawo Poissona. W prawie Poissona, jak wiadomo, wartość matematycznej wartości oczekiwanej i wariancji pokrywa się (parametr λ ). Oznacza to, że oczekiwana częstotliwość dla jakiejś kategorii zmiennej nominalnej E ja będzie równoczesny i jego rozproszenie. Co więcej, prawo Poissona ma tendencję do normalizacji przy dużej liczbie obserwacji. Łącząc te dwa fakty, otrzymujemy, że jeśli hipoteza o zgodności częstotliwości obserwowanych i oczekiwanych jest poprawna, to: z dużą liczbą obserwacji, wyrażenie

Należy pamiętać, że normalność pojawi się tylko przy wystarczająco wysokich częstotliwościach. W statystyce powszechnie przyjmuje się, że całkowita liczba obserwacji (suma częstości) musi wynosić co najmniej 50, a oczekiwana częstotliwość w każdej gradacji musi wynosić co najmniej 5. Tylko w tym przypadku pokazana powyżej wartość ma standardowy rozkład normalny . Załóżmy, że ten warunek jest spełniony.

Standardowy rozkład normalny ma prawie wszystkie wartości w granicach ±3 (reguła trzech sigma). W ten sposób uzyskaliśmy względną różnicę częstotliwości dla jednej gradacji. Potrzebujemy miary dającej się uogólnić. Nie można po prostu zsumować wszystkich odchyleń - otrzymujemy 0 (zgadnij dlaczego). Pearson zasugerował zsumowanie kwadratów tych odchyleń.

To jest znak Test chi-kwadrat Pearsona. Jeśli częstotliwości rzeczywiście odpowiadają oczekiwanym, wówczas wartość kryterium będzie stosunkowo niewielka (ponieważ większość odchyleń jest w pobliżu zera). Ale jeśli kryterium okaże się duże, oznacza to znaczne różnice między częstotliwościami.

Kryterium Pearsona staje się „duże”, gdy wystąpienie takiej lub nawet większej wartości staje się mało prawdopodobne. A żeby obliczyć takie prawdopodobieństwo, trzeba znać rozkład kryterium przy wielokrotnym powtarzaniu eksperymentu, gdy hipoteza zgodności częstotliwości jest prawidłowa.

Jak łatwo zauważyć, wartość chi-kwadrat zależy również od liczby wyrazów. Im jest ich więcej, tym większą wartość powinno mieć kryterium, ponieważ każdy termin będzie miał udział w sumie. Dlatego dla każdej ilości niezależny warunkach, będzie miała własną dystrybucję. Okazuje się, że χ 2 to cała rodzina dystrybucji.

I tu dochodzimy do delikatnego momentu. Co to jest liczba niezależny warunki? Wygląda na to, że każdy termin (tj. odchylenie) jest niezależny. K. Pearson też tak myślał, ale okazał się niesłuszny. W rzeczywistości liczba niezależnych składników będzie o jeden mniejsza niż liczba stopni zmiennej nominalnej N. Dlaczego? Bo jeśli mamy próbkę, dla której obliczono już sumę częstości, to zawsze jedną z częstości można wyznaczyć jako różnicę między liczbą całkowitą a sumą wszystkich pozostałych. Dlatego różnice będą nieco mniejsze. Ronald Fisher zauważył ten fakt 20 lat po opracowaniu przez Pearsona swojego kryterium. Nawet stoły musiały zostać przerobione.

Z tej okazji Fisher wprowadził do statystyki nowe pojęcie - stopień swobody(stopnie swobody), które reprezentują liczbę niezależnych składników sumy. Pojęcie stopni swobody ma wyjaśnienie matematyczne i pojawia się jedynie w rozkładach związanych z rozkładem normalnym (Studenta, Fishera-Snedecora i samego chi-kwadrat).

Aby lepiej zrozumieć znaczenie stopni swobody, przejdźmy do fizycznego odpowiednika. Wyobraźmy sobie punkt poruszający się swobodnie w przestrzeni. Ma 3 stopnie swobody, ponieważ może poruszać się w dowolnym kierunku w przestrzeni trójwymiarowej. Jeśli punkt porusza się po dowolnej powierzchni, to ma już dwa stopnie swobody (w przód i w tył, w lewo i w prawo), chociaż nadal znajduje się w przestrzeni trójwymiarowej. Punkt poruszający się po sprężynie ponownie znajduje się w przestrzeni trójwymiarowej, ale ma tylko jeden stopień swobody, ponieważ może poruszać się do przodu lub do tyłu. Jak widać przestrzeń, w której znajduje się obiekt, nie zawsze odpowiada rzeczywistej swobodzie poruszania się.

W przybliżeniu w ten sam sposób rozkład kryterium statystycznego może zależeć od mniejszej liczby elementów niż składniki potrzebne do jego obliczenia. Ogólnie rzecz biorąc, liczba stopni swobody jest mniejsza niż liczba obserwacji o liczbę istniejących zależności.

Zatem rozkład chi-kwadrat ( χ 2) jest rodziną rozkładów, z których każdy zależy od parametru stopni swobody. Formalna definicja testu chi-kwadrat jest następująca. Dystrybucja χ 2(chi-kwadrat) s k stopnie swobody to rozkład sumy kwadratów k niezależne standardowe normalne zmienne losowe.

Następnie moglibyśmy przejść do samego wzoru, za pomocą którego obliczana jest funkcja rozkładu chi-kwadrat, ale na szczęście wszystko już dawno zostało dla nas obliczone. Aby obliczyć prawdopodobieństwo zainteresowania, możesz skorzystać albo z odpowiedniej tabeli statystycznej, albo z gotowej funkcji w Excelu.

Interesujące jest obserwowanie, jak zmienia się kształt rozkładu chi-kwadrat w zależności od liczby stopni swobody.

Wraz ze wzrostem stopni swobody rozkład chi-kwadrat ma tendencję do bycia normalnym. Wyjaśnia to działanie centralnego twierdzenia granicznego, zgodnie z którym suma dużej liczby niezależnych zmiennych losowych ma rozkład normalny. Nie mówi nic o kwadratach)).

Testowanie hipotezy za pomocą testu chi-kwadrat Pearsona

Teraz dochodzimy do testowania hipotez metodą chi-kwadrat. Ogólnie rzecz biorąc, technologia pozostaje. Hipotezą zerową jest to, że obserwowane częstotliwości odpowiadają oczekiwanym (tj. nie ma między nimi różnicy, ponieważ pochodzą z tej samej populacji). Jeżeli tak jest, to rozrzut będzie stosunkowo niewielki, w granicach wahań losowych. Miarę dyspersji wyznacza się za pomocą testu chi-kwadrat. Następnie albo samo kryterium porównuje się z wartością krytyczną (dla odpowiedniego poziomu istotności i stopni swobody), albo, co jest bardziej poprawne, oblicza się zaobserwowaną wartość p, tj. prawdopodobieństwo uzyskania tej samej lub nawet większej wartości kryterium, jeśli hipoteza zerowa jest prawdziwa.

Ponieważ interesuje nas zgodność częstotliwości, wówczas hipoteza zostanie odrzucona, gdy kryterium będzie większe niż poziom krytyczny. Te. kryterium jest jednostronne. Czasami jednak (czasami) konieczne jest sprawdzenie hipotezy lewej ręki. Na przykład, gdy dane empiryczne są bardzo podobne do danych teoretycznych. Wtedy kryterium może należeć do mało prawdopodobnego obszaru, ale po lewej stronie. Faktem jest, że w warunkach naturalnych uzyskanie częstotliwości praktycznie pokrywających się z teoretycznymi jest mało prawdopodobne. Zawsze jest jakaś losowość, która powoduje błąd. Jeśli jednak nie ma takiego błędu, być może dane zostały sfałszowane. Mimo to hipoteza prawostronna jest zwykle testowana.

Wróćmy do problemu kości. Obliczmy wartość testu chi-kwadrat, korzystając z dostępnych danych.

Teraz znajdźmy wartość krytyczną przy 5 stopniach swobody ( k) i poziom istotności 0,05 ( α ) zgodnie z tabelą wartości krytycznych rozkładu chi-kwadrat.

Oznacza to, że kwantyl 0,05 jest rozkładem chi-kwadrat (prawy ogon) z 5 stopniami swobody χ2 0,05; 5 = 11,1.

Porównajmy wartości rzeczywiste i tabelaryczne. 3,4 ( χ 2) < 11,1 (χ2 0,05; 5). Obliczone kryterium okazało się mniejsze, co oznacza, że hipoteza o równości (zgodności) częstotliwości nie zostaje odrzucona. Na rysunku sytuacja wygląda następująco.

Jeżeli obliczona wartość mieściłaby się w obszarze krytycznym, hipoteza zerowa zostałaby odrzucona.

Bardziej poprawne byłoby obliczenie również wartości p. Aby to zrobić, należy znaleźć w tabeli najbliższą wartość dla danej liczby stopni swobody i przyjrzeć się odpowiadającemu jej poziomowi istotności. Ale to jest ostatnie stulecie. Będziemy korzystać z komputera, w szczególności programu MS Excel. Excel ma kilka funkcji związanych z chi-kwadrat.

Poniżej znajduje się ich krótki opis.

CH2.OBR– wartość krytyczna kryterium przy danym prawdopodobieństwie po lewej stronie (jak w tablicach statystycznych)

CH2.OBR.PH– wartość krytyczna kryterium dla danego prawdopodobieństwa po prawej stronie. Funkcja zasadniczo powiela poprzednią. Ale tutaj możesz od razu wskazać poziom α , zamiast odejmować ją od 1. Jest to wygodniejsze, ponieważ w większości przypadków potrzebny jest prawy koniec rozkładu.

ROZKŁ.CH2– wartość p po lewej stronie (można obliczyć gęstość).

ROZKŁ.CH2.PH– wartość p po prawej stronie.

TEST CHI2– natychmiast przeprowadza test chi-kwadrat dla dwóch zakresów częstotliwości. Przyjmuje się, że liczba stopni swobody jest o jeden mniejsza niż liczba częstotliwości w kolumnie (tak jak powinna), zwracając wartość p.

Obliczmy dla naszego eksperymentu wartość krytyczną (tabelaryczną) dla 5 stopni swobody i alfa 0,05. Formuła Excela będzie wyglądać następująco:

CH2.OBR(0,95;5)

CH2.OBR.PH(0,05;5)

Wynik będzie taki sam - 11,0705. To jest dokładnie ta wartość, którą widzimy w tabeli (w zaokrągleniu do 1 miejsca po przecinku).

Na koniec obliczmy wartość p dla kryterium 5 stopni swobody χ 2= 3,4. Potrzebujemy prawdopodobieństwa po prawej stronie, więc bierzemy funkcję z dodaniem HH (prawy ogon)

ROZKŁ.CH2.PH(3,4;5) = 0,63857

Oznacza to, że przy 5 stopniach swobody prawdopodobieństwo uzyskania wartości kryterium wynosi χ 2= 3,4 i więcej to prawie 64%. Oczywiście hipoteza nie zostaje odrzucona (wartość p jest większa niż 5%), częstości są w bardzo dobrej zgodności.

Sprawdźmy teraz hipotezę o zgodności częstotliwości za pomocą testu chi-kwadrat i funkcji Excela CHI2.TEST.

Żadnych tabel, żadnych uciążliwych obliczeń. Podając jako argumenty funkcji kolumny z obserwowanymi i oczekiwanymi częstotliwościami, natychmiast otrzymujemy wartość p. Uroda.

A teraz wyobraź sobie, że grasz w kości z podejrzanym facetem. Podział punktów od 1 do 5 pozostaje taki sam, ale rzuca 26 szóstkami (łączna liczba rzutów wynosi 78).

Wartość p w tym przypadku okazuje się wynosić 0,003, czyli znacznie mniej niż 0,05. Istnieją uzasadnione powody, aby wątpić w ważność kości. Oto jak to prawdopodobieństwo wygląda na wykresie rozkładu chi-kwadrat.

Samo kryterium chi-kwadrat okazuje się tutaj wynosić 17,8, co oczywiście jest większe niż w tabeli (11,1).

Mam nadzieję, że udało mi się wyjaśnić, jakie jest kryterium zgodności χ 2(chi-kwadrat Pearsona) i jak można go wykorzystać do testowania hipotez statystycznych.

Na koniec jeszcze raz o ważnym warunku! Test chi-kwadrat działa prawidłowo tylko wtedy, gdy liczba wszystkich częstotliwości przekracza 50, a minimalna wartość oczekiwana dla każdej gradacji jest nie mniejsza niż 5. Jeżeli w dowolnej kategorii oczekiwana częstotliwość jest mniejsza niż 5, ale suma wszystkich częstotliwości przekracza 50, to taką kategorię łączy się z najbliższą, aby ich łączna częstotliwość przekraczała 5. Jeżeli nie jest to możliwe lub suma częstości jest mniejsza niż 50, należy zastosować dokładniejsze metody testowania hipotez. Porozmawiamy o nich innym razem.

Poniżej znajduje się film przedstawiający sposób testowania hipotezy w Excelu za pomocą testu chi-kwadrat.

Niech U 1, U 2, ..,U k będą niezależnymi standardowymi wartościami normalnymi. Rozkład zmiennej losowej K = U 1 2 +U 2 2 + .. + U k 2 nazywany jest rozkładem chi-kwadrat z k stopnie swobody (zapisz K~χ 2 (k)). Jest to rozkład jednomodalny o dodatniej skośności i charakteryzujący się: modą M=k-2 oczekiwaniem matematycznym m=k wariancją D=2k (rys.). Przy wystarczająco dużej wartości parametru k rozkład χ 2 (k) ma w przybliżeniu rozkład normalny z parametrami

Przy rozwiązywaniu problemów statystyki matematycznej wykorzystuje się punkty krytyczne χ 2 (k) w zależności od zadanego prawdopodobieństwa α i liczby stopni swobody k(Załącznik 2). Punkt krytyczny Χ 2 kr = Χ 2 (k; α) jest granicą obszaru, na prawo od którego leży 100- α % powierzchni pod krzywą gęstości rozkładu. Prawdopodobieństwo, że wartość zmiennej losowej K~χ 2 (k) podczas badania spadnie na prawo od punktu χ 2 (k) nie przekracza α P(K≥χ 2 kp)≤ α). Przykładowo dla zmiennej losowej K~χ 2 (20) ustalamy prawdopodobieństwo α=0,05. Korzystając z tabeli punktów krytycznych rozkładu chi-kwadrat (tablice), znajdujemy χ 2 kp = χ 2 (20;0,05) = 31,4. Oznacza to, że prawdopodobieństwo tej zmiennej losowej K przyjąć wartość większą niż 31,4, mniejszą niż 0,05 (ryc.).

Ryż. Wykres gęstości rozkładu χ 2 (k) dla różnych wartości liczby stopni swobody k

Punkty krytyczne χ 2 (k) wykorzystywane są w następujących kalkulatorach:

Sprawdzanie obecności wielowspółliniowości (o wielowspółliniowości).

Testowanie hipotezy za pomocą Chi-kwadrat da jedynie odpowiedź na pytanie „czy istnieje związek?”, potrzebne są dalsze badania, aby sprawdzić kierunek zależności. Co więcej, test Chi-kwadrat ma pewien błąd podczas pracy z danymi o niskiej częstotliwości.

Dlatego do sprawdzenia kierunku powiązania wybiera się analizę korelacji, w szczególności weryfikację hipotezy z wykorzystaniem współczynnika korelacji Pearsona z dalszym badaniem istotności za pomocą testu t.

Dla dowolnej wartości poziomu istotności α Χ 2 można znaleźć za pomocą funkcji MS Excel: =HI2OBR(α;stopnie swobody)

n-1	.995	.990	.975	.950	.900	.750	.500	.250	.100	.050	.025	.010	.005
1	0.00004	0.00016	0.00098	0.00393	0.01579	0.10153	0.45494	1.32330	2.70554	3.84146	5.02389	6.63490	7.87944
2	0.01003	0.02010	0.05064	0.10259	0.21072	0.57536	1.38629	2.77259	4.60517	5.99146	7.37776	9.21034	10.59663
3	0.07172	0.11483	0.21580	0.35185	0.58437	1.21253	2.36597	4.10834	6.25139	7.81473	9.34840	11.34487	12.83816
4	0.20699	0.29711	0.48442	0.71072	1.06362	1.92256	3.35669	5.38527	7.77944	9.48773	11.14329	13.27670	14.86026
5	0.41174	0.55430	0.83121	1.14548	1.61031	2.67460	4.35146	6.62568	9.23636	11.07050	12.83250	15.08627	16.74960
6	0.67573	0.87209	1.23734	1.63538	2.20413	3.45460	5.34812	7.84080	10.64464	12.59159	14.44938	16.81189	18.54758
7	0.98926	1.23904	1.68987	2.16735	2.83311	4.25485	6.34581	9.03715	12.01704	14.06714	16.01276	18.47531	20.27774
8	1.34441	1.64650	2.17973	2.73264	3.48954	5.07064	7.34412	10.21885	13.36157	15.50731	17.53455	20.09024	21.95495
9	1.73493	2.08790	2.70039	3.32511	4.16816	5.89883	8.34283	11.38875	14.68366	16.91898	19.02277	21.66599	23.58935
10	2.15586	2.55821	3.24697	3.94030	4.86518	6.73720	9.34182	12.54886	15.98718	18.30704	20.48318	23.20925	25.18818
11	2.60322	3.05348	3.81575	4.57481	5.57778	7.58414	10.34100	13.70069	17.27501	19.67514	21.92005	24.72497	26.75685
12	3.07382	3.57057	4.40379	5.22603	6.30380	8.43842	11.34032	14.84540	18.54935	21.02607	23.33666	26.21697	28.29952
13	3.56503	4.10692	5.00875	5.89186	7.04150	9.29907	12.33976	15.98391	19.81193	22.36203	24.73560	27.68825	29.81947
14	4.07467	4.66043	5.62873	6.57063	7.78953	10.16531	13.33927	17.11693	21.06414	23.68479	26.11895	29.14124	31.31935
15	4.60092	5.22935	6.26214	7.26094	8.54676	11.03654	14.33886	18.24509	22.30713	24.99579	27.48839	30.57791	32.80132
16	5.14221	5.81221	6.90766	7.96165	9.31224	11.91222	15.33850	19.36886	23.54183	26.29623	28.84535	31.99993	34.26719
17	5.69722	6.40776	7.56419	8.67176	10.08519	12.79193	16.33818	20.48868	24.76904	27.58711	30.19101	33.40866	35.71847
18	6.26480	7.01491	8.23075	9.39046	10.86494	13.67529	17.33790	21.60489	25.98942	28.86930	31.52638	34.80531	37.15645
19	6.84397	7.63273	8.90652	10.11701	11.65091	14.56200	18.33765	22.71781	27.20357	30.14353	32.85233	36.19087	38.58226
20	7.43384	8.26040	9.59078	10.85081	12.44261	15.45177	19.33743	23.82769	28.41198	31.41043	34.16961	37.56623	39.99685
21	8.03365	8.89720	10.28290	11.59131	13.23960	16.34438	20.33723	24.93478	29.61509	32.67057	35.47888	38.93217	41.40106
22	8.64272	9.54249	10.98232	12.33801	14.04149	17.23962	21.33704	26.03927	30.81328	33.92444	36.78071	40.28936	42.79565
23	9.26042	10.19572	11.68855	13.09051	14.84796	18.13730	22.33688	27.14134	32.00690	35.17246	38.07563	41.63840	44.18128
24	9.88623	10.85636	12.40115	13.84843	15.65868	19.03725	23.33673	28.24115	33.19624	36.41503	39.36408	42.97982	45.55851
25	10.51965	11.52398	13.11972	14.61141	16.47341	19.93934	24.33659	29.33885	34.38159	37.65248	40.64647	44.31410	46.92789
26	11.16024	12.19815	13.84390	15.37916	17.29188	20.84343	25.33646	30.43457	35.56317	38.88514	41.92317	45.64168	48.28988
27	11.80759	12.87850	14.57338	16.15140	18.11390	21.74940	26.33634	31.52841	36.74122	40.11327	43.19451	46.96294	49.64492
28	12.46134	13.56471	15.30786	16.92788	18.93924	22.65716	27.33623	32.62049	37.91592	41.33714	44.46079	48.27824	50.99338
29	13.12115	14.25645	16.04707	17.70837	19.76774	23.56659	28.33613	33.71091	39.08747	42.55697	45.72229	49.58788	52.33562
30	13.78672	14.95346	16.79077	18.49266	20.59923	24.47761	29.33603	34.79974	40.25602	43.77297	46.97924	50.89218	53.67196

Liczba stopni swobody k	Poziom istotności a
Liczba stopni swobody k	0,01	0,025	0.05	0,95	0,975	0.99
1	6.6	5.0	3.8	0.0039	0.00098	0.00016
2	9.2	7.4	6.0	0.103	0.051	0.020
3	11.3	9.4	7.8	0.352	0.216	0.115
4	13.3	11.1	9.5	0.711	0.484	0.297
5	15.1	12.8	11.1	1.15	0.831	0.554
6	16.8	14.4	12.6	1.64	1.24	0.872
7	18.5	16.0	14.1	2.17	1.69	1.24
8	20.1	17.5	15.5	2.73	2.18	1.65
9	21.7	19.0	16.9	3.33	2.70	2.09
10	23.2	20.5	18.3	3.94	3.25	2.56
11	24.7	21.9	19.7	4.57	3.82	3.05
12	26.2	23.3	21 .0	5.23	4.40	3.57
13	27.7	24.7	22.4	5.89	5.01	4.11
14	29.1	26.1	23.7	6.57	5.63	4.66
15	30.6	27.5	25.0	7.26	6.26	5.23
16	32.0	28.8	26.3	7.96	6.91	5.81
17	33.4	30.2	27.6	8.67	7.56	6.41
18	34.8	31.5	28.9	9.39	8.23	7.01
19	36.2	32.9	30.1	10.1	8.91	7.63
20	37.6	34.2	31.4	10.9	9.59	8.26
21	38.9	35.5	32.7	11.6	10.3	8.90
22	40.3	36.8	33.9	12.3	11.0	9.54
23	41.6	38.1	35.2	13.1	11.7	10.2
24	43.0	39.4	36.4	13.8	12.4	10.9
25	44.3	40.6	37.7	14.6	13.1	11.5
26	45.6	41.9	38.9	15.4	13.8	12.2
27	47.0	43.2	40.1	16.2	14.6	12.9
28	48.3	44.5	41.3	16.9	15.3	13.6
29	49.6	45.7	42.6	17.7	16.0	14.3
30	50.9	47.0	43.8	18.5	16.8	15.0