Ki kvadrat paylama funksiyası. Chi kvadrat paylanması

Ki-kvadrat paylanmasına nəzər salın. MS EXCEL funksiyasından istifadəCH2.DIST() Paylanma funksiyasının və ehtimal sıxlığının qrafikini çəkək və bu paylanmanın riyazi statistika məqsədləri üçün istifadəsini izah edək.

Ki-kvadrat paylanması (X 2, XI2,İngilis diliÇi- kvadratpaylanması) riyazi statistikanın müxtəlif üsullarında istifadə olunur:

  • tikinti zamanı;
  • at ;
  • at (empirik məlumatlar nəzəri paylama funksiyası ilə bağlı fərziyyəmizlə uyğundurmu, yoxsa yox, İngilis dili Goodness-of-fit)
  • at (iki kateqoriyalı dəyişən arasındakı əlaqəni müəyyən etmək üçün istifadə olunur, İngilis Ki-kvadrat birləşmə testi).

Tərif: Əgər x 1 , x 2 , …, x n N(0;1) üzərində paylanmış müstəqil təsadüfi dəyişənlərdirsə, onda Y=x 1 2 + x 2 2 +…+ x n 2 təsadüfi kəmiyyətinin paylanması belədir. paylanması X 2 n sərbəstlik dərəcəsi ilə.

Paylanma X 2 adlanan bir parametrdən asılıdır azadlıq dərəcəsi (df, dərəcəofazadlıq). Məsələn, tikinti zamanı sərbəstlik dərəcələrinin sayı df=n-1-ə bərabərdir, burada n ölçüdür nümunələri.

Paylanma sıxlığı X 2 düsturla ifadə edilir:

Funksiya qrafikləri

Paylanma X 2 asimmetrik formaya malikdir, n-ə bərabər, 2n-ə bərabərdir.

IN Qrafik vərəqindəki nümunə faylı verilmişdir paylanma sıxlığı qrafikləri ehtimallar və kumulyativ paylama funksiyası.

Faydalı əmlak CH2 paylamaları

x 1 , x 2 , …, x n müstəqil təsadüfi dəyişənlər olsun. normal qanun eyni parametrlərlə μ və σ, və X av edir arifmetik orta bu x dəyərləri.
Sonra təsadüfi dəyişən y bərabərdir

Var X 2 -paylama n-1 sərbəstlik dərəcəsi ilə. Tərifdən istifadə edərək yuxarıdakı ifadəni aşağıdakı kimi yenidən yazmaq olar:

Beləliklə, nümunə paylanması statistika y, at nümunə-dən normal paylanma, var X 2 -paylama n-1 sərbəstlik dərəcəsi ilə.

Bu mülkə nə vaxt ehtiyacımız olacaq. Çünki dispersiya yalnız müsbət ədəd ola bilər və X 2 -paylama onu qiymətləndirmək üçün istifadə olunur y d.b. >0, tərifdə göstərildiyi kimi.

MS EXCEL-də CH2 paylanması

MS EXCEL-də 2010-cu ildən başlayaraq, üçün X 2 -paylamalar CHI2.DIST() xüsusi funksiyası var. İngilis adı– CHISQ.DIST(), hesablamağa imkan verir ehtimal sıxlığı(yuxarıdakı formulaya baxın) və (X təsadüfi dəyişənin olması ehtimalı CI2-paylanması, x-dən kiçik və ya ona bərabər qiymət alacaq, P(X<= x}).

Qeyd: Çünki CH2 paylanması xüsusi haldır, sonra düstur =QAMMA.DIST(x;n/2;2;DOĞRU) müsbət tam ədəd üçün n düsturla eyni nəticəni qaytarır =CHI2.DIST(x;n; DOĞRU) və ya =1-CHI2.DIST.PH(x;n) . Və formula =QAMMA.DIST(x;n/2;2;YANLIŞ) düsturla eyni nəticəni qaytarır =CHI2.DIST(x;n; FALSE), yəni. ehtimal sıxlığı CH2 paylamaları.

HI2.DIST.PH() funksiyası qaytarılır paylama funksiyası, daha dəqiq desək, sağ tərəfli ehtimal, yəni. P(X > x). Bərabərliyin doğru olduğu aydındır
=CHI2.DIST.PH(x;n)+CHI2.DIST(x;n;DOĞRU)=1
çünki birinci hədd P(X > x), ikinci isə P(X) ehtimalını hesablayır<= x}.

MS EXCEL 2010-dan əvvəl EXCEL-də yalnız sağ tərəfli ehtimalı hesablamağa imkan verən CH2DAĞ() funksiyası var idi, yəni. P(X > x). Yeni MS EXCEL 2010 funksiyalarının imkanları XI2.DIST() və XI2.DIST.PH() bu funksiyanın imkanlarını əhatə edir. CH2DIST() funksiyası uyğunluq üçün MS EXCEL 2010-da qalıb.

CHI2.DIST() qaytaran yeganə funksiyadır chi2 paylanmasının ehtimal sıxlığı(üçüncü arqument YANLIŞ olmalıdır). Qalan funksiyalar geri qayıdır kumulyativ paylama funksiyası, yəni. təsadüfi dəyişənin müəyyən edilmiş diapazondan qiymət alması ehtimalı: P(X<= x}.

Yuxarıdakı MS EXCEL funksiyaları .

Nümunələr

X təsadüfi kəmiyyətinin veriləndən kiçik və ya ona bərabər qiymət alması ehtimalını tapaq x: P(X<= x}. Это можно сделать несколькими функциями:

CHI2.DIST(x; n; DOĞRU)
=1-HI2.DIST.PH(x; n)
=1-CHI2DIST(x; n)

CH2.DIST.PH() funksiyası P(X) ehtimalını, sözdə sağ tərəf ehtimalını qaytarır.<= x}, необходимо вычесть ее результат от 1.

X təsadüfi kəmiyyətinin veriləndən böyük qiymət alması ehtimalını tapaq x: P(X > x). Bu bir neçə funksiya ilə edilə bilər:

1-CHI2.DIST(x; n; DOĞRU)
=HI2.DIST.PH(x; n)
=CHI2DIST(x; n)

Tərs xi2 paylama funksiyası

Hesablamaq üçün tərs funksiyadan istifadə olunur alfa- , yəni. dəyərləri hesablamaq üçün x verilmiş ehtimal üçün alfa, və X P(X) ifadəsini təmin etməlidir<= x}=alfa.

Hesablamaq üçün CH2.INV() funksiyasından istifadə olunur normal paylanmanın dispersiyasının inam intervalları.

CHI2.OBR.PH() funksiyası hesablamaq üçün istifadə olunur, yəni. əgər əhəmiyyətlilik səviyyəsi funksiyaya arqument kimi göstərilibsə, məsələn 0,05, onda funksiya P(X>x)=0,05 olan x təsadüfi dəyişənin qiymətini qaytaracaq. Müqayisə üçün: XI2.INR() funksiyası P(X) üçün x təsadüfi dəyişənin qiymətini qaytaracaq.<=x}=0,05.

MS EXCEL 2007 və ondan əvvəlki versiyalarda HI2.OBR.PH() əvəzinə HI2OBR() funksiyasından istifadə edilmişdir.

Yuxarıdakı funksiyalar bir-birini əvəz edə bilər, çünki aşağıdakı düsturlar eyni nəticəni verir:
=CHI.OBR(alfa;n)
=HI2.OBR.PH(1-alfa;n)
=CHI2INV(1- alfa;n)

Hesablamaların bəzi nümunələri verilmişdir Funksiyalar vərəqindəki nümunə faylı.

MS EXCEL CH2 paylanmasından istifadə edərək işləyir

Aşağıda rus və ingilis funksiya adları arasında uyğunluq var:
CH2.DIST.PH() - İngilis. adı CHISQ.DIST.RT, yəni. CHI-kvadrat bölgüsü Sağ quyruq, sağ quyruqlu Ki-kvadrat(d) paylanması
CH2.OBR() - İngilis. adı CHISQ.INV, yəni. CHI-kvadrat paylanması TERS
CH2.PH.OBR() - İngilis. adı CHISQ.INV.RT, yəni. CHI-kvadrat paylama TERS Sağ Quyruq
CH2DIST() - İngilis. adı CHIDIST, funksiya CHISQ.DIST.RT-ə ekvivalentdir
CH2OBR() - İngilis. adı CHIINV, yəni. CHI-kvadrat paylanması TERS

Paylanma parametrlərinin qiymətləndirilməsi

Çünki adətən CH2 paylanması riyazi statistika məqsədləri üçün istifadə olunur (hesablama etimad intervalları, hipotezlərin sınaqdan keçirilməsi və s.), və real dəyərlərin modellərinin qurulması üçün demək olar ki, heç vaxt, onda bu paylanma üçün burada paylanma parametrlərinin qiymətləndirilməsi müzakirəsi aparılmır.

Normal paylanma ilə CI2 paylanmasının yaxınlaşması

Sərbəstlik dərəcələrinin sayı n>30 ilə paylama X 2 yaxşı yaxınlaşdırılıb normal paylanma ilə orta dəyərμ=n və dispersiya σ=2*n (bax nümunə vərəq faylı Təxmini).

\(\chi^2\) testi (“chi-kvadrat”, həmçinin “Pearsonun uyğunluq testi”) statistikada olduqca geniş tətbiqə malikdir. Ümumi mənada deyə bilərik ki, müşahidə olunan təsadüfi dəyişənin müəyyən nəzəri paylanma qanununa tabe olması ilə bağlı sıfır fərziyyəni yoxlamaq üçün istifadə olunur (ətraflı məlumat üçün, məsələn, bax). Yoxlanılan fərziyyənin spesifik formalaşdırılması hər bir halda fərqli olacaq.

Bu yazıda mən immunologiyadan (hipotetik) misaldan istifadə edərək \(\chi^2\) kriteriyasının necə işlədiyini təsvir edəcəyəm. Təsəvvür edək ki, bədənə müvafiq antikorlar daxil edildikdə mikrob xəstəliyinin inkişafının qarşısının alınmasının effektivliyini müəyyən etmək üçün bir təcrübə keçirdik. Təcrübədə ümumilikdə 111 siçan iştirak etdi, biz onları müvafiq olaraq 57 və 54 heyvan olmaqla iki qrupa ayırdıq. Birinci qrup siçanlara patogen bakteriyaların iynəsi vuruldu, ardınca isə bu bakteriyalara qarşı antitelləri ehtiva edən qan serumunun yeridildi. İkinci qrupdan olan heyvanlar nəzarət kimi xidmət etdi - onlar yalnız bakterial inyeksiya aldılar. Bir müddət inkubasiyadan sonra məlum oldu ki, 38 siçan ölüb, 73-ü sağ qalıb. Ölənlərdən 13-ü birinci qrupa, 25-i isə ikinci qrupa (nəzarət) aiddir. Bu təcrübədə sınaqdan keçirilmiş sıfır fərziyyəni belə formalaşdırmaq olar: zərdabın anticisimlərlə verilməsi siçanların sağ qalmasına heç bir təsir göstərmir. Başqa sözlə, siçanların sağ qalmasında müşahidə olunan fərqlərin (birinci qrupda 77,2%, ikinci qrupda 53,7%) tamamilə təsadüfi olduğunu və antikorların təsiri ilə əlaqəli olmadığını iddia edirik.

Təcrübədə əldə edilən məlumatlar cədvəl şəklində təqdim edilə bilər:

Cəmi

Bakteriya + serum

Yalnız bakteriya

Cəmi

Göstərilən kimi cədvəllər ehtiyat cədvəlləri adlanır. Baxılan nümunədə cədvəl 2x2 ölçüsünə malikdir: iki meyara ("Ölülər" və "Sağ qalanlar") uyğun olaraq yoxlanılan obyektlərin iki sinfi ("Bakteriya + serum" və "Yalnız bakteriya") var. Bu, ehtiyat cədvəlinin ən sadə halıdır: təbii ki, həm öyrənilən siniflərin sayı, həm də xüsusiyyətlərin sayı daha çox ola bilər.

Yuxarıda göstərilən sıfır fərziyyəni yoxlamaq üçün antikorların siçanların sağ qalmasına həqiqətən heç bir təsiri olmasa, vəziyyətin necə olacağını bilməliyik. Başqa sözlə, hesablamaq lazımdır gözlənilən tezliklər ehtiyat cədvəlinin müvafiq xanaları üçün. Bunu necə etmək olar? Təcrübədə ümumilikdə 38 siçan öldü ki, bu da iştirak edən heyvanların ümumi sayının 34,2%-ni təşkil edir. Antikorların tətbiqi siçanların sağ qalmasına təsir göstərmirsə, hər iki eksperimental qrupda eyni ölüm faizi, yəni 34,2% müşahidə edilməlidir. 57 və 54-ün 34,2%-nin nə qədər olduğunu hesablasaq, 19,5 və 18,5 alırıq. Bunlar bizim eksperimental qruplarımızda gözlənilən ölüm nisbətləridir. Gözlənilən sağ qalma nisbətləri oxşar şəkildə hesablanır: cəmi 73 siçan və ya ümumi sayın 65,8%-i sağ qaldığı üçün gözlənilən sağ qalma nisbətləri 37,5 və 35,5 olacaq. Gəlin gözlənilən tezliklərlə yeni ehtiyat cədvəli yaradaq:

Ölü

Sağ qalanlar

Cəmi

Bakteriya + serum

Yalnız bakteriya

Cəmi

Gördüyümüz kimi, gözlənilən tezliklər müşahidə edilənlərdən tamamilə fərqlidir, yəni. antikorların tətbiqi patogenlə yoluxmuş siçanların sağ qalmasına təsir göstərir. Biz bu təəssüratı Pearson uyğunluq testindən istifadə edərək qiymətləndirə bilərik \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


burada \(f_o\) və \(f_e\) müvafiq olaraq müşahidə edilən və gözlənilən tezliklərdir. Toplama cədvəlin bütün xanaları üzərində aparılır. Beləliklə, nəzərdən keçirdiyimiz nümunə üçün

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]

\(\chi^2\) nəticəsi sıfır fərziyyəni rədd etmək üçün kifayət qədər böyükdürmü? Bu suala cavab vermək üçün meyarın müvafiq kritik qiymətini tapmaq lazımdır. \(\chi^2\) üçün sərbəstlik dərəcələrinin sayı \(df = (R - 1)(C - 1)\ kimi hesablanır, burada \(R\) və \(C\) ədəddir. Cədvəl birləşməsindəki sətir və sütunların. Bizim vəziyyətimizdə \(df = (2 -1)(2 - 1) = 1\). Sərbəstlik dərəcələrinin sayını bilməklə, standart R qchisq() funksiyasından istifadə edərək indi kritik dəyəri \(\chi^2\) asanlıqla tapa bilərik:


Beləliklə, bir sərbəstlik dərəcəsi ilə yalnız 5% hallarda \(\chi^2\) meyarının dəyəri 3.841-i keçir. Əldə etdiyimiz dəyər, 6.79, bu kritik dəyəri əhəmiyyətli dərəcədə üstələyir və bu, bizə antikorların tətbiqi ilə yoluxmuş siçanların sağ qalması arasında heç bir əlaqənin olmadığına dair sıfır fərziyyəni rədd etmək hüququ verir. Bu fərziyyəni rədd etməklə biz 5%-dən az ehtimalla səhv etmək riskini daşıyırıq.

Qeyd etmək lazımdır ki, \(\chi^2\) meyarının yuxarıdakı düsturu 2x2 ölçülü ehtiyat cədvəlləri ilə işləyərkən bir qədər şişirdilmiş qiymətlər verir. Səbəb odur ki, \(\chi^2\) kriteriyasının özünün paylanması davamlıdır, binar xüsusiyyətlərin tezlikləri ("öldü" / "sağ qaldı") tərifinə görə diskretdir. Bu baxımdan, meyar hesablanarkən, sözdə olanı təqdim etmək adətdir davamlılığın korreksiyası, və ya Yates düzəlişi :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0.5)^2)(f_e).\]

Pearson Yates ilə "Ki-kvadrat testi" davamlılıq korreksiyası məlumatları: siçanlar X-kvadrat = 5.7923, df = 1, p-dəyəri = 0.0161


Gördüyümüz kimi, R avtomatik olaraq Yates davamlılıq korreksiyasını tətbiq edir ( Yates ilə Pearson'un Ki-kvadrat testi" davamlılıq korreksiyası). Proqram tərəfindən hesablanmış \(\chi^2\) dəyəri 5,79213 olmuşdur. Biz 1%-dən bir qədər çox ehtimalla (p-dəyəri = 0,0161) səhv olma riski ilə antikor effektinin olmamasının sıfır hipotezini rədd edə bilərik.

Rusiya Federasiyasının Təhsil və Elm Nazirliyi

İrkutsk şəhərinin Təhsil üzrə Federal Agentliyi

Baykal Dövlət İqtisadiyyat və Hüquq Universiteti

İnformatika və kibernetika kafedrası

Xi-kvadrat paylanması və onun tətbiqi

Kolmykova Anna Andreevna

2-ci kurs tələbəsi

qrup IS-09-1

Alınan məlumatları emal etmək üçün xi-kvadrat testindən istifadə edirik.

Bunun üçün empirik tezliklərin paylanması cədvəlini quracağıq, yəni. müşahidə etdiyimiz tezliklər:

Teorik olaraq, tezliklərin bərabər paylanacağını gözləyirik, yəni. tezlik oğlanlar və qızlar arasında mütənasib olaraq paylanacaq. Nəzəri tezliklərin cədvəlini yaradaq. Bunu etmək üçün, sətir cəmini sütunun cəminə vurun və nəticədə çıxan ədədi ümumi məbləğə (s) bölün.


Hesablamalar üçün yekun cədvəl belə görünəcək:

χ2 = ∑(E - T)² / T

n = (R - 1), burada R cədvəldəki sətirlərin sayıdır.

Bizim vəziyyətimizdə xi-kvadrat = 4.21; n = 2.

Kriteriyanın kritik dəyərləri cədvəlindən istifadə edərək tapırıq: n = 2 və 0,05 səhv səviyyəsi ilə kritik dəyər χ2 = 5,99-dur.

Əldə edilən dəyər kritik dəyərdən azdır, yəni sıfır hipotezi qəbul edilir.

Nəticə: müəllimlər uşağın xarakteristikası yazarkən onun cinsinə əhəmiyyət vermirlər.

Ərizə

χ2 paylanmasının kritik nöqtələri

Cədvəl 1

Nəticə

Demək olar ki, bütün ixtisasların tələbələri ali riyaziyyat kursunun sonunda “ehtimal nəzəriyyəsi və riyazi statistika” bölməsini öyrənirlər, reallıqda yalnız bəzi əsas anlayışlar və nəticələrlə tanış olurlar ki, bu da praktiki iş üçün kifayət deyil. Şagirdlər xüsusi kurslarda bəzi riyazi tədqiqat metodları ilə tanış olurlar (məsələn, “Proqnozlaşdırma və texniki-iqtisadi planlaşdırma”, “Texniki və iqtisadi təhlil”, “Məhsulun keyfiyyətinə nəzarət”, “Marketinq”, “Nəzarət”, “Proqnozlaşdırmanın riyazi üsulları” ”) ", "Statistika" və s. - iqtisadi ixtisasların tələbələri üçün), lakin təqdimat əksər hallarda çox qısaldılmış və formul xarakterlidir. Nəticədə tətbiqi statistika mütəxəssislərinin bilikləri kifayət qədər deyil.

Ona görə də texniki universitetlərdə “Tətbiqi statistika” kursu, iqtisadi universitetlərdə isə “Ekonometrika” kursu böyük əhəmiyyət kəsb edir, çünki ekonometrika, məlum olduğu kimi, konkret iqtisadi məlumatların statistik təhlilidir.

Ehtimal nəzəriyyəsi və riyazi statistika tətbiqi statistika və ekonometriya üçün fundamental biliklər verir.

Onlar praktik iş üçün mütəxəssislər üçün lazımdır.

Davamlı ehtimal modelinə baxdım və onun istifadəsini misallarla göstərməyə çalışdım.

İstifadə olunmuş ədəbiyyatın siyahısı

1. Orlov A.İ. Tətbiqi statistika. M.: "İmtahan" nəşriyyatı, 2004.

2. Gmurman V.E. Ehtimal nəzəriyyəsi və riyazi statistika. M.: Ali məktəb, 1999. – 479 s.

3. Ayvozyan S.A. Ehtimal nəzəriyyəsi və tətbiqi statistika, cild 1. M.: Birlik, 2001. – 656 s.

4. Xamitov G.P., Vedernikova T.İ. Ehtimallar və statistika. İrkutsk: BGUEP, 2006 – 272 s.

5. Ejova L.N. Ekonometriya. İrkutsk: BGUEP, 2002. – 314 s.

6. Mosteller F. Həll yolları ilə əlli əyləncəli ehtimal problemi. M.: Nauka, 1975. – 111 s.

7. Mosteller F. Ehtimal. M.: Mir, 1969. – 428 s.

8. Yağlom A.M. Ehtimal və məlumat. M.: Nauka, 1973. – 511 s.

9. Çistyakov V.P. Ehtimal nəzəriyyəsi kursu. M.: Nauka, 1982. – 256 s.

10. Kremer N.Ş. Ehtimal nəzəriyyəsi və riyazi statistika. M.: BİRLİK, 2000. – 543 s.

11. Riyaziyyat Ensiklopediyası, cild 1. M.: Sovet Ensiklopediyası, 1976. – 655 s.

12. http://psystat.at.ua/ - Psixologiya və pedaqogikada statistika. Maddə Ki-kvadrat testi.

19-cu əsrin sonuna qədər normal paylanma məlumatların dəyişməsinin universal qanunu hesab olunurdu. Bununla belə, K.Pirson qeyd etdi ki, empirik tezliklər normal paylanmadan çox fərqlənə bilər. Bunu necə sübut etmək sualı ortaya çıxdı. Təkcə subyektiv olan qrafik müqayisə yox, həm də ciddi kəmiyyət əsaslandırması tələb olunurdu.

Bu meyar belə icad edilmişdir χ 2 empirik (müşahidə olunan) və nəzəri (gözlənilən) tezliklər arasındakı uyğunsuzluğun əhəmiyyətini yoxlayan (chi kvadratı). Bu, 1900-cü ildə baş verib, lakin meyar bu gün də istifadə olunur. Üstəlik, geniş spektrli problemlərin həlli üçün uyğunlaşdırılmışdır. Əvvəla, bu, kateqoriyalı məlumatların təhlili, yəni. kəmiyyətlə deyil, hansısa kateqoriyaya aidiyyəti ilə ifadə olunanlar. Məsələn, avtomobilin sinfi, təcrübə iştirakçısının cinsi, bitki növü və s. Bu cür məlumatlara toplama və vurma kimi riyazi əməliyyatlar tətbiq edilə bilməz; yalnız onlar üçün hesablana bilər.

Müşahidə olunan tezlikləri qeyd edirik Haqqında (müşahidə olunur), gözlənilən - E (Gözlənilir). Nümunə olaraq, zərfin 60 dəfə yuvarlanmasının nəticəsini götürək. Əgər simmetrik və vahiddirsə, hər hansı bir tərəfin alınma ehtimalı 1/6-dır və buna görə də hər tərəfin alınmasının gözlənilən sayı 10-dur (1/6∙60). Müşahidə olunan və gözlənilən tezlikləri cədvələ yazırıq və histoqramı çəkirik.

Sıfır fərziyyə ondan ibarətdir ki, tezliklər ardıcıldır, yəni faktiki verilənlər gözlənilən məlumatlarla ziddiyyət təşkil etmir. Alternativ fərziyyə odur ki, tezliklərdəki sapmalar təsadüfi dalğalanmalardan kənara çıxır, uyğunsuzluqlar statistik əhəmiyyətlidir. Ciddi bir nəticə çıxarmaq üçün bizə lazımdır.

  1. Müşahidə olunan və gözlənilən tezliklər arasındakı uyğunsuzluğun ümumi ölçüsü.
  2. Fərqlərin olmadığına dair fərziyyə doğrudursa, bu tədbirin paylanması.

Tezliklər arasındakı məsafədən başlayaq. Sadəcə fərqi götürsəniz O - E, onda belə bir tədbir məlumatların (tezliklərin) miqyasından asılı olacaq. Məsələn, 20 - 5 = 15 və 1020 - 1005 = 15. Hər iki halda fərq 15-dir. Amma birinci halda gözlənilən tezliklər müşahidə edilənlərdən 3 dəfə az, ikinci halda isə cəmi 1,5 olur. %. Bizə miqyasdan asılı olmayan nisbi ölçü lazımdır.

Aşağıdakı faktlara diqqət yetirək. Ümumiyyətlə, tezliklərin ölçüldüyü kateqoriyaların sayı daha çox ola bilər, ona görə də bir müşahidənin bu və ya digər kateqoriyaya düşmə ehtimalı olduqca azdır. Əgər belədirsə, onda belə bir təsadüfi dəyişənin paylanması kimi tanınan nadir hadisələr qanununa tabe olacaq Puasson qanunu. Puasson qanununda, məlum olduğu kimi, riyazi gözlənti və dispersiyanın qiyməti üst-üstə düşür (parametr λ ). Bu o deməkdir ki, nominal dəyişənin bəzi kateqoriyası üçün gözlənilən tezlik E i eyni vaxtda olacaq və onun dispersiyası. Bundan əlavə, Puasson qanunu çox sayda müşahidə ilə normallaşır. Bu iki faktı birləşdirərək əldə edirik ki, əgər müşahidə edilən və gözlənilən tezliklər arasında uyğunluq haqqında fərziyyə düzgündürsə, onda çoxlu sayda müşahidələrlə, ifadəsi

Normallığın yalnız kifayət qədər yüksək tezliklərdə görünəcəyini xatırlamaq vacibdir. Statistikada ümumi qəbul edilir ki, müşahidələrin ümumi sayı (tezliklərin cəmi) ən azı 50 və hər gradasiyada gözlənilən tezlik ən azı 5 olmalıdır. Yalnız bu halda yuxarıda göstərilən dəyər standart normal paylanmaya malikdir. . Tutaq ki, bu şərt yerinə yetirilib.

Standart normal paylanma ±3 (üç siqma qaydası) daxilində demək olar ki, bütün dəyərlərə malikdir. Beləliklə, bir gradasiya üçün tezliklərin nisbi fərqini əldə etdik. Bizə ümumiləşdirilə bilən ölçü lazımdır. Siz sadəcə bütün sapmaları əlavə edə bilməzsiniz - biz 0 alırıq (niyə olduğunu təxmin edin). Pearson bu sapmaların kvadratlarını əlavə etməyi təklif etdi.

Bu işarədir Ki-kvadrat testi Pearson. Əgər tezliklər həqiqətən gözlənilənlərə uyğundursa, meyarın dəyəri nisbətən kiçik olacaq (çünki əksər sapmalar sıfıra yaxındır). Ancaq meyar böyük olarsa, bu, tezliklər arasında əhəmiyyətli fərqləri göstərir.

Pearson meyarı belə və ya daha böyük bir dəyərin baş verməsi ehtimalı az olduqda "böyük" olur. Və belə bir ehtimalı hesablamaq üçün təcrübə dəfələrlə təkrar edildikdə, tezlik uzlaşması fərziyyəsi düzgün olduqda kriteriyanın paylanmasını bilmək lazımdır.

Göründüyü kimi, xi-kvadrat dəyəri də şərtlərin sayından asılıdır. Nə qədər çox olarsa, meyarın dəyəri bir o qədər çox olmalıdır, çünki hər bir termin ümumiyə töhfə verəcəkdir. Buna görə də, hər bir kəmiyyət üçün müstəqilşərtlərlə, öz paylanması olacaq. Belə çıxır ki χ 2 bütöv bir paylama ailəsidir.

Və burada bir incə məqama gəlirik. Nömrə nədir müstəqilşərtləri? Hər hansı bir terminin (yəni sapma) müstəqil olduğu görünür. K.Pirson da belə düşünürdü, amma yanıldığı ortaya çıxdı. Əslində, müstəqil terminlərin sayı nominal dəyişənin dərəcələrinin sayından bir az olacaq n. Niyə? Çünki bizdə tezliklərin cəminin artıq hesablanmış nümunəsi varsa, onda tezliklərdən biri həmişə ümumi sayı ilə bütün digərlərinin cəmi arasındakı fərq kimi müəyyən edilə bilər. Beləliklə, dəyişiklik bir qədər az olacaq. Ronald Fisher bu faktı Pearson öz meyarını hazırladıqdan 20 il sonra fərq etdi. Hətta masalar yenidən düzəldilməli idi.

Bu münasibətlə, Fisher statistikaya yeni bir konsepsiya təqdim etdi - azadlıq dərəcəsi(sərbəstlik dərəcələri), cəmdə müstəqil terminlərin sayını ifadə edir. Sərbəstlik dərəcələri anlayışının riyazi izahı var və yalnız normal (Student, Fisher-Snedecor və chi-kvadrat) ilə əlaqəli paylanmalarda görünür.

Azadlıq dərəcələrinin mənasını daha yaxşı başa düşmək üçün fiziki analoqa müraciət edək. Kosmosda sərbəst hərəkət edən bir nöqtəni təsəvvür edək. 3 dərəcə sərbəstliyə malikdir, çünki üçölçülü məkanda istənilən istiqamətdə hərəkət edə bilər. Bir nöqtə hər hansı bir səth boyunca hərəkət edərsə, o, üçölçülü fəzada olmağa davam etsə də, artıq iki sərbəstlik dərəcəsinə malikdir (irəli və arxa, sol və sağ). Yay boyunca hərəkət edən nöqtə yenə üçölçülü fəzadadır, lakin yalnız bir sərbəstlik dərəcəsinə malikdir, çünki irəli və ya geri hərəkət edə bilər. Göründüyü kimi, obyektin yerləşdiyi məkan həmişə real hərəkət azadlığına uyğun gəlmir.

Təxminən eyni şəkildə, statistik meyarın paylanması onun hesablanması üçün lazım olan şərtlərdən daha az sayda elementdən asılı ola bilər. Ümumiyyətlə, sərbəstlik dərəcələrinin sayı mövcud asılılıqların sayına görə müşahidələrin sayından azdır.

Beləliklə, ki kvadrat paylanması ( χ 2) hər biri sərbəstlik dərəcələri parametrindən asılı olan paylamalar ailəsidir. Və ki-kvadrat testinin formal tərifi aşağıdakı kimidir. Paylanma χ 2(xi-kvadrat) s k sərbəstlik dərəcələri kvadratların cəminin paylanmasıdır k müstəqil standart normal təsadüfi dəyişənlər.

Sonra, xi-kvadrat paylama funksiyasının hesablandığı formulun özünə keçə bilərik, amma xoşbəxtlikdən hər şey bizim üçün çoxdan hesablanıb. Maraq ehtimalını əldə etmək üçün ya müvafiq statistik cədvəldən, ya da Excel-də hazır funksiyadan istifadə edə bilərsiniz.

Sərbəstlik dərəcələrinin sayından asılı olaraq xi-kvadrat paylanmasının formasının necə dəyişdiyini görmək maraqlıdır.

Artan sərbəstlik dərəcələri ilə xi-kvadrat paylanması normal olmağa meyllidir. Bu, çoxlu sayda müstəqil təsadüfi dəyişənlərin cəminin normal paylanmaya malik olduğu mərkəzi limit teoreminin hərəkəti ilə izah olunur. Kvadratlarla bağlı heç nə demir)).

Pearson ki-kvadrat testindən istifadə edərək fərziyyənin yoxlanması

İndi biz xi-kvadrat metodundan istifadə edərək fərziyyələri yoxlamağa gəlirik. Ümumiyyətlə, texnologiya qalır. Sıfır fərziyyə ondan ibarətdir ki, müşahidə olunan tezliklər gözlənilənlərə uyğundur (yəni eyni populyasiyadan götürüldüyü üçün onlar arasında heç bir fərq yoxdur). Əgər belədirsə, onda səpələnmə təsadüfi dalğalanmalar çərçivəsində nisbətən kiçik olacaqdır. Dispersiya ölçüsü ki-kvadrat testindən istifadə etməklə müəyyən edilir. Sonra, ya meyarın özü kritik dəyərlə (müvafiq əhəmiyyət səviyyəsi və sərbəstlik dərəcələri üçün) müqayisə edilir, ya da daha doğrusu, müşahidə olunan p-qiyməti hesablanır, yəni. sıfır fərziyyə doğru olarsa, eyni və ya daha çox kriteriya dəyərinin əldə edilməsi ehtimalı.

Çünki biz tezliklərin uzlaşması ilə maraqlanırıq, onda meyar kritik səviyyədən böyük olduqda fərziyyə rədd ediləcək. Bunlar. meyar birtərəflidir. Lakin bəzən (bəzən) sol fərziyyəni yoxlamaq lazımdır. Məsələn, empirik məlumatlar nəzəri məlumatlara çox oxşar olduqda. Sonra meyar mümkün olmayan bir bölgəyə düşə bilər, ancaq solda. Fakt budur ki, təbii şəraitdə nəzəri olanlarla praktiki olaraq üst-üstə düşən tezlikləri əldə etmək mümkün deyil. Səhv verən bəzi təsadüflər həmişə var. Ancaq belə bir səhv yoxdursa, ola bilsin ki, məlumatlar saxtalaşdırılıb. Ancaq yenə də sağ tərəfli fərziyyə adətən sınaqdan keçirilir.

Gəlin zar probleminə qayıdaq. Mövcud məlumatlardan istifadə edərək xi-kvadrat testinin dəyərini hesablayaq.

İndi 5 sərbəstlik dərəcəsində kritik dəyəri tapaq ( k) və əhəmiyyət səviyyəsi 0,05 ( α ) chi kvadrat paylanmasının kritik dəyərləri cədvəlinə görə.

Yəni, 5 dərəcə sərbəstlik ilə 0,05 kvantilik chi kvadrat paylanması (sağ quyruq). χ 2 0,05; 5 = 11,1.

Gəlin faktiki və cədvəlli dəyərləri müqayisə edək. 3.4 ( χ 2) < 11,1 (χ 2 0,05; 5). Hesablanmış meyar daha kiçik oldu, bu o deməkdir ki, tezliklərin bərabərliyi (razılığı) fərziyyəsi rədd edilmir. Şəkildə vəziyyət belə görünür.

Hesablanmış dəyər kritik bölgəyə düşərsə, sıfır hipotezi rədd ediləcəkdir.

p-qiymətini də hesablamaq daha düzgün olardı. Bunu etmək üçün, müəyyən sayda sərbəstlik dərəcəsi üçün cədvəldə ən yaxın dəyəri tapmaq və müvafiq əhəmiyyət səviyyəsinə baxmaq lazımdır. Ancaq bu, son əsrdir. Biz kompüterdən, xüsusən MS Excel-dən istifadə edəcəyik. Excel-də xi-kvadrat ilə əlaqəli bir neçə funksiya var.

Aşağıda onların qısa təsviri verilmişdir.

CH2.OBR- solda verilmiş ehtimalda kriteriyanın kritik dəyəri (statistik cədvəllərdə olduğu kimi)

CH2.OBR.PH– sağda verilmiş ehtimal üçün kriteriyanın kritik qiyməti. Funksiya mahiyyətcə əvvəlkini təkrarlayır. Ancaq burada dərhal səviyyəni göstərə bilərsiniz α , 1-dən çıxmaqdansa. Bu daha rahatdır, çünki əksər hallarda paylamanın sağ quyruğuna ehtiyac duyulur.

CH2.DIST– solda p-dəyəri (sıxlıq hesablana bilər).

CH2.DIST.PH– sağda p-dəyəri.

CHI2.TEST– dərhal iki tezlik diapazonu üçün xi-kvadrat testi aparır. Sərbəstlik dərəcələrinin sayı sütundakı tezliklərin sayından bir az qəbul edilir (olmalıdır ki, bu da p-qiymətini qaytarır).

Təcrübəmiz üçün 5 sərbəstlik dərəcəsi və alfa 0,05 üçün kritik (cədvəl) dəyəri hesablayaq. Excel düsturu belə görünəcək:

CH2.OBR(0,95;5)

CH2.OBR.PH(0,05;5)

Nəticə eyni olacaq - 11.0705. Bu, cədvəldə gördüyümüz dəyərdir (1 onluq yerə yuvarlaqlaşdırılıb).

Nəhayət, 5 dərəcə sərbəstlik kriteriyası üçün p-qiymətini hesablayaq χ 2= 3.4. Bizə sağda bir ehtimal lazımdır, buna görə də HH (sağ quyruq) əlavəsi ilə bir funksiya alırıq

CH2.DIST.PH(3.4;5) = 0.63857

Bu o deməkdir ki, 5 sərbəstlik dərəcəsi ilə kriteriyanın dəyərini əldə etmək ehtimalı var χ 2= 3,4 və daha çox demək olar ki, 64%-ə bərabərdir. Təbii ki, fərziyyə rədd edilmir (p-dəyəri 5%-dən böyükdür), tezliklər çox yaxşı uyğunlaşır.

İndi xi-kvadrat testindən və Excelin CHI2.TEST funksiyasından istifadə edərək tezliklərin uzlaşması haqqında fərziyyəni yoxlayaq.

Cədvəllər, çətin hesablamalar yoxdur. Müşahidə olunan və gözlənilən tezlikləri olan sütunları funksiya arqumentləri kimi göstərərək dərhal p-qiymətini əldə edirik. Gözəllik.

İndi təsəvvür edin ki, şübhəli bir oğlanla zar oynayırsınız. 1-dən 5-ə qədər xalların paylanması eyni qalır, lakin o, 26 altılıq yuvarlayır (atmaların ümumi sayı 78 olur).

Bu vəziyyətdə p-dəyəri 0,05-dən çox az olan 0,003 olur. Zərlərin etibarlılığına şübhə etmək üçün yaxşı səbəblər var. Ki-kvadrat paylama diaqramında bu ehtimalın necə göründüyü budur.

Burada xi-kvadrat testinin özü 17.8-ə bərabərdir, bu, təbii olaraq cədvəldən (11.1) böyükdür.

Ümid edirəm ki, razılaşmanın kriteriyasının nə olduğunu izah edə bildim χ 2(Pirson ki-kvadrat) və onun statistik fərziyyələri yoxlamaq üçün necə istifadə oluna biləcəyi.

Nəhayət, bir daha vacib şərt haqqında! Xi-kvadrat testi yalnız bütün tezliklərin sayı 50-dən çox olduqda və hər bir gradasiya üçün minimum gözlənilən dəyər 5-dən az olmadıqda düzgün işləyir. Əgər hər hansı bir kateqoriyada gözlənilən tezlik 5-dən azdırsa, lakin bütün tezliklərin cəmindən artıqdırsa. 50, onda belə kateqoriya ən yaxını ilə birləşdirilir ki, onların ümumi tezliyi 5-i keçsin. Əgər bu mümkün deyilsə və ya tezliklərin cəmi 50-dən azdırsa, fərziyyələrin yoxlanılmasının daha dəqiq üsullarından istifadə edilməlidir. Başqa vaxt onlar haqqında danışacağıq.

Aşağıda xi-kvadrat testindən istifadə edərək Excel-də fərziyyəni necə yoxlamağa dair video var.

U 1, U 2, ..,U k müstəqil standart normal qiymətlər olsun. K = U 1 2 +U 2 2 + .. + U k 2 təsadüfi kəmiyyətinin paylanmasına x-kvadrat paylama deyilir. k sərbəstlik dərəcələri (K~χ 2 (k) yazın). Bu, müsbət əyrilik və aşağıdakı xüsusiyyətlərə malik unimodal paylanmadır: rejim M=k-2 riyazi gözlənti m=k dispersiya D=2k (şək.). Parametrin kifayət qədər böyük dəyəri ilə k paylanma χ 2 (k) parametrləri ilə təxminən normal paylanmaya malikdir

Riyazi statistika məsələlərini həll edərkən verilən α ehtimalından və sərbəstlik dərəcələrinin sayından asılı olaraq χ 2 (k) kritik nöqtələrdən istifadə olunur. k(Əlavə 2). Χ 2 kr = Χ 2 (k; α) kritik nöqtəsi paylanma sıxlığı əyrisi altında ərazinin 100- α % -i sağda yerləşən bölgənin sərhədidir. Sınaq zamanı təsadüfi dəyişən K~χ 2 (k) qiymətinin χ 2 (k) nöqtəsinin sağına düşmə ehtimalı α P(K≥χ 2 kp)≤ α)-dən çox deyil. Məsələn, təsadüfi dəyişən K~χ 2 (20) üçün α=0,05 ehtimalını təyin etdik. Xi-kvadrat paylanmasının kritik nöqtələri cədvəlindən (cədvəllərdən) istifadə edərək, χ 2 kp = χ 2 (20;0.05) = 31.4 tapırıq. Bu o deməkdir ki, bu təsadüfi dəyişənin ehtimalı K 31,4-dən böyük, 0,05-dən kiçik bir dəyər götürün (Şəkil).

düyü. Sərbəstlik dərəcələrinin sayının müxtəlif dəyərləri üçün paylanma sıxlığı qrafiki χ 2 (k) k

Kritik nöqtələr χ 2 (k) aşağıdakı kalkulyatorlarda istifadə olunur:

  1. Multikollinearlığın yoxlanılması (multikollinearlıq haqqında).
Ki-kvadratdan istifadə edərək fərziyyəni yoxlamaq yalnız “əlaqə varmı?” sualına cavab verəcək, əlaqənin istiqamətini yoxlamaq üçün əlavə araşdırmalara ehtiyac var. Üstəlik, aşağı tezlikli məlumatlar ilə işləyərkən Chi-kvadrat testində müəyyən bir səhv var.

Buna görə də, əlaqənin istiqamətini yoxlamaq üçün korrelyasiya təhlili seçilir, xüsusən də Pearson korrelyasiya əmsalından istifadə edərək fərziyyənin sınanması və t-testindən istifadə edərək əhəmiyyətin sonrakı testi.

Əhəmiyyət səviyyəsinin istənilən dəyəri üçün α Χ 2 MS Excel funksiyasından istifadə etməklə tapıla bilər: =HI2OBR(α;sərbəstlik dərəcələri)

n-1 .995 .990 .975 .950 .900 .750 .500 .250 .100 .050 .025 .010 .005
1 0.00004 0.00016 0.00098 0.00393 0.01579 0.10153 0.45494 1.32330 2.70554 3.84146 5.02389 6.63490 7.87944
2 0.01003 0.02010 0.05064 0.10259 0.21072 0.57536 1.38629 2.77259 4.60517 5.99146 7.37776 9.21034 10.59663
3 0.07172 0.11483 0.21580 0.35185 0.58437 1.21253 2.36597 4.10834 6.25139 7.81473 9.34840 11.34487 12.83816
4 0.20699 0.29711 0.48442 0.71072 1.06362 1.92256 3.35669 5.38527 7.77944 9.48773 11.14329 13.27670 14.86026
5 0.41174 0.55430 0.83121 1.14548 1.61031 2.67460 4.35146 6.62568 9.23636 11.07050 12.83250 15.08627 16.74960
6 0.67573 0.87209 1.23734 1.63538 2.20413 3.45460 5.34812 7.84080 10.64464 12.59159 14.44938 16.81189 18.54758
7 0.98926 1.23904 1.68987 2.16735 2.83311 4.25485 6.34581 9.03715 12.01704 14.06714 16.01276 18.47531 20.27774
8 1.34441 1.64650 2.17973 2.73264 3.48954 5.07064 7.34412 10.21885 13.36157 15.50731 17.53455 20.09024 21.95495
9 1.73493 2.08790 2.70039 3.32511 4.16816 5.89883 8.34283 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935
10 2.15586 2.55821 3.24697 3.94030 4.86518 6.73720 9.34182 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818
11 2.60322 3.05348 3.81575 4.57481 5.57778 7.58414 10.34100 13.70069 17.27501 19.67514 21.92005 24.72497 26.75685
12 3.07382 3.57057 4.40379 5.22603 6.30380 8.43842 11.34032 14.84540 18.54935 21.02607 23.33666 26.21697 28.29952
13 3.56503 4.10692 5.00875 5.89186 7.04150 9.29907 12.33976 15.98391 19.81193 22.36203 24.73560 27.68825 29.81947
14 4.07467 4.66043 5.62873 6.57063 7.78953 10.16531 13.33927 17.11693 21.06414 23.68479 26.11895 29.14124 31.31935
15 4.60092 5.22935 6.26214 7.26094 8.54676 11.03654 14.33886 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132
16 5.14221 5.81221 6.90766 7.96165 9.31224 11.91222 15.33850 19.36886 23.54183 26.29623 28.84535 31.99993 34.26719
17 5.69722 6.40776 7.56419 8.67176 10.08519 12.79193 16.33818 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847
18 6.26480 7.01491 8.23075 9.39046 10.86494 13.67529 17.33790 21.60489 25.98942 28.86930 31.52638 34.80531 37.15645
19 6.84397 7.63273 8.90652 10.11701 11.65091 14.56200 18.33765 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226
20 7.43384 8.26040 9.59078 10.85081 12.44261 15.45177 19.33743 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685
21 8.03365 8.89720 10.28290 11.59131 13.23960 16.34438 20.33723 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106
22 8.64272 9.54249 10.98232 12.33801 14.04149 17.23962 21.33704 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565
23 9.26042 10.19572 11.68855 13.09051 14.84796 18.13730 22.33688 27.14134 32.00690 35.17246 38.07563 41.63840 44.18128
24 9.88623 10.85636 12.40115 13.84843 15.65868 19.03725 23.33673 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851
25 10.51965 11.52398 13.11972 14.61141 16.47341 19.93934 24.33659 29.33885 34.38159 37.65248 40.64647 44.31410 46.92789
26 11.16024 12.19815 13.84390 15.37916 17.29188 20.84343 25.33646 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988
27 11.80759 12.87850 14.57338 16.15140 18.11390 21.74940 26.33634 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492
28 12.46134 13.56471 15.30786 16.92788 18.93924 22.65716 27.33623 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338
29 13.12115 14.25645 16.04707 17.70837 19.76774 23.56659 28.33613 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562
30 13.78672 14.95346 16.79077 18.49266 20.59923 24.47761 29.33603 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196
Sərbəstlik dərəcələrinin sayı k Əhəmiyyət səviyyəsi a
0,01 0,025 0.05 0,95 0,975 0.99
1 6.6 5.0 3.8 0.0039 0.00098 0.00016
2 9.2 7.4 6.0 0.103 0.051 0.020
3 11.3 9.4 7.8 0.352 0.216 0.115
4 13.3 11.1 9.5 0.711 0.484 0.297
5 15.1 12.8 11.1 1.15 0.831 0.554
6 16.8 14.4 12.6 1.64 1.24 0.872
7 18.5 16.0 14.1 2.17 1.69 1.24
8 20.1 17.5 15.5 2.73 2.18 1.65
9 21.7 19.0 16.9 3.33 2.70 2.09
10 23.2 20.5 18.3 3.94 3.25 2.56
11 24.7 21.9 19.7 4.57 3.82 3.05
12 26.2 23.3 21 .0 5.23 4.40 3.57
13 27.7 24.7 22.4 5.89 5.01 4.11
14 29.1 26.1 23.7 6.57 5.63 4.66
15 30.6 27.5 25.0 7.26 6.26 5.23
16 32.0 28.8 26.3 7.96 6.91 5.81
17 33.4 30.2 27.6 8.67 7.56 6.41
18 34.8 31.5 28.9 9.39 8.23 7.01
19 36.2 32.9 30.1 10.1 8.91 7.63
20 37.6 34.2 31.4 10.9 9.59 8.26
21 38.9 35.5 32.7 11.6 10.3 8.90
22 40.3 36.8 33.9 12.3 11.0 9.54
23 41.6 38.1 35.2 13.1 11.7 10.2
24 43.0 39.4 36.4 13.8 12.4 10.9
25 44.3 40.6 37.7 14.6 13.1 11.5
26 45.6 41.9 38.9 15.4 13.8 12.2
27 47.0 43.2 40.1 16.2 14.6 12.9
28 48.3 44.5 41.3 16.9 15.3 13.6
29 49.6 45.7 42.6 17.7 16.0 14.3
30 50.9 47.0 43.8 18.5 16.8 15.0