Хи квадратының таралу функциясы. Хи квадратының таралуы

Хи-квадрат үлестірімін қарастырайық. MS EXCEL функциясын қолдануCH2.DIST() Бөлу функциясы мен ықтималдық тығыздығының графигін салайық және бұл үлестірімді математикалық статистика мақсатында пайдалануды түсіндірейік.

Хи-квадрат үлестірімі (X 2, XI2,АғылшынЧи- шаршытарату) математикалық статистиканың әртүрлі әдістерінде қолданылады:

  • құрылыс кезінде;
  • бойынша;
  • at (эмпирикалық деректер теориялық таралу функциясы туралы болжамымызбен келісе ме, жоқ па, ағылшынша Goodness-of-fit)
  • at (екі категориялық айнымалылар арасындағы байланысты анықтау үшін пайдаланылады, ағылшын хи-квадрат ассоциациясының тесті).

Анықтама: Егер x 1 , x 2 , …, x n N(0;1) бойынша таратылған тәуелсіз кездейсоқ шама болса, онда Y=x 1 2 + x 2 2 +…+ x n 2 кездейсоқ шамасының үлестірімі бар тарату X 2 n еркіндік дәрежесімен.

Тарату X 2 деп аталатын бір параметрге байланысты еркіндік дәрежесі (df, градусныңеркіндік). Мысалы, құрылыс кезінде еркіндік дәрежелерінің санытең df=n-1, мұндағы n – өлшем үлгілері.

Таралу тығыздығы X 2 формуламен өрнектеледі:

Функция графиктері

Тарату X 2 n-ге тең, 2n-ге тең асимметриялық пішіні бар.

IN График парағындағы мысал файлыберілген таралу тығыздығының графиктеріықтималдықтар және жинақтаушы таралу функциясы.

Пайдалы мүлік CH2 таралулары

x 1 , x 2 , …, x n үлестірмелі тәуелсіз кездейсоқ шама болсын қалыпты заң бірдей параметрлермен μ және σ, және X авболып табылады арифметикалық ортабұл x мәндері.
Содан кейін кездейсоқ шама жтең

бар X 2 -тарату n-1 еркіндік дәрежесімен. Анықтаманы пайдалана отырып, жоғарыдағы өрнекті келесідей қайта жазуға болады:

Демек, үлгіні бөлустатистика y, at үлгібастап қалыпты таралу, бар X 2 -тарату n-1 еркіндік дәрежесімен.

Бұл мүлік бізге қашан қажет болады. Өйткені дисперсиятек оң сан болуы мүмкін, және X 2 -таратуоны бағалау үшін пайдаланылады жд.б. >0, анықтамада көрсетілгендей.

MS EXCEL-де CH2 тарату

MS EXCEL-де 2010 нұсқасынан бастап, үшін X 2 -таратуларарнайы функциясы бар CHI2.DIST(), Ағылшынша атауы– CHISQ.DIST(), ол есептеуге мүмкіндік береді ықтималдық тығыздығы(жоғарыдағы формуланы қараңыз) және (X кездейсоқ шамасына ие болу ықтималдығы CI2-тарату, x, P(X) мәнінен кіші немесе оған тең мән қабылдайды<= x}).

Ескерту: Өйткені CH2 таралуыерекше жағдай, содан кейін формула =GAMMA.DIST(x;n/2;2;ШЫН)оң бүтін n үшін формуламен бірдей нәтижені береді =CHI2.DIST(x;n; ШЫН)немесе =1-CHI2.DIST.PH(x;n) . Және формула =ГАММА.DIST(x;n/2;2;ЖАЛҒАН)формуламен бірдей нәтижені қайтарады =CHI2.DIST(x;n; ЖАЛҒАН), яғни. ықтималдық тығыздығы CH2 таралулары.

HI2.DIST.PH() функциясы қайтарылады бөлу функциясы, дәлірек айтқанда, оң жақты ықтималдық, яғни. P(X > x). Теңдіктің ақиқат екені көрініп тұр
=CHI2.DIST.PH(x;n)+CHI2.DIST(x;n;TRUE)=1
өйткені бірінші мүшесі P(X > x), ал екінші P(X) ықтималдығын есептейді<= x}.

MS EXCEL 2010 нұсқасына дейін EXCEL-де тек оң жақты ықтималдықты есептеуге мүмкіндік беретін CH2DIST() функциясы болды, яғни. P(X > x). Жаңа MS EXCEL 2010 XI2.DIST() және XI2.DIST.PH() функцияларының мүмкіндіктері осы функцияның мүмкіндіктерін қамтиды. CH2DIST() функциясы үйлесімділік үшін MS EXCEL 2010 бағдарламасында қалдырылған.

CHI2.DIST() қайтаратын жалғыз функция хи2 үлестірімінің ықтималдық тығыздығы(үшінші аргумент ЖАЛҒАН болуы керек). Қалған функциялар қайтарылады жинақтаушы таралу функциясы, яғни. кездейсоқ шаманың берілген диапазоннан мән алу ықтималдығы: P(X<= x}.

Жоғарыда келтірілген MS EXCEL функциялары -да берілген.

Мысалдар

Х кездейсоқ шамасының берілгеннен кіші немесе оған тең мән қабылдау ықтималдығын табайық x: P(X<= x}. Это можно сделать несколькими функциями:

CHI2.DIST(x; n; TRUE)
=1-HI2.DIST.PH(x; n)
=1-CHI2DIST(x; n)

CH2.DIST.PH() функциясы оң жақтағы ықтималдық деп аталатын P(X > x) ықтималдығын береді, осылайша P(X) мәнін табады.<= x}, необходимо вычесть ее результат от 1.

Х кездейсоқ шамасының берілгеннен үлкен мән алу ықтималдығын табайық x: P(X > x). Мұны бірнеше функциялармен жасауға болады:

1-CHI2.DIST(x; n; ШЫН)
=HI2.DIST.PH(x; n)
=CHI2DIST(x; n)

Кері хи2 таралу функциясы

Есептеу үшін кері функция қолданылады альфа- , яғни. мәндерін есептеу үшін xберілген ықтималдық үшін альфа, және X P(X) өрнегін қанағаттандыру керек<= x}=альфа.

Есептеу үшін CH2.INV() функциясы пайдаланылады қалыпты таралу дисперсиясының сенімділік интервалдары.

CHI2.OBR.PH() функциясы есептеу үшін пайдаланылады, яғни. егер мәнділік деңгейі функцияның аргументі ретінде көрсетілсе, мысалы 0,05, онда функция P(X>x)=0,05 болатын x кездейсоқ шамасының мәнін қайтарады. Салыстыру үшін: XI2.INR() функциясы P(X) болатын x кездейсоқ шамасының мәнін береді.<=x}=0,05.

MS EXCEL 2007 және одан бұрынғы нұсқаларында HI2.OBR.PH() орнына HI2OBR() функциясы қолданылды.

Жоғарыдағы функцияларды ауыстыруға болады, өйткені келесі формулалар бірдей нәтиже береді:
=CHI.OBR(альфа;n)
=HI2.OBR.PH(1-альфа;n)
=CHI2INV(1- альфа;n)

Есептеудің кейбір мысалдары келтірілген Функциялар парағындағы мысал файлы.

MS EXCEL CH2 үлестірімінің көмегімен жұмыс істейді

Төменде орыс және ағылшын тілдеріндегі функция атауларының сәйкестігі берілген:
CH2.DIST.PH() - ағылшын. атауы CHISQ.DIST.RT, яғни. CHI-шаршы үлестірім Оң жақ құйрық, оң жақ құйрықты Хи-шаршы(d) үлестірім
CH2.OBR() - ағылшын. атауы CHISQ.INV, яғни. CHI-квадратты үлестірім КЕРІ
CH2.PH.OBR() - ағылшын. атауы CHISQ.INV.RT, яғни. CHI-квадрат үлестірімі INVersse Right Tail
CH2DIST() - ағылшын. аты CHIDIST, функция CHISQ.DIST.RT баламасы
CH2OBR() - ағылшын. аты CHIINV, яғни. CHI-квадратты үлестіру КЕРІ

Бөлу параметрлерін бағалау

Өйткені әдетте CH2 таралуыматематикалық статистика мақсатында қолданылады (есептеу сенімділік интервалдары, гипотезаларды тексеру және т.б.),және нақты мәндердің модельдерін құру үшін ешқашан дерлік емес, онда бұл бөлу үшін таралу параметрлерін бағалауды талқылау мұнда жүргізілмейді.

Қалыпты үлестірім бойынша CI2 таралуын жуықтау

Еркіндік дәрежесінің санымен n>30 тарату X 2жақсы жақындатылған қалыпты таралубірге орташа мәнμ=n және дисперсия σ=2*n (қараңыз Үлгі парақ файлының жуықтауы).

\(\chi^2\) сынағы («хи-квадрат», сонымен қатар «Пирсонның жарамдылық сынағы») статистикада өте кең қолданыс тапты. Жалпы алғанда, ол байқалатын кездейсоқ шама белгілі бір теориялық таралу заңына бағынады деген нөлдік гипотезаны тексеру үшін қолданылады деп айта аламыз (толығырақ, мысалы, қараңыз). Тексерілетін гипотезаның нақты тұжырымы әр жағдайда әр түрлі болады.

Бұл постта мен \(\chi^2\) критерийінің иммунологиядан (гипотетикалық) мысал арқылы қалай жұмыс істейтінін сипаттаймын. Ағзаға сәйкес антиденелер енгізілген кезде микробтық аурудың дамуын басу тиімділігін анықтау үшін эксперимент жүргіздік деп елестетіп көрейік. Экспериментке барлығы 111 тышқан тартылды, біз оларды екі топқа бөлдік, оның ішінде сәйкесінше 57 және 54 жануар. Тышқандардың бірінші тобына патогенді бактериялардың инъекциялары берілді, содан кейін осы бактерияларға қарсы антиденелер бар қан сарысуы енгізілді. Екінші топтағы жануарлар бақылау ретінде қызмет етті - олар тек бактериялық инъекцияларды алды. Біраз уақыт инкубациядан кейін 38 тышқан өліп, 73 тірі қалғаны белгілі болды. Қайтыс болғандардың 13-і бірінші топқа, 25-і екінші (бақылау) тобына жатады. Бұл тәжірибеде тексерілген нөлдік гипотезаны келесідей тұжырымдауға болады: сарысуды антиденелермен енгізу тышқандардың тіршілігіне әсер етпейді. Басқаша айтқанда, біз тышқандардың өмір сүруіндегі байқалған айырмашылықтар (бірінші топтағы 77,2% қарсы екінші топтағы 53,7%) толығымен кездейсоқ және антиденелердің әсеріне байланысты емес екенін дәлелдейміз.

Тәжірибеде алынған мәліметтерді кесте түрінде беруге болады:

Барлығы

Бактериялар + сарысу

Тек бактериялар

Барлығы

Көрсетілгендей кестелер күтпеген кестелер деп аталады. Қарастырылып отырған мысалда кестенің өлшемі 2х2: объектілердің екі класы бар («Бактериялар + сарысу» және «Тек бактериялар»), олар екі критерий бойынша («Өлі» және «Тірі қалған») зерттеледі. Бұл күтпеген кестенің ең қарапайым жағдайы: әрине, зерттелетін сыныптар саны да, мүмкіндіктер саны да көп болуы мүмкін.

Жоғарыда айтылған нөлдік гипотезаны тексеру үшін, егер антиденелер тышқандардың өмір сүруіне шынымен әсер етпесе, жағдайдың қандай болатынын білуіміз керек. Басқаша айтқанда, есептеу керек күтілетін жиіліктеркүтпеген жағдайлар кестесінің сәйкес ұяшықтары үшін. Мұны қалай жасауға болады? Экспериментте барлығы 38 тышқан өлді, бұл барлық тартылған жануарлардың 34,2% құрайды. Егер антиденелерді енгізу тышқандардың тіршілігіне әсер етпесе, екі эксперименттік топта да бірдей өлім-жітім пайызын, атап айтқанда 34,2% байқау керек. 57 және 54 сандарының 34,2% қанша екенін есептесек, 19,5 пен 18,5 аламыз. Бұл біздің эксперименттік топтардағы күтілетін өлім көрсеткіштері. Күтілетін тірі қалу көрсеткіштері ұқсас жолмен есептеледі: барлығы 73 тышқан немесе жалпы санның 65,8% аман қалғандықтан, күтілетін тірі қалу коэффициенттері 37,5 және 35,5 болады. Енді күтілетін жиіліктермен жаңа күтпеген жағдайлар кестесін жасайық:

Өлген

Аман қалғандар

Барлығы

Бактериялар + сарысу

Тек бактериялар

Барлығы

Көріп отырғанымыздай, күтілетін жиіліктер байқалғандардан айтарлықтай ерекшеленеді, яғни. антиденелерді енгізу патогенді жұқтырған тышқандардың өмір сүруіне әсер ететін сияқты. Біз бұл әсерді Пирсонның жарамдылығы сынағы \(\chi^2\) арқылы анықтай аламыз:

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


мұндағы \(f_o\) және \(f_e\) сәйкесінше байқалатын және күтілетін жиіліктер. Қосындылау кестенің барлық ұяшықтары бойынша орындалады. Сонымен, біз қарастырып отырған мысал үшін

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]

Нәтижедегі \(\chi^2\) мәні нөлдік гипотезаны жоққа шығару үшін жеткілікті үлкен бе? Бұл сұраққа жауап беру үшін критерийдің сәйкес критикалық мәнін табу қажет. \(\chi^2\) үшін еркіндік дәрежелерінің саны \(df = (R - 1)(C - 1)\ ретінде есептеледі, мұнда \(R\) және \(C\) - сан. кестедегі жолдар мен бағандардың конъюгациясы. Біздің жағдайда \(df = (2 -1)(2 - 1) = 1\). Еркіндік дәрежелерінің санын біле отырып, біз енді qchisq() стандартты R функциясының көмегімен критикалық мәнді \(\chi^2\) оңай таба аламыз:


Осылайша, бір еркіндік дәрежесімен 5% жағдайда ғана \(\chi^2\) критерийінің мәні 3,841-ден асады. Біз алған мән, 6,79, бұл сыни мәннен айтарлықтай асып түседі, бұл бізге антиденелерді енгізу мен жұқтырған тышқандардың өмір сүруі арасында ешқандай байланыс жоқ деген нөлдік гипотезаны жоққа шығаруға құқық береді. Бұл гипотезаны жоққа шығара отырып, 5%-дан аз ықтималдықпен қателесу қаупі бар.

Айта кету керек, \(\chi^2\) критерийі үшін жоғарыда келтірілген формула 2x2 өлшемді күтпеген кестелермен жұмыс істегенде шамалы көтерілген мәндерді береді. Себебі, \(\chi^2\) критерийінің таралуының өзі үздіксіз, ал бинарлық белгілердің жиіліктері («өлді» / «тірі қалды») анықтамасы бойынша дискретті. Осыған байланысты критерийді есептеу кезінде деп аталатындарды енгізу әдеттегідей үздіксіздікті түзету, немесе Йейтс түзетуі :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]

Пирсон «Йейтспен хи-квадрат сынағы»үздіксіздікті түзету деректері: тышқандар X-шаршы = 5,7923, df = 1, p-мәні = 0,0161


Көріп отырғанымыздай, R автоматты түрде Yates үздіксіздік түзетуін қолданады ( Йейтспен Пирсонның Хи-квадрат сынағы» үздіксіздікті түзету). Бағдарламамен есептелген \(\chi^2\) мәні 5,79213 болды. Біз 1%-дан сәл асатын ықтималдықпен қате болу қаупі бар антиденелердің әсері жоқ деген нөлдік гипотезаны жоққа шығара аламыз (p-мәні = 0,0161).

Ресей Федерациясының Білім және ғылым министрлігі

Иркутск қаласының білім беру федералды агенттігі

Байкал мемлекеттік экономика және заң университеті

Информатика және кибернетика кафедрасы

Хи-квадрат үлестірімі және оның қолданылуы

Колмыкова Анна Андреевна

2 курс студенті

IS-09-1 тобы

Алынған мәліметтерді өңдеу үшін хи-квадрат тестін қолданамыз.

Ол үшін эмпирикалық жиіліктердің таралу кестесін құрастырамыз, яғни. біз байқайтын жиіліктер:

Теориялық тұрғыдан біз жиіліктердің бірдей бөлінетінін күтеміз, яғни. жиілік ұлдар мен қыздар арасында пропорционалды түрде бөлінеді. Теориялық жиіліктер кестесін құрастырайық. Ол үшін жол қосындысын баған қосындысына көбейтіп, алынған санды жалпы қосындыға бөліңіз.


Есептеулер үшін соңғы кесте келесідей болады:

χ2 = ∑(E - T)² / T

n = (R - 1), мұндағы R - кестедегі жолдар саны.

Біздің жағдайда хи-квадрат = 4,21; n = 2.

Критерийдің критикалық мәндерінің кестесін пайдалана отырып, біз табамыз: n = 2 және қате деңгейі 0,05, критикалық мән χ2 = 5,99.

Алынған мән критикалық мәннен аз, бұл нөлдік гипотеза қабылданғанын білдіреді.

Қорытынды: мұғалімдер балаға мінездеме жазғанда оның жынысына мән бермейді.

Қолданба

χ2 үлестірімінің критикалық нүктелері

1-кесте

Қорытынды

Мамандықтардың барлығы дерлік студенттер жоғары математика курсының соңында «ықтималдықтар теориясы және математикалық статистика» бөлімін оқиды, олар практикалық жұмыс үшін жеткіліксіз болатын кейбір негізгі ұғымдармен және нәтижелермен ғана танысады; Студенттер арнайы курстарда математикалық зерттеудің кейбір әдістерімен (мысалы, «Болжау және техникалық-экономикалық жоспарлау», «Техникалық-экономикалық талдау», «Өнім сапасын бақылау», «Маркетинг», «Бақылау», «Болжамның математикалық әдістерімен) танысады. ”) ", "Статистика" және т.б. - экономикалық мамандықтардың студенттері үшін), алайда, презентация көп жағдайда өте қысқартылған және формулалық сипатта болады. Соның салдарынан қолданбалы статистика мамандарының білімі жеткіліксіз.

Сондықтан техникалық жоғары оқу орындарындағы «Қолданбалы статистика» курсының, ал экономикалық университеттердегі «Эконометрика» курсының маңызы зор, өйткені эконометрика белгілі экономикалық мәліметтерді статистикалық талдау болып табылады.

Ықтималдықтар теориясы және математикалық статистика қолданбалы статистика мен эконометрика үшін іргелі білім береді.

Олар мамандарға практикалық жұмыс үшін қажет.

Үздіксіз ықтималдық моделін қарастырып, оның қолданылуын мысалдар арқылы көрсетуге тырыстым.

Пайдаланылған әдебиеттер тізімі

1. Орлов А.И. Қолданбалы статистика. М.: «Емтихан» баспасы, 2004 ж.

2. Гмурман В.Е. Ықтималдықтар теориясы және математикалық статистика. М.: Жоғары мектеп, 1999. – 479 б.

3. Айвозян С.А. Ықтималдықтар теориясы және қолданбалы статистика, 1-том. М.: Бірлік, 2001. – 656 б.

4. Хамитов Г.П., Ведерникова Т.И. Ықтималдықтар және статистика. Иркутск: БГУЭП, 2006 – 272 б.

5. Ежова Л.Н. Эконометрика. Иркутск: БГУЭП, 2002. – 314 б.

6. Мостеллер Ф. Шешімдері бар елу қызықты ықтималдық есеп. М.: Наука, 1975. – 111 б.

7. Мостеллер Ф. Ықтималдық. М.: Мир, 1969. – 428 б.

8. Яглом А.М. Ықтималдық және ақпарат. М.: Наука, 1973. – 511 б.

9. Чистяков В.П. Ықтималдық теориясы курсы. М.: Наука, 1982. – 256 б.

10. Кремер Н.Ш. Ықтималдықтар теориясы және математикалық статистика. М.: БІРЛІК, 2000. – 543 б.

11. Математикалық энциклопедия, 1-том. М.: Совет энциклопедиясы, 1976. – 655 б.

12. http://psystat.at.ua/ - Психология және педагогикадағы статистика. Мақала Хи-квадрат сынағы.

19 ғасырдың аяғына дейін қалыпты таралу деректердің өзгергіштігінің әмбебап заңы болып саналды. Дегенмен, К.Пирсон эмпирикалық жиіліктер қалыпты таралудан айтарлықтай ерекшеленуі мүмкін екенін атап өтті. Мұны қалай дәлелдеуге болады деген сұрақ туындады. Субъективті графикалық салыстыру ғана емес, сонымен қатар қатаң сандық негіздеу де қажет болды.

Критерий осылай ойлап табылды χ 2эмпирикалық (байқалатын) және теориялық (күтілетін) жиіліктер арасындағы сәйкессіздіктің маңыздылығын тексеретін (хи квадраты). Бұл 1900 жылы болған, бірақ бұл критерий әлі де қолданыста. Сонымен қатар, ол көптеген мәселелерді шешуге бейімделген. Ең алдымен, бұл категориялық деректерді талдау, яғни. санымен емес, қандай да бір категорияға жататындығымен өрнектелетіндер. Мысалы, машинаның класы, экспериментке қатысушының жынысы, өсімдік түрі және т.б. Мұндай деректерге қосу және көбейту сияқты математикалық операцияларды қолдануға болмайды, олар үшін ғана есептеуге болады.

Біз бақыланатын жиіліктерді белгілейміз туралы (байқалған), күтілетін – E (күтілетін). Мысал ретінде матрицаны 60 рет айналдыру нәтижесін алайық. Егер ол симметриялы және біркелкі болса, кез келген жағын алу ықтималдығы 1/6, сондықтан әрбір жағын алудың күтілетін саны 10 (1/6∙60) болады. Бақыланатын және күтілетін жиіліктерді кестеге жазып, гистограмманы саламыз.

Нөлдік гипотеза – жиіліктер сәйкес келеді, яғни нақты деректер күтілетін деректерге қайшы келмейді. Баламалы гипотеза жиіліктердегі ауытқулар кездейсоқ тербелістерден асып түседі, сәйкессіздіктер статистикалық маңызды болып табылады. Нақты қорытынды жасау үшін бізге қажет.

  1. Бақыланатын және күтілетін жиіліктер арасындағы сәйкессіздіктің жиынтық өлшемі.
  2. Айырмашылықтар жоқ деген гипотеза ақиқат болса, бұл өлшемнің таралуы.

Жиіліктер арасындағы қашықтықты бастайық. Егер сіз тек айырмашылықты алсаңыз О - Е, онда мұндай өлшем деректердің (жиіліктердің) масштабына байланысты болады. Мысалы, 20 - 5 = 15 және 1020 - 1005 = 15. Екі жағдайда да айырмашылық 15. Бірақ бірінші жағдайда күтілетін жиіліктер бақыланатындардан 3 есе аз, ал екінші жағдайда - тек 1,5. %. Бізге масштабқа тәуелді емес салыстырмалы өлшем қажет.

Келесі фактілерге назар аударайық. Жалпы алғанда, жиіліктер өлшенетін санаттардың саны әлдеқайда көп болуы мүмкін, сондықтан бір бақылаудың бір немесе басқа санатқа түсу ықтималдығы өте аз. Егер солай болса, онда мұндай кездейсоқ шаманың таралуы ретінде белгілі сирек оқиғалар заңына бағынады Пуассон заңы. Пуассон заңында, белгілі болғандай, математикалық күту мен дисперсияның мәні сәйкес келеді (параметр λ ). Бұл номиналды айнымалының кейбір категориясы үшін күтілетін жиілікті білдіреді E iбір мезгілде және оның дисперсиясы болады. Әрі қарай, Пуассон заңы бақылаулардың көп санымен қалыпты болады. Осы екі фактіні біріктіре отырып, біз бақыланатын және күтілетін жиіліктер арасындағы келісім туралы гипотеза дұрыс болса, онда бақылаулардың үлкен санымен, өрнек

Қалыптылық жеткілікті жоғары жиіліктерде ғана пайда болатынын есте ұстаған жөн. Статистикада бақылаулардың жалпы саны (жиіліктердің қосындысы) кемінде 50 болуы керек және әрбір градациядағы күтілетін жиілік кемінде 5 болуы керек деп жалпы қабылданған. Тек осы жағдайда ғана жоғарыда көрсетілген мән стандартты қалыпты үлестірімге ие болады. . Бұл шарт орындалды деп есептейік.

Стандартты қалыпты таралу ±3 шегінде барлық дерлік мәндерге ие (үш сигма ережесі). Осылайша, біз бір градация үшін жиіліктердің салыстырмалы айырмашылығын алдық. Бізге жалпылама өлшем қажет. Сіз барлық ауытқуларды қоса алмайсыз - біз 0 аламыз (неге екенін біліңіз). Пирсон осы ауытқулардың квадраттарын қосуды ұсынды.

Бұл белгі Хи-квадрат сынағы Пирсон. Егер жиіліктер күтілгенге шынымен сәйкес келсе, онда критерийдің мәні салыстырмалы түрде аз болады (себебі ауытқулардың көпшілігі нөлге жуық). Бірақ егер критерий үлкен болып шықса, онда бұл жиіліктер арасындағы айтарлықтай айырмашылықтарды көрсетеді.

Пирсон критерийі мұндай немесе одан да үлкен мәннің пайда болуы екіталай болғанда «үлкен» болады. Ал мұндай ықтималдықты есептеу үшін тәжірибе көп рет қайталанғанда, жиілік келісімі гипотезасы дұрыс болғанда критерийдің таралуын білу қажет.

Көрінетіндей, хи-квадрат мәні де терминдер санына байланысты. Неғұрлым көп болса, критерийдің мәні соғұрлым көп болуы керек, өйткені әрбір термин жиынтыққа үлес қосады. Сондықтан әрбір мөлшер үшін тәуелсізшарттарына сәйкес, өзіндік үлестірім болады. Солай екен χ 2таратудың тұтас отбасы болып табылады.

Міне, біз бір нәзік сәтке келдік. Сан дегеніміз не тәуелсізшарттары? Кез келген термин (яғни ауытқу) тәуелсіз сияқты. К.Пирсон да солай ойлады, бірақ ол қате болып шықты. Іс жүзінде тәуелсіз терминдердің саны номиналды айнымалының градациялар санынан бір кем болады n. Неліктен? Өйткені, егер бізде жиіліктердің қосындысы есептелген үлгі болса, онда жиіліктердің бірін әрқашан жалпы сан мен барлық қалғандарының қосындысы арасындағы айырмашылық ретінде анықтауға болады. Демек, вариация біршама аз болады. Рональд Фишер бұл фактіні Пирсон өз критерийін жасағаннан кейін 20 жылдан кейін байқады. Тіпті үстелдерді қайта өңдеуге тура келді.

Осы орайда Фишер статистикаға жаңа тұжырымдаманы енгізді - еркіндік дәрежесі(еркіндік дәрежесі), бұл қосындыдағы тәуелсіз мүшелердің санын білдіреді. Еркіндік дәрежелері түсінігінің математикалық түсіндірмесі бар және тек қалыпты (Студенттік, Фишер-Снедекор және хи-квадраттың өзі) байланысты үлестірімде көрінеді.

Еркіндік дәрежелерінің мағынасын жақсырақ түсіну үшін физикалық аналогқа жүгінейік. Кеңістікте еркін қозғалатын нүктені елестетейік. Оның 3 еркіндік дәрежесі бар, өйткені үш өлшемді кеңістікте кез келген бағытта қозғала алады. Егер нүкте кез келген бет бойымен қозғалатын болса, онда ол үш өлшемді кеңістікте болуын жалғастырса да, оның екі еркіндік дәрежесі бар (алға-артқа, солға және оңға). Серіппе бойымен қозғалатын нүкте қайтадан үш өлшемді кеңістікте болады, бірақ тек бір ғана еркіндік дәрежесі бар, өйткені алға немесе артқа жылжи алады. Көріп отырғаныңыздай, объект орналасқан кеңістік әрқашан нақты қозғалыс еркіндігіне сәйкес келмейді.

Шамамен дәл осылай статистикалық критерийді бөлу оны есептеу үшін қажетті шарттарға қарағанда элементтердің аз санына байланысты болуы мүмкін. Жалпы алғанда, еркіндік дәрежелерінің саны бар тәуелділіктер саны бойынша бақылаулар санынан аз.

Осылайша, хи квадратының таралуы ( χ 2) таралулар тобы болып табылады, олардың әрқайсысы еркіндік дәрежесі параметріне байланысты. Ал хи-квадрат тестінің формальды анықтамасы келесідей. Тарату χ 2(хи-шаршы) с керкіндік дәрежесі – квадраттар қосындысының таралуы ктәуелсіз стандартты қалыпты кездейсоқ шамалар.

Әрі қарай, біз хи-квадрат бөлу функциясы есептелетін формуланың өзіне көшуге болады, бірақ, бақытымызға орай, бәрі біз үшін бұрыннан есептелген. Қызығушылықтың ықтималдығын алу үшін сәйкес статистикалық кестені немесе Excel бағдарламасындағы дайын функцияны пайдалануға болады.

Еркіндік дәрежелерінің санына байланысты хи-квадрат үлестірімінің пішіні қалай өзгеретінін көру қызықты.

Еркіндік дәрежесінің жоғарылауымен хи-квадраттың таралуы қалыпты болады. Бұл орталық шек теоремасының әрекетімен түсіндіріледі, оған сәйкес тәуелсіз кездейсоқ шамалардың үлкен санының қосындысы қалыпты үлестірімге ие болады. Шаршы туралы ештеңе айтпайды)).

Пирсон хи-квадрат сынағы арқылы гипотезаны тексеру

Енді хи-квадрат әдісін қолданып гипотезаларды тексеруге келеміз. Жалпы, технология сақталады. Нөлдік гипотеза – байқалатын жиіліктер күтілетін жиіліктерге сәйкес келеді (яғни, олардың арасында ешқандай айырмашылық жоқ, өйткені олар бір популяциядан алынған). Егер бұл солай болса, онда шашырау кездейсоқ ауытқулар шегінде салыстырмалы түрде аз болады. Дисперсия өлшемі хи-квадрат сынағы арқылы анықталады. Әрі қарай, не критерийдің өзі критикалық мәнмен салыстырылады (сәйкес мәнділік деңгейі мен еркіндік дәрежесі үшін), немесе, дұрысы, байқалған p-мәні есептеледі, яғни. егер нөлдік гипотеза ақиқат болса, бірдей немесе одан да үлкен критерий мәнін алу ықтималдығы.

Өйткені бізді жиіліктердің келісімі қызықтырады, онда критерий критериалды деңгейден жоғары болған кезде гипотеза қабылданбайды. Сол. критерий бір жақты. Дегенмен, кейде (кейде) сол жақ гипотезаны тексеру қажет. Мысалы, эмпирикалық деректер теориялық деректерге өте ұқсас болғанда. Содан кейін критерий екіталай аймаққа түсуі мүмкін, бірақ сол жақта. Табиғи жағдайда теориялық жиіліктермен іс жүзінде сәйкес келетін жиіліктерді алу екіталай. Қателік беретін кездейсоқтық әрқашан болады. Бірақ егер мұндай қате болмаса, онда деректер бұрмаланған болуы мүмкін. Дегенмен, оң жақты гипотеза әдетте тексеріледі.

Сүйектер мәселесіне қайта оралайық. Қолда бар мәліметтерді пайдалана отырып, хи-квадрат тестінің мәнін есептейік.

Енді 5 еркіндік дәрежесіндегі критикалық мәнді табайық ( к) және маңыздылық деңгейі 0,05 ( α ) хи квадратының таралуының критикалық мәндерінің кестесіне сәйкес.

Яғни, 5 еркіндік дәрежесі бар 0,05 квантил хи квадратының таралуы (оң жақ құйрық). χ 2 0,05; 5 = 11,1.

Нақты және кестелік мәндерді салыстырайық. 3.4 ( χ 2) < 11,1 (χ 2 0,05; 5). Есептелген критерий кішірек болып шықты, бұл жиіліктердің теңдігі (келісуі) гипотезасы жоққа шығарылмағанын білдіреді. Суретте жағдай осылай көрінеді.

Есептелген мән критикалық аймаққа түссе, нөлдік гипотеза қабылданбайды.

p-мәнін де есептеу дұрысырақ болар еді. Ол үшін кестедегі еркіндік дәрежесінің берілген саны үшін ең жақын мәнді тауып, сәйкес мәнділік деңгейін қарау керек. Бірақ бұл өткен ғасыр. Біз компьютерді, атап айтқанда MS Excel бағдарламасын қолданамыз. Excel бағдарламасында хи-квадратқа қатысты бірнеше функциялар бар.

Төменде олардың қысқаша сипаттамасы берілген.

CH2.OBR– сол жақта берілген ықтималдықтағы критерийдің критикалық мәні (статистикалық кестелердегідей)

CH2.OBR.PH– оң жақта берілген ықтималдық критерийінің критикалық мәні. Функция негізінен алдыңғысын қайталайды. Бірақ мұнда сіз деңгейді бірден көрсете аласыз α , оны 1-ден алып тастаудың орнына. Бұл ыңғайлырақ, өйткені көп жағдайда бөлудің оң жақ құйрығы қажет.

CH2.DIST– сол жақта p-мәні (тығыздығын есептеуге болады).

CH2.DIST.PH– оң жақта p-мәні.

CHI2.ТЕСТ– бірден екі жиілік диапазоны үшін хи-квадрат сынамасын жүргізеді. Еркіндік дәрежелерінің саны бағандағы жиіліктер санынан бір кем қабылданады (ол солай болуы керек), p-мәнін қайтарады.

Біздің тәжірибеміз үшін 5 еркіндік дәрежесі және альфа 0,05 үшін критикалық (кестелік) мәнді есептейік. Excel формуласы келесідей болады:

CH2.OBR(0,95;5)

CH2.OBR.PH(0,05;5)

Нәтиже бірдей болады - 11.0705. Бұл кестеде көретін мән (1 ондық бөлшекке дейін дөңгелектенеді).

Ақырында еркіндік критерийінің 5 дәрежесі үшін p-мәнін есептейік χ 2= 3.4. Бізге оң жақта ықтималдық қажет, сондықтан функцияны HH (оң жақ құйрық) қосу арқылы аламыз.

CH2.DIST.PH(3,4;5) = 0,63857

Бұл 5 еркіндік дәрежесімен критерий мәнін алу ықтималдығын білдіреді χ 2= 3,4 және одан да көп дерлік 64% құрайды. Әрине, гипотеза жоққа шығарылмайды (p-мәні 5% -дан жоғары), жиіліктер өте жақсы сәйкес келеді.

Енді хи-квадрат тесті мен Excel бағдарламасының CHI2.TEST функциясы арқылы жиіліктердің келісімі туралы гипотезаны тексерейік.

Ешқандай кестелер, күрделі есептеулер жоқ. Бақыланатын және күтілетін жиіліктері бар бағандарды функция аргументтері ретінде көрсету арқылы біз бірден p-мәнін аламыз. Сұлулық.

Енді сіз күдікті жігітпен сүйек ойнап жатырсыз деп елестетіңіз. 1-ден 5-ке дейінгі ұпайларды бөлу өзгеріссіз қалады, бірақ ол 26 алтылық айналдырады (жалпы лақтыру саны 78 болады).

Бұл жағдайда p-мәні 0,003 болып шығады, бұл 0,05-тен әлдеқайда аз. Сүйектердің жарамдылығына күмәндануға жақсы себептер бар. Міне, бұл ықтималдық хи-квадрат үлестіру диаграммасында қалай көрінеді.

Мұнда хи-квадрат критерийінің өзі 17,8 болып шығады, бұл, әрине, бірінші кестеден (11,1) үлкен.

Мен келісім критерийінің не екенін түсіндіре алдым деп үміттенемін χ 2(Пирсон хи-квадраты) және оны статистикалық гипотезаларды тексеру үшін қалай пайдалануға болады.

Ақырында, тағы бір маңызды шарт туралы! Хи-квадрат сынағы барлық жиіліктердің саны 50-ден асқанда және әрбір градация үшін ең аз күтілетін мән 5-тен кем емес болғанда ғана дұрыс жұмыс істейді. Кез келген санатта күтілетін жиілік 5-тен аз болса, бірақ барлық жиіліктердің қосындысы асатын болса. 50 болса, онда мұндай категория олардың жалпы жиілігі 5-тен асатындай ең жақынымен біріктіріледі. Егер бұл мүмкін болмаса немесе жиіліктердің қосындысы 50-ден аз болса, онда гипотезаны тексерудің дәлірек әдістерін қолдану керек. Олар туралы басқа кезде айтатын боламыз.

Төменде хи-квадрат тесті арқылы Excel бағдарламасында гипотезаны тексеру жолы туралы бейне берілген.

U 1, U 2, ..,U k тәуелсіз стандартты қалыпты мәндер болсын. Кездейсоқ шама K = U 1 2 +U 2 2 + .. + U k 2 үлестірімі хи-квадрат үлестірімі деп аталады. керкіндік дәрежелері (K~χ 2 (k) деп жазыңыз). Бұл оң қиғаштығы және келесі сипаттамалары бар бірмодальды үлестірім: режим M=k-2 математикалық күту m=k дисперсия D=2k (сурет). Параметрдің жеткілікті үлкен мәнімен кχ 2 (k) таралу параметрлері бар шамамен қалыпты таралуға ие

Математикалық статистика есептерін шешу кезінде берілген α ықтималдығы мен еркіндік дәрежесінің санына байланысты χ 2 (k) сын нүктелері қолданылады. к(2-қосымша). Χ 2 kr = Χ 2 (k; α) критикалық нүкте – таралу тығыздығы қисығы астындағы ауданның 100- α % оң жағында жатқан аймақтың шекарасы. Тестілеу кезінде K~χ 2 (k) кездейсоқ шамасының мәні χ 2 (k) нүктесінің оң жағына түсу ықтималдығы α P(K≥χ 2 kp)≤ α) аспайды. Мысалы, K~χ 2 (20) кездейсоқ шама үшін α=0,05 ықтималдығын орнатамыз. Хи-квадрат үлестірімінің критикалық нүктелерінің кестесін (кестелер) пайдалана отырып, χ 2 кп = χ 2 (20;0,05) = 31,4 табамыз. Бұл кездейсоқ шаманың ықтималдығы дегенді білдіреді Қ 31,4-тен үлкен, 0,05-тен аз мәнді алыңыз (сурет).

Күріш. Таралу тығыздығының графигі χ 2 (k) еркіндік дәрежесі санының әртүрлі мәндері үшін к

χ 2 (k) критикалық нүктелері келесі калькуляторларда қолданылады:

  1. Мультиколлинеарлылықты тексеру (мультиколлинеарлық туралы).
Хи-квадрат көмегімен гипотезаны тексеру тек «қарым-қатынас бар ма?» деген сұраққа жауап береді, қарым-қатынас бағытын тексеру үшін қосымша зерттеулер қажет. Сонымен қатар, хи-квадрат тесті төмен жиілікті деректермен жұмыс істегенде белгілі бір қателікке ие.

Сондықтан байланыс бағытын тексеру үшін корреляциялық талдау таңдалады, атап айтқанда, Пирсон корреляция коэффициенті арқылы гипотезаны сынау және t-тестінің көмегімен маңыздылығын одан әрі сынау.

Маңыздылық деңгейінің кез келген мәні үшін α Χ 2 мәнін MS Excel функциясы арқылы табуға болады: =HI2OBR(α;еркіндік дәрежелері)

n-1 .995 .990 .975 .950 .900 .750 .500 .250 .100 .050 .025 .010 .005
1 0.00004 0.00016 0.00098 0.00393 0.01579 0.10153 0.45494 1.32330 2.70554 3.84146 5.02389 6.63490 7.87944
2 0.01003 0.02010 0.05064 0.10259 0.21072 0.57536 1.38629 2.77259 4.60517 5.99146 7.37776 9.21034 10.59663
3 0.07172 0.11483 0.21580 0.35185 0.58437 1.21253 2.36597 4.10834 6.25139 7.81473 9.34840 11.34487 12.83816
4 0.20699 0.29711 0.48442 0.71072 1.06362 1.92256 3.35669 5.38527 7.77944 9.48773 11.14329 13.27670 14.86026
5 0.41174 0.55430 0.83121 1.14548 1.61031 2.67460 4.35146 6.62568 9.23636 11.07050 12.83250 15.08627 16.74960
6 0.67573 0.87209 1.23734 1.63538 2.20413 3.45460 5.34812 7.84080 10.64464 12.59159 14.44938 16.81189 18.54758
7 0.98926 1.23904 1.68987 2.16735 2.83311 4.25485 6.34581 9.03715 12.01704 14.06714 16.01276 18.47531 20.27774
8 1.34441 1.64650 2.17973 2.73264 3.48954 5.07064 7.34412 10.21885 13.36157 15.50731 17.53455 20.09024 21.95495
9 1.73493 2.08790 2.70039 3.32511 4.16816 5.89883 8.34283 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935
10 2.15586 2.55821 3.24697 3.94030 4.86518 6.73720 9.34182 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818
11 2.60322 3.05348 3.81575 4.57481 5.57778 7.58414 10.34100 13.70069 17.27501 19.67514 21.92005 24.72497 26.75685
12 3.07382 3.57057 4.40379 5.22603 6.30380 8.43842 11.34032 14.84540 18.54935 21.02607 23.33666 26.21697 28.29952
13 3.56503 4.10692 5.00875 5.89186 7.04150 9.29907 12.33976 15.98391 19.81193 22.36203 24.73560 27.68825 29.81947
14 4.07467 4.66043 5.62873 6.57063 7.78953 10.16531 13.33927 17.11693 21.06414 23.68479 26.11895 29.14124 31.31935
15 4.60092 5.22935 6.26214 7.26094 8.54676 11.03654 14.33886 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132
16 5.14221 5.81221 6.90766 7.96165 9.31224 11.91222 15.33850 19.36886 23.54183 26.29623 28.84535 31.99993 34.26719
17 5.69722 6.40776 7.56419 8.67176 10.08519 12.79193 16.33818 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847
18 6.26480 7.01491 8.23075 9.39046 10.86494 13.67529 17.33790 21.60489 25.98942 28.86930 31.52638 34.80531 37.15645
19 6.84397 7.63273 8.90652 10.11701 11.65091 14.56200 18.33765 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226
20 7.43384 8.26040 9.59078 10.85081 12.44261 15.45177 19.33743 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685
21 8.03365 8.89720 10.28290 11.59131 13.23960 16.34438 20.33723 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106
22 8.64272 9.54249 10.98232 12.33801 14.04149 17.23962 21.33704 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565
23 9.26042 10.19572 11.68855 13.09051 14.84796 18.13730 22.33688 27.14134 32.00690 35.17246 38.07563 41.63840 44.18128
24 9.88623 10.85636 12.40115 13.84843 15.65868 19.03725 23.33673 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851
25 10.51965 11.52398 13.11972 14.61141 16.47341 19.93934 24.33659 29.33885 34.38159 37.65248 40.64647 44.31410 46.92789
26 11.16024 12.19815 13.84390 15.37916 17.29188 20.84343 25.33646 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988
27 11.80759 12.87850 14.57338 16.15140 18.11390 21.74940 26.33634 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492
28 12.46134 13.56471 15.30786 16.92788 18.93924 22.65716 27.33623 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338
29 13.12115 14.25645 16.04707 17.70837 19.76774 23.56659 28.33613 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562
30 13.78672 14.95346 16.79077 18.49266 20.59923 24.47761 29.33603 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196
Еркіндік дәрежелерінің саны к Маңыздылық деңгейі a
0,01 0,025 0.05 0,95 0,975 0.99
1 6.6 5.0 3.8 0.0039 0.00098 0.00016
2 9.2 7.4 6.0 0.103 0.051 0.020
3 11.3 9.4 7.8 0.352 0.216 0.115
4 13.3 11.1 9.5 0.711 0.484 0.297
5 15.1 12.8 11.1 1.15 0.831 0.554
6 16.8 14.4 12.6 1.64 1.24 0.872
7 18.5 16.0 14.1 2.17 1.69 1.24
8 20.1 17.5 15.5 2.73 2.18 1.65
9 21.7 19.0 16.9 3.33 2.70 2.09
10 23.2 20.5 18.3 3.94 3.25 2.56
11 24.7 21.9 19.7 4.57 3.82 3.05
12 26.2 23.3 21 .0 5.23 4.40 3.57
13 27.7 24.7 22.4 5.89 5.01 4.11
14 29.1 26.1 23.7 6.57 5.63 4.66
15 30.6 27.5 25.0 7.26 6.26 5.23
16 32.0 28.8 26.3 7.96 6.91 5.81
17 33.4 30.2 27.6 8.67 7.56 6.41
18 34.8 31.5 28.9 9.39 8.23 7.01
19 36.2 32.9 30.1 10.1 8.91 7.63
20 37.6 34.2 31.4 10.9 9.59 8.26
21 38.9 35.5 32.7 11.6 10.3 8.90
22 40.3 36.8 33.9 12.3 11.0 9.54
23 41.6 38.1 35.2 13.1 11.7 10.2
24 43.0 39.4 36.4 13.8 12.4 10.9
25 44.3 40.6 37.7 14.6 13.1 11.5
26 45.6 41.9 38.9 15.4 13.8 12.2
27 47.0 43.2 40.1 16.2 14.6 12.9
28 48.3 44.5 41.3 16.9 15.3 13.6
29 49.6 45.7 42.6 17.7 16.0 14.3
30 50.9 47.0 43.8 18.5 16.8 15.0