وظيفة توزيع مربع تشي. توزيع مربع تشي

النظر في توزيع مربع كاي. باستخدام وظيفة MS EXCELCH2.DIST() دعونا نرسم دالة التوزيع والكثافة الاحتمالية، ونشرح استخدام هذا التوزيع لأغراض الإحصاء الرياضي.

توزيع مربع كاي (× 2، الحادي عشر،إنجليزيتشي- تربيعتوزيع) تستخدم في طرق مختلفة للإحصاء الرياضي:

  • أثناء البناء
  • في ؛
  • في (هل تتفق البيانات التجريبية مع افتراضنا حول دالة التوزيع النظرية أم لا، جودة الملاءمة الإنجليزية)
  • في (يستخدم لتحديد العلاقة بين متغيرين فئويين، اختبار الارتباط بمربع كاي الإنجليزي).

تعريف: إذا كانت x 1 , x 2 , …, x n متغيرات عشوائية مستقلة موزعة على N(0;1)، فإن توزيع المتغير العشوائي Y=x 1 2 + x 2 2 +…+ x n 2 له توزيع × 2 مع ن درجات الحرية.

توزيع × 2 يعتمد على معلمة واحدة تسمى درجة الحرية (df, درجاتلحرية). على سبيل المثال، عند البناء عدد درجات الحريةيساوي df=n-1، حيث n هو الحجم عينات.

كثافة التوزيع × 2 يعبر عنها بالصيغة:

الرسوم البيانية الوظيفية

توزيع × 2 له شكل غير متماثل، يساوي n، يساوي 2n.

في ملف المثال على ورقة الرسم البيانيمنح الرسوم البيانية لكثافة التوزيعالاحتمالات و دالة التوزيع التراكمي.

خاصية مفيدة توزيعات CH2

دع x 1 , x 2 , …, x n تكون متغيرات عشوائية مستقلة موزعة على القانون العادي بنفس المعلمات μ و σ و X أفيكون يعني حسابيهذه القيم x.
ثم متغير عشوائي ذمتساوي

لديه × 2 -توزيعمع درجات الحرية n-1. باستخدام التعريف، يمكن إعادة كتابة التعبير أعلاه على النحو التالي:

لذلك، توزيع العيناتالإحصائيات ذ، في عينةمن التوزيع الطبيعي، لديه × 2 -توزيعمع درجات الحرية n-1.

سنحتاج إلى هذه الخاصية عندما . لأن تشتتلا يمكن إلا أن يكون عددا إيجابيا، و × 2 -توزيعيتم استخدامه لتقييم ذلك، ثم ذديسيبل. >0 كما هو مذكور في التعريف.

توزيع CH2 في MS EXCEL

في MS EXCEL، بدءًا من الإصدار 2010، لـ × 2 -التوزيعاتهناك وظيفة خاصة CHI2.DIST()، الاسم الانجليزي– CHISQ.DIST()، الذي يسمح لك بالحساب كثافة الاحتمالية(انظر الصيغة أعلاه) و (احتمال وجود متغير عشوائي X CI2-توزيع، ستأخذ قيمة أقل من أو تساوي x، P(X<= x}).

ملحوظة: لأن توزيع CH2هي حالة خاصة، ثم الصيغة =GAMMA.DIST(x;n/2;2;TRUE)بالنسبة لعدد صحيح موجب n، تُرجع نفس نتيجة الصيغة =CHI2.DIST(x;n; TRUE)أو =1-CHI2.DIST.PH(x;n) . والصيغة =GAMMA.DIST(x;n/2;2;FALSE)ترجع نفس النتيجة مثل الصيغة =CHI2.DIST(x;n; FALSE)، أي. كثافة الاحتمالية توزيعات CH2.

ترجع الدالة HI2.DIST.PH() وظيفة التوزيع، بتعبير أدق، الاحتمال من الجانب الأيمن، أي. ف(س > س). ومن الواضح أن المساواة صحيحة
=CHI2.DIST.PH(x;n)+CHI2.DIST(x;n;TRUE)=1
لأن يحسب المصطلح الأول الاحتمال P(X > x)، والثاني P(X<= x}.

قبل MS EXCEL 2010، كان EXCEL يحتوي فقط على وظيفة CH2DIST()، والتي تسمح لك بحساب الاحتمال على الجانب الأيمن، أي. ف(س > س). تغطي إمكانيات وظائف MS EXCEL 2010 الجديدة XI2.DIST() وXI2.DIST.PH() إمكانيات هذه الوظيفة. تم ترك الدالة CH2DIST() في MS EXCEL 2010 من أجل التوافق.

CHI2.DIST() هي الدالة الوحيدة التي تُرجع الكثافة الاحتمالية لتوزيع chi2(يجب أن تكون الوسيطة الثالثة FALSE). تعود بقية الوظائف دالة التوزيع التراكمي، أي. احتمال أن يأخذ المتغير العشوائي قيمة من النطاق المحدد: P(X<= x}.

وظائف MS EXCEL المذكورة أعلاه مذكورة في .

أمثلة

دعونا نوجد احتمال أن يأخذ المتغير العشوائي X قيمة أقل من أو تساوي القيمة المعطاة س: ف(X<= x}. Это можно сделать несколькими функциями:

CHI2.DIST(x; n; TRUE)
=1-HI2.DIST.PH(x; n)
=1-CHI2DIST(x;n)

ترجع الدالة CH2.DIST.PH() الاحتمال P(X > x)، وهو ما يسمى باحتمال اليد اليمنى، وذلك للعثور على P(X<= x}, необходимо вычесть ее результат от 1.

دعونا نوجد احتمال أن يأخذ المتغير العشوائي X قيمة أكبر من القيمة المعطاة س: ف(X > س). يمكن القيام بذلك من خلال عدة وظائف:

1-CHI2.DIST(x; n; TRUE)
=HI2.DIST.PH(x; n)
=CHI2DIST(x;n)

دالة توزيع chi2 العكسية

يتم استخدام الدالة العكسية لحساب ألفا- ، أي. لحساب القيم سلاحتمال معين ألفا، و Xيجب أن يفي بالتعبير P(X<= x}=ألفا.

يتم استخدام الدالة CH2.INV() لحساب فترات الثقة لتباين التوزيع الطبيعي.

يتم استخدام الدالة CHI2.OBR.PH() لحساب، أي. إذا تم تحديد مستوى الأهمية كوسيطة للدالة، على سبيل المثال 0.05، فسوف تقوم الدالة بإرجاع قيمة المتغير العشوائي x الذي P(X>x)=0.05. على سبيل المقارنة: ستُرجع الدالة XI2.INR() قيمة المتغير العشوائي x الذي من أجله P(X<=x}=0,05.

في MS EXCEL 2007 والإصدارات السابقة، بدلاً من HI2.OBR.PH()، تم استخدام الدالة HI2OBR().

يمكن تبادل الوظائف المذكورة أعلاه، لأن الصيغ التالية ترجع نفس النتيجة:
=CHI.OBR(alpha;n)
=HI2.OBR.PH(1-alpha;n)
=CHI2INV(1- ألفا;ن)

وترد بعض الأمثلة على العمليات الحسابية في ملف المثال في ورقة الوظائف.

يعمل MS EXCEL باستخدام توزيع CH2

فيما يلي المراسلات بين أسماء الوظائف الروسية والإنجليزية:
CH2.DIST.PH() - الإنجليزية. الاسم CHISQ.DIST.RT، أي. توزيع مربع كاي الذيل الأيمن، توزيع مربع كاي (د) ذو الذيل الأيمن
CH2.OBR() - الإنجليزية. اسم CHISQ.INV، أي. توزيع CHI التربيعي INVerse
CH2.PH.OBR() - الإنجليزية. الاسم CHISQ.INV.RT، أي توزيع CHI-Squared INVerse Right Tail
CH2DIST() - الإنجليزية. الاسم CHIDIST، الدالة المكافئة لـ CHISQ.DIST.RT
CH2OBR() - الإنجليزية. اسم CHIINV، أي. توزيع CHI التربيعي INVerse

تقدير معلمات التوزيع

لأن عادة توزيع CH2تستخدم لأغراض الإحصاء الرياضي (الحساب فترات الثقة, اختبار الفرضيات، وما إلى ذلك).وتقريبا أبدا لبناء نماذج من القيم الحقيقية، ثم بالنسبة لهذا التوزيع لا يتم إجراء مناقشة لتقدير معلمات التوزيع هنا.

تقريب توزيع CI2 بالتوزيع الطبيعي

مع عدد درجات الحرية n>30 التوزيع × 2تقريب جيد التوزيع الطبيعيمع متوسط ​​القيمةμ=ن و التباين σ=2*ن (انظر مثال على ملف ورقة التقريب).

اختبار \(\chi^2\) ("مربع كاي"، أيضًا "اختبار بيرسون لجودة الملاءمة") له تطبيق واسع للغاية في الإحصاء. بشكل عام، يمكننا القول أنه يستخدم لاختبار الفرضية الصفرية القائلة بأن المتغير العشوائي المرصود يخضع لقانون توزيع نظري معين (لمزيد من التفاصيل، انظر على سبيل المثال). ستختلف الصياغة المحددة للفرضية التي يتم اختبارها من حالة إلى أخرى.

سأصف في هذا المنشور كيفية عمل معيار \(\chi^2\) باستخدام مثال (افتراضي) من علم المناعة. دعونا نتخيل أننا أجرينا تجربة لتحديد مدى فعالية قمع تطور المرض الميكروبي عندما يتم إدخال الأجسام المضادة المناسبة في الجسم. شارك في التجربة 111 فأرًا، وقسمناها إلى مجموعتين، بما في ذلك 57 و54 فأرًا، على التوالي. تلقت المجموعة الأولى من الفئران حقناً بالبكتيريا المسببة للأمراض، أعقبها إدخال مصل الدم الذي يحتوي على أجسام مضادة ضد هذه البكتيريا. كانت حيوانات المجموعة الثانية بمثابة مجموعة تحكم، حيث تلقت حقنًا بكتيرية فقط. وبعد فترة من الحضانة، تبين أن 38 فأرًا ماتوا ونجا 73 فأرًا. ومن بين القتلى 13 ينتمي إلى المجموعة الأولى، و25 إلى الثانية (السيطرة). يمكن صياغة الفرضية الصفرية التي تم اختبارها في هذه التجربة على النحو التالي: إعطاء المصل مع الأجسام المضادة ليس له أي تأثير على بقاء الفئران. بمعنى آخر، نحن نرى أن الاختلافات الملحوظة في بقاء الفأر على قيد الحياة (77.2% في المجموعة الأولى مقابل 53.7% في المجموعة الثانية) عشوائية تمامًا ولا تتعلق بتأثير الأجسام المضادة.

يمكن عرض البيانات التي تم الحصول عليها في التجربة في شكل جدول:

المجموع

بكتيريا + مصل

البكتيريا فقط

المجموع

الجداول مثل تلك الموضحة تسمى جداول الطوارئ. في المثال قيد النظر، أبعاد الجدول 2x2: هناك فئتان من الكائنات ("بكتيريا + مصل" و"بكتيريا فقط")، والتي يتم فحصها وفقًا لمعيارين ("ميتة" و"ناجية"). هذه هي أبسط حالة لجدول الاحتمالات: بالطبع، يمكن أن يكون عدد الفئات التي تتم دراستها وعدد الميزات أكبر.

لاختبار فرضية العدم المذكورة أعلاه، نحتاج إلى معرفة ما سيكون عليه الوضع إذا لم يكن للأجسام المضادة أي تأثير فعليًا على بقاء الفئران. بمعنى آخر، عليك أن تحسب الترددات المتوقعةللخلايا المقابلة لجدول الطوارئ. كيف تفعل هذا؟ في التجربة، مات إجمالي 38 فأرًا، وهو ما يمثل 34.2% من إجمالي عدد الحيوانات المشاركة. إذا لم يؤثر إعطاء الأجسام المضادة على بقاء الفئران، فيجب ملاحظة نفس النسبة المئوية للوفيات في كلا المجموعتين التجريبيتين، وهي 34.2%. بحساب مقدار 34.2% من 57 و54، نحصل على 19.5 و18.5. هذه هي معدلات الوفيات المتوقعة في مجموعاتنا التجريبية. يتم حساب معدلات البقاء المتوقعة بطريقة مماثلة: بما أن إجمالي 73 فأرًا نجا، أو 65.8% من العدد الإجمالي، فإن معدلات البقاء المتوقعة ستكون 37.5 و35.5. لنقم بإنشاء جدول طوارئ جديد، الآن بالتكرارات المتوقعة:

ميت

الناجين

المجموع

بكتيريا + مصل

البكتيريا فقط

المجموع

وكما نرى فإن الترددات المتوقعة تختلف تماماً عن الترددات المرصودة، أي. يبدو أن إعطاء الأجسام المضادة له تأثير على بقاء الفئران المصابة بالعامل الممرض. يمكننا قياس هذا الانطباع باستخدام اختبار بيرسون لمدى الملاءمة \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


حيث \(f_o\) و \(f_e\) هما الترددان الملاحظان والمتوقعان، على التوالي. يتم تنفيذ الجمع على كافة خلايا الجدول. لذلك، على سبيل المثال قيد النظر لدينا

\[\chi^2 = (13 – 19.5)^2/19.5 + (44 – 37.5)^2/37.5 + (25 – 18.5)^2/18.5 + (29 – 35.5)^2/35.5 = \]

هل القيمة الناتجة لـ \(\chi^2\) كبيرة بما يكفي لرفض فرضية العدم؟ للإجابة على هذا السؤال من الضروري إيجاد القيمة الحرجة المقابلة للمعيار. يتم حساب عدد درجات الحرية لـ \(\chi^2\) على النحو \(df = (R - 1)(C - 1)\)، حيث \(R\) و \(C\) هما الرقم من الصفوف والأعمدة في الجدول الاقتران. في حالتنا \(df = (2 -1)(2 - 1) = 1\). بمعرفة عدد درجات الحرية، يمكننا الآن بسهولة معرفة القيمة الحرجة \(\chi^2\) باستخدام دالة R القياسية qchisq() :


وبالتالي، مع درجة واحدة من الحرية، فقط في 5٪ من الحالات تتجاوز قيمة المعيار \(\chi^2\) 3.841. القيمة التي حصلنا عليها، 6.79، تتجاوز هذه القيمة الحرجة بشكل كبير، مما يمنحنا الحق في رفض الفرضية الصفرية القائلة بعدم وجود علاقة بين إعطاء الأجسام المضادة وبقاء الفئران المصابة على قيد الحياة. وبرفض هذه الفرضية، فإننا نجازف بأن نكون مخطئين باحتمال أقل من 5%.

تجدر الإشارة إلى أن الصيغة المذكورة أعلاه للمعيار \(\chi^2\) تعطي قيمًا مضخمة قليلاً عند العمل مع جداول الاحتمالات بحجم 2x2. والسبب هو أن توزيع المعيار \(\chi^2\) نفسه مستمر، في حين أن ترددات السمات الثنائية ("مات" / "نجا") تكون بحكم التعريف منفصلة. وفي هذا الصدد، عند حساب المعيار، من المعتاد تقديم ما يسمى تصحيح الاستمرارية، أو تعديل ييتس :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0.5)^2)(f_e).\]

بيرسون "اختبار مربع كاي مع ييتس"بيانات تصحيح الاستمرارية: الفئران X-squared = 5.7923، df = 1، القيمة p = 0.0161


كما نرى، يقوم R تلقائيًا بتطبيق تصحيح استمرارية Yates ( اختبار بيرسون كاي تربيع مع تصحيح الاستمرارية ييتس). قيمة \(\chi^2\) التي حسبها البرنامج كانت 5.79213. يمكننا رفض الفرضية الصفرية القائلة بعدم وجود تأثير للأجسام المضادة مع وجود خطر الخطأ مع احتمال يزيد قليلاً عن 1% (قيمة p = 0.0161).

وزارة التعليم والعلوم في الاتحاد الروسي

الوكالة الفيدرالية للتعليم لمدينة إيركوتسك

جامعة ولاية بايكال للاقتصاد والقانون

قسم المعلوماتية وعلم التحكم الآلي

توزيع مربع كاي وتطبيقاته

كولميكوفا آنا أندريفنا

طالب في السنة الثانية

المجموعة IS-09-1

لمعالجة البيانات التي تم الحصول عليها نستخدم اختبار مربع كاي.

للقيام بذلك، سنقوم ببناء جدول لتوزيع التكرارات التجريبية، أي. تلك الترددات التي نلاحظها:

ومن الناحية النظرية نتوقع أن يتم توزيع الترددات بالتساوي، أي. سيتم توزيع التردد بشكل متناسب بين الأولاد والبنات. دعونا نبني جدول التكرارات النظرية. للقيام بذلك، اضرب مجموع الصف في مجموع العمود واقسم الرقم الناتج على المجموع (المجموعات) الإجمالي.


سيبدو الجدول النهائي للحسابات كما يلي:

χ2 = ∑(E - T)² / T

n = (R - 1)، حيث R هو عدد الصفوف في الجدول.

في حالتنا، مربع كاي = 4.21؛ ن = 2.

وباستخدام جدول القيم الحرجة للمعيار نجد: مع n = 2 ومستوى خطأ 0.05، تكون القيمة الحرجة هي χ2 = 5.99.

القيمة الناتجة أقل من القيمة الحرجة مما يعني قبول الفرضية الصفرية.

الاستنتاج: لا يولي المعلمون أهمية لجنس الطفل عند كتابة الصفات له.

طلب

النقاط الحرجة للتوزيع χ2

الجدول 1

خاتمة

يدرس الطلاب من جميع التخصصات تقريبًا قسم "نظرية الاحتمالية والإحصاء الرياضي" في نهاية دورة الرياضيات العليا؛ وفي الواقع، يتعرفون فقط على بعض المفاهيم والنتائج الأساسية، والتي من الواضح أنها لا تكفي للعمل العملي. يتعرف الطلاب على بعض أساليب البحث الرياضي في مقررات خاصة (على سبيل المثال "التنبؤ والتخطيط الفني والاقتصادي"، "التحليل الفني والاقتصادي"، "مراقبة جودة المنتج"، "التسويق"، "التحكم"، "الطرق الرياضية للتنبؤ" ") "، "الإحصائيات"، وما إلى ذلك - في حالة طلاب التخصصات الاقتصادية)، ومع ذلك، فإن العرض التقديمي في معظم الحالات مختصر للغاية وذو طبيعة محددة. ونتيجة لذلك، فإن معرفة المتخصصين في الإحصاء التطبيقي غير كافية.

ولذلك فإن دورة “الإحصاء التطبيقي” في الجامعات التقنية لها أهمية كبيرة، ودورة “الاقتصاد القياسي” في الجامعات الاقتصادية، حيث أن الاقتصاد القياسي كما هو معروف هو التحليل الإحصائي لبيانات اقتصادية محددة.

توفر نظرية الاحتمالية والإحصائيات الرياضية المعرفة الأساسية للإحصاءات التطبيقية والاقتصاد القياسي.

فهي ضرورية للمتخصصين للعمل العملي.

لقد نظرت إلى النموذج الاحتمالي المستمر وحاولت إظهار استخدامه بالأمثلة.

قائمة الأدب المستخدم

1. أورلوف أ. الإحصائيات التطبيقية. م: دار النشر "امتحان"، 2004.

2. جمورمان ف. نظرية الاحتمالات والإحصاء الرياضي. م: الثانوية العامة 1999. – 479 ص.

3. أيفوزيان س.أ. نظرية الاحتمالية والإحصاء التطبيقي، المجلد 1. م: الوحدة، 2001. – 656 ص.

4. خاميتوف جي.بي.، فيديرنيكوفا تي.آي. الاحتمالات والإحصائيات. إيركوتسك: BGUEP، 2006 – 272 ص.

5. إزوفا إل.ن. الاقتصاد القياسي. إيركوتسك: BGUEP، 2002. – 314 ص.

6. موستيلر ف. خمسون مسألة احتمالية مسلية مع الحلول. م: ناوكا، 1975. – 111 ص.

7. موستيلر واو الاحتمالية. م: مير، 1969. – 428 ص.

8. ياجلوم أ.م. الاحتمالية والمعلومات. م: ناوكا، 1973. – 511 ص.

9. تشيستياكوف ف.ب. دورة نظرية الاحتمالات. م: ناوكا، 1982. – 256 ص.

10. كريمر ن.ش. نظرية الاحتمالات والإحصاء الرياضي. م: الوحدة، 2000. – 543 ص.

11. الموسوعة الرياضية، المجلد الأول. م: الموسوعة السوفييتية، 1976. – 655 ص.

12. http://psystat.at.ua/ - إحصائيات في علم النفس والتربية. المادة اختبار مربع كاي.

حتى نهاية القرن التاسع عشر، كان التوزيع الطبيعي يعتبر القانون العالمي لتغير البيانات. ومع ذلك، أشار ك. بيرسون إلى أن الترددات التجريبية يمكن أن تختلف بشكل كبير عن التوزيع الطبيعي. السؤال المطروح هو كيفية إثبات ذلك. ولم تكن هناك حاجة إلى مقارنة رسومية، وهي مقارنة ذاتية، فحسب، بل كانت هناك حاجة أيضًا إلى تبرير كمي صارم.

هكذا تم اختراع المعيار χ 2(مربع تشي)، الذي يختبر أهمية التناقض بين الترددات التجريبية (المرصودة) والنظرية (المتوقعة). حدث هذا في عام 1900، لكن المعيار لا يزال قيد الاستخدام حتى اليوم. وعلاوة على ذلك، فقد تم تكييفها لحل مجموعة واسعة من المشاكل. بادئ ذي بدء، هذا هو تحليل البيانات الفئوية، أي. تلك التي لا يتم التعبير عنها بالكمية، ولكن بالانتماء إلى فئة معينة. على سبيل المثال، فئة السيارة، وجنس المشارك في التجربة، ونوع النبات، وما إلى ذلك. لا يمكن تطبيق العمليات الرياضية مثل الجمع والضرب على مثل هذه البيانات، ولا يمكن حساب التكرارات إلا لها.

نشير إلى الترددات المرصودة حول (ملاحظة)، مُتوقع - ه (متوقع). على سبيل المثال، لنأخذ نتيجة رمي حجر النرد 60 مرة. وإذا كان متماثلًا وموحدًا، فإن احتمال الحصول على أي ضلع هو 1/6 وبالتالي فإن العدد المتوقع للحصول على كل ضلع هو 10 (1/6∙60). نكتب التكرارات المرصودة والمتوقعة في جدول ونرسم رسماً بيانياً.

الفرضية الصفرية هي أن التكرارات متسقة، أي أن البيانات الفعلية لا تتعارض مع البيانات المتوقعة. الفرضية البديلة هي أن الانحرافات في الترددات تتجاوز التقلبات العشوائية، والتناقضات ذات دلالة إحصائية. لاستخلاص نتيجة صارمة، نحن بحاجة.

  1. مقياس موجز للتناقض بين الترددات المرصودة والمتوقعة.
  2. توزيع هذا المقياس إذا كانت الفرضية القائلة بعدم وجود فروق صحيحة.

لنبدأ بالمسافة بين الترددات. إذا كنت تأخذ الفرق فقط أو - إي، فإن مثل هذا الإجراء سيعتمد على حجم البيانات (الترددات). على سبيل المثال، 20 - 5 = 15 و1020 - 1005 = 15. وفي كلتا الحالتين يكون الفرق 15. لكن في الحالة الأولى تكون التكرارات المتوقعة أقل بثلاث مرات من التكرارات المرصودة، وفي الحالة الثانية - 1.5 فقط %. نحن بحاجة إلى مقياس نسبي لا يعتمد على الحجم.

دعونا ننتبه إلى الحقائق التالية. بشكل عام، يمكن أن يكون عدد الفئات التي يتم قياس الترددات فيها أكبر بكثير، وبالتالي فإن احتمال وقوع ملاحظة واحدة ضمن فئة أو أخرى يكون صغيرًا جدًا. إذا كان الأمر كذلك، فإن توزيع مثل هذا المتغير العشوائي سوف يخضع لقانون الأحداث النادرة، المعروف باسم قانون بواسون. وفي قانون بواسون، كما هو معروف، تتطابق قيمة التوقع الرياضي مع التباين (المعلمة λ ). وهذا يعني أن التكرار المتوقع لبعض فئات المتغير الاسمي ه طسوف تكون متزامنة وتشتت. علاوة على ذلك، يميل قانون بواسون إلى الوضع الطبيعي مع وجود عدد كبير من الملاحظات. ومن خلال الجمع بين هاتين الحقيقتين نحصل على أنه إذا كانت الفرضية الخاصة بالتوافق بين التكرارات المرصودة والمتوقعة صحيحة، فإن: مع عدد كبير من الملاحظات، تعبير

من المهم أن نتذكر أن الحالة الطبيعية لن تظهر إلا عند ترددات عالية بما فيه الكفاية. في الإحصاء، من المقبول عمومًا أن إجمالي عدد المشاهدات (مجموع التكرارات) يجب أن يكون 50 على الأقل وأن التكرار المتوقع في كل تدرج يجب أن يكون 5 على الأقل. فقط في هذه الحالة، تكون القيمة الموضحة أعلاه لها توزيع طبيعي قياسي . ولنفترض أن هذا الشرط قد تحقق.

يحتوي التوزيع الطبيعي القياسي على جميع القيم تقريبًا ضمن ±3 (قاعدة الثلاثة سيجما). وبذلك حصلنا على الفرق النسبي في التكرارات للتدرج الواحد. نحن بحاجة إلى إجراء قابل للتعميم. لا يمكنك فقط جمع كل الانحرافات - نحصل على 0 (خمن ​​السبب). اقترح بيرسون إضافة مربعات هذه الانحرافات.

هذه هي العلامة اختبار مربع كاي بيرسون. إذا كانت التكرارات تتوافق حقًا مع التكرارات المتوقعة، فستكون قيمة المعيار صغيرة نسبيًا (نظرًا لأن معظم الانحرافات تكون في حدود الصفر). ولكن إذا تبين أن المعيار كبير، فهذا يدل على وجود اختلافات كبيرة بين الترددات.

ويصبح معيار بيرسون "كبيرا" عندما يصبح حدوث مثل هذه القيمة أو قيمة أكبر غير مرجح. ولحساب مثل هذا الاحتمال لا بد من معرفة توزيع المحك عند تكرار التجربة عدة مرات، عندما تكون فرضية اتفاق التردد صحيحة.

كما هو واضح، تعتمد قيمة مربع كاي أيضًا على عدد الحدود. كلما زاد العدد، زادت القيمة التي يجب أن يتمتع بها المعيار، لأن كل مصطلح سيساهم في الإجمالي. لذلك، لكل كمية مستقلالشروط، سيكون هناك التوزيع الخاص بها. اتضح ذلك χ 2هي عائلة كاملة من التوزيعات.

وهنا نصل إلى لحظة حساسة. ما هو الرقم مستقلشروط؟ يبدو أن أي مصطلح (أي الانحراف) مستقل. اعتقد ك. بيرسون ذلك أيضًا، لكن تبين أنه كان مخطئًا. في الواقع، سيكون عدد الحدود المستقلة أقل من عدد تدرجات المتغير الاسمي بدرجة واحدة ن. لماذا؟ لأنه إذا كانت لدينا عينة تم حساب مجموع تكراراتها بالفعل، فيمكن دائمًا تحديد أحد التكرارات على أنه الفرق بين العدد الإجمالي ومجموع جميع التكرارات الأخرى. ومن ثم فإن التباين سيكون أقل إلى حد ما. لاحظ رونالد فيشر هذه الحقيقة بعد 20 عامًا من تطوير بيرسون لمعياره. حتى الجداول كان لا بد من إعادة بنائها.

وفي هذه المناسبة، قدم فيشر مفهومًا جديدًا في الإحصاء - درجة الحرية(درجات الحرية) والتي تمثل عدد الحدود المستقلة في المجموع. إن مفهوم درجات الحرية له تفسير رياضي ويظهر فقط في التوزيعات المرتبطة بالعادي (Student's وFisher-Snedecor وchi-square نفسها).

لفهم معنى درجات الحرية بشكل أفضل، دعونا ننتقل إلى التناظرية المادية. دعونا نتخيل نقطة تتحرك بحرية في الفضاء. لديها 3 درجات من الحرية، لأن يمكن أن تتحرك في أي اتجاه في الفضاء ثلاثي الأبعاد. إذا تحركت نقطة ما على طول أي سطح، فهي تتمتع بالفعل بدرجتين من الحرية (ذهابًا وإيابًا، يسارًا ويمينًا)، على الرغم من أنها لا تزال في مساحة ثلاثية الأبعاد. النقطة التي تتحرك على طول الزنبرك تكون مرة أخرى في الفضاء ثلاثي الأبعاد، ولكن لديها درجة واحدة فقط من الحرية، لأن يمكن أن تتحرك إما إلى الأمام أو إلى الخلف. كما ترون، فإن المساحة التي يوجد بها الكائن لا تتوافق دائما مع حرية الحركة الحقيقية.

وبنفس الطريقة تقريبًا، قد يعتمد توزيع المعيار الإحصائي على عدد أقل من العناصر مقارنة بالمصطلحات اللازمة لحسابه. وبشكل عام فإن عدد درجات الحرية أقل من عدد الملاحظات بعدد التبعيات الموجودة.

وبالتالي فإن توزيع مربع كاي ( χ 2) هي عائلة من التوزيعات، كل منها يعتمد على درجات معلمة الحرية. والتعريف الرسمي لاختبار مربع كاي هو كما يلي. توزيع χ 2(مربع كاي) س كدرجات الحرية هي توزيع مجموع المربعات كالمتغيرات العشوائية العادية القياسية المستقلة.

بعد ذلك، يمكننا الانتقال إلى الصيغة نفسها التي يتم من خلالها حساب دالة توزيع مربع كاي، ولكن لحسن الحظ، تم حساب كل شيء بالنسبة لنا منذ فترة طويلة. للحصول على احتمالية الفائدة، يمكنك استخدام إما الجدول الإحصائي المناسب أو وظيفة جاهزة في Excel.

ومن المثير للاهتمام أن نرى كيف يتغير شكل توزيع مربع كاي اعتمادًا على عدد درجات الحرية.

مع زيادة درجات الحرية، يميل توزيع مربع كاي إلى أن يكون طبيعيًا. يتم تفسير ذلك من خلال عمل نظرية الحد المركزي، والتي بموجبها يكون لمجموع عدد كبير من المتغيرات العشوائية المستقلة توزيع طبيعي. لا يقول أي شيء عن المربعات)).

اختبار الفرضية باستخدام اختبار بيرسون كاي مربع

والآن نأتي إلى اختبار الفرضيات باستخدام طريقة مربع كاي. بشكل عام، لا تزال التكنولوجيا. الفرضية الصفرية هي أن التكرارات المرصودة تتوافق مع التكرارات المتوقعة (أي لا يوجد فرق بينها لأنها مأخوذة من نفس المجتمع). إذا كان الأمر كذلك، فسيكون التشتت صغيرًا نسبيًا، ضمن حدود التقلبات العشوائية. يتم تحديد قياس التشتت باستخدام اختبار مربع كاي. بعد ذلك، إما أن تتم مقارنة المعيار نفسه بالقيمة الحرجة (للمستوى المقابل من الأهمية ودرجات الحرية)، أو، وهو الأصح، يتم حساب القيمة p المرصودة، أي. احتمال الحصول على نفس قيمة المعيار أو حتى أكبر إذا كانت الفرضية الصفرية صحيحة.

لأن فنحن مهتمون بتوافق التكرارات، فسيتم رفض الفرضية عندما يكون المعيار أكبر من المستوى الحرج. أولئك. المعيار هو من جانب واحد. ومع ذلك، في بعض الأحيان (أحيانًا) يكون من الضروري اختبار فرضية اليد اليسرى. على سبيل المثال، عندما تكون البيانات التجريبية مشابهة جدًا للبيانات النظرية. ثم قد يقع المعيار في منطقة غير محتملة، ولكن على اليسار. والحقيقة هي أنه في ظل الظروف الطبيعية من غير المرجح الحصول على ترددات تتطابق عمليا مع الترددات النظرية. هناك دائما بعض العشوائية التي تعطي خطأ. ولكن إذا لم يكن هناك مثل هذا الخطأ، فربما تكون البيانات مزورة. ولكن مع ذلك، عادة ما يتم اختبار الفرضية ذات الجانب الأيمن.

دعونا نعود إلى مشكلة النرد. دعونا نحسب قيمة اختبار مربع كاي باستخدام البيانات المتاحة.

الآن دعونا نجد القيمة الحرجة عند 5 درجات حرية ( ك) ومستوى الأهمية 0.05 ( α ) حسب جدول القيم الحرجة لتوزيع مربع كاي.

أي توزيع مربع كاي الكمي 0.05 (الذيل الأيمن) مع 5 درجات حرية χ 2 0.05؛ 5 = 11,1.

دعونا نقارن القيم الفعلية والمجدولة. 3.4 ( χ 2) < 11,1 (χ 2 0.05؛ 5). وتبين أن المعيار المحسوب أصغر، مما يعني عدم رفض فرضية المساواة (الاتفاق) للترددات. في الصورة يبدو الوضع هكذا.

إذا كانت القيمة المحسوبة تقع ضمن المنطقة الحرجة، فسيتم رفض فرضية العدم.

سيكون من الأصح أيضًا حساب القيمة p. للقيام بذلك، تحتاج إلى العثور على أقرب قيمة في الجدول لعدد معين من درجات الحرية وإلقاء نظرة على مستوى الأهمية المقابل. ولكن هذا هو القرن الماضي. سوف نستخدم جهاز كمبيوتر، وخاصة MS Excel. يحتوي Excel على العديد من الوظائف المتعلقة بمربع كاي.

وفيما يلي وصف موجز لهم.

CH2.OBR- القيمة الحرجة للمعيار عند احتمال معين على اليسار (كما في الجداول الإحصائية)

CH2.OBR.PH- القيمة الحرجة للمعيار لاحتمال معين على اليمين. الوظيفة تكرر بشكل أساسي الوظيفة السابقة. ولكن هنا يمكنك الإشارة على الفور إلى المستوى α ، بدلاً من طرحه من 1. وهذا أكثر ملاءمة، لأنه وفي معظم الحالات، يكون الذيل الأيمن للتوزيع هو المطلوب.

CH2.DIST– القيمة p على اليسار (يمكن حساب الكثافة).

CH2.DIST.PH- القيمة p على اليمين.

CHI2.TEST- يُجري على الفور اختبار مربع كاي لنطاقي تردد. يتم اعتبار عدد درجات الحرية أقل بواحدة من عدد الترددات في العمود (كما ينبغي)، مما يؤدي إلى إرجاع قيمة p.

لنحسب لتجربتنا القيمة الحرجة (الجدولية) لـ 5 درجات حرية وألفا 0.05. ستبدو صيغة Excel كما يلي:

CH2.OBR(0.95;5)

CH2.OBR.PH(0.05;5)

ستكون النتيجة هي نفسها - 11.0705. هذه هي القيمة التي نراها في الجدول (مقربة إلى منزلة عشرية واحدة).

دعونا أخيرًا نحسب القيمة p لـ 5 درجات من معيار الحرية χ 2= 3.4. نحن بحاجة إلى الاحتمال على اليمين، لذلك نأخذ الدالة مع إضافة HH (الذيل الأيمن)

CH2.DIST.PH(3.4;5) = 0.63857

وهذا يعني أنه مع 5 درجات حرية احتمال الحصول على قيمة المعيار χ 2= 3.4 وأكثر يساوي 64% تقريباً. وبطبيعة الحال، لم يتم رفض الفرضية (قيمة p أكبر من 5%)، والتكرارات متفقة بشكل جيد للغاية.

الآن دعونا نتحقق من الفرضية حول توافق الترددات باستخدام اختبار مربع كاي ودالة Excel CHI2.TEST.

لا توجد جداول، لا حسابات مرهقة. من خلال تحديد الأعمدة ذات الترددات المرصودة والمتوقعة كوسيطات دالة، نحصل على القيمة p على الفور. جمال.

تخيل الآن أنك تلعب النرد مع شخص مشبوه. يظل توزيع النقاط من 1 إلى 5 كما هو، لكنه يرمي 26 ستة (يصبح إجمالي عدد الرميات 78).

وتبين أن القيمة p في هذه الحالة هي 0.003، وهو أقل بكثير من 0.05. هناك أسباب وجيهة للشك في صحة النرد. إليك ما يبدو عليه هذا الاحتمال على مخطط توزيع مربع كاي.

تبين أن معيار مربع كاي نفسه هنا هو 17.8، وهو بطبيعة الحال أكبر من الجدول واحد (11.1).

أرجو أن أكون قد تمكنت من شرح ما هو معيار الاتفاق χ 2(مربع كاي بيرسون) وكيف يمكن استخدامه لاختبار الفرضيات الإحصائية.

وأخيرا، مرة أخرى عن شرط مهم! يعمل اختبار مربع كاي بشكل صحيح فقط عندما يتجاوز عدد جميع الترددات 50، ولا تقل القيمة الدنيا المتوقعة لكل تدرج عن 5. وإذا كان التردد المتوقع في أي فئة أقل من 5، ولكن مجموع جميع الترددات يتجاوز 50، ثم يتم دمج هذه الفئة مع الأقرب بحيث يتجاوز إجمالي تكرارها 5. إذا لم يكن ذلك ممكنا، أو كان مجموع التكرارات أقل من 50، فيجب استخدام طرق أكثر دقة لاختبار الفرضيات. سنتحدث عنهم مرة أخرى.

يوجد أدناه مقطع فيديو حول كيفية اختبار الفرضية في برنامج Excel باستخدام اختبار مربع كاي.

دع U 1، U 2، ..، U k تكون قيمًا عادية قياسية مستقلة. توزيع المتغير العشوائي K = U 1 2 +U 2 2 + .. + U k 2 يسمى توزيع مربع كاي مع كدرجات الحرية (اكتب K~χ 2 (k)). هذا هو توزيع أحادي الواسطة مع انحراف إيجابي والخصائص التالية: الوضع M=k-2 التوقع الرياضي m=k التباين D=2k (الشكل.). مع قيمة كبيرة بما فيه الكفاية للمعلمة كالتوزيع χ 2 (k) له توزيع طبيعي تقريبًا مع المعلمات

عند حل مسائل الإحصاء الرياضي، يتم استخدام النقاط الحرجة χ 2 (k)، اعتمادًا على الاحتمالية المحددة α وعدد درجات الحرية ك(الملحق 2). النقطة الحرجة Χ 2 kr = Χ 2 (k; α) هي حدود المنطقة التي تقع على يمينها 100- α % من المساحة تحت منحنى كثافة التوزيع. احتمال أن تقع قيمة المتغير العشوائي K~χ 2 (k) أثناء الاختبار على يمين النقطة χ 2 (k) لا يتجاوز α P(K≥χ 2 kp)≥ α). على سبيل المثال، بالنسبة للمتغير العشوائي K~χ 2 (20) قمنا بتعيين الاحتمال α=0.05. وباستخدام جدول النقاط الحرجة لتوزيع مربع كاي (الجداول)، نجد χ 2 kp = χ 2 (20;0.05) = 31.4. وهذا يعني أن احتمال هذا المتغير العشوائي كخذ قيمة أكبر من 31.4 وأقل من 0.05 (الشكل).

أرز. الرسم البياني لكثافة التوزيع χ 2 (k) لقيم مختلفة لعدد درجات الحرية ك

تستخدم النقاط الحرجة χ 2 (k) في الآلات الحاسبة التالية:

  1. التحقق من وجود علاقة خطية متعددة (حول العلاقة الخطية المتعددة).
اختبار الفرضية باستخدام مربع كاي سوف يجيب فقط على السؤال "هل هناك علاقة؟"، هناك حاجة إلى مزيد من البحث لاختبار اتجاه العلاقة. علاوة على ذلك، فإن اختبار Chi-square به خطأ معين عند العمل مع بيانات منخفضة التردد.

لذلك، للتحقق من اتجاه الارتباط، يتم اختيار تحليل الارتباط، على وجه الخصوص، اختبار الفرضية باستخدام معامل ارتباط بيرسون مع مزيد من الاختبارات للأهمية باستخدام اختبار t.

يمكن العثور على أي قيمة لمستوى الأهمية α Χ 2 باستخدام دالة MS Excel: =HI2OBR(α;درجات الحرية)

ن-1 .995 .990 .975 .950 .900 .750 .500 .250 .100 .050 .025 .010 .005
1 0.00004 0.00016 0.00098 0.00393 0.01579 0.10153 0.45494 1.32330 2.70554 3.84146 5.02389 6.63490 7.87944
2 0.01003 0.02010 0.05064 0.10259 0.21072 0.57536 1.38629 2.77259 4.60517 5.99146 7.37776 9.21034 10.59663
3 0.07172 0.11483 0.21580 0.35185 0.58437 1.21253 2.36597 4.10834 6.25139 7.81473 9.34840 11.34487 12.83816
4 0.20699 0.29711 0.48442 0.71072 1.06362 1.92256 3.35669 5.38527 7.77944 9.48773 11.14329 13.27670 14.86026
5 0.41174 0.55430 0.83121 1.14548 1.61031 2.67460 4.35146 6.62568 9.23636 11.07050 12.83250 15.08627 16.74960
6 0.67573 0.87209 1.23734 1.63538 2.20413 3.45460 5.34812 7.84080 10.64464 12.59159 14.44938 16.81189 18.54758
7 0.98926 1.23904 1.68987 2.16735 2.83311 4.25485 6.34581 9.03715 12.01704 14.06714 16.01276 18.47531 20.27774
8 1.34441 1.64650 2.17973 2.73264 3.48954 5.07064 7.34412 10.21885 13.36157 15.50731 17.53455 20.09024 21.95495
9 1.73493 2.08790 2.70039 3.32511 4.16816 5.89883 8.34283 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935
10 2.15586 2.55821 3.24697 3.94030 4.86518 6.73720 9.34182 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818
11 2.60322 3.05348 3.81575 4.57481 5.57778 7.58414 10.34100 13.70069 17.27501 19.67514 21.92005 24.72497 26.75685
12 3.07382 3.57057 4.40379 5.22603 6.30380 8.43842 11.34032 14.84540 18.54935 21.02607 23.33666 26.21697 28.29952
13 3.56503 4.10692 5.00875 5.89186 7.04150 9.29907 12.33976 15.98391 19.81193 22.36203 24.73560 27.68825 29.81947
14 4.07467 4.66043 5.62873 6.57063 7.78953 10.16531 13.33927 17.11693 21.06414 23.68479 26.11895 29.14124 31.31935
15 4.60092 5.22935 6.26214 7.26094 8.54676 11.03654 14.33886 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132
16 5.14221 5.81221 6.90766 7.96165 9.31224 11.91222 15.33850 19.36886 23.54183 26.29623 28.84535 31.99993 34.26719
17 5.69722 6.40776 7.56419 8.67176 10.08519 12.79193 16.33818 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847
18 6.26480 7.01491 8.23075 9.39046 10.86494 13.67529 17.33790 21.60489 25.98942 28.86930 31.52638 34.80531 37.15645
19 6.84397 7.63273 8.90652 10.11701 11.65091 14.56200 18.33765 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226
20 7.43384 8.26040 9.59078 10.85081 12.44261 15.45177 19.33743 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685
21 8.03365 8.89720 10.28290 11.59131 13.23960 16.34438 20.33723 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106
22 8.64272 9.54249 10.98232 12.33801 14.04149 17.23962 21.33704 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565
23 9.26042 10.19572 11.68855 13.09051 14.84796 18.13730 22.33688 27.14134 32.00690 35.17246 38.07563 41.63840 44.18128
24 9.88623 10.85636 12.40115 13.84843 15.65868 19.03725 23.33673 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851
25 10.51965 11.52398 13.11972 14.61141 16.47341 19.93934 24.33659 29.33885 34.38159 37.65248 40.64647 44.31410 46.92789
26 11.16024 12.19815 13.84390 15.37916 17.29188 20.84343 25.33646 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988
27 11.80759 12.87850 14.57338 16.15140 18.11390 21.74940 26.33634 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492
28 12.46134 13.56471 15.30786 16.92788 18.93924 22.65716 27.33623 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338
29 13.12115 14.25645 16.04707 17.70837 19.76774 23.56659 28.33613 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562
30 13.78672 14.95346 16.79077 18.49266 20.59923 24.47761 29.33603 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196
عدد درجات الحرية ك مستوى الأهمية أ
0,01 0,025 0.05 0,95 0,975 0.99
1 6.6 5.0 3.8 0.0039 0.00098 0.00016
2 9.2 7.4 6.0 0.103 0.051 0.020
3 11.3 9.4 7.8 0.352 0.216 0.115
4 13.3 11.1 9.5 0.711 0.484 0.297
5 15.1 12.8 11.1 1.15 0.831 0.554
6 16.8 14.4 12.6 1.64 1.24 0.872
7 18.5 16.0 14.1 2.17 1.69 1.24
8 20.1 17.5 15.5 2.73 2.18 1.65
9 21.7 19.0 16.9 3.33 2.70 2.09
10 23.2 20.5 18.3 3.94 3.25 2.56
11 24.7 21.9 19.7 4.57 3.82 3.05
12 26.2 23.3 21 .0 5.23 4.40 3.57
13 27.7 24.7 22.4 5.89 5.01 4.11
14 29.1 26.1 23.7 6.57 5.63 4.66
15 30.6 27.5 25.0 7.26 6.26 5.23
16 32.0 28.8 26.3 7.96 6.91 5.81
17 33.4 30.2 27.6 8.67 7.56 6.41
18 34.8 31.5 28.9 9.39 8.23 7.01
19 36.2 32.9 30.1 10.1 8.91 7.63
20 37.6 34.2 31.4 10.9 9.59 8.26
21 38.9 35.5 32.7 11.6 10.3 8.90
22 40.3 36.8 33.9 12.3 11.0 9.54
23 41.6 38.1 35.2 13.1 11.7 10.2
24 43.0 39.4 36.4 13.8 12.4 10.9
25 44.3 40.6 37.7 14.6 13.1 11.5
26 45.6 41.9 38.9 15.4 13.8 12.2
27 47.0 43.2 40.1 16.2 14.6 12.9
28 48.3 44.5 41.3 16.9 15.3 13.6
29 49.6 45.7 42.6 17.7 16.0 14.3
30 50.9 47.0 43.8 18.5 16.8 15.0