بررسی آماری سری تغییرات و محاسبه مقادیر میانگین. مفهوم یک سری تغییرات

هنگام پردازش مقادیر زیادی از اطلاعات، که به ویژه در هنگام انجام پیشرفت های علمی مدرن اهمیت دارد، محقق با وظیفه خطیر گروه بندی صحیح داده های منبع روبرو است. اگر ماهیت داده ها گسسته باشد، همانطور که دیدیم، هیچ مشکلی پیش نمی آید - فقط باید فرکانس هر ویژگی را محاسبه کنید. در صورتی که ویژگی مورد مطالعه دارای مستمرشخصیت (که در عمل رایج تر است)، پس انتخاب تعداد بهینه فواصل گروه بندی ویژگی ها به هیچ وجه کار بی اهمیتی نیست.

برای گروه بندی متغیرهای تصادفی پیوسته، کل محدوده تغییرات مشخصه به تعداد معینی از بازه ها تقسیم می شود. به

فاصله گروهی (مستمر) سری تغییراتفواصل رتبه بندی شده با مقدار مشخصه () نامیده می شوند، که در آن تعداد مشاهدات در بازه i" یا فرکانس های نسبی () همراه با فرکانس های مربوطه نشان داده می شوند ():

فواصل ارزش مشخصه

فرکانس مایل

هیستوگرامو تجمع (ogiva)قبلاً به تفصیل توسط ما مورد بحث قرار گرفته است، ابزاری عالی برای تجسم داده ها هستند که به شما امکان می دهند یک ایده اولیه از ساختار داده ها به دست آورید. چنین نمودارهایی (شکل 1.15) برای داده های پیوسته به همان روشی که برای داده های گسسته ساخته می شوند، تنها با در نظر گرفتن این واقعیت که داده های پیوسته به طور کامل منطقه مقادیر ممکن آنها را پر می کنند، با هر مقداری، ساخته می شوند.

برنج. 1.15.

به همین دلیل است ستون های هیستوگرام و انباشته باید با یکدیگر تماس داشته باشند و هیچ ناحیه ای نداشته باشند که مقادیر مشخصه در همه موارد ممکن قرار نگیرد.(به عنوان مثال، هیستوگرام و انباشته ها نباید دارای "سوراخ" در امتداد محور آبسیسا باشند، که حاوی مقادیر متغیر مورد مطالعه نباشد، مانند شکل 1.16). ارتفاع میله مربوط به فرکانس - تعداد مشاهدات در یک بازه معین یا فرکانس نسبی - نسبت مشاهدات است. فواصل نباید قطع شودو معمولاً هم عرض هستند.

برنج. 1.16.

هیستوگرام و چند ضلعی تقریبی از منحنی چگالی احتمال (تابع دیفرانسیل) هستند. f(x)توزیع نظری که در دوره نظریه احتمال در نظر گرفته شده است. بنابراین، ساخت آنها در پردازش آماری اولیه داده های پیوسته کمی بسیار مهم است - با ظاهر آنها می توان قانون توزیع فرضی را قضاوت کرد.

تجمع - منحنی از فرکانس‌های انباشته شده (فرکانس‌ها) یک سری تغییرات بازه‌ای. نمودار تابع توزیع تجمعی با انباشته مقایسه می شود F(x)، در درس تئوری احتمال نیز مطرح شده است.

اساساً، مفاهیم هیستوگرام و تجمع به طور خاص با داده های پیوسته و سری تغییرات بازه ای آنها مرتبط هستند، زیرا نمودارهای آنها به ترتیب تخمین های تجربی تابع چگالی احتمال و تابع توزیع هستند.

ساخت یک سری تغییرات بازه ای با تعیین تعداد بازه ها آغاز می شود ک.و این کار شاید سخت ترین، مهم ترین و بحث برانگیزترین در موضوع مورد بررسی باشد.

تعداد فواصل نباید خیلی کم باشد، زیرا هیستوگرام را خیلی صاف می کند ( بیش از حد صاف شده)تمام ویژگی های تغییرپذیری داده های اصلی را از دست می دهد - در شکل. 1.17 شما می توانید ببینید که چگونه همان داده هایی که در نمودار در شکل. 1.15، برای ساختن یک هیستوگرام با تعداد بازه های کمتر (گراف سمت چپ) استفاده می شود.

در عین حال، تعداد بازه‌ها نباید خیلی زیاد باشد - در غیر این صورت نمی‌توانیم چگالی توزیع داده‌های مورد مطالعه را در امتداد محور عددی تخمین بزنیم: هیستوگرام کمتر هموار می‌شود. (نزدیک شده)،با فواصل خالی، ناهموار (نگاه کنید به شکل 1.17، نمودار سمت راست).

برنج. 1.17.

چگونه می توان ارجح ترین تعداد فواصل را تعیین کرد؟

در سال 1926، هربرت استرجز فرمولی را برای محاسبه تعداد فواصلی که لازم است مجموعه اصلی مقادیر مشخصه مورد مطالعه را تقسیم کرد، ارائه کرد. این فرمول واقعاً بسیار محبوب شده است - بیشتر کتاب های درسی آماری آن را ارائه می دهند و بسیاری از بسته های آماری به طور پیش فرض از آن استفاده می کنند. اینکه چقدر این امر و در همه موارد موجه است، یک سوال بسیار جدی است.

بنابراین، فرمول استرجز بر چه اساسی است؟

در نظر بگیریم توزیع دو جمله ای }