Normalfordeling. Kontinuerlige distribusjoner i EXCEL

(ekte, strengt tatt positivt)

Normalfordeling, også kalt Gaussisk fordeling eller Gauss - Laplace- sannsynlighetsfordeling, som i det endimensjonale tilfellet er spesifisert ved at sammenfaller med den gaussiske funksjonen:

f (x) = 1 σ 2 π e − (x − μ) 2 2 σ 2 , (\displaystyle f(x)=(\frac (1)(\sigma (\sqrt (2\pi ))))\ ;e^(-(\frac ((x-\mu)^(2))(2\sigma ^(2)))),)

hvor parameteren μ er forventningen (middelverdien), medianen og modusen til fordelingen, og parameteren σ er standardavviket (σ² er spredningen) til fordelingen.

Dermed er den endimensjonale normalfordelingen en to-parameter familie av distribusjoner. Det multivariate tilfellet er beskrevet i artikkelen "Multivariat normalfordeling".

Standard normalfordeling kalles en normalfordeling med matematisk forventning μ = 0 og standardavvikσ = 1.

Encyklopedisk YouTube

  • 1 / 5

    Betydningen av normalfordelingen i mange vitenskapsfelt (for eksempel matematisk statistikk og statistisk fysikk) følger av sannsynlighetsteoriens sentrale grensesetning. Hvis resultatet av en observasjon er summen av mange tilfeldige, svakt gjensidig avhengige størrelser, som hver gir et lite bidrag i forhold til den totale summen, vil fordelingen av det sentrerte og normaliserte resultatet være normal når antallet ledd øker. Denne loven om sannsynlighetsteori resulterer i den utbredte fordelingen av normalfordelingen, som var en av grunnene til navnet.

    Egenskaper

    Øyeblikk

    Hvis tilfeldige variabler X 1 (\displaystyle X_(1)) Og X 2 (\displaystyle X_(2)) er uavhengige og har normalfordeling med matematiske forventninger μ 1 (\displaystyle \mu _(1)) Og μ 2 (\displaystyle \mu _(2)) og varianser σ 1 2 (\displaystyle \sigma _(1)^(2)) Og σ 2 2 (\displaystyle \sigma _(2)^(2)) følgelig altså X 1 + X 2 (\displaystyle X_(1)+X_(2)) har også en normalfordeling med matematisk forventning μ 1 + μ 2 (\displaystyle \mu _(1)+\mu _(2)) og varians σ 1 2 + σ 2 2 .(\displaystyle \sigma _(1)^(2)+\sigma _(2)^(2).)

    Det følger at en normal tilfeldig variabel kan representeres som summen av et vilkårlig antall uavhengige normale tilfeldige variabler.

    Normalfordelingen har den maksimale differensialentropien blant alle kontinuerlige fordelinger hvis varians ikke overstiger en gitt verdi.

    Modellering av normale pseudorandomvariabler

    De enkleste omtrentlige modelleringsmetodene er basert på sentralgrensesetningen. Nemlig, hvis du legger til flere uavhengige identisk distribuerte mengder med endelig varians, vil summen bli fordelt omtrent Fin. For eksempel hvis du legger til 100 uavhengige som standard  jevnt  fordelte stokastiske variabler, så vil fordelingen av summen være omtrentlig normal.

    For programmatisk generering av normalfordelte pseudorandomvariabler er det å foretrekke å bruke Box-Muller-transformasjonen. Den lar deg generere én normalfordelt verdi basert på én jevnt fordelt verdi.

    Normalfordeling i natur og bruksområder

    Normalfordeling finnes ofte i naturen. For eksempel er følgende tilfeldige variabler godt modellert av normalfordelingen:

    • avvik ved skyting.
    • målefeil (men feilene til noen måleinstrumenter har ikke normalfordelinger).
    • noen kjennetegn ved levende organismer i en populasjon.

    Denne fordelingen er så utbredt fordi den er en uendelig delbar kontinuerlig distribusjon med endelig varians. Derfor nærmer noen andre det i grensen, for eksempel binomial og Poisson. Denne fordelingen modellerer mange ikke-deterministiske fysiske prosesser.

    Forholdet til andre distribusjoner

    • Normalfordelingen er en Pearson type XI-fordeling.
    • Forholdet mellom et par uavhengige standard normalfordelte tilfeldige variabler har en Cauchy-fordeling. Det vil si hvis den tilfeldige variabelen X (\displaystyle X) representerer forholdet X = Y/Z (\displaystyle X=Y/Z)(Hvor Y (\displaystyle Y) Og Z (\displaystyle Z)- uavhengige standard normale tilfeldige variabler), så vil den ha en Cauchy-fordeling.
    • Hvis z 1 , … , z k (\displaystyle z_(1),\ldots ,z_(k))- fellesuavhengige standard normale stokastiske variabler, altså z i ∼ N (0 , 1) (\displaystyle z_(i)\sim N\left(0,1\right)), deretter den tilfeldige variabelen x = z 1 2 + … + z k 2 (\displaystyle x=z_(1)^(2)+\ldots +z_(k)^(2)) har en kjikvadratfordeling med k frihetsgrader.
    • Hvis den tilfeldige variabelen X (\displaystyle X) er underlagt lognormalfordeling, så har dens naturlige logaritme en normalfordeling. Det vil si hvis X ∼ L o g N (μ , σ 2) (\displaystyle X\sim \mathrm (LogN) \left(\mu ,\sigma ^(2)\right)), Det Y = ln ⁡ (X) ∼ N (μ , σ 2) (\displaystyle Y=\ln \left(X\right)\sim \mathrm (N) \left(\mu ,\sigma ^(2)\right )). Og omvendt, hvis Y ∼ N (μ , σ 2) (\displaystyle Y\sim \mathrm (N) \left(\mu ,\sigma ^(2)\right)), Det X = exp ⁡ (Y) ∼ L o g N (μ , σ 2) (\displaystyle X=\exp \left(Y\right)\sim \mathrm (LogN) \left(\mu ,\sigma ^(2) \høyre)).
    • Forholdet mellom kvadratene til to standard normale tilfeldige variabler har

    Normalfordeling er den vanligste typen distribusjon. Man møter det når man analyserer målefeil, overvåking teknologiske prosesser og moduser, samt i analyse og prediksjon av ulike fenomener innen biologi, medisin og andre kunnskapsfelt.

    Begrepet "normalfordeling" brukes i en betinget betydning som generelt akseptert i litteraturen, men ikke helt vellykket. Utsagnet om at en bestemt egenskap følger en normal distribusjonslov betyr ikke i det hele tatt tilstedeværelsen av noen urokkelige normer som angivelig ligger til grunn for fenomenet som den aktuelle egenskapen er en refleksjon av, og underkastelse til andre distribusjonslover betyr ikke en eller annen form. av unormalitet ved dette fenomenet.

    Hovedtrekket ved normalfordelingen er at det er grensen som andre distribusjoner nærmer seg. Normalfordelingen ble først oppdaget av Moivre i 1733. Bare kontinuerlige tilfeldige variabler følger normalloven. Tettheten til normalfordelingsloven har formen .

    Den matematiske forventningen til normalfordelingsloven er . Variansen er lik .

    Grunnleggende egenskaper ved normalfordeling.

    1. Fordelingstetthetsfunksjonen er definert på hele den numeriske aksen Åh , det vil si hver verdi X tilsvarer en veldig spesifikk verdi av funksjonen.

    2. For alle verdier X (både positiv og negativ) tetthetsfunksjonen tar positive verdier, det vil si at normalkurven er plassert over aksen Åh .

    3. Begrensning av tetthetsfunksjonen med ubegrenset økning X lik null, .

    4. Noi et punkt har et maksimum .

    5. Grafen til tetthetsfunksjonen er symmetrisk om den rette linjen.

    6. Fordelingskurven har to vendepunkter med koordinater Og .

    7. Modusen og medianen til normalfordelingen faller sammen med den matematiske forventningen EN .

    8. Formen på normalkurven endres ikke når parameteren endres EN .

    9. Koeffisientene for skjevhet og kurtose av normalfordelingen er lik null.

    Viktigheten av å beregne disse koeffisientene for empiriske distribusjonsserier er åpenbar, siden de karakteriserer skjevheten og brattheten til denne serien sammenlignet med den normale.

    Sannsynligheten for å falle inn i intervallet finner du av formelen , Hvor oddetablert funksjon.

    La oss bestemme sannsynligheten for at en normalfordelt tilfeldig variabel avviker fra sin matematisk forventning med et beløp mindre enn , det vil si at vi finner sannsynligheten for ulikheten , eller sannsynligheten for dobbel ulikhet. Substituere inn i formelen, får vi

    Uttrykker avvisning tilfeldig variabel X i brøkdeler av standardavviket, det vil si å sette inn siste likhet, får vi .


    Så når vi får,

    når vi får,

    når vi mottar.

    Av den siste ulikheten følger det at praktisk talt er spredningen av en normalfordelt stokastisk variabel begrenset til området. Sannsynligheten for at en tilfeldig variabel ikke vil falle inn i dette området er svært liten, nemlig lik 0,0027, det vil si at denne hendelsen bare kan oppstå i tre tilfeller av 1000. Slike hendelser kan anses som nærmest umulige. Basert på resonnementet ovenfor tre sigma regel, som er formulert slik: hvis en tilfeldig variabel har en normalfordeling, vil ikke avviket til denne verdien fra den matematiske forventningen i absolutt verdi overstige tre ganger standardavviket.

    Eksempel 28. En del produsert av en automatisk maskin anses som egnet hvis avviket til den kontrollerte størrelsen fra designen ikke overstiger 10 mm. Tilfeldige avvik av kontrollert størrelse fra design er underlagt normalfordelingsloven med standardavvik på mm og matematisk forventning. Hvor mange prosent av egnede deler produserer maskinen?

    Løsning. Tenk på den tilfeldige variabelen X - avvik i størrelsen fra designen. Delen vil anses som gyldig dersom den tilfeldige variabelen tilhører intervallet. Sannsynligheten for å produsere en passende del kan bli funnet ved å bruke formelen . Følgelig er prosentandelen av passende deler produsert av maskinen 95,44 %.

    Binomial fordeling

    Binomial er sannsynlighetsfordelingen for forekomst m antall arrangementer i n uavhengige forsøk, i hver av disse er sannsynligheten for at en hendelse inntreffer konstant og lik r . Sannsynligheten for mulig antall forekomster av en hendelse beregnes ved å bruke Bernoulli-formelen: ,

    Hvor . Fast n Og r , inkludert i dette uttrykket, er parametrene til den binomiale loven. Binomialfordelingen beskriver sannsynlighetsfordelingen til en diskret tilfeldig variabel.

    Grunnleggende numeriske egenskaper binomial fordeling. Den matematiske forventningen er . Variansen er . Koeffisientene for skjevhet og kurtose er like og . Med en ubegrenset økning i antall tester EN Og E har en tendens til null, derfor kan vi anta at binomialfordelingen konvergerer til normal når antallet forsøk øker.

    Eksempel 29. Uavhengige tester utføres med samme sannsynlighet for at hendelsen inntreffer EN i hver test. Finn sannsynligheten for at en hendelse inntreffer EN i ett forsøk hvis variansen av antall forekomster over tre forsøk er 0,63.

    Løsning. For binomialfordeling . La oss erstatte verdiene, får vi herfra eller deretter og .

    Giftfordeling

    Loven om distribusjon av sjeldne fenomener

    Poisson-fordelingen beskriver antall hendelser m , som skjer over like tidsperioder, forutsatt at hendelser skjer uavhengig av hverandre med en konstant gjennomsnittlig intensitet. Dessuten antall tester n er høy, og sannsynligheten for at hendelsen inntreffer i hvert forsøk r liten Derfor kalles Poisson-fordelingen loven om sjeldne hendelser eller den enkleste flyten. Poisson-fordelingsparameteren er verdien som karakteriserer intensiteten av forekomst av hendelser i n tester. Formel for giftfordeling .

    Poisson-fordelingen beskriver brønnen antall krav om betaling av forsikringsbeløp per år, antall anrop mottatt på telefonsentralen i løpet av en viss tid, antall feil på elementer under pålitelighetstester, antall defekte produkter, og så videre .

    Grunnleggende numeriske egenskaper for Poisson-fordelingen. Den matematiske forventningen er lik variansen og er lik EN . Det vil si . Dette er et særtrekk ved denne distribusjonen. Koeffisientene for asymmetri og kurtose er henholdsvis like.

    Eksempel 30. Gjennomsnittlig antall forsikringsutbetalinger per dag er to. Finn sannsynligheten for at du om fem dager må betale: 1) 6 forsikringsbeløp; 2) mindre enn seks beløp; 3) minst seks. eller eksponentiell distribusjon.

    Denne fordelingen observeres ofte når man studerer levetiden til ulike enheter, oppetiden til individuelle elementer, deler av systemet og systemet som helhet, når man vurderer tilfeldige tidsintervaller mellom forekomsten av to påfølgende sjeldne hendelser.

    Tettheten til eksponentialfordelingen bestemmes av parameteren, som kalles feilprosent. Dette begrepet er assosiert med et spesifikt bruksområde - pålitelighetsteori.

    Uttrykket for integralfunksjonen til eksponentialfordelingen kan finnes ved å bruke egenskapene til differensialfunksjonen:

    Forventning til eksponentiell fordeling, varians, standardavvik. Dermed er det karakteristisk for denne fordelingen at standardavviket er numerisk lik den matematiske forventningen. For enhver verdi av parameteren er koeffisientene for asymmetri og kurtosis konstante verdier.

    Eksempel 31. Gjennomsnittlig driftstid for en TV før den første feilen er 500 timer. Finn sannsynligheten for at en tilfeldig valgt TV vil fungere uten sammenbrudd i mer enn 1000 timer.

    Løsning. Siden gjennomsnittlig driftstid til første feil er 500, da . Vi finner ønsket sannsynlighet ved hjelp av formelen.

    Den mest kjente og hyppigst brukte loven i sannsynlighetsteori er normalfordelingsloven eller Gauss lov .

    Hovedtrekk Normalfordelingsloven er at den er en begrensende lov for andre distribusjonslover.

    Merk at for en normalfordeling har integralfunksjonen formen:

    .

    La oss nå vise at den sannsynlige betydningen av parameterne er som følger: EN er den matematiske forventningen, - standardavviket (dvs.) for normalfordelingen:

    a) per definisjon av den matematiske forventningen til en kontinuerlig tilfeldig variabel, har vi

    Virkelig

    ,

    siden under integrertegnet er det en oddetall funksjon, og grensene for integrasjon er symmetriske med hensyn til opprinnelsen;

    - Poisson-integral .

    Så den matematiske forventningen til en normalfordeling er lik parameteren EN .

    b) per definisjon av variansen til en kontinuerlig tilfeldig variabel og, med tanke på at , kan vi skrive

    .

    Integrering av deler, putting , la oss finne

    Derfor .

    Så standardavviket til normalfordelingen er lik parameteren.

    Hvis fordelingen også er normal, kalles den normalisert (eller standard normal) distribusjon. Da vil åpenbart den normaliserte tettheten (differensial) og den normaliserte integralfordelingsfunksjonen skrives henholdsvis i formen:

    (Funksjonen kalles som kjent Laplace-funksjonen (se FOREDRAG 5) eller sannsynlighetsintegralet. Begge funksjonene, dvs. , tabellert og deres verdier er registrert i de tilsvarende tabellene).

    Egenskaper til normalfordeling (egenskapene til normalkurven):

    1. Tydeligvis en funksjon på hele tallinjen.

    2. , det vil si at normalkurven er plassert over aksen Åh .

    3. , altså aksen Åh fungerer som den horisontale asymptoten til grafen.

    4. En normalkurve er symmetrisk om en rett linje x = a (følgelig er grafen til funksjonen symmetrisk om aksen Åh ).

    Derfor kan vi skrive: .

    5. .

    6. Det er lett å vise at poengene Og er bøyningspunkter for normalkurven (bevis det selv).

    7.Det er åpenbart det

    men siden , Det . I tillegg , derfor er alle odde øyeblikk lik null.

    For selv øyeblikk kan vi skrive:

    8. .

    9. .

    10. , Hvor .

    11. For negative verdier av den tilfeldige variabelen: , hvor .


    13. Sannsynligheten for at en tilfeldig variabel faller inn i en seksjon som er symmetrisk i forhold til sentrum av fordelingen er lik:

    EKSEMPEL 3. Vis at en normalfordelt tilfeldig variabel X avviker fra matematisk forventning M(X) ikke mer enn.

    Løsning. For normalfordeling: .

    Med andre ord, sannsynligheten for at den absolutte verdien av avviket vil overstige trippel standardavviket er veldig lite, nemlig lik 0,0027 Dette betyr at kun i 0,27% av tilfellene kan dette skje. Slike hendelser, basert på prinsippet om umuligheten av usannsynlige hendelser, kan anses som praktisk talt umulige.

    Så en hendelse med en sannsynlighet på 0,9973 kan betraktes som praktisk talt pålitelig, det vil si at den tilfeldige variabelen avviker fra den matematiske forventningen med ikke mer enn .

    EKSEMPEL 4. Kjenne til egenskapene til normalfordelingen til en tilfeldig variabel X - Strekkfasthet av stål: kg/mm2 og kg/mm2, finn sannsynligheten for å oppnå stål med en strekkfasthet fra 31 kg/mm2 til 35 kg/mm2.

    Løsning.

    3. Eksponentialfordeling (eksponentiell distribusjonslov)

    Eksponentiell er sannsynlighetsfordelingen til en kontinuerlig tilfeldig variabel. X , som er beskrevet av en differensialfunksjon (fordelingstetthet)

    hvor er en konstant positiv verdi.

    Eksponentialfordelingen er definert en parameter. Denne funksjonen til den eksponentielle fordelingen indikerer fordelen sammenlignet med distribusjoner som er avhengige av et større antall parametere. Vanligvis er parametrene ukjente og deres estimater (omtrentlig verdi) må finnes; Selvfølgelig er det lettere å evaluere én parameter enn to, eller tre osv.

    Det er enkelt å skrive den integrerte:

    Vi definerte eksponentialfordelingen ved hjelp av en differensialfunksjon; det er klart at det kan bestemmes ved hjelp av integralfunksjonen.

    Kommentar: Tenk på en kontinuerlig tilfeldig variabel T - hvor lenge produktet ikke fungerer som den skal. Dens aksepterte verdier er merket med t , . Kumulativ distribusjonsfunksjon definerer sannsynlighet for feil produkter over en periode t . Følgelig er sannsynligheten for feilfri drift i løpet av samme tid, varighet t , det vil si at sannsynligheten for den motsatte hendelsen er lik

    ) spiller en spesielt viktig rolle i sannsynlighetsteori og brukes oftest til å løse praktiske problemer. Hans hovedtrekk ved at det er en begrensende lov som andre distribusjonslover nærmer seg under svært vanlige typiske forhold. For eksempel følger summen av et tilstrekkelig stort antall uavhengige (eller svakt avhengige) tilfeldige variabler omtrent normalloven, og dette er sant jo mer nøyaktig jo flere tilfeldige variable summeres.

    Det er eksperimentelt bevist at målefeil, avvik i geometriske dimensjoner og plassering av bygningskonstruksjonselementer under produksjon og installasjon, og variasjoner i fysiske og mekaniske egenskaper til materialer og belastninger som virker på bygningskonstruksjoner er underlagt normalloven.

    Nesten alle tilfeldige variabler er underlagt den gaussiske fordelingen, hvis avvik fra gjennomsnittsverdiene er forårsaket av et stort sett med tilfeldige faktorer, som hver enkelt er ubetydelig (sentral grensesetning).

    Normalfordeling kalles fordelingen av en tilfeldig kontinuerlig variabel, som sannsynlighetstettheten har formen for (fig. 18.1).

    Ris. 18.1. Normalfordelingsloven på 1< a 2 .

    (18.1)

    hvor a og er distribusjonsparametere.

    De sannsynlige egenskapene til en tilfeldig variabel fordelt i henhold til normalloven er lik:

    Matematisk forventning (18.2)

    Varians (18,3)

    Standardavvik (18,4)

    Asymmetrikoeffisient A = 0(18.5)

    Overskudd E= 0. (18.6)

    Parameteren σ inkludert i den gaussiske fordelingen er lik middelkvadratforholdet til den stokastiske variabelen. Størrelse EN bestemmer posisjonen til distribusjonssentralen (se fig. 18.1), og verdien EN— distribusjonsbredde (fig. 18.2), dvs. statistisk spredning rundt gjennomsnittsverdien.

    Ris. 18.2. Normalfordelingsloven ved σ 1< σ 2 < σ 3

    Sannsynligheten for å falle inn i et gitt intervall (fra x 1 til x 2) for en normalfordeling, som i alle tilfeller, bestemmes av integralet til sannsynlighetstettheten (18.1), som ikke uttrykkes gjennom elementære funksjoner og er representert av en spesiell funksjon, kalt Laplace-funksjonen (sannsynlighetsintegral).

    En av representasjonene av sannsynlighetsintegralet:

    (18.7)

    Størrelse Og ringte kvantil

    Det er klart at F(x) - merkelig funksjon, dvs. Ф(-х) = -Ф(х) . Verdiene til denne funksjonen beregnes og presenteres i form av tabeller i teknisk og pedagogisk litteratur.


    Fordelingsfunksjonen til normalloven (fig. 18.3) kan uttrykkes gjennom sannsynlighetsintegralet:

    (18.9)

    Ris. 18.2. Normalfordelingsfunksjon.

    Sannsynligheten for at en tilfeldig variabel fordelt etter en normallov faller inn i intervallet fra X. til x, bestemmes av uttrykket:

    Det bør bemerkes at

    Ф(0) = 0; Ф(∞) = 0,5; Ф(-∞) = -0,5.

    Når man løser praktiske problemer knyttet til distribusjon, er det ofte nødvendig å vurdere sannsynligheten for å falle inn i et intervall som er symmetrisk i forhold til den matematiske forventningen dersom lengden på dette intervallet, dvs. hvis selve intervallet har en grense fra til , har vi:

    Når du løser praktiske problemer, uttrykkes grensene for avvik av tilfeldige variabler gjennom standarden, standardavvik, multiplisert med en viss faktor som bestemmer grensene for regionen av avvik til den tilfeldige variabelen.

    Ved å ta og og også bruke formel (18.10) og tabellen Ф(х) (vedlegg nr. 1), får vi

    Disse formlene viser at hvis en tilfeldig variabel har en normalfordeling, så er sannsynligheten for at dens avvik fra gjennomsnittsverdien med ikke mer enn σ er 68,27 %, med ikke mer enn 2σ er 95,45 % og ikke mer enn 3σ - 99,73 %.

    Siden verdien på 0,9973 er ​​nær enhet, anses det som praktisk talt umulig for normalfordelingen av en tilfeldig variabel å avvike fra den matematiske forventningen med mer enn 3σ. Denne regelen, som bare er gyldig for normalfordelingen, kalles tre-sigma-regelen. Brudd på den er sannsynlig P = 1 - 0,9973 = 0,0027. Denne regelen brukes når du fastsetter grensene for tillatte avvik i toleransene til de geometriske egenskapene til produkter og strukturer.

    Normalfordelingsloven, den såkalte Gaussloven, er en av de vanligste lovene. Dette grunnleggende lov i sannsynlighetsteori og dens anvendelse. Normalfordelingen finner man oftest i studiet av natur- og sosioøkonomiske fenomener. Med andre ord, de fleste statistiske aggregater i naturen og samfunnet følger loven om normalfordeling. Følgelig kan vi si at populasjoner av et stort antall store utvalg overholder loven om normalfordeling. De populasjonene som avviker fra normalfordelingen som følge av spesielle transformasjoner kan bringes nærmere normalen. I denne forbindelse bør det huskes at det grunnleggende trekk ved denne loven i forhold til andre distribusjonslover er at det er grenseloven som andre distribusjonslover nærmer seg under visse (standard)forhold.

    Det skal bemerkes at begrepet "normalfordeling" har en konvensjonell betydning, som et begrep generelt akseptert i matematisk og statistisk litteratur. Utsagnet om at et eller annet kjennetegn ved ethvert fenomen overholder loven om normalfordeling betyr ikke i det hele tatt ukrenkeligheten til normene som antas å være iboende i fenomenet som studeres, og å klassifisere sistnevnte som den andre typen lov betyr ikke en slags abnormitet ved dette fenomenet. I denne forstand er ikke begrepet "normalfordeling" helt passende.

    Normalfordelingen (Gauss-Laplace-loven) er en type kontinuerlig fordeling. Der Moivre (ett tusen sju hundre og syttitre, Frankrike) utledet den normale loven om sannsynlighetsfordeling. De grunnleggende ideene til denne oppdagelsen ble først brukt i teorien om feil av K. Gauss (1809, Tyskland) og A. Laplace (1812, Frankrike), som ga et betydelig teoretisk bidrag til utviklingen av selve loven. Spesielt gikk K. Gauss i sin utvikling ut fra erkjennelsen av at den mest sannsynlige verdien av en tilfeldig variabel er det aritmetiske gjennomsnittet. De generelle betingelsene for fremveksten av en normalfordeling ble etablert av A.M. Han beviste at hvis karakteristikken som studeres er resultatet av den totale påvirkningen av mange faktorer, som hver har liten sammenheng med flertallet av de andre, og påvirkningen av hver faktor på det endelige resultatet er mye overlappet av den totale påvirkningen av alle andre faktorer, da blir fordelingen nær normalen.

    Sannsynlighetsfordelingen til en kontinuerlig tilfeldig variabel kalles normal og har tettheten:

    1 +1 (& #) 2

    / (x, x,<т) = - ^ е 2 st2

    hvor x er den matematiske forventningen eller gjennomsnittsverdien. Som du kan se, bestemmes normalfordelingen av to parametere: x og °. For å definere en normalfordeling er det nok å kjenne til den matematiske forventningen eller gjennomsnittet og standardavviket. Disse to mengdene bestemmer midten av grupperingen og formen

    kurve på grafen. Grafen til funksjonen u (xx, b) kalles en normalkurve (gaussisk kurve) med parametere x og b (fig. 12).

    Normalfordelingskurven har bøyningspunkter ved X ± 1. Hvis representert grafisk, så mellom X = +l og 1 = -1 er 0,683 deler av hele kurveområdet (dvs. 68,3%). Innenfor grensene til X = + 2 og X- 2. er det 0,954 områder (95,4 %), og mellom X = + 3 og X = - 3 - 0,997 deler av hele utbredelsesområdet (99,7 %). I fig. Figur 13 illustrerer arten av normalfordelingen med en-, to- og tresigma-grenser.

    Med en normalfordeling vil aritmetisk gjennomsnitt, modus og median være lik hverandre. Formen til en normal kurve har form av en symmetrisk kurve med enkelt verteks, hvis grener asymptotisk nærmer seg abscisseaksen. Den største ordinaten til kurven tilsvarer x = 0. På dette tidspunktet plasseres den numeriske verdien av trekkene på abscisseaksen, lik aritmetisk gjennomsnitt, modus og median. På begge sider av toppen av kurven kommer grenene, og endrer formen på konveksiteten til konkavitet på visse punkter. Disse punktene er symmetriske og tilsvarer verdiene x = ± 1, det vil si verdiene til egenskapene hvis avvik fra gjennomsnittet er numerisk lik standardavviket. Ordinaten, som tilsvarer det aritmetiske gjennomsnittet, deler hele arealet mellom kurven og abscissen i to. Så sannsynlighetene for forekomst av verdier av den studerte karakteristikken større og mindre enn gjennomsnittet

    aritmetikk vil være lik 0,50, det vil si x, (~ ^ x) = 0,50 V

    Fig. 12. Normalfordelingskurve (gaussisk kurve)

    Formen og posisjonen til normalkurven bestemmer verdien av gjennomsnittet og standardavviket. Det er matematisk bevist at endring av gjennomsnittsverdien (matematisk forventning) ikke endrer formen på normalkurven, men fører bare til dens forskyvning langs abscisseaksen. Kurven skifter til høyre hvis ~ øker, og til venstre hvis ~ kommer.

    Fig. 14. Normalfordelingskurver med ulike parameterverdierV

    Om å endre formen på en normal kurvegraf ved endring

    standardavviket kan bedømmes etter maksimum

    differensiell normalfordelingsfunksjon, lik 1

    Som man kan se, når verdien av ° øker, vil den maksimale ordinaten til kurven avta. Følgelig vil normalfordelingskurven komprimeres mot x-aksen og få en mer flattoppet form.

    Og omvendt, når parameteren β avtar, strekker den normale kurven seg i den positive retningen til ordinataksen, og "klokkeformen" blir mer spiss (fig. 14). Merk at, uavhengig av verdiene til parameterne ~ og , er området avgrenset av abscisseaksen og kurven alltid lik enhet (fordelingstetthetsegenskap). Dette er tydelig illustrert av grafen (fig. 13).

    De ovennevnte trekk ved manifestasjonen av "normalitet" av distribusjon lar oss identifisere en rekke vanlige egenskaper som normalfordelingskurver har:

    1) enhver normalkurve når et maksimumspunkt (X= x) kommer kontinuerlig til høyre og venstre for den, og nærmer seg gradvis x-aksen;

    2) enhver normalkurve er symmetrisk i forhold til en rett linje,

    parallelt med ordinataksen og går gjennom maksimumspunktet (X= x)

    den maksimale ordinaten er ^^^ i;

    3) enhver normal kurve har en "klokke"-form, har en konveksitet som er rettet oppover til maksimumspunktet. Ved punktene x ~ ° og x + b endrer den konveksitet, og jo mindre a, jo skarpere er «klokken», og jo større a, desto skarpere blir toppen av «klokken» (fig. 14). Endring i matematisk forventning (med en konstant verdi

    c) fører ikke til endring av formen på kurven.

    Når x = 0 og ° = 1, kalles normalkurven en normalisert kurve eller en normalfordeling i kanonisk form.

    Den normaliserte kurven er beskrevet med følgende formel:

    Konstruksjonen av en normalkurve basert på empiriske data utføres ved å bruke formelen:

    pi 1 - "" = --- 7 = e

    hvor og ™ er den teoretiske frekvensen for hvert intervall (gruppe) av distribusjonen; "- Summen av frekvenser lik volumet av befolkningen; "- intervalltrinn;

    samme - forholdet mellom omkretsen av en sirkel og dens diameter, som er

    e - basen av naturlige logaritmer, lik 2,71828;

    Den andre og tredje delen av formelen) er en funksjon

    normalisert avvik CN), som kan beregnes for alle verdier av X. Tabeller med CN-verdier) kalles vanligvis "ordinattabeller for normalkurven" (vedlegg 3). Når du bruker disse funksjonene, har arbeidsformelen for normalfordelingen en enkel form:

    Eksempel. La oss vurdere tilfellet med å konstruere en normalkurve ved å bruke eksemplet med data om fordelingen av 57 arbeidere etter nivå av daglig inntjening (tabell 42). I følge tabell 42 finner vi det aritmetiske gjennomsnittet:

    ~ = ^ = И6 54 =

    Vi beregner standardavviket:

    For hver rad i tabellen finner vi verdien av det normaliserte avviket

    x og ~x | 12 g => - = - ^ 2 = 1,92

    EN 6,25 (dd I av det første intervallet osv.).

    I kolonne 8 i tabellen. 42 skriver vi ned tabellverdien til funksjonen Di) fra applikasjonen, for eksempel for det første intervallet X = 1,92 finner vi "1,9" mot "2" (0,0632).

    For å beregne teoretiske frekvenser, det vil si ordinatene til normalfordelingskurven, beregnes multiplikatoren:

    * = ^ = 36,5 en 6,25

    Alle funnet tabellverdier funksjoner / (r) multiplisert med 36,5. Så for det første intervallet får vi 0,0632x36,5 = 2,31 tonn

    frekvenser (n"<5) kombinere (i vårt eksempel - de to første og to siste intervallene).

    Hvis de ekstreme teoretiske frekvensene skiller seg vesentlig fra null, kan avviket mellom summene av de empiriske og teoretiske frekvensene være betydelig.

    Fordelingsgrafen for empiriske og teoretiske frekvenser (normalkurve) i henhold til eksemplet under vurdering er vist i figur 15.

    La oss vurdere et eksempel på å bestemme frekvensene til en normalfordeling for tilfellet når det ikke er noen frekvens i de ekstreme intervallene (tabell 43). Her empirien

    X - normalisert avvik, (c) a - standardavvik.

    frekvensen til det første intervallet er null. Den resulterende summen av uspesifiserte frekvenser er ikke lik summen av deres empiriske verdier (56 * 57). I dette tilfellet beregnes den teoretiske frekvensen for å vaske de oppnådde verdiene av midten av intervallet, det normaliserte avviket og dets funksjon.

    I tabell 43 er disse verdiene omringet av et rektangel. Ved plotting av en normalkurve videreføres i slike tilfeller den teoretiske kurven. I det aktuelle tilfellet vil normalkurven fortsette mot negative avvik fra gjennomsnittet, siden den første uspesifiserte frekvensen er lik 5. Den beregnede teoretiske frekvensen (avklart) for det første intervallet vil være lik enhet. Summen av de raffinerte frekvensene faller sammen med de empiriske

    Tabell 42

    Beregnede verdier

    Statistiske parametere

    Intervall,

    Antall enheter

    x) 2

    normaliserte avdelinger

    teoretisk

    frekvens av normalfordelingsserier,

    / 0) x - EN

    >>

    Ett tusen seks hundre og femtifire

    a = 6,25

    ^i=36,5 EN

    Tabell 43

    Beregning av frekvenser for normalfordeling (justering av empiriske frekvenser i henhold til normalloven)

    Antall enheter

    Beregnede verdier

    Statistiske parametere

    Intervall (og-2)

    Medianverdien (sentrum) av intervallet,

    (je, -xf

    ^ x t-x) 1 n og

    normalisert avvik

    xs- X

    t= x --L

    tabellverdien til funksjonen, f (t)

    teoretisk

    frekvens av normalfordelingsserier

    avklart teoretisk frekvensverdi,

    w

    -

    -

    -

    -

    -

    o = 2,41

    Ris. 15. Empirisk fordeling(1) og normalkurve (2)

    En normalfordelingskurve for populasjonen som studeres kan konstrueres på en annen måte (i motsetning til den som er diskutert ovenfor). Så hvis det er nødvendig å ha en omtrentlig ide om korrespondansen mellom den faktiske fordelingen og den normale, utføres beregninger i følgende sekvens. Bestem den maksimale ordinaten, som tilsvarer den gjennomsnittlige størrelsen på egenskapene), og etter å ha beregnet standardavviket, beregner du koordinatene til punktene til normalfordelingskurven i henhold til skjemaet angitt i tabellene 42 og 43. Således, iht. til de innledende og beregnede dataene i tabell 43, skal gjennomsnittet være ~ = 26. Denne verdien den midterste faller sammen med midten av det fjerde intervallet (25-27). Så frekvensen til dette intervallet "20" kan tas (når du plotter grafen) som maksimal ordinat). Etter å ha den beregnede spredningen (β = 2,41 cm, tabell 43), beregner vi koordinatverdiene til alle de nødvendige punktene i normalfordelingskurven (tabell 44, 45). Ved å bruke de oppnådde koordinatene tegner vi en normalkurve (fig. 16), og tar frekvensen til det fjerde intervallet som maksimal ordinat.

    Konsistensen av den empiriske fordelingen med normalen kan også fastslås gjennom forenklede beregninger. Således, hvis forholdet mellom asymmetrigradindikatoren (^) og dens gjennomsnittlige kvadratfeil sh a "eller forholdet mellom kurtosisindikatoren (E x) og dens gjennomsnittlige kvadratfeil t & overstiger tallet "3" i absolutt verdi, en konklusjon trekkes om avviket mellom den empiriske fordelingen og arten av normalfordelingene (det vil si

    EN tz E X

    Hvis A>3 eller w e "> 3).

    Det finnes andre, ikke-arbeidsintensive metoder for å fastslå "normaliteten" til en fordeling: a) å sammenligne det aritmetiske gjennomsnittet med modusen og medianen; b) bruk av Westergard-figurer; c) påføring av et grafisk bilde ved hjelp av et semi-logaritmisk rutenett Turbin; d) beregning av spesielle samsvarskriterier mv.

    Tabell 44

    Koordinater 7 punkter av normalfordelingskurven

    Tabell 45

    Beregning av koordinater til punkter i en normalfordelingskurve

    x- 1,5 (7 =

    X -a = 23,6

    X - 0,5 (7 = = 24,8

    x + 0,5st = 27,2

    X + a = 28,4

    X+1,5 (7 =

    Fig. 16. Normalfordelingskurve plottet ved bruk av syv punkter

    I praksis, når man studerer en populasjon for å forene dens fordeling med den normale, brukes ofte "3cr-regelen".

    Det er matematisk bevist at sannsynligheten for at avviket fra gjennomsnittet i absolutt verdi vil være mindre enn trippel standardavviket er lik 0,9973, det vil si at sannsynligheten for at absoluttverdien av avviket overstiger trippel standardavviket er 0,0027 eller veldig liten. Basert på prinsippet om umuligheten av usannsynlige hendelser, kan et «tilfelle av overskridelse» av artikkel 3 anses som praktisk umulig. Hvis en tilfeldig variabel er normalfordelt, overstiger ikke den absolutte verdien av dens avvik fra den matematiske forventningen (gjennomsnittet) det tredoble av standardavviket.

    I praktiske beregninger fungerer de på denne måten. Hvis, gitt den ukjente karakteren av fordelingen av den tilfeldige variabelen som studeres, viser den beregnede verdien av avviket fra gjennomsnittet å være mindre enn verdi 3 ST, det vil si at det er grunn til å tro at karakteristikken som studeres er normalfordelt. Hvis den angitte parameteren overskrider numerisk verdi 3 ST, kan vi anta at fordelingen av verdien som studeres ikke stemmer overens med normalfordelingen.

    Beregning av teoretiske frekvenser for den studerte empiriske distribusjonsserien kalles vanligvis justering av empiriske kurver i henhold til normal (eller en hvilken som helst annen) distribusjonslov. Denne prosessen er viktig både teoretisk og praktisk betydning. Justering av empiriske data avslører et mønster i deres distribusjon, som kan skjules av den tilfeldige formen for manifestasjonen. Mønsteret etablert på denne måten kan brukes til å løse en rekke praktiske problemer.

    Forskeren møter en fordeling nær normalen innen ulike vitenskapsfelt og områder med praktisk menneskelig aktivitet. I økonomi er denne typen distribusjon mindre vanlig enn for eksempel innen teknologi eller biologi. Dette skyldes selve naturen til sosioøkonomiske fenomener, som er preget av den store kompleksiteten av sammenhengende og sammenhengende faktorer, samt tilstedeværelsen av en rekke forhold som begrenser det frie "spillet" av saker. Men en økonom må referere til normalfordelingen, analysere strukturen til empiriske fordelinger, som en slags standard. En slik sammenligning gjør det mulig å avklare arten av de interne forholdene som bestemmer dette fordelingstallet.

    Kulepenetrasjon statistisk forskning inn i feltet sosioøkonomiske fenomener gjorde det mulig å avsløre eksistensen av et stort antall forskjellige typer distribusjonskurver. Man skal imidlertid ikke anta at det teoretiske konseptet om en normalfordelingskurve generelt sett er til liten nytte i den statistiske og matematiske analysen av denne typen fenomener. Det er kanskje ikke alltid akseptabelt i analysen av en bestemt statistisk fordeling, men innen teori og praksis er prøvetakingsmetoden for forskning av største betydning.

    La oss nevne hovedaspektene ved bruken av normalfordelingen i statistisk og matematisk analyse.

    1. For å bestemme sannsynligheten for en spesifikk verdi av en egenskap. Dette er nødvendig når man tester hypoteser om samsvaret mellom en bestemt empirisk fordeling og normalen.

    2. Ved estimering av en rekke parametere, for eksempel gjennomsnitt, ved bruk av maksimum sannsynlighetsmetoden. Dens essens ligger i å bestemme loven som helheten er underlagt. Estimatet som gir maksimalverdiene er også bestemt. Den beste tilnærmingen til populasjonsparametrene er gitt av forholdet:

    y = - 2 = e 2

    3. For å bestemme sannsynligheten for utvalg betyr i forhold til generelle gjennomsnitt.

    4. Når du bestemmer konfidensintervallet der den omtrentlige verdien av egenskapene til den generelle befolkningen er lokalisert.