Analiza regresji to statystyczna metoda badania zależności zmiennej losowej od zmiennych. Podstawy analizy danych Zależność regresyjna

Główna cecha analizy regresji: za jej pomocą można uzyskać konkretną informację o tym, jaką formę i charakter ma relacja pomiędzy badanymi zmiennymi.

Kolejność etapów analizy regresji

Przyjrzyjmy się pokrótce etapom analizy regresji.

    Sformułowanie problemu. Na tym etapie formułowane są wstępne hipotezy dotyczące zależności badanych zjawisk.

    Definicja zmiennych zależnych i niezależnych (objaśniających).

    Gromadzenie danych statystycznych. Dane należy zebrać dla każdej ze zmiennych uwzględnionych w modelu regresji.

    Formułowanie hipotezy o formie połączenia (prostego lub wielokrotnego, liniowego lub nieliniowego).

    Definicja funkcje regresji (polega na obliczeniu wartości liczbowych parametrów równania regresji)

    Ocena dokładności analizy regresji.

    Interpretacja uzyskanych wyników. Uzyskane wyniki analizy regresji porównuje się ze wstępnymi hipotezami. Oceniana jest poprawność i wiarygodność uzyskanych wyników.

    Przewidywanie nieznanych wartości zmiennej zależnej.

Stosując analizę regresji można rozwiązać problem prognozowania i klasyfikacji. Przewidywane wartości oblicza się poprzez podstawienie wartości zmiennych objaśniających do równania regresji. Problem klasyfikacji rozwiązuje się w ten sposób: linia regresji dzieli cały zbiór obiektów na dwie klasy, przy czym ta część zbioru, w której wartość funkcji jest większa od zera, należy do jednej klasy, a część, w której jest ona mniejsza od zera należy do innej klasy.

Problemy analizy regresji

Rozważmy główne zadania analizy regresji: ustalenie formy zależności, określenie funkcje regresji, oszacowanie nieznanych wartości zmiennej zależnej.

Ustalenie formy zależności.

Charakter i forma relacji między zmiennymi może tworzyć następujące typy regresji:

    dodatnia regresja liniowa (wyrażona równomiernym wzrostem funkcji);

    dodatnia regresja równomiernie rosnąca;

    dodatnia regresja równomiernie rosnąca;

    ujemna regresja liniowa (wyrażona jako równomierny spadek funkcji);

    ujemna, jednolicie przyspieszona regresja malejąca;

    ujemna regresja równomiernie malejąca.

Jednak opisane odmiany zwykle nie występują w czysta forma, ale w połączeniu ze sobą. W tym przypadku mówimy o połączonych formach regresji.

Definicja funkcji regresji.

Drugie zadanie sprowadza się do określenia wpływu na zmienną zależną czynników głównych lub przyczyn, przy pozostałych czynnikach niezmiennych i z wyłączeniem wpływu elementów losowych na zmienną zależną. Funkcja regresji definiuje się w formie równania matematycznego tego czy innego typu.

Oszacowanie nieznanych wartości zmiennej zależnej.

Rozwiązanie tego problemu sprowadza się do rozwiązania problemu jednego z następujących typów:

    Oszacowanie wartości zmiennej zależnej w rozpatrywanym przedziale danych początkowych, tj. brakujące wartości; w tym przypadku problem interpolacji został rozwiązany.

    Oszacowanie przyszłych wartości zmiennej zależnej, tj. znajdowanie wartości poza określonym przedziałem danych źródłowych; w tym przypadku problem ekstrapolacji został rozwiązany.

Obydwa problemy rozwiązuje się poprzez podstawienie znalezionych oszacowań parametrów dla wartości zmiennych niezależnych do równania regresji. Wynikiem rozwiązania równania jest oszacowanie wartości zmiennej docelowej (zależnej).

Przyjrzyjmy się niektórym założeniom, na których opiera się analiza regresji.

Założenie liniowości, tj. zakłada się, że związek pomiędzy rozpatrywanymi zmiennymi jest liniowy. Zatem w tym przykładzie wykreśliliśmy wykres rozrzutu i mogliśmy zobaczyć wyraźną zależność liniową. Jeśli na wykresie rozproszenia zmiennych widzimy wyraźny brak zależności liniowej, tj. Jeżeli istnieje zależność nieliniowa, należy zastosować metody analizy nieliniowej.

Założenie normalności resztki. Zakłada, że ​​rozkład różnicy pomiędzy wartościami przewidywanymi i obserwowanymi jest normalny. Aby wizualnie określić charakter rozkładu, możesz użyć histogramów resztki.

Stosując analizę regresji, należy wziąć pod uwagę jej główne ograniczenie. Polega ona na tym, że analiza regresji pozwala wykryć jedynie zależności, a nie powiązania leżące u podstaw tych zależności.

Analiza regresji pozwala oszacować siłę związku między zmiennymi poprzez obliczenie szacunkowej wartości zmiennej na podstawie kilku znanych wartości.

Równanie regresji.

Równanie regresji wygląda następująco: Y=a+b*X

Za pomocą tego równania zmienną Y wyraża się w postaci stałej a i nachylenia linii (lub nachylenia) b, pomnożonego przez wartość zmiennej X. Stała a nazywana jest również wyrazem wyrazu wolnego, a nachylenie wynosi współczynnik regresji lub współczynnik B.

W większości przypadków (jeśli nie zawsze) występuje pewien rozrzut obserwacji względem linii regresji.

Reszta jest odchyleniem pojedynczego punktu (obserwacji) od linii regresji (wartości przewidywanej).

Aby rozwiązać problem analizy regresji w programie MS Excel należy wybrać z menu Praca„Pakiet analityczny” oraz narzędzie do analizy regresji. Ustalamy przedziały wejściowe X i Y. Przedział wejściowy Y to zakres analizowanych danych zależnych, musi obejmować jedną kolumnę. Przedział wejściowy X to zakres niezależnych danych, które należy przeanalizować. Liczba zakresów wejściowych nie powinna przekraczać 16.

Na wyjściu procedury w zakresie wyjściowym otrzymujemy raport podany w tabela 8.3a-8,3 V.

PODSUMOWANIE WYNIKÓW

Tabela 8.3a. Statystyka regresji

Statystyka regresji

Liczba mnoga R

Kwadrat R

Znormalizowany R-kwadrat

Standardowy błąd

Obserwacje

Przyjrzyjmy się najpierw górnej części obliczeń przedstawionych w tabela 8.3a, - statystyka regresji.

Ogrom Kwadrat R, zwana także miarą pewności, charakteryzuje jakość otrzymanej linii regresji. Jakość ta wyraża się stopniem zgodności danych źródłowych z modelem regresji (danymi obliczonymi). Miara pewności zawsze mieści się w przedziale.

W większości przypadków wartość Kwadrat R znajduje się pomiędzy tymi wartościami, zwane ekstremalnymi, tj. pomiędzy zerem a jeden.

Jeśli wartość Kwadrat R bliski jedności, oznacza to, że skonstruowany model wyjaśnia prawie całą zmienność odpowiednich zmiennych. Odwrotnie, znaczenie Kwadrat R, bliskie zeru, oznacza słabą jakość skonstruowanego modelu.

W naszym przykładzie miara pewności wynosi 0,99673, co wskazuje na bardzo dobre dopasowanie prostej regresji do danych pierwotnych.

liczba mnoga r - współczynnik korelacji wielokrotnej R - wyraża stopień zależności zmiennych niezależnych (X) i zmiennej zależnej (Y).

Liczba mnoga R równa się pierwiastek kwadratowy ze współczynnika determinacji wielkość ta przyjmuje wartości z zakresu od zera do jednego.

W prostej analizie regresji liniowej liczba mnoga r równy współczynnikowi korelacji Pearsona. Naprawdę, liczba mnoga r w naszym przypadku jest on równy współczynnikowi korelacji Pearsona z poprzedniego przykładu (0,998364).

Tabela 8.3b. Współczynniki regresji

Szanse

Standardowy błąd

statystyka t

Przecięcie Y

Zmienna X 1

* Podano skróconą wersję obliczeń

Rozważmy teraz środkową część obliczeń przedstawionych w tabela 8.3b. Tutaj podany jest współczynnik regresji b (2,305454545) i przemieszczenie wzdłuż osi rzędnych, tj. stała a (2,694545455).

Na podstawie obliczeń możemy napisać równanie regresji w następujący sposób:

Y= x*2,305454545+2,694545455

Kierunek zależności między zmiennymi wyznacza się na podstawie znaków (ujemnych lub dodatnich) współczynników regresji (współczynnik b).

Jeżeli znak współczynnika regresji będzie dodatni, wówczas związek między zmienną zależną a zmienną niezależną będzie dodatni. W naszym przypadku znak współczynnika regresji jest dodatni, zatem zależność również jest dodatnia.

Jeżeli znak współczynnika regresji jest ujemny, wówczas związek między zmienną zależną a zmienną niezależną jest ujemny (odwrotny).

W tabela 8.3c. prezentowane są wyniki wyjściowe resztki. Aby wyniki te pojawiły się w raporcie, należy podczas uruchamiania narzędzia „Regresja” aktywować pole wyboru „Reszty”.

WYCOFANIE RESZTY

Tabela 8.3c. Resztki

Obserwacja

Przewidywany Y

Resztki

Bilanse standardowe

Korzystając z tej części raportu, możemy zobaczyć odchylenia każdego punktu od skonstruowanej linii regresji. Największa wartość bezwzględna reszta w naszym przypadku - 0,778, najmniejszy - 0,043. Aby lepiej zinterpretować te dane, skorzystamy z wykresu danych oryginalnych i skonstruowanej linii regresji przedstawionej w ryż. 8.3. Jak widać linia regresji jest dość dokładnie „dopasowana” do wartości danych wyjściowych.

Należy wziąć pod uwagę, że rozważany przykład jest dość prosty i nie zawsze możliwe jest jakościowe skonstruowanie linii regresji liniowej.

Ryż. 8.3. Dane źródłowe i linia regresji

Nierozpatrzony pozostał problem szacowania nieznanych przyszłych wartości zmiennej zależnej na podstawie znanych wartości zmiennej niezależnej, tj. problem prognozowania.

Mając równanie regresji, problem prognozowania sprowadza się do rozwiązania równania Y= x*2,305454545+2,694545455 ze znanymi wartościami x. Zaprezentowano wyniki przewidywania zmiennej zależnej Y o sześć kroków do przodu w tabeli 8.4.

Tabela 8.4. Wyniki prognozy zmiennej Y

T (przewidywany)

Zatem w wyniku zastosowania analizy regresji w programie Microsoft Excel:

    zbudował równanie regresji;

    ustalono formę zależności i kierunek powiązania między zmiennymi – dodatnią regresję liniową, która wyraża się równomiernym wzrostem funkcji;

    ustalił kierunek zależności między zmiennymi;

    ocenił jakość otrzymanej linii regresji;

    potrafili dostrzec odchylenia obliczonych danych od danych z pierwotnego zbioru;

    przewidywane przyszłe wartości zmiennej zależnej.

Jeśli funkcja regresji zdefiniowany, zinterpretowany i uzasadniony, a ocena dokładności analizy regresji spełnia wymagania, skonstruowany model i przewidywane wartości można uznać za posiadające wystarczającą wiarygodność.

Uzyskane w ten sposób wartości przewidywane są wartościami średnimi, jakich można się spodziewać.

W tej pracy dokonaliśmy przeglądu głównych cech statystyki opisowe a wśród nich takie pojęcia jak średnia wartość,mediana,maksymalny,minimum i inne cechy zmienności danych.

Krótko omówiono także tę koncepcję emisje. Rozpatrywane cechy dotyczą tzw. eksploracyjnej analizy danych, z której wnioski nie mogą dotyczyć populacji ogólnej, a jedynie próbki danych. Eksploracyjna analiza danych służy do uzyskania podstawowych wniosków i sformułowania hipotez na temat populacji.

Omówiono także podstawy analizy korelacji i regresji, ich zadania i możliwości praktycznego zastosowania.

1. Termin „regresja” został po raz pierwszy wprowadzony przez twórcę biometrii F. Galtona (XIX w.), którego koncepcje rozwinął jego naśladowca K. Pearson.

Analiza regresji - metoda przetwarzanie statystyczne dane, które pozwalają zmierzyć związek pomiędzy jedną lub większą liczbą przyczyn (cecha czynnikowa) a konsekwencją (charakterystyka wynikowa).

Podpisać- jest to główna cecha wyróżniająca, cecha badanego zjawiska lub procesu.

Skuteczny znak - badany wskaźnik.

Znak czynnika- wskaźnik wpływający na wartość wynikowej cechy.

Celem analizy regresji jest ocena zależności funkcjonalnej średniej wartości wynikowej cechy ( Na) z czynnika ( x 1, x 2, …, x n), wyrażone jako równania regresji

Na= F(x 1, x 2, …, x n). (6.1)

Istnieją dwa rodzaje regresji: sparowana i wielokrotna.

Regresja sparowana (prosta).- równanie postaci:

Na= F(X). (6.2)

Wynikową cechę regresji parami uważa się za funkcję jednego argumentu, tj. cecha jednego czynnika.

Analiza regresji obejmuje następujące kroki:

· określenie rodzaju funkcji;

· wyznaczanie współczynników regresji;

· obliczenie wartości teoretycznych otrzymanej charakterystyki;

· sprawdzenie istotności statystycznej współczynników regresji;

· sprawdzenie istotności statystycznej równania regresji.

Regresja wielokrotna- równanie postaci:

Na= F(x 1, x 2, …, x n). (6.3)

Wynikowy atrybut jest uważany za funkcję kilku argumentów, tj. wiele znaków czynnikowych.

2. Aby poprawnie określić rodzaj funkcji, należy znaleźć kierunek połączenia na podstawie danych teoretycznych.

Ze względu na kierunek połączenia regresję dzieli się na:

· regresja bezpośrednia powstające pod warunkiem, że wraz ze wzrostem lub spadkiem wielkości niezależnej „ X" wartości wielkości zależnej ” y” również odpowiednio zwiększyć lub zmniejszyć;

· regresja odwrotna powstałe pod warunkiem, że wraz ze wzrostem lub spadkiem wartości niezależnej "X" ilość zależna " y” odpowiednio maleje lub wzrasta.

Aby scharakteryzować połączenia, stosuje się następujące typy równań regresji sparowanej:

· y=a+bxliniowy;

· y=e ax + b – wykładniczy;

· y=a+b/x – hiperboliczny;

· y=a+b 1 x+b 2 x 2 – paraboliczny;

· y=ab x – wykładniczy itp.

Gdzie a, b 1, b 2- współczynniki (parametry) równania; Na- znak skuteczny; X- znak czynnika.

3. Konstrukcja równania regresji sprowadza się do oszacowania jego współczynników (parametrów), do tego używamy metoda najmniejszych kwadratów(MNC).

Metoda najmniejszych kwadratów pozwala uzyskać takie oszacowania parametrów, dla których suma kwadratów odchyleń rzeczywistych wartości wynikowego atrybutu „ Na„z teorii” y x» jest minimalne, tj

Parametry równania regresji y=a+bх metodą najmniejszych kwadratów szacuje się za pomocą wzorów:

Gdzie A - wolny współczynnik, B- współczynnik regresji, pokazuje, jak bardzo zmieni się wynikowy znak „ y„kiedy zmienia się charakterystyka czynnika” X» na jednostkę miary.

4. Do oceny istotności statystycznej współczynników regresji stosuje się test t-Studenta.

Schemat badania istotności współczynników regresji:

1) H0: a=0, B=0 - współczynniki regresji nie różnią się istotnie od zera.

H1: a≠ 0, b≠ 0 - współczynniki regresji są istotnie różne od zera.

2) R=0,05 – poziom istotności.

Gdzie m b,ja- błędy losowe:

; . (6.7)

4) stół(P; F),

Gdzie F=nie-k- 1 - liczba stopni swobody ( wartość tabeli), N- liczba obserwacji, k X".

5) Jeżeli , to zostaje odrzucony, tj. współczynnik jest znaczący.

Jeśli , to jest akceptowane, tj. współczynnik jest nieistotny.

5. Do sprawdzenia poprawności skonstruowanego równania regresji wykorzystuje się kryterium Fishera.

Schemat badania istotności równania regresji:

1) H0: Równanie regresji nie jest istotne.

H1: Równanie regresji jest istotne.

2) R=0,05 – poziom istotności.

3) , (6.8)

gdzie jest liczbą obserwacji; k- liczba parametrów w równaniu ze zmiennymi " X"; Na- rzeczywista wartość wynikowego atrybutu; y x- wartość teoretyczna wynikowy znak; - współczynnik korelacji par.

4) Stół F(P; fa 1; f 2),

Gdzie fa 1 = k, f 2 = n-k-1- liczba stopni swobody (wartości tabelaryczne).

5) Jeśli F obliczone >F tabela, wówczas równanie regresji jest dobrane prawidłowo i można je zastosować w praktyce.

Jeśli F oblicz , to równanie regresji zostało wybrane niepoprawnie.

6. Głównym wskaźnikiem odzwierciedlającym jakość analizy regresji jest współczynnik determinacji (R 2).

Współczynnik determinacji pokazuje, jaka część zmiennej zależnej „ Na” jest brany pod uwagę w analizie i jest spowodowany wpływem na nią czynników uwzględnionych w analizie.

Współczynnik determinacji (R2) przyjmuje wartości z przedziału . Równanie regresji jest jakościowe, jeśli R2 ≥0,8.

Współczynnik determinacji jest równy kwadratowi współczynnika korelacji, tj.

Przykład 6.1. Korzystając z poniższych danych, skonstruuj i przeanalizuj równanie regresji:

Rozwiązanie.

1) Oblicz współczynnik korelacji: . Związek między znakami jest bezpośredni i umiarkowany.

2) Skonstruuj sparowane równanie regresji liniowej.

2.1) Utwórz tabelę obliczeniową.

X Na Hu x 2 y x (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Suma 159,45 558,55
Przeciętny 77519,6 22,78 79,79 2990,6

,

Sparowane równanie regresji liniowej: yx =25,17+0,087x.

3) Znajdź wartości teoretyczne „ y x"podstawiając wartości rzeczywiste do równania regresji" X».

4) Twórz wykresy rzeczywistych „ y” i wartości teoretyczne” y x„charakterystyka efektywna (rysunek 6.1): r xy = 0,47) i niewielka liczba obserwacji.

7) Oblicz współczynnik determinacji: R2=(0,47) 2 =0,22. Skonstruowane równanie jest niskiej jakości.

Ponieważ obliczenia przy przeprowadzaniu analizy regresji są dość obszerne; zaleca się stosowanie specjalnych programów (Statistica 10, SPSS itp.).

Rysunek 6.2 przedstawia tabelę z wynikami analizy regresji przeprowadzonej przy użyciu programu Statistica 10.

Rysunek 6.2. Wyniki analizy regresji przeprowadzonej przy użyciu programu Statistica 10

5. Literatura:

1. Gmurman V.E. Teoria prawdopodobieństwa i statystyka matematyczna: Podręcznik. podręcznik dla uniwersytetów / V.E. Gmurmana. - M.: Szkoła Wyższa, 2003. - 479 s.

2. Koychubekov B.K. Biostatystyka: podręcznik. - Ałmaty: Evero, 2014. - 154 s.

3. Lobotskaya N.L. Wyższa matematyka. / N.L. Łobotskaja, Yu.V. Morozow, A.A. Dunajew. - Mn.: Szkoła Wyższa, 1987 r. - 319 s.

4. Medyk V.A., Tokmachev M.S., Fishman B.B. Statystyka w medycynie i biologii: przewodnik. W 2 tomach / wyd. Yu.M. Komarowa. T. 1. Statystyka teoretyczna. - M.: Medycyna, 2000. - 412 s.

5. Zastosowanie metod analizy statystycznej w badaniach zdrowia publicznego i opieki zdrowotnej: podręcznik / wyd. Kucherenko V.Z. - wyd. 4, poprawione. i dodatkowe – M.: GEOTAR – Media, 2011. – 256 s.

W wyniku przestudiowania materiału z rozdziału 4 student powinien:

wiedzieć

  • podstawowe pojęcia analizy regresji;
  • metody estymacji i właściwości estymacji metodą najmniejszych kwadratów;
  • podstawowe zasady badania istotności i estymacji przedziałowej równań i współczynników regresji;

móc

  • wykorzystać przykładowe dane do znalezienia estymatorów parametrów modeli równań dwuwymiarowych i modeli regresji wielokrotnej oraz przeanalizować ich właściwości;
  • sprawdzić znaczenie równania i współczynników regresji;
  • znaleźć szacunki przedziałowe istotnych parametrów;

własny

  • umiejętność statystycznej estymacji parametrów równań regresji dwuwymiarowej i wielokrotnej; umiejętność sprawdzania adekwatności modeli regresji;
  • umiejętność otrzymywania równania regresji ze wszystkimi istotnymi współczynnikami z wykorzystaniem programów analitycznych.

Podstawowe pojęcia

Po przeprowadzeniu analizy korelacji, gdy zidentyfikowano występowanie istotnych statystycznie zależności pomiędzy zmiennymi i oceniono stopień ich bliskości, zazwyczaj przystępuje się do matematycznego opisu rodzaju zależności metodami analizy regresji. W tym celu wybiera się klasę funkcji, która wiąże efektywny wskaźnik Na i argumenty „obliczają oszacowania parametrów równania sprzężenia i analizują dokładność otrzymanego równania.

Funkcja|, opisująca zależność warunkowej wartości średniej wynikowej charakterystyki Na z podanych wartości argumentów wywoływana jest równanie regresji.

Termin „regresja” (od łac. regresja – wycofać się, wrócić do czegoś) został wprowadzony przez angielskiego psychologa i antropologa F. Galtona i kojarzony jest z jednym z jego pierwszych przykładów, w którym Galton przetwarzając dane statystyczne związane z kwestią dziedziczności wzrostu stwierdził, że jeśli wysokość ojców odbiega od średniego wzrostu wszystkich ojców X cali, wówczas wzrost ich synów odbiega od średniego wzrostu wszystkich synów o mniej niż X cale. Zidentyfikowany trend nazwano regresja do średniej.

Termin „regresja” jest szeroko stosowany w literaturze statystycznej, chociaż w wielu przypadkach nie opisuje dokładnie zależności statystycznej.

Aby dokładnie opisać równanie regresji, należy znać prawo rozkładu warunkowego efektywnego wskaźnika ty W praktyce statystycznej zwykle nie ma możliwości uzyskania takich informacji, dlatego ograniczają się one do poszukiwania odpowiednich przybliżeń dla funkcji f(x ty X 2,... l*), na podstawie wstępnej merytorycznej analizy zjawiska lub wstępnych danych statystycznych.

W ramach poszczególnych założeń modelu o rodzaju rozkładu wektora wskaźników<) может быть получен общий вид równania regresji, Gdzie. Przykładowo, przy założeniu, że badany zbiór wskaźników spełnia ()wymiarowe prawo rozkładu normalnego z wektorem oczekiwań matematycznych

Gdzie i macierz kowariancji,

gdzie jest rozproszenie y,

Równanie regresji (warunkowe oczekiwanie matematyczne) ma postać

Zatem, jeśli wielowymiarowa zmienna losowa ()

przestrzega ()-wymiarowego prawa rozkładu normalnego, a następnie równania regresji efektywnego wskaźnika Na w zmiennych objaśniających jest liniowy X pogląd.

Jednak w praktyce statystycznej zwykle trzeba ograniczyć się do znalezienia odpowiednich przybliżeń dla nieznanej prawdziwej funkcji regresji f(x), ponieważ badacz nie posiada dokładnej wiedzy na temat prawa rozkładu prawdopodobieństwa warunkowego analizowanego wskaźnika wydajności Na dla podanych wartości argumentów X.

Przyjrzyjmy się zależnościom pomiędzy szacunkami prawdziwymi, modelowymi i regresyjnymi. Niech skuteczny wskaźnik Na związane z argumentacją X stosunek

gdzie jest zmienną losową mającą rozkład normalny, oraz i. Prawdziwa funkcja regresji ma w tym przypadku postać

Załóżmy, że nie jest nam znana dokładna postać prawdziwego równania regresji, ale mamy dziewięć obserwacji dwuwymiarowej zmiennej losowej powiązanej relacjami przedstawionymi na ryc. 4.1.

Ryż. 4.1. Względna pozycja prawdyk(x) i teoretyczneupsmodele regresji

Położenie punktów na rys. 4.1 pozwala nam ograniczyć się do klasy liniowych zależności postaci

Metodą najmniejszych kwadratów znajdujemy estymację równania regresji.

Dla porównania na ryc. 4.1 pokazuje wykresy prawdziwej funkcji regresji i teoretycznej funkcji regresji aproksymującej. Oszacowanie równania regresji zbiega się z prawdopodobieństwem do tego drugiego ups z nieograniczonym wzrostem wielkości próby ().

Ponieważ błędnie wybraliśmy funkcję regresji liniowej zamiast prawdziwej funkcji regresji, co niestety jest dość powszechne w praktyce badań statystycznych, nasze wnioski i szacunki statystyczne nie będą miały właściwości spójności, tj. Bez względu na to, jak zwiększymy liczbę obserwacji, nasze oszacowanie próbki nie będzie zbieżne z prawdziwą funkcją regresji

Gdybyśmy poprawnie dobrali klasę funkcji regresji, to niedokładność w opisie za pomocą ups można by wytłumaczyć jedynie ograniczoną próbą, w związku z czym można ją przeprowadzić tak małą, jak to pożądane

Aby jak najlepiej odtworzyć wartość warunkową wskaźnika wydajności i nieznaną funkcję regresji z wyjściowych danych statystycznych, najczęściej stosuje się: kryteria adekwatności funkcje straty.

1. metoda najmniejszych kwadratów, zgodnie z którym minimalizowane jest kwadratowe odchylenie obserwowanych wartości efektywnego wskaźnika, od wartości modelu, gdzie współczynniki równania regresji są wartościami wektora argumentu w obserwacji „-M”. :

Problem znalezienia estymaty wektora został rozwiązany. Wynikowa regresja nazywa się znaczy kwadrat.

2. Metoda najmniejszych modułów, zgodnie z którym minimalizowana jest suma bezwzględnych odchyleń obserwowanych wartości wskaźnika efektywnego od wartości modułowych, tj.

Wynikowa regresja nazywa się oznacza absolutne(mediana).

3. Metoda Minimaxa sprowadza się do minimalizacji maksymalnego modułu odchylenia obserwowanej wartości skutecznego wskaźnika y, od wartości modelu, tj.

Wynikowa regresja nazywa się minimaks.

W zastosowaniach praktycznych często pojawiają się problemy podczas badania zmiennej losowej y, w zależności od pewnego zestawu zmiennych i nieznanych parametrów. Rozważymy () jako (k + 1)-wymiarowa populacja ogólna, z której losowa próba P, gdzie () jest wynikiem i-tej obserwacji. Wymagane jest oszacowanie nieznanych parametrów na podstawie wyników obserwacji. Opisane powyżej zadanie dotyczy problemów analizy regresji.

Analiza regresji nazywa się metodą analizy statystycznej zależności zmiennej losowej Na na zmiennych uznawanych w analizie regresji za wartości nielosowe, niezależnie od prawdziwego prawa dystrybucji

Studenci w trakcie studiów bardzo często spotykają się z różnymi równaniami. Jedno z nich – równanie regresji – zostało omówione w tym artykule. Ten typ równania jest używany specjalnie do opisu charakterystyki zależności między parametrami matematycznymi. Ten typ równości jest stosowany w statystyce i ekonometrii.

Definicja regresji

W matematyce regresja oznacza pewną wielkość opisującą zależność średniej wartości zbioru danych od wartości innej wielkości. Równanie regresji pokazuje, jako funkcję określonej cechy, średnią wartość innej cechy. Funkcja regresji ma postać prostego równania y = x, w którym y pełni rolę zmiennej zależnej, a x jest zmienną niezależną (czynnik cechy). W rzeczywistości regresję wyraża się jako y = f (x).

Jakie są rodzaje relacji między zmiennymi?

Ogólnie rzecz biorąc, istnieją dwa przeciwstawne typy relacji: korelacja i regresja.

Pierwsza charakteryzuje się równością zmiennych warunkowych. W tym przypadku nie wiadomo, która zmienna zależy od drugiej.

Jeżeli pomiędzy zmiennymi nie ma równości, a warunki mówią, która zmienna jest objaśniająca, a która zależna, to możemy mówić o istnieniu powiązania drugiego typu. Aby skonstruować równanie regresji liniowej, konieczne będzie ustalenie, jaki typ zależności jest obserwowany.

Rodzaje regresji

Obecnie istnieje 7 różnych typów regresji: hiperboliczna, liniowa, wielokrotna, nieliniowa, parami, odwrotna i logarytmicznie liniowa.

Hiperboliczne, liniowe i logarytmiczne

Równanie regresji liniowej stosuje się w statystyce w celu jasnego wyjaśnienia parametrów równania. Wygląda na to, że y = c+t*x+E. Równanie hiperboliczne ma postać hiperboli regularnej y = c + m / x + E. Równanie logarytmicznie liniowe wyraża zależność za pomocą funkcji logarytmicznej: In y = In c + m * In x + In E.

Wielorakie i nieliniowe

Dwa bardziej złożone typy regresji są wielokrotne i nieliniowe. Równanie regresji wielokrotnej wyraża się funkcją y = f(x 1, x 2 ... x c) + E. W tej sytuacji y pełni rolę zmiennej zależnej, a x pełni rolę zmiennej objaśniającej. Zmienna E ma charakter stochastyczny; uwzględnia wpływ innych czynników w równaniu. Równanie regresji nieliniowej jest nieco kontrowersyjne. Z jednej strony w odniesieniu do branych pod uwagę wskaźników nie ma ona charakteru liniowego, z drugiej zaś w roli wskaźników oceniających ma charakter liniowy.

Regresje odwrotne i sparowane

Odwrotność to rodzaj funkcji, którą należy przekształcić do postaci liniowej. W najbardziej tradycyjnych programach aplikacyjnych przyjmuje postać funkcji y = 1/c + m*x+E. Równanie regresji parami pokazuje zależność pomiędzy danymi w funkcji y = f (x) + E. Podobnie jak w innych równaniach, y zależy od x, a E jest parametrem stochastycznym.

Pojęcie korelacji

Jest to wskaźnik świadczący o istnieniu związku pomiędzy dwoma zjawiskami lub procesami. Siłę związku wyraża się jako współczynnik korelacji. Jego wartość waha się w przedziale [-1;+1]. Wskaźnik ujemny wskazuje na obecność sprzężenia zwrotnego, wskaźnik dodatni wskazuje na bezpośrednie sprzężenie zwrotne. Jeżeli współczynnik przyjmuje wartość równą 0, wówczas zależności nie ma. Im wartość jest bliższa 1, tym związek między parametrami jest silniejszy, a im bliższy 0, tym jest on słabszy.

Metody

Korelacyjne metody parametryczne pozwalają ocenić siłę związku. Wykorzystuje się je na podstawie estymacji rozkładu do badania parametrów zgodnych z prawem rozkładu normalnego.

Parametry równania regresji liniowej są niezbędne do identyfikacji rodzaju zależności, funkcji równania regresji oraz oceny wskaźników wybranej formuły zależności. Pole korelacji służy jako metoda identyfikacji połączenia. W tym celu wszystkie istniejące dane muszą zostać przedstawione graficznie. Wszystkie znane dane należy przedstawić w prostokątnym dwuwymiarowym układzie współrzędnych. W ten sposób powstaje pole korelacyjne. Wartości współczynnika opisującego zaznaczono na osi odciętych, natomiast wartości współczynnika zależnego na osi rzędnych. Jeśli istnieje funkcjonalna zależność pomiędzy parametrami, są one ułożone w formie linii.

Jeżeli współczynnik korelacji takich danych jest mniejszy niż 30%, możemy mówić o niemal całkowitym braku połączenia. Jeśli wynosi od 30% do 70%, oznacza to obecność połączeń średnio-bliskich. Wskaźnik 100% świadczy o funkcjonalnym połączeniu.

Równanie regresji nieliniowej, podobnie jak równanie liniowe, należy uzupełnić o wskaźnik korelacji (R).

Korelacja dla regresji wielokrotnej

Współczynnik determinacji jest wskaźnikiem kwadratu korelacji wielokrotnej. Mówi o ścisłym związku prezentowanego zestawu wskaźników z badaną cechą. Można także mówić o naturze wpływu parametrów na wynik. Za pomocą tego wskaźnika szacuje się równanie regresji wielokrotnej.

Aby obliczyć wskaźnik korelacji wielokrotnej, należy obliczyć jego wskaźnik.

Metoda najmniejszych kwadratów

Metoda ta jest sposobem na oszacowanie współczynników regresji. Jego istotą jest minimalizacja sumy kwadratów odchyleń uzyskanych w wyniku zależności współczynnika od funkcji.

Za pomocą takiej metody można oszacować równanie regresji liniowej parami. Tego typu równania stosuje się w przypadku wykrycia sparowanej zależności liniowej między wskaźnikami.

Parametry równania

Każdy parametr funkcji regresji liniowej ma określone znaczenie. Sparowane równanie regresji liniowej zawiera dwa parametry: c i m. Parametr m pokazuje średnią zmianę końcowego wskaźnika funkcji y, pod warunkiem, że zmienna x zmniejszy się (zwiększy) o jedną jednostkę umowną. Jeżeli zmienna x wynosi zero, to funkcja jest równa parametrowi c. Jeśli zmienna x nie jest zerowa, wówczas czynnik c nie ma znaczenia ekonomicznego. Jedynym wpływem na funkcję jest znak przed czynnikiem c. Jeśli jest minus, możemy powiedzieć, że zmiana wyniku jest powolna w porównaniu do współczynnika. Jeśli jest plus, oznacza to przyspieszoną zmianę wyniku.

Każdy parametr zmieniający wartość równania regresji można wyrazić za pomocą równania. Na przykład współczynnik c ma postać c = y - mx.

Zgrupowane dane

Istnieją warunki zadań, w których wszystkie informacje są pogrupowane według atrybutu x, ale dla pewnej grupy wskazane są odpowiednie średnie wartości zależnego wskaźnika. W tym przypadku średnie wartości charakteryzują, jak zmienia się wskaźnik w zależności od x. Zatem pogrupowane informacje pomagają znaleźć równanie regresji. Służy do analizy relacji. Jednak ta metoda ma swoje wady. Niestety, średnie wskaźniki często podlegają wahaniom zewnętrznym. Wahania te nie odzwierciedlają wzorca związku; po prostu maskują jego „hałas”. Średnie pokazują wzorce zależności znacznie gorsze niż równanie regresji liniowej. Można je jednak wykorzystać jako podstawę do znalezienia równania. Mnożąc liczbę pojedynczej populacji przez odpowiednią średnią, można otrzymać sumę y w obrębie grupy. Następnie musisz zsumować wszystkie otrzymane kwoty i znaleźć końcowy wskaźnik y. Nieco trudniej jest dokonać obliczeń ze wskaźnikiem sumy xy. Jeśli odstępy są małe, możemy warunkowo przyjąć, że wskaźnik x dla wszystkich jednostek (w grupie) będzie taki sam. Należy pomnożyć go przez sumę y, aby otrzymać sumę iloczynów x i y. Następnie wszystkie kwoty sumuje się i otrzymuje całkowitą kwotę xy.

Równanie regresji wielokrotnej parami: ocena ważności związku

Jak wspomniano wcześniej, regresja wielokrotna ma funkcję w postaci y = f (x 1,x 2,…,x m)+E. Najczęściej równanie takie wykorzystuje się do rozwiązania problemu podaży i popytu na produkt, dochodu odsetkowego od nabytych akcji oraz do badania przyczyn i rodzaju funkcji kosztu produkcji. Jest również aktywnie wykorzystywane w różnorodnych badaniach i obliczeniach makroekonomicznych, jednak na poziomie mikroekonomii równanie to jest stosowane nieco rzadziej.

Głównym zadaniem regresji wielokrotnej jest zbudowanie modelu danych zawierającego ogromną ilość informacji w celu dalszego określenia, jaki wpływ ma każdy z czynników indywidualnie i łącznie na modelowany wskaźnik i jego współczynniki. Równanie regresji może przyjmować wiele różnych wartości. W tym przypadku do oceny zależności stosuje się zwykle dwa rodzaje funkcji: liniową i nieliniową.

Funkcja liniowa jest przedstawiona w postaci zależności: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. W tym przypadku a2, am uważa się za „czyste” współczynniki regresji. Są one niezbędne do scharakteryzowania średniej zmiany parametru y wraz ze zmianą (spadkiem lub wzrostem) każdego odpowiedniego parametru x o jedną jednostkę, z zastrzeżeniem stabilnych wartości innych wskaźników.

Równania nieliniowe mają np. postać funkcji potęgowej y=ax 1 b1 x 2 b2 ...x m bm. W tym przypadku wskaźniki b 1, b 2 ..... b m nazywane są współczynnikami elastyczności, pokazują, jak zmieni się wynik (o ile%) wraz ze wzrostem (spadkiem) odpowiedniego wskaźnika x o 1% i przy stabilnym wskaźniku innych czynników.

Jakie czynniki należy wziąć pod uwagę konstruując regresję wielokrotną

Aby poprawnie zbudować regresję wielokrotną, należy dowiedzieć się, na jakie czynniki należy zwrócić szczególną uwagę.

Konieczne jest pewne zrozumienie natury zależności między czynnikami ekonomicznymi a modelowanym obiektem. Czynniki, które będą musiały zostać uwzględnione, muszą spełniać następujące kryteria:

  • Należy poddać pomiarowi ilościowemu. Aby móc zastosować współczynnik opisujący jakość obiektu, należy w każdym przypadku nadać mu postać ilościową.
  • Nie powinno być żadnej wzajemnej korelacji czynników ani relacji funkcjonalnej. Takie działania najczęściej prowadzą do nieodwracalnych konsekwencji - układ równań zwyczajnych staje się bezwarunkowy, a to pociąga za sobą jego zawodność i niejasne szacunki.
  • W przypadku ogromnego wskaźnika korelacji nie ma możliwości stwierdzenia izolowanego wpływu czynników na końcowy wynik wskaźnika, dlatego współczynniki stają się nieinterpretowalne.

Metody konstrukcyjne

Istnieje ogromna liczba metod i metod wyjaśniających, w jaki sposób można wybrać czynniki do równania. Wszystkie te metody opierają się jednak na doborze współczynników za pomocą wskaźnika korelacji. Wśród nich są:

  • Metoda eliminacji.
  • Metoda przełączania.
  • Analiza regresji krokowej.

Pierwsza metoda polega na odfiltrowaniu wszystkich współczynników z całkowitego zbioru. Druga metoda polega na wprowadzeniu wielu dodatkowych czynników. Cóż, trzecia polega na eliminacji czynników, które zostały wcześniej użyte w równaniu. Każda z tych metod ma prawo istnieć. Mają swoje wady i zalety, ale wszyscy mogą na swój sposób rozwiązać problem eliminacji niepotrzebnych wskaźników. Z reguły wyniki uzyskane każdą indywidualną metodą są dość zbliżone.

Metody analizy wieloczynnikowej

Takie metody wyznaczania czynników opierają się na uwzględnieniu indywidualnych kombinacji wzajemnie powiązanych cech. Należą do nich analiza dyskryminacyjna, rozpoznawanie kształtów, analiza głównych składowych i analiza skupień. Ponadto istnieje również analiza czynnikowa, ale pojawiła się ona w związku z rozwojem metody składowej. Wszystkie mają zastosowanie w określonych okolicznościach, z zastrzeżeniem pewnych warunków i czynników.

Analiza regresji metoda modelowania danych pomiarowych i badania ich właściwości. Dane składają się z par wartości zmienna zależna(zmienna odpowiedzi) i zmienna niezależna(zmienna objaśniająca). Model regresji jest funkcją zmiennej niezależnej i parametrów z dodaną zmienną losową. Parametry modelu dobiera się tak, aby model najlepiej pasował do danych. Kryterium jakości aproksymacji (funkcji celu) jest zwykle pierwiastek błędu średniokwadratowego: suma kwadratów różnicy między wartościami modelu a zmienną zależną dla wszystkich wartości zmiennej niezależnej jako argument. Dział analizy regresji statystyki matematycznej i uczenia maszynowego. Zakłada się, że zmienna zależna jest sumą wartości jakiegoś modelu i zmiennej losowej. Przyjmuje się założenia dotyczące charakteru rozkładu tej wielkości, zwane hipotezą generowania danych. Aby potwierdzić lub obalić tę hipotezę, przeprowadza się testy statystyczne zwane analizą rezydualną. Zakłada się, że zmienna niezależna nie zawiera błędów. Analiza regresji służy do prognozowania, analizy szeregów czasowych, testowania hipotez i identyfikowania ukrytych zależności w danych.

Definicja analizy regresji

Próbka może nie być funkcją, ale relacją. Na przykład dane do zbudowania regresji mogą wyglądać następująco: . W takiej próbie jedna wartość zmiennej odpowiada kilku wartościom zmiennych.

Regresja liniowa

Regresja liniowa zakłada, że ​​funkcja zależy liniowo od parametrów. W tym przypadku liniowa zależność od zmiennej swobodnej nie jest konieczna,

W przypadku gdy funkcja regresji liniowej ma postać

oto składowe wektora.

Wartości parametrów w przypadku regresji liniowej wyznacza się metodą najmniejszych kwadratów. Zastosowanie tej metody uzasadnione jest założeniem rozkładu Gaussa zmiennej losowej.

Nazywa się różnice między rzeczywistymi wartościami zmiennej zależnej a zrekonstruowanymi pozostałości regresji(resztki). W literaturze używane są także synonimy: pozostałości I błędy. Jedną z ważnych ocen kryterium jakości otrzymanej zależności jest suma kwadratów reszt:

Tutaj suma kwadratów błędów.

Wariancję reszt oblicza się za pomocą wzoru

Tutaj średni błąd kwadratowy, średni błąd kwadratowy.

Wykresy przedstawiają próbki oznaczone niebieskimi kropkami i zależności regresji oznaczone liniami ciągłymi. Zmienna wolna jest wykreślana wzdłuż osi odciętych, a zmienna zależna jest wykreślana wzdłuż osi współrzędnych. Wszystkie trzy zależności są liniowe względem parametrów.

Regresja nieliniowa

Modele regresji nieliniowej – modele postaci

którego nie można przedstawić w postaci iloczynu skalarnego

gdzie są parametrami modelu regresji, jest zmienną wolną z przestrzeni, jest zmienną zależną, jest zmienną losową i jest funkcją z pewnego zbioru.

Wartości parametrów w przypadku regresji nieliniowej wyznacza się za pomocą jednej z metod gradientowego opadania, np. algorytmu Levenberga-Marquardta.

O warunkach

Termin „regresja” został ukuty przez Francisa Galtona pod koniec XIX wieku. Galton odkrył, że dzieci rodziców o wysokim lub niskim wzroście zwykle nie dziedziczą wybitnego wzrostu i nazwał to zjawisko „regresją do przeciętności”. Początkowo termin ten był używany wyłącznie w sensie biologicznym. Po pracach Karla Pearsona termin ten zaczęto stosować w statystyce.

W literaturze statystycznej rozróżnia się regresję obejmującą jedną zmienną wolną i regresję obejmującą kilka zmiennych wolnych jednowymiarowy I wielowymiarowy regresja. Zakłada się, że korzystamy z kilku zmiennych wolnych, czyli wolnego wektora zmiennych. W szczególnych przypadkach, gdy zmienna wolna jest skalarem, będzie ona oznaczona przez . Wyróżnić liniowy I nieliniowy regresja. Jeżeli model regresji nie jest liniową kombinacją funkcji parametrów, wówczas mówimy o regresji nieliniowej. W tym przypadku model może być dowolną superpozycją funkcji z pewnego zbioru. Modele nieliniowe to modele wykładnicze, trygonometryczne i inne (na przykład radialne funkcje bazowe lub perceptron Rosenblatta), które zakładają, że związek między parametrami a zmienną zależną jest nieliniowy.

Wyróżnić parametryczny I nieparametryczny regresja. Trudno jest wytyczyć ścisłą granicę pomiędzy tymi dwoma rodzajami regresji. Obecnie nie ma ogólnie przyjętego kryterium odróżniającego jeden typ modelu od drugiego. Na przykład modele liniowe są uważane za parametryczne, a modele obejmujące uśrednianie zmiennej zależnej w przestrzeni zmiennej swobodnej są nieparametryczne. Przykład modelu regresji parametrycznej: predyktor liniowy, perceptron wielowarstwowy. Przykłady modeli regresji mieszanej: radialne funkcje bazowe. Nieparametryczny model uśredniania ruchu w oknie o określonej szerokości. Ogólnie rzecz biorąc, regresja nieparametryczna różni się od regresji parametrycznej tym, że zmienna zależna nie zależy od jednej wartości zmiennej wolnej, ale od jakiegoś określonego otoczenia tej wartości.

Istnieje rozróżnienie między terminami „aproksymacja funkcji”, „aproksymacja”, „interpolacja” i „regresja”. Jest następująco.

Aproksymacja funkcji. Podana jest funkcja argumentu dyskretnego lub ciągłego. Należy znaleźć funkcję z określonej rodziny parametrycznej, np. wśród wielomianów algebraicznych danego stopnia. Parametry funkcji muszą zapewniać minimum jakiejś funkcjonalności, np.

Termin przybliżenie synonim terminu „aproksymacja funkcji”. Częściej używa się go, gdy mówimy o danej funkcji, jako funkcję dyskretnego argumentu. Tutaj również należy znaleźć funkcję, która przechodzi najbliżej wszystkich punktów danej funkcji. To wprowadza koncepcję pozostałości odległości między punktami funkcji ciągłej a odpowiadającymi im punktami dyskretnej funkcji argumentacyjnej.

Interpolacja funkcjonuje w szczególnym przypadku problemu aproksymacji, gdy wymagane jest, aby w pewnych punktach tzw węzły interpolacyjne wartości funkcji i funkcji ją przybliżającej pokrywały się. Mówiąc bardziej ogólnie, na wartości niektórych instrumentów pochodnych nakładane są ograniczenia. Oznacza to, że podana jest funkcja dyskretnego argumentu. Należy znaleźć funkcję przechodzącą przez wszystkie punkty. W tym przypadku zwykle nie stosuje się metryki, ale często wprowadza się pojęcie „gładkości” pożądanej funkcji.