Die Regressionsanalyse ist eine statistische Methode zur Untersuchung der Abhängigkeit einer Zufallsvariablen von Variablen. Grundlagen der Datenanalyse-Regression

Das Hauptmerkmal der Regressionsanalyse besteht darin, dass mit ihr spezifische Informationen über die Form und Art der Beziehung zwischen den untersuchten Variablen gewonnen werden können.

Die Abfolge der Phasen der Regressionsanalyse

Betrachten wir kurz die Phasen der Regressionsanalyse.

    Aufgabenformulierung. In dieser Phase werden vorläufige Hypothesen über die Abhängigkeit der untersuchten Phänomene gebildet.

    Definition abhängiger und unabhängiger (erklärender) Variablen.

    Erhebung statistischer Daten. Für jede im Regressionsmodell enthaltene Variable müssen Daten erfasst werden.

    Formulierung einer Hypothese über die Verbindungsform (einfach oder mehrfach, linear oder nichtlinear).

    Definition Regressionsfunktionen (besteht in der Berechnung der Zahlenwerte der Parameter der Regressionsgleichung)

    Bewertung der Genauigkeit der Regressionsanalyse.

    Interpretation der erhaltenen Ergebnisse. Die Ergebnisse der Regressionsanalyse werden mit vorläufigen Hypothesen verglichen. Die Richtigkeit und Plausibilität der erzielten Ergebnisse wird bewertet.

    Vorhersage unbekannter Werte der abhängigen Variablen.

Mit Hilfe der Regressionsanalyse ist es möglich, das Problem der Prognose und Klassifizierung zu lösen. Vorhersagewerte werden berechnet, indem die Werte der erklärenden Variablen in die Regressionsgleichung eingesetzt werden. Das Klassifizierungsproblem wird auf diese Weise gelöst: Die Regressionsgerade unterteilt die gesamte Menge von Objekten in zwei Klassen, und der Teil der Menge, in dem der Wert der Funktion größer als Null ist, gehört zu einer Klasse und der Teil, in dem er kleiner ist als Null gehört zu einer anderen Klasse.

Aufgaben der Regressionsanalyse

Betrachten Sie die Hauptaufgaben der Regressionsanalyse: Feststellung der Form der Abhängigkeit, Bestimmung Regressionsfunktionen, eine Schätzung der unbekannten Werte der abhängigen Variablen.

Feststellung der Form der Abhängigkeit.

Die Art und Form der Beziehung zwischen Variablen kann die folgenden Arten von Regressionen bilden:

    positive lineare Regression (ausgedrückt als gleichmäßiges Wachstum der Funktion);

    positive, gleichmäßig beschleunigte Regression;

    positive gleichmäßig zunehmende Regression;

    negative lineare Regression (ausgedrückt als gleichmäßiger Funktionsabfall);

    negative gleichmäßig beschleunigte abnehmende Regression;

    negative gleichmäßig abnehmende Regression.

Die beschriebenen Sorten kommen jedoch normalerweise nicht vor reiner Form aber in Kombination miteinander. Man spricht in diesem Fall von kombinierten Regressionsformen.

Definition der Regressionsfunktion.

Die zweite Aufgabe besteht darin, die Auswirkung der Hauptfaktoren oder -ursachen auf die abhängige Variable unter sonst gleichen Bedingungen und unter Ausschluss der Auswirkung zufälliger Elemente auf die abhängige Variable herauszufinden. Regressionsfunktion definiert als eine mathematische Gleichung der einen oder anderen Art.

Schätzung unbekannter Werte der abhängigen Variablen.

Die Lösung dieses Problems reduziert sich auf die Lösung eines Problems einer der folgenden Arten:

    Schätzung der Werte der abhängigen Variablen innerhalb des betrachteten Intervalls der Ausgangsdaten, d.h. fehlende Werte; Dies löst das Problem der Interpolation.

    Schätzung der zukünftigen Werte der abhängigen Variablen, d.h. Finden von Werten außerhalb des angegebenen Intervalls der Anfangsdaten; Dies löst das Problem der Extrapolation.

Beide Probleme werden gelöst, indem die gefundenen Schätzungen der Parameter der Werte der unabhängigen Variablen in die Regressionsgleichung eingesetzt werden. Das Ergebnis der Lösung der Gleichung ist eine Schätzung des Werts der Zielvariablen (abhängigen Variablen).

Schauen wir uns einige der Annahmen an, auf denen die Regressionsanalyse beruht.

Linearitätsannahme, d.h. Es wird davon ausgegangen, dass der Zusammenhang zwischen den betrachteten Variablen linear ist. In diesem Beispiel haben wir also ein Streudiagramm erstellt und konnten einen klaren linearen Zusammenhang erkennen. Wenn wir im Streudiagramm der Variablen das klare Fehlen eines linearen Zusammenhangs erkennen, d. h. Da ein nichtlinearer Zusammenhang besteht, sollten nichtlineare Analysemethoden verwendet werden.

Normalitätsannahme Reste. Dabei wird davon ausgegangen, dass die Verteilung der Differenz zwischen vorhergesagten und beobachteten Werten normal ist. Um die Art der Verteilung visuell zu bestimmen, können Sie Histogramme verwenden Reste.

Bei der Verwendung der Regressionsanalyse sollte man deren Haupteinschränkung berücksichtigen. Es besteht darin, dass Sie mit der Regressionsanalyse nur Abhängigkeiten erkennen können und nicht die Beziehungen, die diesen Abhängigkeiten zugrunde liegen.

Die Regressionsanalyse ermöglicht es, den Grad der Assoziation zwischen Variablen zu beurteilen, indem der erwartete Wert einer Variablen auf der Grundlage mehrerer bekannter Werte berechnet wird.

Regressionsgleichung.

Die Regressionsgleichung sieht folgendermaßen aus: Y=a+b*X

Unter Verwendung dieser Gleichung wird die Variable Y durch die Konstante a und die Steigung der Linie (oder Steigung) b ausgedrückt, multipliziert mit dem Wert der Variablen X. Die Konstante a wird auch Achsenabschnitt genannt, und die Steigung ist die Regression Koeffizient oder B-Faktor.

In den meisten Fällen (wenn nicht immer) gibt es eine gewisse Streuung der Beobachtungen bezüglich der Regressionsgeraden.

Rest ist die Abweichung eines einzelnen Punktes (Beobachtung) von der Regressionsgeraden (vorhergesagter Wert).

Um das Problem der Regressionsanalyse in MS Excel zu lösen, wählen Sie aus dem Menü Service„Analysepaket“ und das Regressionsanalysetool. Geben Sie die X- und Y-Eingabeintervalle an. Das Y-Eingabeintervall ist der Bereich der abhängigen Daten, die analysiert werden, und muss eine Spalte umfassen. Das Eingabeintervall X ist der Bereich unabhängiger Daten, die analysiert werden sollen. Die Anzahl der Eingabebereiche darf 16 nicht überschreiten.

Bei der Ausgabe der Prozedur im Ausgabebereich erhalten wir den in angegebenen Bericht Tabelle 8.3a-8,3 V.

ERGEBNISSE

Tabelle 8.3a. Regressionsstatistik

Regressionsstatistik

Mehrere R

R Quadrat

Normalisiertes R-Quadrat

Standart Fehler

Beobachtungen

Betrachten Sie zunächst den oberen Teil der in dargestellten Berechnungen Tabelle 8.3a, - Regressionsstatistik.

Wert R Quadrat, auch Maß der Sicherheit genannt, charakterisiert die Qualität der resultierenden Regressionsgeraden. Diese Qualität wird durch den Grad der Übereinstimmung zwischen den Originaldaten und dem Regressionsmodell (berechnete Daten) ausgedrückt. Das Maß der Sicherheit liegt immer innerhalb des Intervalls.

In den meisten Fällen der Wert R Quadrat zwischen diesen Werten liegt, nennt man Extrem, d.h. zwischen null und eins.

Wenn der Wert R-Quadrat nahe bei Eins bedeutet dies, dass das konstruierte Modell fast die gesamte Variabilität der entsprechenden Variablen erklärt. Umgekehrt der Wert R-Quadrat, nahe Null, bedeutet eine schlechte Qualität des konstruierten Modells.

In unserem Beispiel beträgt das Maß für die Sicherheit 0,99673, was auf eine sehr gute Anpassung der Regressionslinie an die Originaldaten hinweist.

Plural R - Mehrfachkorrelationskoeffizient R - drückt den Grad der Abhängigkeit unabhängiger Variablen (X) und abhängiger Variable (Y) aus.

Mehrere R gleicht Quadratwurzel Aus dem Bestimmtheitsmaß nimmt dieser Wert Werte im Bereich von Null bis Eins an.

In einer einfachen linearen Regressionsanalyse Plural R gleich dem Pearson-Korrelationskoeffizienten. Wirklich, Plural R In unserem Fall entspricht er dem Pearson-Korrelationskoeffizienten aus dem vorherigen Beispiel (0,998364).

Tabelle 8.3b. Regressionskoeffizienten

Chancen

Standart Fehler

t-Statistik

Y-Kreuzung

Variable X 1

* Es wird eine gekürzte Version der Berechnungen angegeben

Betrachten Sie nun den mittleren Teil der in vorgestellten Berechnungen Tabelle 8.3b. Hier sind der Regressionskoeffizient b (2,305454545) und der Offset entlang der y-Achse angegeben, d.h. Konstante a (2,694545455).

Basierend auf den Berechnungen können wir die Regressionsgleichung wie folgt schreiben:

Y= x*2,305454545+2,694545455

Die Richtung der Beziehung zwischen den Variablen wird anhand der Vorzeichen (negativ oder positiv) der Regressionskoeffizienten (Koeffizient b) bestimmt.

Wenn das Vorzeichen des Regressionskoeffizienten positiv ist, ist die Beziehung zwischen der abhängigen Variablen und der unabhängigen Variablen positiv. In unserem Fall ist das Vorzeichen des Regressionskoeffizienten positiv, daher ist auch die Beziehung positiv.

Wenn das Vorzeichen des Regressionskoeffizienten negativ ist, ist die Beziehung zwischen der abhängigen Variablen und der unabhängigen Variablen negativ (invers).

IN Tabelle 8.3c. Ausgabeergebnisse werden präsentiert Reste. Damit diese Ergebnisse im Bericht erscheinen, ist es notwendig, beim Start des Tools „Regression“ die Checkbox „Residuen“ zu aktivieren.

VERBLEIBENDER RÜCKZUG

Tabelle 8.3c. Überreste

Überwachung

Vorhergesagtes Y

Überreste

Standardwaagen

Anhand dieses Teils des Berichts können wir die Abweichungen jedes Punkts von der konstruierten Regressionslinie sehen. Größter absoluter Wert Rest in unserem Fall - 0,778, der kleinste - 0,043. Für eine bessere Interpretation dieser Daten verwenden wir das Diagramm der Originaldaten und die konstruierte Regressionslinie, dargestellt in Abb. Reis. 8.3. Wie Sie sehen können, ist die Regressionslinie ziemlich genau an die Werte der Originaldaten „angepasst“.

Es ist zu berücksichtigen, dass das betrachtete Beispiel recht einfach ist und es bei weitem nicht immer möglich ist, eine lineare Regressionsgerade qualitativ zu konstruieren.

Reis. 8.3. Ausgangsdaten und Regressionslinie

Das Problem der Schätzung unbekannter zukünftiger Werte der abhängigen Variablen auf Basis der bekannten Werte der unabhängigen Variablen blieb unberücksichtigt, d.h. Prognoseaufgabe.

Mit einer Regressionsgleichung reduziert sich das Prognoseproblem auf die Lösung der Gleichung Y= x*2,305454545+2,694545455 mit bekannten Werten von x. Die Ergebnisse der Vorhersage der abhängigen Variablen Y sechs Schritte voraus werden vorgestellt in Tabelle 8.4.

Tabelle 8.4. Vorhersageergebnisse der Y-Variablen

Y (vorhergesagt)

Als Ergebnis der Verwendung der Regressionsanalyse im Microsoft Excel-Paket haben wir Folgendes erreicht:

    eine Regressionsgleichung erstellt;

    etablierte die Form der Abhängigkeit und die Richtung der Beziehung zwischen den Variablen - eine positive lineare Regression, die sich in einem gleichmäßigen Wachstum der Funktion ausdrückt;

    legt die Richtung der Beziehung zwischen den Variablen fest;

    bewertete die Qualität der resultierenden Regressionslinie;

    konnten die Abweichungen der berechneten Daten von den Daten des Originalsatzes erkennen;

    prognostizierte die zukünftigen Werte der abhängigen Variablen.

Wenn Regressionsfunktion definiert, interpretiert und begründet ist und die Beurteilung der Genauigkeit der Regressionsanalyse den Anforderungen entspricht, können wir davon ausgehen, dass das konstruierte Modell und die Vorhersagewerte ausreichend zuverlässig sind.

Die so erhaltenen Prognosewerte sind die zu erwartenden Durchschnittswerte.

In diesem Artikel haben wir die Hauptmerkmale untersucht beschreibende Statistik und unter ihnen solche Konzepte wie mittlere Bedeutung,Median,maximal,Minimum und andere Merkmale der Datenvariation.

Es gab auch eine kurze Diskussion des Konzepts Emissionen. Die betrachteten Merkmale beziehen sich auf die sogenannte explorative Datenanalyse, deren Schlussfolgerungen möglicherweise nicht für die Allgemeinbevölkerung, sondern nur für eine Datenstichprobe gelten. Mithilfe der explorativen Datenanalyse werden primäre Schlussfolgerungen gezogen und Hypothesen über die Bevölkerung aufgestellt.

Berücksichtigt wurden auch die Grundlagen der Korrelations- und Regressionsanalyse, ihre Aufgaben und Möglichkeiten der praktischen Anwendung.

1. Zum ersten Mal wurde der Begriff „Regression“ vom Begründer der Biometrie F. Galton (19. Jahrhundert) eingeführt, dessen Ideen von seinem Anhänger K. Pearson entwickelt wurden.

Regressionsanalyse- eine Methode der statistischen Datenverarbeitung, mit der Sie die Beziehung zwischen einer oder mehreren Ursachen (faktoriellen Zeichen) und einer Folge (wirksamen Zeichen) messen können.

Zeichen- Dies ist das Hauptunterscheidungsmerkmal, das Merkmal des untersuchten Phänomens oder Prozesses.

Wirksames Zeichen - untersuchter Indikator.

Faktorzeichen- ein Indikator, der den Wert des effektiven Merkmals beeinflusst.

Der Zweck der Regressionsanalyse besteht darin, die funktionale Abhängigkeit des Durchschnittswerts des effektiven Merkmals zu bewerten ( bei) aus Fakultät ( x 1, x 2, ..., x n), ausgedrückt als Regressionsgleichungen

bei= F(x 1, x 2, ..., x n). (6.1)

Es gibt zwei Arten der Regression: gepaarte und multiple.

Gepaarte (einfache) Regression- Gleichung der Form:

bei= F(X). (6.2)

Das resultierende Merkmal bei der paarweisen Regression wird als Funktion eines Arguments betrachtet, d. h. ein Faktor.

Die Regressionsanalyse umfasst die folgenden Schritte:

Definition des Funktionstyps;

Bestimmung von Regressionskoeffizienten;

Berechnung theoretischer Werte des effektiven Merkmals;

Überprüfung der statistischen Signifikanz der Regressionskoeffizienten;

Überprüfung der statistischen Signifikanz der Regressionsgleichung.

Multiple Regression- Gleichung der Form:

bei= F(x 1, x 2, ..., x n). (6.3)

Das resultierende Merkmal wird als Funktion mehrerer Argumente betrachtet, d. h. viele Faktoren.

2. Um den Funktionstyp richtig zu bestimmen, ist es notwendig, die Richtung der Verbindung anhand theoretischer Daten zu ermitteln.

Je nach Richtung des Zusammenhangs wird die Regression unterteilt in:

· direkte Regression, entsteht unter der Bedingung, dass mit einer Erhöhung oder Verringerung des unabhängigen Wertes „ X" Werte der abhängigen Größe“ bei" auch entsprechend erhöhen oder verringern;

· umgekehrte Regression, unter der Bedingung entstehen, dass mit einer Erhöhung oder Verringerung des unabhängigen Wertes "X" abhängiger Wert " bei" entsprechend verringert bzw. erhöht.

Zur Charakterisierung der Beziehungen werden die folgenden Arten von gepaarten Regressionsgleichungen verwendet:

· y=a+bxlinear;

· y=e ax + b – exponentiell;

· y=a+b/x – hyperbolisch;

· y=a+b 1 x+b 2 x 2 – parabolisch;

· y=ab x – exponentiell usw.

Wo a, b1, b2- Koeffizienten (Parameter) der Gleichung; bei- wirksames Zeichen; X- Faktorzeichen.

3. Die Konstruktion der Regressionsgleichung reduziert sich auf die Schätzung ihrer Koeffizienten (Parameter), die sie dafür verwenden Methode kleinsten Quadrate (MNK).

Mit der Methode der kleinsten Quadrate können Sie solche Schätzungen der Parameter erhalten, bei denen die Summe der quadrierten Abweichungen der tatsächlichen Werte des effektiven Merkmals ist. bei»aus der Theorie« y x» ist minimal, das heißt

Optionen für Regressionsgleichungen y=a+bx nach der Methode der kleinsten Quadrate werden anhand der folgenden Formeln geschätzt:

Wo A - freier Koeffizient, B- Regressionskoeffizient, zeigt an, wie stark sich das resultierende Vorzeichen ändern wird j» beim Ändern des Faktorattributs « X» pro Maßeinheit.

4. Zur Beurteilung der statistischen Signifikanz der Regressionskoeffizienten wird der Student-t-Test verwendet.

Schema zur Überprüfung der Signifikanz von Regressionskoeffizienten:

1) H 0: a=0, B=0 – Regressionskoeffizienten weichen unwesentlich von Null ab.

H 1: a≠ 0, b≠ 0 – Regressionskoeffizienten unterscheiden sich deutlich von Null.

2) R=0,05 – Signifikanzniveau.

Wo m b,m a- zufällige Fehler:

; . (6.7)

4) t Tisch(R; F),

Wo F=n-k- 1 - Anzahl der Freiheitsgrade (Tabellenwert), N- Anzahl der Beobachtungen, k X".

5) Wenn , dann weicht ab, d.h. signifikanter Koeffizient.

Wenn , dann wird akzeptiert, d.h. Koeffizient ist unbedeutend.

5. Um die Richtigkeit der erstellten Regressionsgleichung zu überprüfen, wird das Fisher-Kriterium verwendet.

Schema zur Überprüfung der Signifikanz der Regressionsgleichung:

1) H0: Die Regressionsgleichung ist nicht signifikant.

H 1: Die Regressionsgleichung ist von Bedeutung.

2) R=0,05 – Signifikanzniveau.

3) , (6.8)

wo ist die Anzahl der Beobachtungen; k- die Anzahl der Parameter in der Gleichung mit Variablen " X"; bei- der tatsächliche Wert des wirksamen Merkmals; y x- der theoretische Wert des wirksamen Merkmals; - Koeffizient der Paarkorrelation.

4) F-Tisch(R; f 1 ; f2),

Wo f 1 \u003d k, f 2 \u003d n-k-1- Anzahl der Freiheitsgrade (Tabellenwerte).

5) Wenn F-Berechnung > F-Tabelle, dann ist die Regressionsgleichung richtig gewählt und kann in der Praxis angewendet werden.

Wenn F berechnet , dann ist die Regressionsgleichung falsch gewählt.

6. Der Hauptindikator, der das Maß für die Qualität der Regressionsanalyse widerspiegelt, ist Bestimmtheitsmaß (R 2).

Bestimmungskoeffizient zeigt an, welcher Anteil der abhängigen Variablen „ bei» wird in der Analyse berücksichtigt und entsteht durch den Einfluss der in die Analyse einbezogenen Faktoren.

Bestimmungskoeffizient (R2) nimmt Werte im Bereich an. Die Regressionsgleichung ist qualitativ, wenn R2 ≥0,8.

Der Bestimmungskoeffizient ist gleich dem Quadrat des Korrelationskoeffizienten, d.h.

Beispiel 6.1. Erstellen und analysieren Sie basierend auf den folgenden Daten die Regressionsgleichung:

Lösung.

1) Berechnen Sie den Korrelationskoeffizienten: . Die Beziehung zwischen den Zeichen ist direkt und moderat.

2) Erstellen Sie eine gepaarte lineare Regressionsgleichung.

2.1) Erstellen Sie eine Berechnungstabelle.

X bei Hu x 2 y x (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Summe 159,45 558,55
Durchschnitt 77519,6 22,78 79,79 2990,6

,

Gepaarte lineare Regressionsgleichung: y x \u003d 25,17 + 0,087x.

3) Finden Sie theoretische Werte“ y x» durch Einsetzen tatsächlicher Werte in die Regressionsgleichung « X».

4) Zeichnen Sie Diagramme der tatsächlichen „ bei" und theoretische Werte“ y x» effektives Merkmal (Abbildung 6.1): r xy =0,47) und eine kleine Anzahl von Beobachtungen.

7) Berechnen Sie das Bestimmtheitsmaß: R2=(0,47) 2 =0,22. Die konstruierte Gleichung ist von schlechter Qualität.

Weil Da die Berechnungen bei der Regressionsanalyse recht umfangreich sind, empfiehlt sich der Einsatz spezieller Programme („Statistica 10“, SPSS etc.).

Abbildung 6.2 zeigt eine Tabelle mit den Ergebnissen der mit dem Programm „Statistica 10“ durchgeführten Regressionsanalyse.

Abbildung 6.2. Die Ergebnisse der mit dem Programm „Statistica 10“ durchgeführten Regressionsanalyse

5. Literatur:

1. Gmurman V.E. Wahrscheinlichkeitstheorie und mathematische Statistik: Proc. Handbuch für Universitäten / V.E. Gmurman. - M.: Höhere Schule, 2003. - 479 S.

2. Koichubekov B.K. Biostatistik: Lehrbuch. - Almaty: Evero, 2014. - 154 S.

3. Lobotskaya N.L. Höhere Mathematik. / N.L. Lobotskaya, Yu.V. Morozov, A.A. Dunaev. - Minsk: Höhere Schule, 1987. - 319 S.

4. Medic V.A., Tokmachev M.S., Fishman B.B. Statistik in Medizin und Biologie: Ein Leitfaden. In 2 Bänden / Ed. Yu.M. Komarow. T. 1. Theoretische Statistik. - M.: Medizin, 2000. - 412 S.

5. Anwendung statistischer Analysemethoden zur Untersuchung der öffentlichen Gesundheit und des Gesundheitswesens: Lehrbuch / Hrsg. Kucherenko V.Z. - 4. Aufl., überarbeitet. und zusätzlich - M.: GEOTAR - Media, 2011. - 256 S.

Als Ergebnis des Studiums des Materials von Kapitel 4 sollte der Student:

wissen

  • Grundkonzepte der Regressionsanalyse;
  • Schätzmethoden und Eigenschaften von Schätzungen der Methode der kleinsten Quadrate;
  • Grundregeln für die Signifikanzprüfung und Intervallschätzung der Gleichung und Regressionskoeffizienten;

in der Lage sein

  • Finden Sie Schätzungen der Parameter zweidimensionaler und multipler Modelle von Regressionsgleichungen anhand von Beispieldaten und analysieren Sie deren Eigenschaften.
  • Überprüfen Sie die Bedeutung der Gleichung und der Regressionskoeffizienten.
  • Intervallschätzungen signifikanter Parameter finden;

eigen

  • die Fähigkeiten zur statistischen Schätzung der Parameter der zweidimensionalen und multiplen Regressionsgleichungen; Fähigkeiten zur Überprüfung der Angemessenheit von Regressionsmodellen;
  • Kenntnisse in der Erstellung einer Regressionsgleichung mit allen signifikanten Koeffizienten mithilfe von Analysesoftware.

Grundlegendes Konzept

Wenn nach der Durchführung einer Korrelationsanalyse das Vorhandensein statistisch signifikanter Beziehungen zwischen Variablen identifiziert und der Grad ihrer Enge beurteilt wurde, erfolgt in der Regel eine mathematische Beschreibung der Art der Abhängigkeiten mithilfe von Methoden der Regressionsanalyse. Zu diesem Zweck wird eine Klasse von Funktionen ausgewählt, die den effektiven Indikator verknüpft bei und Argumente„ Berechnen Sie Schätzungen der Parameter der Zwangsgleichung und analysieren Sie die Genauigkeit der resultierenden Gleichung.

Funktion|, die die Abhängigkeit des bedingten Durchschnittswerts vom effektiven Merkmal beschreibt bei aus den gegebenen Werten der Argumente wird aufgerufen Regressionsgleichung.

Der Begriff „Regression“ (von lat. Regression- Rückzug, Rückkehr zu etwas) wurde vom englischen Psychologen und Anthropologen F. Galton eingeführt und ist mit einem seiner ersten Beispiele verbunden, in dem Galton bei der Verarbeitung statistischer Daten im Zusammenhang mit der Frage der Vererbung des Wachstums feststellte, dass, wenn die Höhe von Die Größe der Väter weicht von der durchschnittlichen Körpergröße aller Väter ab X Zoll, dann weicht die Größe ihrer Söhne um weniger als von der durchschnittlichen Größe aller Söhne ab X Zoll Der identifizierte Trend wurde benannt Regression zum Mittelwert.

Der Begriff „Regression“ wird in der statistischen Literatur häufig verwendet, obwohl er in vielen Fällen die statistische Abhängigkeit nicht genau charakterisiert.

Für eine genaue Beschreibung der Regressionsgleichung ist es notwendig, das bedingte Verteilungsgesetz des effektiven Indikators zu kennen j. In der statistischen Praxis ist es in der Regel unmöglich, solche Informationen zu erhalten, daher beschränkt man sich darauf, geeignete Näherungen für die Funktion zu finden f(x u X 2, .... l *), basierend auf einer vorläufigen aussagekräftigen Analyse des Phänomens oder auf den ursprünglichen statistischen Daten.

Im Rahmen individueller Modellannahmen über die Art der Verteilung des Indikatorenvektors<) может быть получен общий вид Regressionsgleichungen, Wo. Beispielsweise unter der Annahme, dass der untersuchte Satz von Indikatoren dem ()-dimensionalen Normalverteilungsgesetz mit dem Vektor der mathematischen Erwartungen folgt

Wo und anhand der Kovarianzmatrix

Wo ist die Varianz? ja,

Die Regressionsgleichung (bedingte Erwartung) hat die Form

Wenn also eine multivariate Zufallsvariable ()

gehorcht dem ()-dimensionalen Normalverteilungsgesetz und dann der Regressionsgleichung des effektiven Indikators bei in erklärenden Variablen hat linear in X Sicht.

Allerdings muss man sich in der statistischen Praxis meist darauf beschränken, geeignete Näherungen für die unbekannte wahre Regressionsfunktion zu finden f(x), da der Forscher keine genaue Kenntnis des bedingten Gesetzes der Wahrscheinlichkeitsverteilung des analysierten Leistungsindikators hat bei für die gegebenen Werte der Argumente X.

Berücksichtigen Sie die Beziehung zwischen wahren Schätzungen, Modellschätzungen und Regressionsschätzungen. Lassen Sie den Leistungsindikator bei mit dem Argument verbunden X Verhältnis

Wo ist außerdem eine Zufallsvariable mit einem Normalverteilungsgesetz? Die wahre Regressionsfunktion ist in diesem Fall

Angenommen, wir kennen die genaue Form der wahren Regressionsgleichung nicht, haben aber neun Beobachtungen zu einer zweidimensionalen Zufallsvariablen, die durch die in Abb. gezeigten Beziehungen in Beziehung stehen. 4.1.

Reis. 4.1. Die relative Position des Wahrenf(x) und theoretischWowRegressionsmodelle

Lage der Punkte in Abb. 4.1 erlaubt uns, uns auf die Klasse der linearen Abhängigkeiten der Form zu beschränken

Mithilfe der Methode der kleinsten Quadrate ermitteln wir eine Schätzung für die Regressionsgleichung.

Zum Vergleich in Abb. In Abb. 4.1 zeigt Diagramme der wahren Regressionsfunktion und der theoretisch approximierenden Regressionsfunktion. Die Schätzung der Regressionsgleichung konvergiert hinsichtlich der Wahrscheinlichkeit zu Letzterem Wow mit einer unbegrenzten Vergrößerung der Stichprobengröße ().

Da wir fälschlicherweise eine lineare Regressionsfunktion anstelle einer echten Regressionsfunktion gewählt haben, was in der Praxis der statistischen Forschung leider recht häufig vorkommt, verfügen unsere statistischen Schlussfolgerungen und Schätzungen nicht über die Konsistenzeigenschaft, d. h. Unabhängig davon, wie stark wir das Beobachtungsvolumen erhöhen, wird unsere Stichprobenschätzung nicht mit der wahren Regressionsfunktion konvergieren

Wenn wir die Klasse der Regressionsfunktionen richtig gewählt hätten, wäre die Ungenauigkeit in der Beschreibung mit Wow würde nur durch die Begrenztheit der Stichprobe erklärt werden und könnte daher mit beliebig klein gemacht werden

Um den bedingten Wert des effektiven Indikators und der unbekannten Regressionsfunktion aus den anfänglichen statistischen Daten bestmöglich wiederherzustellen, werden am häufigsten die folgenden verwendet: Angemessenheitskriterien Verlustfunktionen.

1. Methode der kleinsten Quadrate, wonach die quadratische Abweichung der beobachteten Werte des effektiven Indikators von den Modellwerten minimiert wird, wobei die Koeffizienten der Regressionsgleichung die Werte des Argumentvektors in der „-M-Beobachtung“ sind :

Das Problem, eine Schätzung des Vektors zu finden, wird gelöst. Die resultierende Regression wird aufgerufen quadratischer Mittelwert.

2. Methode der kleinsten Module, wonach die Summe der absoluten Abweichungen der beobachteten Werte des effektiven Indikators von den Modulwerten minimiert wird, d.h.

Die resultierende Regression wird aufgerufen bedeuten absolut(Median).

3. Minimax-Methode wird auf die Minimierung des maximalen Abweichungsmoduls des beobachteten Werts des effektiven Indikators reduziert ja, aus dem Modellwert, d.h.

Die resultierende Regression wird aufgerufen Minimax.

In praktischen Anwendungen gibt es häufig Probleme, bei denen die Zufallsvariable untersucht wird ja, abhängig von einigen Variablen und unbekannten Parametern. Wir werden () als betrachten (k + 1)-dimensionale Allgemeinbevölkerung, aus der eine Zufallsstichprobe des Volumens stammt P, wobei () das Ergebnis der /-ten Beobachtung ist. Es ist erforderlich, unbekannte Parameter auf der Grundlage der Beobachtungsergebnisse abzuschätzen. Die oben beschriebene Aufgabe bezieht sich auf die Aufgaben der Regressionsanalyse.

Regressionsanalyse nennen Sie die Methode der statistischen Analyse der Abhängigkeit einer Zufallsvariablen bei aus Variablen, die in der Regressionsanalyse als nicht zufällige Variablen betrachtet werden, unabhängig vom wahren Verteilungsgesetz

Während des Studiums stoßen Studierende sehr häufig auf eine Vielzahl von Gleichungen. Eine davon – die Regressionsgleichung – wird in diesem Artikel betrachtet. Diese Art von Gleichung wird speziell zur Beschreibung der Eigenschaften der Beziehung zwischen mathematischen Parametern verwendet. Diese Art der Gleichheit wird in der Statistik und Ökonometrie verwendet.

Definition von Regression

Unter Regression versteht man in der Mathematik eine bestimmte Größe, die die Abhängigkeit des Durchschnittswerts eines Datensatzes von den Werten einer anderen Größe beschreibt. Die Regressionsgleichung zeigt als Funktion eines bestimmten Merkmals den Durchschnittswert eines anderen Merkmals. Die Regressionsfunktion hat die Form einer einfachen Gleichung y \u003d x, in der y als abhängige Variable fungiert und x eine unabhängige Variable (Merkmalsfaktor) ist. Tatsächlich wird die Regression als y = f (x) ausgedrückt.

Welche Arten von Beziehungen gibt es zwischen Variablen?

Im Allgemeinen werden zwei gegensätzliche Beziehungstypen unterschieden: Korrelation und Regression.

Die erste zeichnet sich durch die Gleichheit der bedingten Variablen aus. In diesem Fall ist nicht sicher bekannt, welche Variable von der anderen abhängt.

Wenn keine Gleichheit zwischen den Variablen besteht und die Bedingungen sagen, welche Variable erklärend und welche abhängig ist, können wir von einem Zusammenhang zweiter Art sprechen. Um eine lineare Regressionsgleichung zu erstellen, muss ermittelt werden, welche Art von Beziehung beobachtet wird.

Arten von Regressionen

Bisher gibt es 7 verschiedene Arten der Regression: hyperbolisch, linear, mehrfach, nichtlinear, paarweise, invers, logarithmisch linear.

Hyperbolisch, linear und logarithmisch

Die lineare Regressionsgleichung wird in der Statistik verwendet, um die Parameter der Gleichung anschaulich zu erklären. Es sieht aus wie y = c + m * x + E. Die hyperbolische Gleichung hat die Form einer regulären Hyperbel y \u003d c + m / x + E. Die logarithmisch lineare Gleichung drückt die Beziehung mit der logarithmischen Funktion aus: In y \u003d In c + m * In x + In E.

Vielfach und nichtlinear

Zwei komplexere Arten der Regression sind die multiple und die nichtlineare Regression. Die multiple Regressionsgleichung wird durch die Funktion y \u003d f (x 1, x 2 ... x c) + E ausgedrückt. In dieser Situation ist y die abhängige Variable und x die erklärende Variable. Die Variable E ist stochastisch und berücksichtigt den Einfluss anderer Faktoren in der Gleichung. Die nichtlineare Regressionsgleichung ist etwas inkonsistent. Einerseits ist es in Bezug auf die berücksichtigten Indikatoren nicht linear, andererseits ist es in der Rolle der Bewertung von Indikatoren linear.

Inverse und paarweise Regressionen

Eine Umkehrung ist eine Art Funktion, die in eine lineare Form umgewandelt werden muss. In den traditionellsten Anwendungsprogrammen hat es die Form einer Funktion y = 1 / c + m * x + E. Die gepaarte Regressionsgleichung zeigt die Beziehung zwischen den Daten als Funktion von y = f(x) + E. Genau wie die anderen Gleichungen hängt y von x ab und E ist ein stochastischer Parameter.

Das Konzept der Korrelation

Dies ist ein Indikator, der die Existenz einer Beziehung zwischen zwei Phänomenen oder Prozessen anzeigt. Die Stärke der Beziehung wird als Korrelationskoeffizient ausgedrückt. Sein Wert schwankt innerhalb des Intervalls [-1;+1]. Ein negativer Indikator weist auf das Vorhandensein einer Rückmeldung hin, ein positiver Indikator auf eine direkte Rückmeldung. Wenn der Koeffizient den Wert 0 annimmt, besteht kein Zusammenhang. Je näher der Wert bei 1 liegt, desto stärker ist die Beziehung zwischen den Parametern. Je näher bei 0, desto schwächer.

Methoden

Korrelationsparametrische Methoden können die Enge der Beziehung abschätzen. Sie werden auf der Grundlage von Verteilungsschätzungen verwendet, um Parameter zu untersuchen, die dem Normalverteilungsgesetz gehorchen.

Die Parameter der linearen Regressionsgleichung sind notwendig, um die Art der Abhängigkeit und die Funktion der Regressionsgleichung zu identifizieren und die Indikatoren der gewählten Beziehungsformel auszuwerten. Das Korrelationsfeld wird als Methode zur Identifizierung einer Beziehung verwendet. Dazu müssen alle vorhandenen Daten grafisch dargestellt werden. In einem rechteckigen zweidimensionalen Koordinatensystem müssen alle bekannten Daten aufgezeichnet werden. So entsteht das Korrelationsfeld. Auf der Abszisse ist der Wert des beschreibenden Faktors aufgetragen, auf der Ordinate die Werte des abhängigen Faktors. Besteht zwischen den Parametern ein funktionaler Zusammenhang, reihen sie sich in Form einer Linie aneinander.

Wenn der Korrelationskoeffizient solcher Daten weniger als 30 % beträgt, kann man von einem nahezu vollständigen Fehlen eines Zusammenhangs sprechen. Liegt er zwischen 30 % und 70 %, deutet dies auf das Vorhandensein von Verbindungen mittlerer Festigkeit hin. Ein 100 %-Indikator ist ein Beweis für einen funktionsfähigen Zusammenhang.

Eine nichtlineare Regressionsgleichung muss ebenso wie eine lineare durch einen Korrelationsindex (R) ergänzt werden.

Korrelation für multiple Regression

Das Bestimmtheitsmaß ist ein Indikator für das Quadrat der Mehrfachkorrelation. Er spricht über die enge Beziehung zwischen den vorgestellten Indikatoren und dem untersuchten Merkmal. Es kann auch über die Art des Einflusses von Parametern auf das Ergebnis gesprochen werden. Mit diesem Indikator wird die multiple Regressionsgleichung ausgewertet.

Um den Mehrfachkorrelationsindex zu berechnen, ist es notwendig, seinen Index zu berechnen.

Methode der kleinsten Quadrate

Diese Methode ist eine Möglichkeit zur Schätzung von Regressionsfaktoren. Sein Wesen besteht darin, die Summe der quadratischen Abweichungen zu minimieren, die sich aufgrund der Abhängigkeit des Faktors von der Funktion ergeben.

Mit einer solchen Methode kann eine gepaarte lineare Regressionsgleichung geschätzt werden. Diese Art von Gleichungen wird verwendet, wenn zwischen den Indikatoren eine paarweise lineare Beziehung erkannt wird.

Gleichungsoptionen

Jeder Parameter der linearen Regressionsfunktion hat eine bestimmte Bedeutung. Die gepaarte lineare Regressionsgleichung enthält zwei Parameter: c und m. Der Parameter t zeigt die durchschnittliche Änderung des Endindikators der Funktion y, vorbehaltlich einer Abnahme (Erhöhung) der Variablen x um eine konventionelle Einheit. Wenn die Variable x Null ist, ist die Funktion gleich dem Parameter c. Wenn die Variable x nicht Null ist, ist der Faktor c wirtschaftlich nicht sinnvoll. Den einzigen Einfluss auf die Funktion hat das Vorzeichen vor dem Faktor c. Bei einem Minus kann man von einer langsamen Änderung des Ergebnisses im Vergleich zum Faktor sprechen. Liegt ein Plus vor, deutet dies auf eine beschleunigte Änderung des Ergebnisses hin.

Jeder Parameter, der den Wert der Regressionsgleichung ändert, kann durch eine Gleichung ausgedrückt werden. Beispielsweise hat der Faktor c die Form c = y – mx.

Gruppierte Daten

Es gibt solche Aufgabenbedingungen, bei denen alle Informationen nach dem Attribut x gruppiert sind, gleichzeitig aber für eine bestimmte Gruppe die entsprechenden Durchschnittswerte des abhängigen Indikators angegeben werden. In diesem Fall charakterisieren die Durchschnittswerte die Abhängigkeit des Indikators von x. Somit helfen die gruppierten Informationen, die Regressionsgleichung zu finden. Es wird als Beziehungsanalyse verwendet. Allerdings hat diese Methode ihre Nachteile. Leider unterliegen Durchschnittswerte oft externen Schwankungen. Diese Schwankungen spiegeln nicht die Muster der Beziehung wider, sie überdecken lediglich deren „Rauschen“. Durchschnittswerte zeigen Beziehungsmuster, die viel schlimmer sind als eine lineare Regressionsgleichung. Sie können jedoch als Grundlage zum Finden einer Gleichung verwendet werden. Indem Sie die Größe einer bestimmten Population mit dem entsprechenden Durchschnitt multiplizieren, erhalten Sie die Summe von y innerhalb der Gruppe. Als nächstes müssen Sie alle erhaltenen Beträge herausrechnen und den endgültigen Indikator y finden. Etwas schwieriger ist die Berechnung mit dem Summenindikator xy. Für den Fall, dass die Intervalle klein sind, können wir den Indikator x bedingt für alle Einheiten (innerhalb der Gruppe) gleich annehmen. Multiplizieren Sie es mit der Summe von y, um die Summe der Produkte von x und y zu ermitteln. Anschließend werden alle Summen addiert und man erhält die Gesamtsumme xy.

Regression mehrerer Paargleichungen: Bewertung der Bedeutung einer Beziehung

Wie bereits erwähnt, hat die multiple Regression eine Funktion der Form y = f (x 1, x 2, ..., x m) + E. Am häufigsten wird eine solche Gleichung verwendet, um das Problem von Angebot und Nachfrage nach Gütern, Zinserträgen aus zurückgekauften Aktien zu lösen und die Ursachen und Art der Produktionskostenfunktion zu untersuchen. Sie wird auch in einer Vielzahl makroökonomischer Studien und Berechnungen aktiv verwendet, auf der Ebene der Mikroökonomie wird diese Gleichung jedoch etwas seltener verwendet.

Die Hauptaufgabe der multiplen Regression besteht darin, ein Datenmodell mit einer großen Menge an Informationen zu erstellen, um weiter zu bestimmen, welchen Einfluss jeder der Faktoren einzeln und in seiner Gesamtheit auf den zu modellierenden Indikator und seine Koeffizienten hat. Die Regressionsgleichung kann verschiedene Werte annehmen. In diesem Fall werden zur Beurteilung der Beziehung üblicherweise zwei Arten von Funktionen verwendet: lineare und nichtlineare.

Eine lineare Funktion wird in Form einer solchen Beziehung dargestellt: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. In diesem Fall gelten a2 und a m als Koeffizienten der „reinen“ Regression. Sie sind notwendig, um die durchschnittliche Änderung des Parameters y mit einer Änderung (Abnahme oder Zunahme) jedes entsprechenden Parameters x um eine Einheit zu charakterisieren, unter der Bedingung eines stabilen Wertes anderer Indikatoren.

Nichtlineare Gleichungen haben beispielsweise die Form einer Potenzfunktion y=ax 1 b1 x 2 b2 ...x m bm . In diesem Fall werden die Indikatoren b 1, b 2 ..... b m - als Elastizitätskoeffizienten bezeichnet. Sie zeigen, wie sich das Ergebnis ändert (um wie viel %), wenn der entsprechende Indikator x um 1 % zunimmt (abnimmt). und mit einem stabilen Indikator für andere Faktoren.

Welche Faktoren sollten beim Erstellen einer multiplen Regression berücksichtigt werden?

Um eine multiple Regression korrekt zu konstruieren, ist es notwendig herauszufinden, auf welche Faktoren besonderes Augenmerk gelegt werden sollte.

Es ist notwendig, ein gewisses Verständnis für die Art der Beziehung zwischen wirtschaftlichen Faktoren und dem Modell zu haben. Die einzubeziehenden Faktoren müssen folgende Kriterien erfüllen:

  • Muss messbar sein. Um einen Faktor zur Beschreibung der Qualität eines Objekts verwenden zu können, sollte ihm in jedem Fall eine quantitative Form gegeben werden.
  • Es sollte keine faktorielle Interkorrelation oder funktionale Beziehung bestehen. Solche Aktionen führen meist zu irreversiblen Konsequenzen – das System gewöhnlicher Gleichungen wird bedingungslos, was seine Unzuverlässigkeit und unscharfe Schätzungen zur Folge hat.
  • Bei einem großen Korrelationsindikator gibt es keine Möglichkeit, den isolierten Einfluss von Faktoren auf das Endergebnis des Indikators herauszufinden, daher werden die Koeffizienten nicht mehr interpretierbar.

Baumethoden

Es gibt eine Vielzahl von Methoden und Möglichkeiten, zu erklären, wie Sie die Faktoren für die Gleichung auswählen können. Alle diese Methoden basieren jedoch auf der Auswahl der Koeffizienten anhand des Korrelationsindex. Unter ihnen sind:

  • Ausschlussmethode.
  • Methode einschalten.
  • Schrittweise Regressionsanalyse.

Bei der ersten Methode werden alle Koeffizienten aus dem Aggregatsatz herausgefiltert. Die zweite Methode beinhaltet die Einführung vieler zusätzlicher Faktoren. Nun, der dritte Punkt ist die Eliminierung von Faktoren, die zuvor in die Gleichung einbezogen wurden. Jede dieser Methoden hat ihre Daseinsberechtigung. Sie haben ihre Vor- und Nachteile, aber sie können das Problem der Aussortierung unnötiger Indikatoren auf ihre eigene Weise lösen. In der Regel liegen die Ergebnisse der einzelnen Methoden recht nahe beieinander.

Methoden der multivariaten Analyse

Solche Methoden zur Bestimmung von Faktoren basieren auf der Betrachtung einzelner Kombinationen miteinander verbundener Merkmale. Dazu gehören Diskriminanzanalyse, Mustererkennung, Hauptkomponentenanalyse und Clusteranalyse. Darüber hinaus gibt es auch eine Faktorenanalyse, die jedoch als Ergebnis der Entwicklung der Komponentenmethode entstanden ist. Sie alle werden unter bestimmten Umständen, unter bestimmten Bedingungen und Faktoren angewendet.

Regressionsanalyse eine Methode zur Modellierung gemessener Daten und zur Untersuchung ihrer Eigenschaften. Daten bestehen aus Wertepaaren abhängige Variable(Antwortvariable) und unabhängige Variable(erklärende Variable). Das Regressionsmodell ist eine Funktion der unabhängigen Variablen und Parameter mit einer hinzugefügten Zufallsvariablen. Die Modellparameter werden so abgestimmt, dass das Modell die Daten bestmöglich annähert. Das Gütekriterium der Approximation (Zielfunktion) ist normalerweise der mittlere quadratische Fehler: die Summe der Quadrate der Differenz zwischen den Werten des Modells und der abhängigen Variablen für alle Werte der unabhängigen Variablen als Argument. Abschnitt zur Regressionsanalyse der mathematischen Statistik und des maschinellen Lernens. Es wird davon ausgegangen, dass die abhängige Variable die Summe der Werte eines Modells und einer Zufallsvariablen ist. Bezüglich der Art der Verteilung dieses Wertes werden Annahmen getroffen, die als Datengenerierungshypothese bezeichnet werden. Um diese Hypothese zu bestätigen oder zu widerlegen, werden statistische Tests durchgeführt, die als Restanalyse bezeichnet werden. Dies setzt voraus, dass die unabhängige Variable keine Fehler enthält. Die Regressionsanalyse wird für Prognosen, Zeitreihenanalysen, Hypothesentests und die Entdeckung verborgener Beziehungen in Daten verwendet.

Definition der Regressionsanalyse

Das Beispiel ist möglicherweise keine Funktion, sondern eine Beziehung. Die Daten zum Erstellen einer Regression könnten beispielsweise sein: . In einer solchen Stichprobe entspricht ein Wert der Variablen mehreren Werten der Variablen.

Lineare Regression

Bei der linearen Regression wird davon ausgegangen, dass die Funktion linear von den Parametern abhängt. In diesem Fall ist eine lineare Abhängigkeit von der freien Variablen optional,

Für den Fall, dass die lineare Regressionsfunktion die Form hat

Hier sind Komponenten des Vektors.

Die Parameterwerte bei linearer Regression werden mit der Methode der kleinsten Quadrate ermittelt. Der Einsatz dieser Methode wird durch die Annahme einer Gaußverteilung einer Zufallsvariablen begründet.

Die Differenzen zwischen den tatsächlichen Werten der abhängigen Variablen und den rekonstruierten werden aufgerufen Regressionsresiduen(Reste). In der Literatur werden auch Synonyme verwendet: Reste Und Fehler. Eine der wichtigen Schätzungen des Qualitätskriteriums der erhaltenen Abhängigkeit ist die Summe der Quadrate der Residuen:

Hier Summe der quadrierten Fehler.

Die Varianz der Residuen wird durch die Formel berechnet

Hier mittlerer quadratischer Fehler.

Die Diagramme zeigen Stichproben, die mit blauen Punkten markiert sind, und Regressionsabhängigkeiten, die mit durchgezogenen Linien markiert sind. Auf der Abszisse ist die freie Variable aufgetragen, auf der Ordinate die abhängige Variable. Alle drei Abhängigkeiten sind bezüglich der Parameter linear.

Nichtlineare Regression

Nichtlineare Regressionsmodelle – Modelle anzeigen

was nicht als Skalarprodukt dargestellt werden kann

Wo sind die Parameter des Regressionsmodells, ist eine freie Variable aus dem Raum, ist die abhängige Variable, ist eine Zufallsvariable und ist eine Funktion aus einer bestimmten Menge.

Parameterwerte bei nichtlinearer Regression werden mit einer der Gradientenabstiegsmethoden, beispielsweise dem Levenberg-Marquardt-Algorithmus, ermittelt.

Über Begriffe

Der Begriff „Regression“ wurde Ende des 19. Jahrhunderts von Francis Galton geprägt. Galton fand heraus, dass Kinder großer oder kleiner Eltern normalerweise keine herausragende Körpergröße erben, und nannte dieses Phänomen „Regression zur Mittelmäßigkeit“. Zunächst wurde der Begriff ausschließlich im biologischen Sinne verwendet. Nach der Arbeit von Karl Pearson begann dieser Begriff in der Statistik verwendet zu werden.

In der statistischen Literatur wird zwischen der Regression mit einer freien Variablen und der Regression mit mehreren freien Variablen unterschieden eindimensional Und mehrdimensional Rückschritt. Es wird davon ausgegangen, dass wir mehrere freie Variablen verwenden, dh eine freie Variable ist ein Vektor. In besonderen Fällen, wenn die freie Variable ein Skalar ist, wird sie mit bezeichnet. Unterscheiden linear Und nichtlinear Rückschritt. Wenn das Regressionsmodell keine lineare Kombination von Funktionen von Parametern ist, spricht man von einer nichtlinearen Regression. In diesem Fall kann das Modell eine beliebige Überlagerung von Funktionen aus einer bestimmten Menge sein. Nichtlineare Modelle sind exponentielle, trigonometrische und andere (zum Beispiel radiale Basisfunktionen oder das Rosenblatt-Perzeptron), die davon ausgehen, dass die Beziehung zwischen den Parametern und der abhängigen Variablen nichtlinear ist.

Unterscheiden parametrisch Und nichtparametrisch Rückschritt. Es ist schwierig, eine klare Grenze zwischen diesen beiden Arten von Regressionen zu ziehen. Derzeit gibt es kein allgemein anerkanntes Kriterium zur Unterscheidung eines Modelltyps von einem anderen. Beispielsweise gelten lineare Modelle als parametrisch, während Modelle, bei denen die abhängige Variable über den Raum der freien Variablen gemittelt wird, als nichtparametrisch gelten. Ein Beispiel für ein parametrisches Regressionsmodell: linearer Prädiktor, mehrschichtiges Perzeptron. Beispiele für gemischte Regressionsmodelle: Radiale Basisfunktionen. Gleitender Durchschnitt eines nichtparametrischen Modells in einem Fenster einiger Breite. Im Allgemeinen unterscheidet sich die nichtparametrische Regression von der parametrischen Regression dadurch, dass die abhängige Variable nicht von einem Wert der freien Variablen abhängt, sondern von einer bestimmten Umgebung dieses Werts.

Es wird zwischen den Begriffen „Funktionsnäherung“, „Approximation“, „Interpolation“ und „Regression“ unterschieden. Es besteht aus Folgendem.

Approximation von Funktionen. Gegeben ist eine Funktion eines diskreten oder stetigen Arguments. Es ist erforderlich, eine Funktion aus einer parametrischen Familie zu finden, beispielsweise unter algebraischen Polynomen eines bestimmten Grades. Funktionsparameter müssen ein Minimum an Funktionalität bereitstellen, z. B.

Begriff Annäherung ein Synonym für den Begriff „Approximation von Funktionen“. Es wird häufiger verwendet, wenn es um eine bestimmte Funktion als Funktion eines diskreten Arguments geht. Auch hier ist es erforderlich, eine solche Funktion zu finden, die allen Punkten der gegebenen Funktion am nächsten kommt. Dies stellt das Konzept vor Reste Abstände zwischen Punkten einer stetigen Funktion und den entsprechenden Punkten einer Funktion eines diskreten Arguments.

Interpolation Funktionen sind ein Sonderfall des Approximationsproblems, bei dem es darum geht, dass an bestimmten Punkten, genannt Interpolationsknoten die Werte der Funktion und der sie annähernden Funktion stimmten überein. Im allgemeineren Fall werden den Werten einiger Derivate Beschränkungen auferlegt. Das heißt, es ist eine Funktion eines diskreten Arguments gegeben. Es ist erforderlich, eine Funktion zu finden, die durch alle Punkte geht. In diesem Fall wird die Metrik normalerweise nicht verwendet, sondern häufig das Konzept der „Glätte“ der gewünschten Funktion eingeführt.