Регресионният анализ е статистически метод за изследване на зависимостта на случайна променлива от променливи. Основи на анализа на данни Регресионна зависимост

Основната характеристика на регресионния анализ: с негова помощ можете да получите конкретна информация за това каква форма и характер има връзката между изследваните променливи.

Последователност от етапи на регресионния анализ

Нека разгледаме накратко етапите на регресионния анализ.

    Формулиране на проблема. На този етап се формират предварителни хипотези за зависимостта на изследваните явления.

    Дефиниция на зависими и независими (обяснителни) променливи.

    Събиране на статистически данни. Трябва да се съберат данни за всяка от променливите, включени в регресионния модел.

    Формулиране на хипотеза за формата на връзката (проста или множествена, линейна или нелинейна).

    Определение регресионни функции (състои се в изчисляване на числените стойности на параметрите на регресионното уравнение)

    Оценка на точността на регресионния анализ.

    Интерпретация на получените резултати. Получените резултати от регресионния анализ се сравняват с предварителните хипотези. Оценява се коректността и достоверността на получените резултати.

    Прогнозиране на неизвестни стойности на зависима променлива.

Използвайки регресионен анализ, е възможно да се реши проблемът с прогнозирането и класификацията. Прогнозираните стойности се изчисляват чрез заместване на стойностите на обяснителните променливи в регресионното уравнение. Проблемът с класификацията се решава по следния начин: линията на регресия разделя целия набор от обекти на два класа и тази част от набора, където стойността на функцията е по-голяма от нула, принадлежи към един клас, а частта, където е по-малка от нула принадлежи към друг клас.

Проблеми на регресионния анализ

Нека разгледаме основните задачи на регресионния анализ: установяване на формата на зависимост, определяне регресионни функции, оценка на неизвестни стойности на зависимата променлива.

Установяване на формата на зависимост.

Характерът и формата на връзката между променливите могат да формират следните видове регресия:

    положителна линейна регресия (изразява се в равномерно нарастване на функцията);

    положителна равномерно нарастваща регресия;

    положителна равномерно нарастваща регресия;

    отрицателна линейна регресия (изразена като равномерен спад на функцията);

    отрицателна равномерно ускорена намаляваща регресия;

    отрицателна равномерно намаляваща регресия.

Описаните сортове обаче обикновено не се срещат в чиста форма, но в комбинация помежду си. В този случай говорим за комбинирани форми на регресия.

Дефиниция на регресионната функция.

Втората задача се свежда до идентифициране на ефекта върху зависимата променлива на основните фактори или причини, при равни други условия и при изключване на влиянието на случайни елементи върху зависимата променлива. Регресионна функциясе определя под формата на математическо уравнение от един или друг тип.

Оценка на неизвестни стойности на зависимата променлива.

Решението на този проблем се свежда до решаване на проблем от един от следните видове:

    Оценка на стойностите на зависимата променлива в разглеждания интервал от изходните данни, т.е. липсващи стойности; в този случай проблемът с интерполацията е решен.

    Оценка на бъдещите стойности на зависимата променлива, т.е. намиране на стойности извън зададения интервал на изходните данни; в този случай проблемът с екстраполацията е решен.

И двата проблема се решават чрез заместване на намерените оценки на параметрите за стойностите на независими променливи в регресионното уравнение. Резултатът от решаването на уравнението е оценка на стойността на целевата (зависима) променлива.

Нека да разгледаме някои от предположенията, на които се основава регресионният анализ.

Предположение за линейност, т.е. връзката между разглежданите променливи се приема за линейна. И така, в този пример начертахме диаграма на разсейване и успяхме да видим ясна линейна зависимост. Ако на точковата диаграма на променливите видим ясно отсъствие на линейна зависимост, т.е. Ако има нелинейна връзка, трябва да се използват нелинейни методи за анализ.

Предположение за нормалност остатъци. Предполага се, че разпределението на разликата между прогнозираните и наблюдаваните стойности е нормално. За да определите визуално естеството на разпределението, можете да използвате хистограми остатъци.

Когато се използва регресионен анализ, трябва да се има предвид основното му ограничение. Състои се във факта, че регресионният анализ ни позволява да открием само зависимости, а не връзките, които са в основата на тези зависимости.

Регресионният анализ ви позволява да оцените силата на връзката между променливите чрез изчисляване на прогнозната стойност на променлива въз основа на няколко известни стойности.

Регресионно уравнение.

Уравнението на регресията изглежда така: Y=a+b*X

Използвайки това уравнение, променливата Y се изразява чрез константа a и наклона на линията (или наклона) b, умножени по стойността на променливата X. Константата a се нарича още член на отсечката, а наклонът е коефициент на регресия или B-коефициент.

В повечето случаи (ако не винаги) има известно разсейване на наблюденията спрямо регресионната линия.

остатък е отклонението на единична точка (наблюдение) от регресионната линия (предсказана стойност).

За да решите проблема с регресионния анализ в MS Excel, изберете от менюто Обслужване"Пакет за анализ"и инструмента за регресионен анализ. Задаваме входните интервали X и Y. Входният интервал Y е диапазонът от зависими анализирани данни, той трябва да включва една колона. Входящият интервал X е диапазонът от независими данни, които трябва да бъдат анализирани. Броят на входните диапазони не трябва да надвишава 16.

На изхода на процедурата в изходния диапазон получаваме дадения отчет таблица 8.3а-8,3v.

ЗАКЛЮЧВАНЕ НА РЕЗУЛТАТИТЕ

Таблица 8.3a. Регресионна статистика

Регресионна статистика

множествено число R

R-квадрат

Нормализиран R-квадрат

Стандартна грешка

Наблюдения

Нека първо да разгледаме горната част на изчисленията, представени в таблица 8.3а, - регресионна статистика.

величина R-квадрат, наричана още мярка за сигурност, характеризира качеството на получената регресионна линия. Това качество се изразява чрез степента на съответствие между изходните данни и регресионния модел (изчислените данни). Мярката за сигурност е винаги в рамките на интервала.

В повечето случаи стойността R-квадрате между тези стойности, наречени екстремни, т.е. между нула и едно.

Ако стойността R-квадратблизо до единица, това означава, че конструираният модел обяснява почти цялата вариабилност в съответните променливи. Обратно, смисълът R-квадрат, близо до нула, означава лошо качество на конструирания модел.

В нашия пример мярката за сигурност е 0,99673, което показва много добро прилягане на регресионната линия към оригиналните данни.

множествено число R - коефициент на множествена корелация R - изразява степента на зависимост на независимите променливи (X) и зависимата променлива (Y).

множествено число Rравно на корен квадратенот коефициента на определяне, това количество приема стойности в диапазона от нула до едно.

При прост линеен регресионен анализ множествено число Rравен на корелационния коефициент на Пиърсън. Наистина ли, множествено число Rв нашия случай той е равен на корелационния коефициент на Pearson от предишния пример (0,998364).

Таблица 8.3b. Коефициенти на регресия

Коефициенти

Стандартна грешка

t-статистика

Y-пресечка

Променлива X 1

* Предоставена е съкратена версия на изчисленията

Сега разгледайте средната част от изчисленията, представени в таблица 8.3b. Тук са дадени регресионният коефициент b (2.305454545) и преместването по ординатната ос, т.е. константа a (2,694545455).

Въз основа на изчисленията можем да напишем регресионното уравнение, както следва:

Y= x*2,305454545+2,694545455

Посоката на връзката между променливите се определя въз основа на знаците (отрицателни или положителни) на регресионните коефициенти (коефициент b).

Ако знакът на регресионния коефициент е положителен, връзката между зависимата променлива и независимата променлива ще бъде положителна. В нашия случай знакът на регресионния коефициент е положителен, следователно връзката също е положителна.

Ако знакът на регресионния коефициент е отрицателен, връзката между зависимата променлива и независимата променлива е отрицателна (обратна).

IN таблица 8.3c. представени са изходните резултати остатъци. За да се появят тези резултати в отчета, трябва да поставите отметка в квадратчето „Остатъци“, когато стартирате инструмента „Регресия“.

ТЕГЛЕНЕ НА ОСТАНАЛАТА

Таблица 8.3c. Остатъци

Наблюдение

Предсказаният Y

Остатъци

Стандартни баланси

Използвайки тази част от отчета, можем да видим отклоненията на всяка точка от построената регресионна линия. Най-голямата абсолютна стойност остатъкв нашия случай - 0,778, най-малката - 0,043. За да интерпретираме по-добре тези данни, ще използваме графиката на оригиналните данни и построената регресионна линия, представена в ориз. 8.3. Както можете да видите, линията на регресия е доста точно „напасната“ към стойностите на оригиналните данни.

Трябва да се има предвид, че разглежданият пример е доста прост и не винаги е възможно да се изгради качествено линия на линейна регресия.

Ориз. 8.3.Изходни данни и регресионна линия

Проблемът с оценката на неизвестни бъдещи стойности на зависимата променлива въз основа на известни стойности на независимата променлива остана неразгледан, т.е. проблем с прогнозирането.

Имайки регресионно уравнение, проблемът за прогнозиране се свежда до решаване на уравнението Y= x*2.305454545+2.694545455 с известни стойности на x. Представени са резултатите от прогнозирането на зависимата променлива Y шест стъпки напред в таблица 8.4.

Таблица 8.4. Y променливи прогнозни резултати

Y (предвидено)

По този начин, в резултат на използването на регресионен анализ в Microsoft Excel, ние:

    построено регресионно уравнение;

    установена е формата на зависимостта и посоката на връзка между променливите - положителна линейна регресия, която се изразява в равномерно нарастване на функцията;

    установи посоката на връзката между променливите;

    оцени качеството на получената регресионна линия;

    са в състояние да видят отклонения на изчислените данни от данните на оригиналния набор;

    прогнозирани бъдещи стойности на зависимата променлива.

Ако регресионна функциядефинирани, интерпретирани и обосновани и оценката за точността на регресионния анализ отговаря на изискванията, конструираният модел и прогнозираните стойности могат да се считат за достатъчно надеждни.

Прогнозираните стойности, получени по този начин, са средните стойности, които могат да се очакват.

В тази работа разгледахме основните характеристики Описателна статистикаи сред тях такива понятия като средна стойност,Медиана,максимум,минимуми други характеристики на вариацията на данните.

Концепцията също беше обсъдена накратко емисии. Разгледаните характеристики се отнасят до така наречения проучвателен анализ на данни; неговите заключения може да не се отнасят за общата популация, а само за извадка от данни. Проучвателният анализ на данни се използва за получаване на първични заключения и формиране на хипотези за населението.

Бяха разгледани и основите на корелационния и регресионен анализ, техните задачи и възможности за практическо приложение.

1. Терминът „регресия” е въведен за първи път от основателя на биометрията Ф. Галтън (19 век), чиито идеи са развити от неговия последовател К. Пиърсън.

Регресионен анализ - метод за статистическа обработка на данни, който ви позволява да измервате връзката между една или повече причини (факторни характеристики) и следствие (резултатна характеристика).

Знак- това е основната отличителна черта, характеристика на изучаваното явление или процес.

Ефективен знак -изследван индикатор.

Знак фактор- индикатор, който влияе върху стойността на резултантната характеристика.

Целта на регресионния анализ е да се оцени функционалната зависимост на средната стойност на получената характеристика ( при) от фактор ( x 1, x 2, …, x n), изразено като регресионни уравнения

при= f(x 1, x 2, …, x n). (6.1)

Има два вида регресия: сдвоена и множествена.

Сдвоена (проста) регресия- уравнение от вида:

при= f(х). (6.2)

Получената характеристика при двойна регресия се разглежда като функция на един аргумент, т.е. една факторна характеристика.

Регресионният анализ включва следните стъпки:

· определяне вида на функцията;

· определяне на регресионни коефициенти;

· изчисляване на теоретичните стойности на получената характеристика;

· проверка на статистическата значимост на регресионните коефициенти;

· проверка на статистическата значимост на регресионното уравнение.

Множествена регресия- уравнение от вида:

при= f(x 1, x 2, …, x n). (6.3)

Полученият атрибут се разглежда като функция на няколко аргумента, т.е. много факторни признаци.

2. За да се определи правилно вида на функцията, е необходимо да се намери посоката на връзката въз основа на теоретични данни.

Според посоката на свързване регресията се разделя на:

· директна регресиявъзникващи при условие, че с увеличаване или намаляване на независимото количество " Х"стойности на зависимото количество " y"също увеличават или намаляват съответно;

· обратна регресиявъзникващи при условие, че с увеличаване или намаляване на независимата стойност "Х"зависимо количество " y"намалява или съответно се увеличава.

За характеризиране на връзките се използват следните типове сдвоени регресионни уравнения:

· y=a+bxлинеен;

· y=e ax + b – експоненциален;

· y=a+b/x – хиперболично;

· y=a+b 1 x+b 2 x 2 – параболичен;

· y=ab x – експоненциалени т.н.

Където a, b 1, b 2- коефициенти (параметри) на уравнението; при- ефективен знак; х- знак за фактор.

3. Изграждането на регресионно уравнение се свежда до оценка на неговите коефициенти (параметри), за това използваме метод на най-малките квадрати(MNC).

Методът на най-малките квадрати дава възможност да се получат такива оценки на параметрите, за които сумата от квадратните отклонения на действителните стойности на резултантния атрибут " при"от теория" y x» е минимален, т.е

Параметри на регресионното уравнение y=a+bxс помощта на метода на най-малките квадрати се оценяват по формулите:

Където А -свободен коефициент, b- коефициент на регресия, показва колко ще се промени резултатният знак “ г"когато факторна характеристика се промени" х» на мерна единица.

4. За оценка на статистическата значимост на коефициентите на регресия се използва t-тестът на Student.

Схема за проверка на значимостта на регресионните коефициенти:

1) H 0:a=0, b=0 - регресионните коефициенти не се различават значително от нула.

H 1: a≠ 0, b≠ 0 - регресионните коефициенти са значително различни от нула.

2) Р=0,05 – ниво на значимост.

Където m b,m a- случайни грешки:

; . (6.7)

4) t маса(R; f),

Където f=п-к- 1 - брой степени на свобода ( таблична стойност), н- брой наблюдения, к Х".

5) Ако , тогава се отхвърля, т.е. коефициентът е значителен.

Ако , тогава се приема, т.е. коефициентът е незначителен.

5. За проверка на коректността на построеното регресионно уравнение се използва критерият на Фишер.

Схема за проверка на значимостта на регресионното уравнение:

1) H 0:Регресионното уравнение не е значимо.

H 1:Уравнението на регресията е важно.

2) Р=0,05 – ниво на значимост.

3) , (6.8)

където е броят на наблюденията; к- брой параметри в уравнението с променливи " Х"; при- действителната стойност на резултатния атрибут; y x- теоретична стойност на резултатния знак; - коефициент на корелация на двойки.

4) F маса(R; f 1 ; е 2),

Където f 1 =k, f 2 =n-k-1-брой степени на свобода (таблични стойности).

5) Ако F изчислен >F таблица, тогава регресионното уравнение е избрано правилно и може да се използва на практика.

Ако F изч , тогава регресионното уравнение е избрано неправилно.

6. Основният показател, отразяващ качеството на регресионния анализ е коефициент на детерминация (R 2).

Коефициент на определянепоказва каква част от зависимата променлива " при" се взема предвид в анализа и се дължи на влиянието върху него на факторите, включени в анализа.

Коефициент на определяне (R 2)приема стойности в интервала. Регресионното уравнение е качествено, ако R 2 ≥0,8.

Коефициентът на детерминация е равен на квадрата на корелационния коефициент, т.е.

Пример 6.1.Въз основа на следните данни съставете и анализирайте регресионно уравнение:

Решение.

1) Изчислете коефициента на корелация: . Отношенията между знаците са директни и умерени.

2) Конструирайте сдвоено уравнение на линейна регресия.

2.1) Създайте таблица за изчисление.

х при Ху х 2 y x (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Сума 159,45 558,55
Средно аритметично 77519,6 22,78 79,79 2990,6

,

Сдвоено уравнение на линейна регресия: y x =25,17+0,087x.

3) Намерете теоретичните стойности " y x" чрез заместване на действителните стойности в регресионното уравнение " х».

4) Изградете графики на действителните " y"и теоретични стойности" y x"ефективна характеристика (Фигура 6.1): r xy =0,47) и малък брой наблюдения.

7) Изчислете коефициента на детерминация: R 2=(0,47) 2 =0,22. Построеното уравнение е с лошо качество.

защото изчисленията при извършване на регресионен анализ са доста обширни; препоръчва се използването на специални програми (Statistica 10, SPSS и др.).

Фигура 6.2 показва таблица с резултатите от регресионния анализ, извършен с помощта на програмата Statistica 10.

Фигура 6.2. Резултати от регресионен анализ, извършен с помощта на програмата Statistica 10

5. Литература:

1. Гмурман В.Е. Теория на вероятностите и математическа статистика: Учебник. ръководство за университети / V.E. Гмурман. - М.: Висше училище, 2003. - 479 с.

2. Койчубеков Б.К. Биостатистика: Учебник. - Алмати: Evero, 2014. - 154 с.

3. Лобоцкая Н.Л. Висша математика. / Н.Л. Лобоцкая, Ю.В. Морозов, А.А. Дунаев. - Мн.: Висше училище, 1987. - 319 с.

4. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицината и биологията: Ръководство. В 2 тома / Ред. Ю.М. Комарова. Т. 1. Теоретична статистика. - М.: Медицина, 2000. - 412 с.

5. Приложение на методите за статистически анализ за изследване на общественото здраве и здравеопазването: учебник / изд. Кучеренко В.З. - 4-то изд., преработено. и допълнителни – М.: GEOTAR - Media, 2011. - 256 с.

В резултат на изучаването на материала в глава 4 студентът трябва:

зная

  • основни понятия на регресионния анализ;
  • методи за оценка и свойства на оценките на най-малките квадрати;
  • основни правила за тестване на значимост и интервална оценка на уравнения и регресионни коефициенти;

да бъде в състояние да

  • използват примерни данни, за да намерят оценки на параметрите на модели с двумерни и множествени регресионни уравнения и да анализират техните свойства;
  • проверка на значимостта на уравнението и коефициентите на регресия;
  • намиране на интервални оценки на значими параметри;

собствен

  • умения за статистическа оценка на параметри на двумерни и множествени регресионни уравнения; умения за проверка на адекватността на регресионни модели;
  • умения за получаване на регресионно уравнение с всички значими коефициенти с помощта на аналитичен софтуер.

Основни понятия

След извършване на корелационен анализ, когато се установи наличието на статистически значими връзки между променливите и се оцени степента на тяхната близост, обикновено се пристъпва към математическо описание на типа зависимости с помощта на методи за регресионен анализ. За целта се избира клас функции, които свързват ефективния показател прии аргументи„ изчисляват оценки на параметрите на уравнението за свързване и анализират точността на полученото уравнение.

Функция|, описваща зависимостта на условната средна стойност от резултантната характеристика приот дадените стойности на аргумента се извиква регресионно уравнение.

Терминът "регресия" (от лат. регресия –отстъпление, връщане към нещо) е въведено от английския психолог и антрополог Ф. Галтън и се свързва с един от първите му примери, в който Галтън, обработвайки статистически данни, свързани с въпроса за наследствеността на височината, установява, че ако височината на бащите се отклонява от средната височина на всички бащи хинча, тогава височината на техните синове се отклонява от средната височина на всички синове с по-малко от хинча. Установената тенденция беше наречена регресия към средната стойност.

Терминът "регресия" е широко използван в статистическата литература, въпреки че в много случаи той не характеризира точно статистическата връзка.

За точното описание на регресионното уравнение е необходимо да се знае условният закон на разпределение на ефективния показател u.В статистическата практика обикновено не е възможно да се получи такава информация, така че те се ограничават до търсене на подходящи приближения за функцията f(x u х 2,... l*), въз основа на предварителен съдържателен анализ на явлението или на първоначални статистически данни.

В рамките на индивидуалните допускания на модела за вида на разпределението на вектора на индикаторите<) может быть получен общий вид регресионни уравнения, Където. Например, при предположението, че наборът от изследвани индикатори се подчинява на ()-мерния закон за нормално разпределение с вектор на математическите очаквания

Къде и ковариационната матрица,

къде е дисперсията y,

Регресионното уравнение (условно математическо очакване) има формата

Така, ако многовариантна случайна променлива ()

се подчинява на ()-мерния закон за нормално разпределение, след това на регресионното уравнение на ефективния индикатор прив обяснителните променливи е линейна хизглед.

В статистическата практика обаче човек обикновено трябва да се ограничи до намирането на подходящи приближения за неизвестната истинска регресионна функция f(x),тъй като изследователят няма точни познания за условния закон за разпределение на вероятностите на анализирания показател за ефективност приза дадени стойности на аргумент Х.

Нека да разгледаме връзката между истинските, моделните и регресионните оценки. Нека ефективният индикатор присвързани с аргумента хсъотношение

където е случайна променлива, която има нормален закон на разпределение, и и. Истинската регресионна функция в този случай има формата

Да предположим, че точната форма на истинското регресионно уравнение не ни е известна, но имаме девет наблюдения на двуизмерна случайна променлива, свързана с отношенията, представени на фиг. 4.1.

Ориз. 4.1. Относителното положение на истинатаf(x) и теоретиченопарегресионни модели

Разположението на точките на фиг. 4.1 ни позволява да се ограничим до класа на линейните зависимости на формата

Използвайки метода на най-малките квадрати, намираме оценката на регресионното уравнение.

За сравнение, на фиг. 4.1 показва графики на истинската регресионна функция и теоретичната апроксимираща регресионна функция. Оценката на регресионното уравнение се сближава с последното по вероятност опас неограничено увеличение на размера на извадката ().

Тъй като погрешно избрахме линейна регресионна функция вместо истинска регресионна функция, което, за съжаление, е доста често срещано в практиката на статистическите изследвания, нашите статистически заключения и оценки няма да имат свойството последователност, т.е. Без значение как увеличаваме броя на наблюденията, нашата примерна оценка няма да се сближи с истинската регресионна функция

Ако сме избрали правилно класа на регресионните функции, тогава неточността в описанието използва опаби се обяснило само с ограничената извадка и следователно може да бъде направено толкова малко, колкото желаете

За да се възстанови най-добре условната стойност на показателя за ефективност и неизвестната регресионна функция от първоначалните статистически данни, най-често се използват следните: критерии за адекватностфункции на загуба.

1. Метод на най-малките квадрати,според който квадратът на отклонението на наблюдаваните стойности на ефективния индикатор, , от стойностите на модела е сведен до минимум, където коефициентите на регресионното уравнение; са стойностите на вектора на аргументите в „-M наблюдение:

Проблемът за намиране на оценка на вектора е решен. Получената регресия се нарича среден квадрат.

2. Метод на най-малкото модули, според който сумата от абсолютните отклонения на наблюдаваните стойности на ефективния показател от модулните стойности е минимизирана, т.е.

Получената регресия се нарича означава абсолютно(Медиана).

3. Минимаксен методсе свежда до минимизиране на максималния модул на отклонение на наблюдаваната стойност на ефективния показател y,от стойността на модела, т.е.

Получената регресия се нарича минимакс.

В практическите приложения често има проблеми, при които се изучава случайна променлива y,в зависимост от определен набор от променливи и неизвестни параметри. Ще разгледаме () като (k + 1)-мерна генерална съвкупност, от която произволна извадка от П,където () е резултатът от i-тото наблюдение. Необходимо е да се оценят неизвестни параметри въз основа на резултатите от наблюденията. Задачата, описана по-горе, се отнася до проблеми с регресионен анализ.

Регресионен анализ се нарича метод за статистически анализ на зависимостта на случайна величина привърху променливи, разглеждани в регресионния анализ като неслучайни стойности, независимо от истинския закон на разпределение

По време на обучението си студентите много често се сблъскват с различни уравнения. Едно от тях - регресионното уравнение - е разгледано в тази статия. Този тип уравнение се използва специално за описание на характеристиките на връзката между математическите параметри. Този тип равенство се използва в статистиката и иконометрията.

Определение за регресия

В математиката регресията означава определено количество, което описва зависимостта на средната стойност на набор от данни от стойностите на друго количество. Регресионното уравнение показва, като функция на определена характеристика, средната стойност на друга характеристика. Регресионната функция има формата на просто уравнение y = x, в което y действа като зависима променлива, а x като независима променлива (фактор на характеристиките). Всъщност регресията се изразява като y = f (x).

Какви са видовете връзки между променливите?

Като цяло има два противоположни типа връзки: корелация и регресия.

Първият се характеризира с равенството на условните променливи. В този случай не е надеждно известно коя променлива зависи от другата.

Ако няма равенство между променливите и условията казват коя променлива е обяснителна и коя е зависима, тогава можем да говорим за наличие на връзка от втори тип. За да се състави уравнение на линейна регресия, ще е необходимо да се установи какъв тип връзка се наблюдава.

Видове регресии

Днес има 7 различни вида регресия: хиперболична, линейна, множествена, нелинейна, двойна, обратна, логаритмично линейна.

Хиперболични, линейни и логаритмични

Уравнението на линейната регресия се използва в статистиката за ясно обяснение на параметрите на уравнението. Изглежда като y = c+t*x+E. Хиперболичното уравнение има формата на правилна хипербола y = c + m / x + E. Логаритмично линейно уравнение изразява връзката с помощта на логаритмична функция: In y = In c + m * In x + In E.

Множествени и нелинейни

Двата по-сложни типа регресия са множествена и нелинейна. Уравнението на множествената регресия се изразява чрез функцията y = f(x 1, x 2 ... x c) + E. В тази ситуация y действа като зависима променлива, а x действа като обяснителна променлива. Променливата E е стохастична; тя включва влиянието на други фактори в уравнението. Уравнението на нелинейната регресия е малко противоречиво. От една страна, по отношение на взетите под внимание показатели, тя не е линейна, но от друга страна, в ролята на оценяващи показатели, е линейна.

Обратни и сдвоени видове регресии

Обратната е вид функция, която трябва да бъде преобразувана в линейна форма. В най-традиционните приложни програми той има формата на функция y = 1/c + m*x+E. Уравнение за регресия по двойки показва връзката между данните като функция на y = f (x) + E. Точно както в други уравнения, y зависи от x, а E е стохастичен параметър.

Понятие за корелация

Това е индикатор, показващ наличието на връзка между две явления или процеси. Силата на връзката се изразява като корелационен коефициент. Стойността му варира в интервала [-1;+1]. Отрицателен индикатор показва наличието на обратна връзка, положителен индикатор показва директна обратна връзка. Ако коефициентът приеме стойност, равна на 0, тогава няма връзка. Колкото по-близо е стойността до 1, толкова по-силна е връзката между параметрите; колкото по-близо до 0, толкова по-слаба е тя.

Методи

Корелационните параметрични методи могат да оценят силата на връзката. Те се използват на базата на оценка на разпределението за изследване на параметри, които се подчиняват на закона за нормалното разпределение.

Параметрите на уравнението на линейната регресия са необходими за идентифициране на вида на зависимостта, функцията на уравнението на регресията и оценка на показателите на избраната формула за връзка. Корелационното поле се използва като метод за идентифициране на връзката. За да направите това, всички съществуващи данни трябва да бъдат изобразени графично. Всички известни данни трябва да бъдат нанесени в правоъгълна двумерна координатна система. Така се образува корелационно поле. Стойностите на описващия фактор са отбелязани по абсцисната ос, докато стойностите на зависимия фактор са отбелязани по ординатната ос. Ако има функционална връзка между параметрите, те се подреждат под формата на линия.

Ако коефициентът на корелация на такива данни е по-малък от 30%, можем да говорим за почти пълна липса на връзка. Ако е между 30% и 70%, това показва наличието на средно-тесни връзки. 100% индикатор е доказателство за функционална връзка.

Нелинейното регресионно уравнение, също като линейното, трябва да бъде допълнено с корелационен индекс (R).

Корелация за множествена регресия

Коефициентът на детерминация е показател на квадрата на множествената корелация. Той говори за тясната връзка на представения набор от показатели с изследваната характеристика. Може да се говори и за естеството на влиянието на параметрите върху резултата. Уравнението на множествената регресия се оценява с помощта на този показател.

За да се изчисли индикаторът за множествена корелация, е необходимо да се изчисли неговият индекс.

Метод на най-малките квадрати

Този метод е начин за оценка на регресионните фактори. Същността му е да се минимизира сумата от квадратите на отклоненията, получени в резултат на зависимостта на фактора от функцията.

Уравнение на двойна линейна регресия може да бъде изчислено с помощта на такъв метод. Този тип уравнения се използват, когато се открие сдвоена линейна връзка между индикатори.

Параметри на уравнението

Всеки параметър на линейната регресионна функция има специфично значение. Уравнението на сдвоената линейна регресия съдържа два параметъра: c и m. Параметърът m показва средната промяна в крайния показател на функцията y, при условие че променливата x намалява (увеличава) с една условна единица. Ако променливата x е нула, тогава функцията е равна на параметъра c. Ако променливата x не е нула, тогава факторът c няма икономическо значение. Единственото влияние върху функцията е знакът пред фактора c. Ако има минус, тогава можем да кажем, че промяната в резултата е бавна в сравнение с фактора. Ако има плюс, това означава ускорена промяна в резултата.

Всеки параметър, който променя стойността на регресионното уравнение, може да бъде изразен чрез уравнение. Например фактор c има формата c = y - mx.

Групирани данни

Има условия на задачата, при които цялата информация е групирана по атрибут x, но за определена група са посочени съответните средни стойности на зависимия индикатор. В този случай средните стойности характеризират как се променя индикаторът в зависимост от x. По този начин групираната информация помага да се намери регресионното уравнение. Използва се като анализ на взаимоотношенията. Този метод обаче има своите недостатъци. За съжаление средните показатели често са подложени на външни колебания. Тези колебания не отразяват модела на връзката; те просто маскират нейния „шум“. Средните стойности показват модели на връзка много по-лоши от уравнение на линейна регресия. Те обаче могат да се използват като основа за намиране на уравнение. Чрез умножаване на броя на отделна популация по съответната средна стойност, може да се получи сумата y в рамките на групата. След това трябва да съберете всички получени суми и да намерите крайния индикатор y. Малко по-трудно е да се правят изчисления с индикатора за сума xy. Ако интервалите са малки, можем условно да приемем, че показателят x за всички единици (в групата) е еднакъв. Трябва да го умножите по сумата от y, за да намерите сумата от произведенията на x и y. След това всички суми се събират заедно и се получава общата сума xy.

Уравнение за множествена регресия по двойки: оценка на важността на връзката

Както беше обсъдено по-рано, множествената регресия има функция от формата y = f (x 1,x 2,…,x m)+E. Най-често такова уравнение се използва за решаване на проблема с търсенето и предлагането на даден продукт, доходите от лихви върху обратно изкупени акции и за изследване на причините и вида на функцията на производствените разходи. Също така се използва активно в голямо разнообразие от макроикономически изследвания и изчисления, но на ниво микроикономика това уравнение се използва малко по-рядко.

Основната задача на множествената регресия е да се изгради модел от данни, съдържащ огромно количество информация, за да се определи допълнително какво влияние има всеки от факторите поотделно и в тяхната съвкупност върху показателя, който трябва да се моделира и неговите коефициенти. Регресионното уравнение може да приема голямо разнообразие от стойности. В този случай за оценка на връзката обикновено се използват два вида функции: линейни и нелинейни.

Линейната функция е изобразена под формата на следната зависимост: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. В този случай a2, a m се считат за „чисти“ регресионни коефициенти. Те са необходими за характеризиране на средната промяна на параметъра y с промяна (намаляване или увеличаване) на всеки съответен параметър x с една единица, при условие на стабилни стойности на други показатели.

Нелинейните уравнения имат например формата на степенна функция y=ax 1 b1 x 2 b2 ...x m bm. В този случай показателите b 1, b 2 ..... b m се наричат ​​коефициенти на еластичност, те показват как ще се промени резултатът (с колко%) с увеличение (намаляване) на съответния показател x с 1% и със стабилен показател на други фактори.

Какви фактори трябва да се вземат предвид при конструирането на множествена регресия

За да се изгради правилно множествената регресия, е необходимо да се установи на кои фактори трябва да се обърне специално внимание.

Необходимо е да има известно разбиране за естеството на връзките между икономическите фактори и това, което се моделира. Факторите, които ще трябва да бъдат включени, трябва да отговарят на следните критерии:

  • Трябва да се подложи на количествено измерване. За да се използва фактор, който описва качеството на даден обект, във всеки случай трябва да му се даде количествена форма.
  • Не трябва да има взаимовръзка на факторите или функционална връзка. Такива действия най-често водят до необратими последици - системата от обикновени уравнения става безусловна и това води до нейната ненадеждност и неясни оценки.
  • В случай на огромен индикатор за корелация, няма начин да се установи изолираното влияние на факторите върху крайния резултат на индикатора, следователно коефициентите стават неинтерпретируеми.

Методи на изграждане

Има огромен брой методи и методи, които обясняват как можете да изберете фактори за уравнение. Всички тези методи обаче се основават на избора на коефициенти с помощта на корелационен индикатор. Сред тях са:

  • Метод на елиминиране.
  • Метод на превключване.
  • Поетапен регресионен анализ.

Първият метод включва филтриране на всички коефициенти от общия набор. Вторият метод включва въвеждането на много допълнителни фактори. Е, третото е елиминирането на факторите, които преди са били използвани за уравнението. Всеки от тези методи има право на съществуване. Те имат своите плюсове и минуси, но всички те могат да решат проблема с премахването на ненужните индикатори по свой начин. По правило резултатите, получени от всеки отделен метод, са доста близки.

Методи за многомерен анализ

Такива методи за определяне на фактори се основават на разглеждане на индивидуални комбинации от взаимосвързани характеристики. Те включват дискриминантен анализ, разпознаване на формата, анализ на главните компоненти и клъстерен анализ. Освен това има и факторен анализ, но той се появи поради развитието на компонентния метод. Всички те се прилагат при определени обстоятелства, при определени условия и фактори.

Регресионен анализметод за моделиране на измерените данни и изследване на техните свойства. Данните се състоят от двойки стойности зависима променлива(променлива на отговора) и независима променлива(обяснителна променлива). Регресионният модел е функция на независимата променлива и параметри с добавена случайна променлива. Параметрите на модела се настройват така, че моделът да отговаря най-добре на данните. Критерият за качеството на приближението (обективна функция) обикновено е средната квадратична грешка: сумата от квадратите на разликата между стойностите на модела и зависимата променлива за всички стойности на независимата променлива като аргумент. Клон на регресионния анализ на математическата статистика и машинното обучение. Предполага се, че зависимата променлива е сумата от стойностите на някакъв модел и случайна променлива. Правят се предположения относно естеството на разпределението на това количество, наречено хипотеза за генериране на данни. Статистически тестове, наречени остатъчни анализи, се извършват, за да потвърдят или опровергаят тази хипотеза. Предполага се, че независимата променлива не съдържа грешки. Регресионният анализ се използва за прогнозиране, анализ на времеви редове, тестване на хипотези и идентифициране на скрити връзки в данните.

Определение за регресионен анализ

Извадката може да не е функция, а релация. Например данните за изграждане на регресия могат да бъдат така: . В такава извадка една стойност на променлива съответства на няколко стойности на променлива.

Линейна регресия

Линейната регресия предполага, че функцията зависи линейно от параметрите. В този случай не е необходима линейна зависимост от свободната променлива,

В случая, когато функцията на линейната регресия има формата

тук са компонентите на вектора.

Стойностите на параметрите в случай на линейна регресия се намират с помощта на метода на най-малките квадрати. Използването на този метод е оправдано от предположението за Гаусово разпределение на случайната променлива.

Разликите между действителните стойности на зависимата променлива и реконструираните се наричат регресионни остатъци(остатъци). В литературата се използват и синоними: остатъциИ грешки. Една от важните оценки на критерия за качество на получената зависимост е сумата от квадратите на остатъците:

Тук сума на квадратите на грешките.

Дисперсията на остатъците се изчислява по формулата

Тук средна квадратична грешка, средна квадратична грешка.

Графиките показват проби, обозначени със сини точки, и регресионни връзки, обозначени с плътни линии. Свободната променлива се нанася по абсцисната ос, а зависимата променлива се нанася по ординатната ос. И трите зависимости са линейни по отношение на параметрите.

Нелинейна регресия

Нелинейни регресионни модели – модели на формата

което не може да бъде представено като скаларно произведение

където са параметрите на регресионния модел, е свободна променлива от пространството, е зависима променлива, е случайна променлива и е функция от някакъв даден набор.

Стойностите на параметрите в случай на нелинейна регресия се намират с помощта на един от методите за градиентно спускане, например алгоритъма Levenberg-Marquardt.

Относно условията

Терминът "регресия" е въведен от Франсис Галтън в края на 19 век. Галтън откри, че децата на родители с висок или нисък ръст обикновено не наследяват изключителна височина и нарече това явление „регресия към посредственост“. Първоначално терминът се използва изключително в биологичен смисъл. След работата на Карл Пиърсън този термин започва да се използва в статистиката.

В статистическата литература се прави разлика между регресия, включваща една свободна променлива, и регресия, включваща няколко свободни променливи едноизмеренИ многоизмеренрегресия. Предполага се, че използваме няколко свободни променливи, тоест вектор на свободна променлива. В специални случаи, когато свободната променлива е скала, тя ще бъде означена с . Разграничете линеенИ нелинейнирегресия. Ако регресионният модел не е линейна комбинация от функции на параметрите, тогава се казва, че е нелинейна регресия. В този случай моделът може да бъде произволна суперпозиция на функции от определено множество. Нелинейните модели са експоненциални, тригонометрични и други (например радиални базисни функции или перцептрон на Розенблат), които предполагат, че връзката между параметрите и зависимата променлива е нелинейна.

Разграничете параметриченИ непараметричнирегресия. Трудно е да се направи строга граница между тези два вида регресии. В момента няма общоприет критерий за разграничаване на един тип модел от друг. Например линейните модели се считат за параметрични, а моделите, които включват осредняване на зависимата променлива върху пространството на свободната променлива, са непараметрични. Пример за параметричен регресионен модел: линеен предиктор, многослоен перцептрон. Примери за модели на смесена регресия: радиални базисни функции. Непараметричен модел с подвижно осредняване в прозорец с известна ширина. Като цяло, непараметричната регресия се различава от параметричната регресия по това, че зависимата променлива не зависи от една стойност на свободната променлива, а от някакво специфично съседство на тази стойност.

Има разграничение между термините „апроксимация на функцията“, „апроксимация“, „интерполация“ и „регресия“. Тя е следната.

Апроксимация на функции.Дадена е функция на дискретен или непрекъснат аргумент. Необходимо е да се намери функция от определено параметрично семейство, например сред алгебрични полиноми от дадена степен. Функционалните параметри трябва да осигуряват минимум някаква функционалност, например,

Срок приближениесиноним на термина „апроксимация на функцията“. По-често се използва, когато говорим за дадена функция, като функция на дискретен аргумент. Тук също трябва да намерите функция, която минава най-близо до всички точки на дадена функция. Това въвежда концепцията остатъциразстояния между точки на непрекъсната функция и съответните точки на дискретна аргументна функция.

Интерполацияфункции частен случай на апроксимационния проблем, когато се изисква в определени точки т.нар интерполационни възлистойностите на функцията и функцията, която я приближава, съвпадаха. В по-общ план се налагат ограничения върху стойностите на определени деривати на деривати. Тоест, дадена е функция на дискретен аргумент. Изисква се да се намери функция, която минава през всички точки. В този случай метриката обикновено не се използва, но често се въвежда концепцията за „гладкост“ на желаната функция.