Научете как да изберете най-ефективната линейна регресия за едномерни модели

Разберете кой модел на линейна регресия е най-подходящ за вашите данни

Вдъхновен от въпрос след предишната ми статия, искам да се спра на проблем, който често възниква след изпробване на различни линейни модели: Трябва да направите избор кой модел искате да използвате. По-конкретно, Халифа Арди Сидки попита:

„Как да определя кой модел е най-подходящ за моите данни? Само да гледам R квадрата, SSE и т.н.? Тъй като интерпретацията на този модел (квадратичен, корен и т.н.) ще бъде много различна, няма ли да е проблем? "

На втората част от въпроса може да се отговори лесно. Първо намерете модел, който най-добре отговаря на вашите данни и след това интерпретирайте резултатите от него. Добре е, ако имате идеи как могат да бъдат обяснени вашите данни. Тълкувайте обаче само най-добрия модел.

Останалата част от тази статия ще засегне първата част от въпроса му. Моля, обърнете внимание, че ще споделямоят подходза това какза да изберете модел. Има много начини и други могат да го направят по различен начин. Но ще опиша начина, който работи най-добре за мен.

Освен това този подход се прилага само за едномерни модели . Унивариантните модели имат само една входна променлива. Планирам допълнителна статия, където ще ви покажа как да оцените многовариантни модели с повече входни променливи. За днес обаче нека се съсредоточим върху основите и едномерните модели.

За да тренирам и да усетя това, написах малко ShinyApp. Използвайте го и си поиграйте с различни набори от данни и модели. Забележете как параметрите се променят и станете по-уверени с оценяването на прости линейни модели. И накрая, можете също да използвате приложението като рамка за вашите данни. Просто го копирайте от Github.

Използвайте коригирания R2 за едномерни модели

Ако използвате само една входна променлива, adjusted R2стойността ви дава добра индикация за това колко добре се представя вашият модел. Илюстрира колко вариации се обясняват от вашия модел.

За разлика от простото R2, adjusted R2вземането взема предвид броя на входните фактори. Той наказва твърде много фактори на входа и благоприятства икономичните модели.

На екранната снимка по-горе можете да видите два модела със стойност 71,3% и 84,32%. Очевидно вторият модел е по-добър от първия. Моделите с ниски стойности обаче все още могат да бъдат полезни, тъй като adjusted R2са чувствителни към количеството шум във вашите данни. Като такъв, сравнявайте само този показател за модели за един и същ набор от данни, отколкото да го сравнявате в различни набори от данни.

Обикновено има малка нужда от SSE

Преди да прочетете, нека се уверим, че говорим за една и съща SSE. В Wikipedia, SSE се отнася до сумата от квадратни грешки. В някои учебници по статистика обаче SSE може да се позовава на обяснения сбор от квадрати (точно обратното). Така че за сега, да предположим, че SSE се отнася до сумата на квадратните грешки.

Следователно, adjusted R2е приблизително 1- SSE / SST. Като SST се отнася до общата сума на квадратите.

Не искам да се впускам по-дълбоко в математиката зад това. Това, което искам да ви покажа, е, че adjusted R2се изчислява с SSE . Така че SSE обикновено не ви дава никаква допълнителна информация .

Освен това, adjusted R2е нормализирано така, че винаги да е между нула и единица. Така че за вас и другите е по-лесно да интерпретирате непознат модел със adjusted R275%, а не SSE от 394 - въпреки че и двете цифри могат да обяснят един и същ модел.

Погледнете остатъците или условията за грешки!

Това, което често се пренебрегва, са термини за грешки или така наречените остатъци. Те често ви казват повече от това, което може да си мислите.

Остатъците са разликата между вашите прогнозирани стойности и действителните стойности.

Предимството им е, че те могат да ви покажат както величината, така и посоката на грешките ви. Нека да разгледаме един пример :

Тук се опитах да предскажа набор от полиноми с линейна функция. Анализът на остатъците показва, че има области, в които моделът има пристрастие нагоре или надолу.

За t; 100, остатъците са над нулата. Така че в тази област действителните стойности са по-високи от предсказаните стойности - нашият модел има пристрастие надолу.50 < x &l

За 100 < x &lt; 150, обаче остатъците са под нулата. По този начин действителните стойности са по-ниски от предвидените стойности - моделът има пристрастие нагоре.

Винаги е добре да знаете дали вашият модел предполага твърде високи или твърде ниски стойности. Но обикновено не искате да имате такива модели.

Остатъците трябва да са нула средно (както е посочено със средната стойност) и те трябва да бъдат равномерно разпределени. Прогнозирането на същия набор от данни с полиномиална функция на 3 degreesпредполага много по-добро прилягане:

Освен това можете да наблюдавате дали дисперсията на грешките ви се увеличава. В статистиката това се нарича хетероскедастичност. Можете лесно да поправите това със стабилни стандартни грешки. В противен случай тестовете ви за хипотеза вероятно ще са погрешни.

Хистограма на остатъци

И накрая, хистограмата обобщава размера на вашите термини за грешка. Той предоставя информация за честотната лента на грешките и показва колко често кои грешки са възникнали.

Горните екранни снимки показват два модела за един и същ набор от данни. В лявата хистограма възникват грешки в рамките на -338и 520.

В дясната хистограма възникват грешки в -293и 401. Така че отклоненията са много по-ниски. Освен това повечето грешки в модела на дясната хистограма са по-близо до нула. Така че бих предпочел правилния модел.

Обобщение

Когато избирате линеен модел, това са фактори, които трябва да имате предвид:

  • Сравнявайте само линейни модели за един и същ набор от данни.
  • Намерете модел с високо регулиран R2
  • Уверете се, че този модел има равномерно разпределени остатъци около нулата
  • Уверете се, че грешките на този модел са в рамките на малка честотна лента

Ако имате въпроси, напишете коментар по-долу или се свържете с мен. Оценявам отзивите ви.