Как се чете таблица на регресията

Какво е регресия?

Регресията е един от най-важните и често използвани процеси за анализ на данни. Най-просто казано, това е статистически метод, който обяснява силата на връзката между зависима променлива и една или повече независими променливи.

Зависима променлива може да бъде променлива или поле, което се опитвате да предвидите или разберете. Независима променлива може да бъде полетата или точките от данни, които според вас могат да окажат влияние върху зависимата променлива.

По този начин той отговаря на няколко важни въпроса -

  • Какви променливи имат значение?
  • До каква степен тези променливи имат значение?
  • Доколко сме уверени в тези променливи?

Да вземем пример ...

За да обясня по-добре числата в регресионната таблица, мислех, че би било полезно да използваме примерен набор от данни и да разгледаме числата и тяхното значение.

Използвам малък набор от данни, който съдържа GRE (тест, който учениците вземат, за да бъдат взети предвид за прием в Градските училища в САЩ), резултати от 500 студенти и техния шанс за прием в университет.

Защото chance of admittanceзависи от GRE score, chance of admittanceе зависимата променлива и GRE scoreе независимата променлива.

Регресионна линия

Изчертаването на права линия, която най-добре описва връзката между GRE резултатите на учениците и техните шансове за прием ни дава линейната линия на регресия . Това е известно като линия на тенденциите в различни BI инструменти. Основната идея зад изчертаването на тази линия е да се сведе до минимум разстоянието между точките с данни в дадена х-координата и у-координатата, през която преминава регресионната линия.

Линията на регресия ни улеснява да представим връзката. Тя се основава на математическо уравнение, което свързва x-коефициента и y-пресечната точка.

Y-intercept е точката, в която линията пресича оста y при x = 0. Това е и стойността, която би приел или прогнозирал моделът, когато x е 0.

Коефициентите осигуряват въздействието или тежестта на променлива спрямо целия модел. С други думи, той осигурява размера на промяната в зависимата променлива за единична промяна в независимата променлива.

Изчисляване на уравнението на регресионната линия

За да открием y-пресечната точка на модела, ние удължаваме регресионната линия достатъчно далеч, докато тя пресече оста y при x = 0. Това е нашето y-пресичане и е около -2,5. Числото може наистина да няма смисъл за набора от данни, по който работим, но намерението е да покаже само изчислението на y-intercept.

Коефициентът за този модел ще бъде само наклонът на регресионната линия и може да се изчисли, като се получи промяната в приемността спрямо промяната в GRE оценките.

В горния пример коефициентът просто би бил

m = (y2-y1) / (x2-x1)

И в този случай би било близо до 0,01.

Формулата y = m * x + b ни помага да изчислим математическото уравнение на нашата регресионна линия. Замествайки стойностите за y-отсечка и наклон, получени от удължаването на регресионната линия, можем да формулираме уравнението -

y = 0,01x - 2,48

-2,48 е по-точна стойност на y-intercept, получена от таблицата на регресията, както е показано по-късно в тази публикация.

Това уравнение ни позволява да прогнозираме и предсказваме шанс за прием на студент, когато неговият / нейният GRE резултат е известен.

Сега, когато имаме основите, нека преминем към четене и интерпретиране на таблица на регресията.

Четене на таблица за регресия

Таблицата на регресията може грубо да бъде разделена на три компонента -

  • Анализ на дисперсията (ANOVA): осигурява анализ на дисперсията в модела, както подсказва името.
  • регресивна статистика: предоставят числена информация за вариацията и доколко добре моделът обяснява вариацията за дадените данни / наблюдения.
  • остатъчен изход: предоставя стойността, предвидена от модела, и разликата между действителната наблюдавана стойност на зависимата променлива и нейната прогнозирана стойност от регресионния модел за всяка точка от данните.

Анализ на дисперсията (ANOVA)

Степени на свобода (df)

Регресията df е броят на независимите променливи в нашия регресионен модел. Тъй като в този пример разглеждаме само GRE резултатите, това е 1.

Остатъчен df е общият брой наблюдения (редове) на набора от данни, изваден от броя на променливите, които се оценяват. В този пример се изчисляват както коефициентът на GRE, така и константата.

Остатъчно df = 500 - 2 = 498

Общо df - е сумата от регресията и остатъчните степени на свобода, която е равна на размера на набора от данни минус 1.

Сума на квадратите (SS)

Регресия SS е общата вариация в зависимата променлива, която се обяснява от регресионния модел. Това е сумата от квадрата на разликата между прогнозираната стойност и средната стойност на всички точки от данните.

∑ (ŷ - ӯ) ²

От таблицата ANOVA, регресията SS е 6,5, а общата SS е 9,9, което означава, че регресионният модел обяснява около 6,5 / 9,9 (около 65%) от цялата променливост в набора от данни.

Остатъчен SS - е общата вариация в зависимата променлива, която е оставена необяснима от регресионния модел. Нарича се още Сума на грешките на квадратите и е сумата от квадрата на разликата между действителните и прогнозираните стойности на всички точки с данни.

∑ (y - ŷ) ²

От таблицата ANOVA остатъчният SS е около 3,4. Като цяло, колкото по-малка е грешката, толкова по-добре регресионният модел обяснява вариацията в набора от данни и затова обикновено бихме искали да минимизираме тази грешка.

Общо SS - е сумата от двете, регресия и остатъчна SS или с това доколко шансът за допускане ще варира, ако GRE резултатите НЕ се вземат предвид.

Средноквадратични грешки (MS) - са средната стойност на сумата на квадратите или сумата на квадратите, разделена на степента на свобода както за регресия, така и за остатъци.

Регресия MS = ∑ (ŷ - ӯ) ² / Рег. dfResidual MS = ∑ (y - ŷ) ² / Res. df

F - използва се за тестване на хипотезата, че наклонът на независимата променлива е нула. Математически може да се изчисли и като

F = MS с регресия / остатъчна MS

Това иначе се изчислява чрез сравняване на F-статистиката с F разпределение с регресия df в градуси на числителя и остатъчно df в градуси на знаменател.

Значимост F - не е нищо друго освен p-стойност за нулевата хипотеза, че коефициентът на независимата променлива е нула и както при всяка p-стойност, ниската p-стойност показва, че съществува значителна връзка между зависими и независими променливи.

Стандартна грешка - предоставя прогнозното стандартно отклонение на разпределението на коефициентите. Това е сумата, с която коефициентът варира в различните случаи. Коефициент, много по-голям от стандартната му грешка, предполага вероятност коефициентът да не е 0.

t-Stat - е t-статистиката или t-стойността на теста и стойността му е равна на коефициента, разделен на стандартната грешка.

t-Stat = Коефициенти / Стандартна грешка

Отново, колкото по-голям е коефициентът по отношение на стандартната грешка, толкова по-голям е t-Stat и по-голяма е вероятността коефициентът да е далеч от 0.

p-стойност - t-статистиката се сравнява с t разпределението, за да се определи p-стойността. Обикновено разглеждаме само р-стойността на независимата променлива, която осигурява вероятността за получаване на извадка, най-близка до тази, използвана за извеждане на уравнението на регресията, и проверяваме дали наклонът на регресионната линия всъщност е нула или коефициентът е близък до получен коефициент.

Стойността на р под 0,05 показва 95% увереност, че наклонът на регресионната линия не е нулев и следователно има значителна линейна връзка между зависимите и независимите променливи.

Стойността на р по-голяма от 0,05 показва, че наклонът на регресионната линия може да е нулев и че при 95% ниво на доверие няма достатъчно доказателства, че съществува значителна линейна връзка между зависимите и независимите променливи.

Тъй като р-стойността на независимата променлива GRE оценка е много близка до 0, можем да бъдем изключително уверени, че има значителна линейна връзка между GRE резултатите и шанса за допускане.

Долна и горна 95% - Тъй като използваме най-вече извадка от данни за оценка на регресионната линия и нейните коефициенти, те са най-вече приближение на истинските коефициенти и от своя страна истинската регресионна линия. Долната и горната 95% граници дават 95-ия доверителен интервал на долната и горната граница за всеки коефициент.

Тъй като 95% доверителният интервал за GRE резултати е 0,009 и 0,01, границите не съдържат нула и така можем да бъдем 95% уверени, че има значителна линейна връзка между GRE резултатите и шанса за допускане.

Моля, обърнете внимание, че нивото на доверие от 95% се използва широко, но е възможно ниво, различно от 95%, което може да бъде зададено по време на регресионен анализ.

Статистика на регресията

R² (R Square) - представлява силата на модела. Той показва количеството вариации в зависимата променлива, която независимата променлива обяснява и винаги се намира между стойности 0 и 1. С увеличаване на R², повече вариации в данните се обясняват от модела и по-добре моделът получава прогнозиране. Ниското R² би означавало, че моделът не отговаря добре на данните и че независима променлива не обяснява добре промяната в зависимата променлива.

R² = Регресионна сума на квадратите / Обща сума на квадратите

R квадратът обаче не може да определи дали оценките и прогнозите на коефициентите са предубедени, поради което трябва да оцените остатъчните графики, които са разгледани по-нататък в тази статия.

R-квадратът също не показва дали регресионният модел е адекватен. Можете да имате ниска R-квадратна стойност за добър модел или висока R-квадратна стойност за модел, който не отговаря на данните.

R², в този случай, е 65%, което означава, че GRE резултатите могат да обяснят 65% от вариацията в шанса за допускане.

Коригирано R² - е R², умножено по коефициент на корекция. Това се използва при сравняване на различни модели на регресия с различни независими променливи. Това число е полезно при вземане на решение за правилните независими променливи в множество модели на регресия.

Множество R - е положителният квадратен корен на R²

Стандартна грешка - различна е от стандартната грешка на коефициентите. Това е приблизителното стандартно отклонение на грешката на уравнението на регресията и е добър измерител за точността на регресионната линия. Това е квадратният корен от остатъчните средни квадратни грешки.

Std. Грешка = √ (Res.MS)

Остатъчен изход

Остатъците са разликата между действителната стойност и прогнозираната стойност на регресионния модел, а остатъчната продукция е прогнозираната стойност на зависимата променлива от регресионния модел и остатъчната стойност за всяка точка от данните.

И както подсказва името, остатъчен график е разпръснат график между остатъка и независимата променлива, който в този случай е GRE резултатът на всеки ученик.

Остатъчният парцел е важен за откриване на неща като хетероскедастичност , нелинейност и отклонения . Процесът на тяхното откриване не се обсъжда като част от тази статия, но фактът, че остатъчният график за нашия пример има данни, разпръснати произволно, ни помага да установим факта, че връзката между променливите в този модел е линейна.

Намерение

Намерението на тази статия не е да изгради работещ модел на регресия, а да осигури преход на всички регресионни променливи и тяхното значение, когато е необходимо, с примерен набор от данни в регресионна таблица.

Въпреки че тази статия предоставя обяснение с единична променлива линейна регресия като пример, моля, имайте предвид, че някои от тези променливи могат да имат по-голямо значение в случаите на многопроменливи или други ситуации.

Препратки

  • Набор от данни за прием на завършили
  • 10 неща за четенето на таблица за регресия
  • Опресняване на регресионния анализ