Машинно обучение: въведение за означаване на квадрат грешки и регресионни линии

Въведение

Тази статия ще се занимае със средноквадратичната грешка на статистическия метод и ще опиша връзката на този метод с регресионната линия .

Примерът се състои от точки на декартовата ос. Ще дефинираме математическа функция, която ще ни даде права линия, която преминава най-добре между всички точки на декартовата ос.

И по този начин ще научим връзката между тези два метода и как изглежда резултатът от тяхната връзка.

Общо обяснение

Това е определението от Уикипедия:

В статистиката средната квадратична грешка (MSE) на даден оценител (на процедура за оценка на ненаблюдавано количество) измерва средната стойност на квадратите на грешките - тоест средната квадратична разлика между очакваните стойности и това, което се изчислява. MSE е рискова функция, съответстваща на очакваната стойност на квадратичната загуба на грешка. Фактът, че MSE е почти винаги строго положителен (а не нулев), се дължи на случайност или защото оценителят не отчита информация, която би могла да даде по-точна оценка.

Структурата на статията

  • Вземете представа за идеята, визуализация на графиката, уравнение за средна квадратична грешка.
  • Математическата част, която съдържа алгебрични манипулации и производна на две променливи функции за намиране на минимум. Този раздел е за тези, които искат да разберат как по-късно получаваме математическите формули, можете да го пропуснете, ако това не ви интересува.
  • Обяснение на получените математически формули и ролята на всяка променлива във формулата.
  • Примери

Вземете представа за идеята

Да предположим, че имаме седем точки и нашата цел е да намерим права, която минимизира квадратните разстояния до тези различни точки.

Нека се опитаме да разберем това.

Ще взема пример и ще начертая линия между точките. Разбира се, моята рисунка не е най-добрата, но е само за демонстрационни цели.

Може би се питате каква е тази графика?

  • на лилави точки са точките на графиката. Всяка точка има координата x и координата y.
  • В синята линия е прогнозата си на линия. Това е линия, която минава през всички точки и им пасва по най-добрия начин. Този ред съдържа предвидените точки.
  • В червената линия между всяка точка лилаво и прогнозиране линия са грешки. Всяка грешка е разстоянието от точката до нейната прогнозирана точка.

Трябва да запомните това уравнение от ученическите си дни, y = Mx + B , където M е наклонът на линията, а B е y-пресечната точка на линията.

Искаме да намерим M (наклон) и B (y-отсечка), които минимизират квадратната грешка!

Нека дефинираме математическо уравнение, което ще ни даде средната квадратична грешка за всички наши точки.

Нека да анализираме какво всъщност означава това уравнение.

  • В математиката характерът, който прилича на странен Е, се нарича сумиране (гръцки сигма). Това е сумата от поредица от числа, от i = 1 до n. Нека си представим това като масив от точки, където преминаваме през всички точки, от първата (i = 1) до последната (i = n).
  • За всяка точка вземаме y-координатата на точката и y'-координатата. У-координатата е нашата лилава точка. Точката y 'се намира на линията, която създадохме. Изваждаме y-координатната стойност от y'-координатната стойност и изчисляваме квадрата на резултата.
  • Третата част е да се вземе сумата от всички стойности (y-y ') ² и да се раздели на n, което ще даде средната стойност.

Нашата цел е да намалим това средно, което ще ни осигури най-добрата линия, която преминава през всички точки.

От концепция до математически уравнения

Тази част е за хора, които искат да разберат как стигнахме до математическите уравнения . Можете да преминете към следващата част, ако искате.

Както знаете, уравнението на линията е y = mx + b, където m е наклонът, а b е y-пресечната точка.

Нека вземем всяка точка от графиката и ще направим нашето изчисление (y-y ') ².

Но какво е y 'и как да го изчислим? Нямаме го като част от данните.

Но ние знаем, че за да изчислим y ', трябва да използваме нашето уравнение на линията, y = mx + b и да поставим x в уравнението.

Оттук получаваме следното уравнение:

Нека пренапишем този израз, за ​​да го опростим.

Нека започнем с отваряне на всички скоби в уравнението. Оцветих разликата между уравненията, за да улесня разбирането.

Сега, нека приложим друга манипулация. Ще вземем всяка част и ще я съберем. Ще вземем всички y, и (-2ymx) и т.н., и ще ги сложим един до друг.

В този момент започваме да сме разхвърляни, така че нека вземем средната стойност на всички квадратни стойности за y, xy, x, x².

Нека дефинираме за всеки един нов знак, който ще представлява средната стойност на всички квадратни стойности.

Да видим пример, нека вземем всички y стойности и ги разделим на n, тъй като това е средната стойност, и го наречем y (HeadLine).

Ако умножим двете страни на уравнението по n, ще получим:

Което ще ни доведе до следното уравнение:

Ако погледнем какво имаме, можем да видим, че имаме 3D повърхност. Прилича на чаша, която рязко се издига нагоре.

Искаме да намерим M и B, които минимизират функцията. Ще направим частична производна по отношение на M и частична производна по отношение на B.

Тъй като търсим минимална точка, ще вземем частичните производни и ще сравним с 0.

Нека вземем двете уравнения, които получихме, като изолираме променливата b от двете и след това извадим горното уравнение от долното уравнение.

Нека извадим първото уравнение от второто уравнение

Нека се отървем от знаменателите от уравнението.

И ето, това е уравнението за намиране на M, нека вземем това и запишем B уравнение.

Уравнения за наклон и пресичане на у

Нека предоставим математическите уравнения, които ще ни помогнат да намерим необходимия наклон и у-пресечение.

Така че сигурно си мислите, какво, по дяволите, са тези странни уравнения?

Те всъщност са лесни за разбиране, така че нека поговорим малко за тях.

Сега, когато разбираме нашите уравнения, е време да съберем всички неща и да покажем някои примери.

Примери

Голямо благодаря на Khan Academy за примерите.

Пример # 1

Да вземем 3 точки, (1,2), (2,1), (4,3).

Нека намерим M и B за уравнението y = mx + b.

След като сме изчислили съответните части за нашето уравнение M и уравнение B, нека поставим тези стойности вътре в уравненията и вземем наклона и y-пресечната точка.

Нека вземем тези резултати и ги зададем в уравнението на линията y = mx + b.

Сега нека нарисуваме линията и да видим как линията преминава през линиите по такъв начин, че да минимизира квадратните разстояния.

Пример # 2

Да вземем 4 точки, (-2, -3), (-1, -1), (1,2), (4,3).

Нека намерим M и B за уравнението y = mx + b.

Същото като преди, нека поставим тези стойности в нашите уравнения, за да намерим M и B.

Нека вземем тези резултати и ги зададем в уравнение на права y = mx + b.

Сега нека нарисуваме линията и да видим как линията преминава през линиите по такъв начин, че да минимизира квадратните разстояния.

В заключение

Както можете да видите, цялата идея е проста. Просто трябва да разберем основните части и как работим с тях.

Можете да работите с формулите, за да намерите линията на друга графика и да извършите просто изчисление и да получите резултатите за наклона и y-пресечната точка.

Това е всичко, просто а? ?

Всеки коментар и всички отзиви са добре дошли - ако е необходимо, ще поправя статията.

Чувствайте се свободни да се свържете с мен директно в LinkedIn - Щракнете тук.