Ще изгрее ли слънцето утре?

Лаплас, Байес и машинно обучение днес

Може да не е въпрос, за който много се тревожите. В края на краищата изглежда, че се случва всеки ден безотказно.

Но каква е вероятността слънцето да изгрее утре?

Вярвате или не, този въпрос е разгледан от един от великите велики математици Пиер-Симон Лаплас в пионерската си работа от 1814 г. Essai filozophique sur les probabilités“.

Основно, третирането на въпроса на Лаплас имаше за цел да илюстрира по-обща концепция. Не беше сериозен опит да се прецени дали слънцето всъщност ще изгрее.

В своето есе Лаплас описва рамка за вероятностни разсъждения, която днес ние разпознаваме като байесовска.

Байесов подход представлява ключов камък в много съвременни алгоритми за машинно обучение. Но изчислителната мощност, необходима за използването на тези методи, е налична едва от втората половина на 20-ти век.

(Засега изглежда, че съвременният ИИ мълчи по въпроса за утрешния изгрев.)

Идеите на Лаплас са актуални и днес, въпреки че са разработени преди повече от два века. Тази статия ще направи преглед на някои от тези идеи и ще покаже как те се използват в съвременните приложения, вероятно предвидени от съвременниците на Лаплас.

Пиер-Симон Лаплас

Роден в малката нормандска комуна на Бомон-ан-Ож през 1749 г., Пиер-Симон Лаплас първоначално е маркиран да стане богослов.

Въпреки това, докато учи в университета в Кан, той открива блестяща склонност към математиката. Той се прехвърля в Париж, където впечатлява великия математик и физик Жан льо Рон д’Аламбер.

На 24-годишна възраст Лаплас е избран за престижната Академия на науките.

Лаплас беше удивително плодовит учен и математик. Сред многото му приноси се открояват неговите трудове върху вероятността, движението на планетите и математическата физика. Той брои фигури като Антоан Лавоазие, Жан д’Аламбер, Симеон Поасон и дори Наполеон Бонапарт като свои сътрудници, съветници и студенти.

Лаплас „Essai filozophique sur les probabilités“се основава на лекция, изнесена през 1795 г. Тя предоставя общ преглед на идеите, съдържащи се в неговата работа „Théorie analytique des probabilités“, публикувана две години по-рано през 1812 г.

В „Essai filozophique“ Лаплас предоставя десет принципа на вероятността. Първите няколко обхващат основните дефиниции и как да се изчислят вероятностите, свързани с независими и зависими събития.

Принципи осем, девет и десет се отнасят до прилагането на вероятността към това, което днес бихме могли да опишем като анализ на разходите и ползите.

Шестото е важно обобщение на едноименната теорема на Томас Байес от 1763 година.

Той гласи, че за дадено събитие вероятността за всяка възможна причина се намира чрез умножаване на предишната вероятност за тази причина по част.

Тази част е вероятността за събитието, произтичащо от конкретната причина, разделена на вероятността събитието да се случи от която и да е причина.

Влиянието на тази теорема в машинното обучение не може да бъде надценено.

Седмият принцип е този, който предизвика най-много спорове от публикуването му. Действителната формулировка обаче е достатъчно безобидна.

По-скоро това е изборът на Лаплас да обсъди вероятността слънцето да изгрее на следващия ден като илюстративен пример, който на свой ред е направил подигравки и възражения през следващите два века.

Правилото за наследяване се използва и до днес под различни прикрития, а понякога и под формата, описана първоначално от Лаплас.

Всъщност правилото за наследяване представлява важна ранна стъпка от прилагането на байесовото мислене към системи, за които имаме много ограничени данни и малко или никакви предварителни познания. Това е отправна точка, с която често се сблъскваме в съвременните проблеми с машинното обучение.

Наследственото правило на Лаплас

Седмият принцип на вероятността, даден в „Essai filozophique“ на Лапласпо същество е ясна.

В него се посочва, че вероятността за възникване на дадено събитие се намира чрез сумиране на вероятността за всяка от неговите потенциални причини, умножена по вероятността тази причина да породи въпросното събитие.

След това Лаплас продължава да очертава пример, базиран на изтегляне на топки от урни. Дотук добре. Все още нищо спорно.

След това той описва как да процедираме с оценката на вероятността от събитие, настъпило в ситуации, в които имаме ограничени (или всъщност никакви) предварителни знания за това каква може да бъде тази вероятност.

„On trouve ainsi qu'un événement étant arrivé de suite un nombre quelconque de fois, la probabilité qu'il awavera encore la fois suivante est égale à ce nombre augmenté de l'unité, divisé par le même nombre augmenté de deux unités.“

Което се превежда на английски: „И така, човек намира за събитие, което се е случило неограничен брой пъти досега, вероятността то да се повтори следващия път е равно на това число, увеличено с един, разделено на същото число, увеличено с две“ .

Или в математическа нотация:

Това означава, че дадени и успеха от п проучвания, вероятността за успех на следващия процес е приблизително (S + 1) / (п + 2).

За да изтъкне своето мнение, Лаплас не се сдържа:

„… Par sample, remonter la plus ancienne époque de l'histoire à cinq mille ans, ou à 1,826,213 jours, et le soleil s'étant levé constamment dans cet intervalle, à chaque revolution de vingtquatre heures, il ya 1,826,214 à parier contre un qu'il se lèvera encore demain ”

Което се превежда като: „... например, като се има предвид, че слънцето изгрява всеки ден през последните 5000 години - или 1,826,213 дни - вероятността то да изгрее утре е 1,826,214 / 1,826,215“.

При 99,9% това е доста сигурен залог. И става все по-сигурно всеки ден, когато слънцето продължава да изгрява.

И все пак Лаплас признава, че за човек, който разбира механизма, по който слънцето изгрява и не вижда причина защо то да престане да функционира, дори тази вероятност е неоправдано ниска.

И се оказва, че тази квалификация е може би точно толкова важна, колкото и самото правило. В края на краищата той загатва факта, че нашите предварителни познания за дадена система са кодирани в предположенията, които правим, когато задаваме вероятности за всеки от потенциалните й резултати.

Това важи за машинното обучение днес, особено когато се опитваме да се учим от ограничени или непълни данни за обучение.

Но каква е причината за правилото за наследяване на Лаплас и как то живее в някои от най-популярните алгоритми за машинно обучение днес?

Нищо не е невъзможно?

За да разберем по-добре значението на правилото на Лаплас, трябва да помислим какво означава да имаме много малко предварителни познания за дадена система.

Да кажем, че имате една от урните на Лаплас, за която знаете, че съдържа поне една червена топка. Не знаете нищо друго за съдържанието на „системата“ на урната. Може би съдържа много различни цветове, може би съдържа само една червена топка.

Начертайте една топка от урната. Знаете, че вероятността тя да е червена е по-голяма от нула и или по-малка или равна на единица.

Но тъй като не знаете дали урната съдържа други цветове, не можете да кажете вероятността да нарисувате червено със сигурносте равно на едно. Просто не можете да изключите друга възможност.

И така, как оценявате вероятността да изтеглите червена топка от урната?

Е, според правилото за наследяване на Лаплас, можете да моделирате изготвянето на топка от урната като проба на Бернули с два възможни резултата: „червен“ и „не-червен“.

Преди да изтеглим нещо от урната, вече сме позволили да съществуват два потенциални резултата. По този начин ние ефективно „преброихме“ две въображаеми изтегляния от урната, наблюдавайки всеки резултат веднъж.

Това дава на всеки резултат („червен“ и „не-червен“) вероятност от 1/2.

Тъй като броят на изтеглянията от урната се увеличава, ефектът от тези псевдоброения става все по-малко важен. Ако първата изтеглена топка е червена, вие актуализирате вероятността следващата да е червена до (1 + 1) / (1 + 2) = 2/3.

Ако следващата топка е червена, вероятността се актуализира до 3/4. Ако продължавате да рисувате червено, вероятността достига все по-близо до 1.

На днешния език вероятността се отнася до примерно пространство. Това е математически набор от всички възможни резултати за даден „експеримент” (процес, който избира един от резултатите).

Вероятността е поставена на формална аксиоматична основа от Андрей Колмогоров през 30-те години. Аксиомите на Колмогоров улесняват доказването, че пробното пространство трябва да съдържа поне един елемент.

Колмогоров също определя вероятността като мярка, която връща реално стойностно число между нула и единица за всички елементи на извадковото пространство.

Естествено вероятността прави полезен начин за моделиране на системи от реалния свят, особено когато приемате пълни познания за съдържанието на пробното пространство.

Но когато не разбираме разглежданата система, не познаваме пробното пространство - освен това то трябва да съдържа поне един елемент. Това е често срещана отправна точка в много контексти на машинно обучение. Трябва да научим съдържанието на пробното пространство, докато вървим.

Следователно трябва да позволим на пробното пространство да съдържа поне един допълнителен елемент, който може да се прихваща - или, ако искате, „неизвестен неизвестен“. Правилото за приемственост на Лаплас ни казва да присвоим на „неизвестно неизвестно“ вероятност 1 / n + 2, след n повторни наблюдения на известни събития.

Въпреки че в много случаи е удобно да се игнорира възможността за неизвестни неизвестни, съществуват епистемологични основания, които винаги позволяват съществуването на такива случаи.

Един такъв аргумент е известен като Правилото на Кромуел, измислен от покойния Денис Линдли. Цитирайки Оливър Кромуел от 17-ти век:

„Моля ви, в недрата на Христос мислете, че е възможно да грешите“

Това доста драматично изявление ни моли да позволим отдалечена възможност да се случи неочакваното. На езика на байесовата вероятност това означава да изискваме винаги да разглеждаме ненулево преди.

Защото, ако предишната ви вероятност е нула, никакви доказателства никога няма да ви убедят в противното. В края на краищата дори най-силното доказателство за противното все пак ще даде задна вероятност от нула, когато се умножи по нула.

Възражения и защита на Лаплас

Може да е малко изненадващо да разберем, че примерът за изгрев на Лаплас е привлякъл много критики от неговите съвременници.

Хората възразиха срещу възприеманата простота - дори наивност - на предположенията на Лаплас. Идеята, че има вероятност 1 / 1,826,215 слънцето да не изгрее на следващия ден, изглеждаше абсурдна.

Изкушаващо е да повярваме, че при голям брой опити трябва да се случи ненулево вероятностно събитие. И следователно, наблюдението на толкова много последователни изгреви без нито един провал със сигурност означава, че оценката на Лаплас е надценена?

Например бихте могли да очаквате, че след милион изпитания бихте наблюдавали събитие един на милион - почти гарантирано по дефиниция! Каква е вероятността да направите друго?

Е, няма да се учудите, ако хвърлите справедлива монета два пъти без глави за кацане. Нито би било повод за безпокойство, ако хвърлите матрицата шест пъти и никога не видите числото шест. Това са събития с вероятност съответно 1/2 и 1/6, но това абсолютно не гарантира появата им в първите две и шест опити.

Резултат, приписван на Бернули през 17-ти век, намира границата като вероятност 1 / n и брой опити nрастат много големи:

Въпреки че средно ще наблюдавате поне една поява на събитие с вероятност 1 / n след n изпитания, все още има по-голям от 1/3 шанс да не го направите.

По същия начин, ако истинската вероятност слънцето да не успее да изгрее наистина е 1 / 1,826,215, тогава може би не би трябвало да сме толкова изненадани, че подобно събитие никога не е било регистрирано в историята.

И, може би, квалификацията на Лаплас е твърде щедра.

Вярно е, че за човек, който твърди, че разбира механизма, по който слънцето изгрява всеки ден, вероятността то да не го направи трябва да бъде много по-близо до нула.

И все пак, за да приемем разбирането на такъв механизъм, ние трябва да притежаваме предварителни познания за системата, извън това, което сме наблюдавали. Това е така, защото такъв механизъм имплицитно се приема за постоянен - ​​с други думи, верен за всички времена.

Това предположение ни позволява в известен смисъл да „измислим“ неограничен брой наблюдения - в допълнение към тези, които всъщност сме наблюдавали. Това е предположение, за което се призовава не друг, а Исак Нютон, в началото на третата книга в прочутата си „Philosophiae Naturalis Principia Mathematica“.

Нютон очертава четири „Правила за разсъждение във философията“. Четвъртото правило твърди, че можем да разглеждаме предположенията, получени от предишни наблюдения, като „почти почти верни“, докато не се противоречат на бъдещи наблюдения.

Подобно предположение е от решаващо значение за научната революция, въпреки че е ритник в зъбите за философи като Дейвид Хюм, който известен аргументира проблема с индукцията.

Този епистемологичен компромис ни позволява да правим полезна наука и от своя страна да изобретяваме технологии. Някъде по линията, тъй като виждаме, че прогнозната вероятност слънцето да не успее да изгрее, намалява все по-близо до нула, ние си позволяваме да „закръглим надолу“ и да твърдим пълноценна научна истина.

Но всичко това вероятно е извън обхвата на въпроса, който Лаплас първоначално е искал да направи.

Всъщност изборът му на пример за изгрев е жалко. Правилото за наследяване наистина се налага, когато се прилага към напълно непознати системи „черна кутия“, за които имаме нула (или много малко) наблюдения.

Това е така, защото правилото за наследяване предлага ранен пример за неинформативен приоритет.

Как да приемем възможно най-малко

Байесовата вероятност е ключова концепция в съвременното машинно обучение. Алгоритми като класификация на наивния Байес, максимизиране на очакванията, вариационно заключение и верига Марков Монте Карло са сред най-популярните в употреба днес.

Байесовата вероятност обикновено се отнася до интерпретация на вероятността, когато актуализирате своята (често субективна) вяра в светлината на нови доказателства.

Две ключови концепции са вероятности преди и след.

Задните вероятности са тези, на които се приписваме, след като актуализираме нашите убеждения пред нови доказателства.

Предишните вероятности (или „предишни“) са тези, които считаме за верни, преди да видим нови доказателства.

Изследователите на данни се интересуват от това как присвояваме предишни вероятности на събития при липса на каквито и да било предишни знания. Това е типична отправна точка за много проблеми в машинното обучение и прогнозния анализ.

Приорите могат да бъдат информативни, в смисъл, че идват с „мнения“ за вероятността от различни събития. Тези „мнения“ могат да бъдат силни или слаби и обикновено се основават на минали наблюдения или по друг начин разумни предположения. Те са безценни в ситуации, когато искаме бързо да обучим нашия модел за машинно обучение.

Приоритетите обаче могат да бъдат и неинформативни. Това означава, че те приемат възможно най-малко за съответните вероятности за събитие. Те са полезни в ситуации, когато искаме моделът ни за машинно обучение да се учи от празно състояние.

Затова трябва да попитаме: как измервате колко информативен е предходното разпределение на вероятността?

Теорията на информацията дава отговор. Това е клон на математиката, който се отнася до това как се измерва и комуникира информацията.

Информацията може да се разглежда от гледна точка на сигурност или липса на такава.

В крайна сметка във всекидневен смисъл, колкото повече информация имате за дадено събитие, толкова по-сигурни сте за резултата от него. По-малко информация се равнява на по-малка сигурност. Това означава, че теорията на информацията и теорията на вероятностите са неразривно свързани.

Информационната ентропия е основно понятие в теорията на информацията. Той служи като мярка за несигурността, присъща на дадено разпределение на вероятностите. Разпределението на вероятностите с висока ентропия е такова, при което резултатът е по-несигурен.

Може би интуитивно, можете да разсъждавате, че еднаквото разпределение на вероятностите - разпределение, за което всяко събитие е еднакво вероятно - има най-високата възможна ентропия. Например, ако обърнете честна и предубедена монета, за кой резултат бихте били най-малко сигурни?

Информационната ентропия предоставя формално средство за количествено определяне на това и ако знаете някакво изчисление, можете да проверите доказателството тук.

Така че еднаквото разпределение е, в много реален смисъл, възможно най-малко информативното разпределение. И поради тази причина прави очевиден избор за неинформативен приор.

Може би сте забелязали как правилото за наследяване на Лаплас ефективно се равнява на използването на униформен предшественик? Като добавяме един успех и един неуспех, преди дори да сме наблюдавали някакви резултати, ние използваме еднакво разпределение на вероятностите, за да представим нашата „предишна“ вяра за системата.

След това, докато наблюдаваме все повече резултати, тежестта на доказателствата все повече надделява над предшественика.

Казус: Наивна класификация на Байес

Днес правилото за наследяване на Лаплас е обобщено на адитивно изглаждане и псевдоброене.

Това са техники, които ни позволяват да използваме ненулеви вероятности за събития, които не се наблюдават в данните за обучение. Това е съществена част от начина, по който алгоритмите за машинно обучение могат да се обобщават, когато са изправени пред входове, които не са били виждани преди.

Например, вземете класификация на наивния Байес.

Това е прост, но ефективен алгоритъм, който може да класифицира текстови и други подходящо токенизирани данни, използвайки теоремата на Байес.

Алгоритъмът се обучава в корпус от предварително класифицирани данни, в който всеки документ се състои от набор от думи или „характеристики“. Алгоритъмът започва с оценка на вероятността за всяка характеристика, дадена за определен клас.

Използвайки теоремата на Байес (и някои много наивни предположения за независимостта на характеристиките), алгоритъмът може след това да приближи относителните вероятности за всеки клас, като се имат предвид характеристиките, наблюдавани в невидим досега документ.

Важна стъпка в класификацията на Naive Bayes е оценката на вероятността даден елемент да бъде наблюдаван в даден клас. Това може да се направи чрез изчисляване на честотата, с която характеристиката се наблюдава във всеки от записите на този клас в данните за обучение.

Например думата „Python“ може да се появи в 12% от всички документи, класифицирани като „програмиране“, в сравнение с 1% от всички документи, класифицирани като „стартиране“. Думата „научавам“ може да се появи в 10% от програмните документи и 20% от всички стартиращи документи.

Вземете изречението „научете Python“.

Използвайки тези честоти, намираме вероятността изречението да бъде класифицирано като „програмиране“ равна на 0,12 × 0,10 = 0,012, а вероятността то да бъде класифицирано като „стартиране“ е 0,01 × 0,20 = 0,002.

Следователно „програмирането“ е по-вероятно от тези два класа.

Но този честотно-базиран подход среща проблеми, когато разглеждаме характеристика, която никога не се среща в даден клас. Това би означавало, че има честота нула.

Класификацията на наивните Байес изисква да умножаваме вероятностите, но умножаването на каквото и да е по нула, разбира се, винаги ще доведе до нула.

И така, какво се случва, ако невидим досега документ съдържа дума, която никога не е била наблюдавана в даден клас в данните за обучение? Този клас ще се счита за невъзможен - без значение колко често всяка друга дума в документа се среща в този клас.

Изглаждане на добавки

Подходът, наречен адитивно изглаждане, предлага решение. Вместо да допускаме нулеви честоти, ние добавяме малка константа към числителя. Това предотвратява невиждани комбинации клас / функция да дерайлират класификатора.

Когато тази константа е равна на единица, адитивното изглаждане е същото като прилагането на правилото на Лаплас за приемственост.

Наред с класификацията на наивния Байес, изглаждането на адитивите се използва и в други вероятностни контексти на машинно обучение. Примерите включват проблеми в езиковото моделиране, невронни мрежи и скрити модели на Марков.

В математически аспект, изглаждането на адитивите представлява използване на бета разпределение като конюгат преди за извършване на байесов извод с биномни и геометрични разпределения.

Бета разпределението е семейство от вероятностни разпределения, дефинирани през интервала [0,1]. Отнема два параметъра на формата, αи β. Правилото за наследяване на Лаплас съответства на задаване на α= 1 и β = 1.

Както беше обсъдено по-горе, бета (1,1) разпределението е това, за което информационната ентропия е максимална. Съществуват обаче алтернативни приоритети за случаите, в които предположението за един успех и един неуспех не са валидни.

Например, предишният Haldane се определя като бета (0,0) разпределение. Прилага се в случаите, когато дори не сме сигурни дали можем да позволим двоичен резултат. Предишният Haldane поставя безкрайно количество „тежест“ върху нула и едно.

Приоритетът на Джефри, разпространението на бета (0,5, 0,5), е друг неинформативен приоритет. Притежава полезното свойство, че остава инвариантно при репараметризация. Извеждането му е извън обхвата на тази статия, но ако се интересувате, разгледайте тази тема.

Наследството на идеите

Лично за мен е очарователно как някои от най-ранните идеи за вероятност и статистика са преживели години на спорове и все още намират широко приложение в съвременното машинно обучение.

Изключително е да се осъзнае, че влиянието на идеите, разработени преди повече от два века, се усеща и до днес. Машинното обучение и науката за данните набраха истински инерция през последното десетилетие. Но основите, върху които са изградени, са положени много преди първите компютри да са били дори близо до реализацията.

Не случайно подобни идеи граничат с философията на знанието. Това става особено актуално, тъй като машините стават все по-интелигентни. В кой момент фокусът може да се измести върху нашата философия на съзнанието?

И накрая, какво биха направили Лаплас и съвременниците му от машинното обучение днес? Изкушаващо е да се предположи, че ще бъдат изумени от постигнатия напредък.

Но това вероятно би било лоша услуга за тяхната прозорливост. В края на краищата френският философ Рене Декарт е писал за механистична философия още през 17 век. Описване на хипотетична машина:

„Je désire que vous investiériez ... toutes les fonctions que j'ai attributees a cette machine, comme ... la reception de la lumière, des sons, des odeurs, des goûts ... l'empreinte de ces idées dans la mémoire ... et enfin les mouvements extérieurs ... qu'ils imitent le plus parfaitement possible ceux d'un vrai homme ... thinkériez que ces fonctions ... de la seule disposition de ses organes, ni plus ni moins que font les mouvements d'une horloge ... de celle de ses contrepoids et de ses roues ”

Което се превежда като: „Искам да помислите, че всички функции, които съм приписал на тази машина, като ... приемането на светлина, звук, мирис и вкус ... отпечатъкът на тези идеи в паметта ... и накрая външните движения, които имитирайте възможно най-перфектно тези на истински човек ... Помислете, че тези функции са под контрола на органите, не повече или по-малко, отколкото движенията на часовника са към неговите противотежести и колела ”

Горният пасаж описва хипотетична машина, способна да реагира на стимули и да се държи като „истински човек“. Публикувано е в работата на Декарт от 1664 г. „Traité de l'homme“- цели 150 години преди Лапласовата „Essai filozophique sur les probabilités“.

Всъщност през 18-ти и началото на 19-ти век се създават невероятно усъвършенствани автомати от изобретатели като Pierre Jaquet-Droz и Henri Maillardet. Тези часовникови андроиди могат да бъдат „програмирани“ да пишат, рисуват и пускат музика.

Така че няма съмнение, че Лаплас и неговите съвременници биха могли да разберат идеята за интелигентна машина. И със сигурност нямаше да избегне тяхното известие как напредъкът в областта на вероятността може да бъде приложен към машинния интелект.

Още в началото на „Essai filozophique“ Лаплас пише за хипотетичен суперинтелигент, наречен ретроспективно „Демонът на Лаплас“:

„Une разузнаване qui, излиш незабавно donn, connaî Portrait toutes les сили не е природата е анимация, и ситуацията съответно des êtres qui la composent, si d'ailleurs elle était assez vaste pour sou-mettre ces données à l'analyse ... rien ne serait incertain pour elle, et l'avenir comme le passé, serait présent à ses yeux ”

Което се превежда като: „Интелигентност, която в даден момент познава всички сили, чрез които природата се анимира, и съответната ситуация на съществата, които я съставят, и ако тя е достатъчно голяма, за да предостави тези данни на анализ ... нищо не би бъдете несигурни за него, а бъдещето като миналото ще присъства в неговите очи ”.

Може ли демонът на Лаплас да бъде реализиран като една от интелигентните машини на Декарт? Съвременната чувствителност в по-голямата си част предполага, че не.

И все пак предпоставката на Лаплас, предвидена в по-малък мащаб, може скоро да се превърне в реалност, благодарение не малко на собствената му новаторска работа в областта на вероятността.

Междувременно слънцето (вероятно) ще продължи да изгрява.