На чиито рейтинги трябва да се доверите? IMDB, Rotten Tomatoes, Metacritic или Fandango?

Учен по данни разследва

Трябва ли да гледате филм? Е, има много фактори, които трябва да се вземат предвид, като режисьора, актьорите и бюджета на филма. Повечето от нас основават решението си на рецензия, кратък трейлър или просто като проверяват рейтинга на филма.

Има няколко добри причини, поради които бихте искали да избягвате да четете рецензии или да гледате трейлър, въпреки че те носят много повече информация, отколкото оценка.

Първо, може да искате да избягвате напълно спойлерите, независимо колко малки са. Аз разбирам, че!

Второ, може да искате да имате неповторимо преживяване при гледането на този филм. Това обикновено се отнася само за рецензии, които са поръсени с рамки, като „това е филм за сложността на Вселената“ или „този филм наистина не е за любов“. След като тези кадри бъдат кодирани във вашата краткосрочна памет, наистина е трудно да ги спрете да се намесват във вашето собствено филмово изживяване.

Друга добра причина е, че ако сте уморени или припряни, може да не искате да прочетете рецензия, камо ли да гледате 2-минутен трейлър.

Така че числовият рейтинг на филми изглежда е добро решение в немалко ситуации за доста хора.

Тази статия има за цел да препоръча един уебсайт за бързо получаване на точен рейтинг на филми и предлага стабилна, управлявана от данни аргументация за него.

Критерии за „най-добрият“

Даването на такава препоръка прилича много на това да се каже „това е най-доброто място за търсене на рейтинг на филм“, което е оценъчно твърдение, основаващо се на някои критерии, използвани за определяне кое е по-добро, кое е по-лошо или най-лошо и кое е най-добро , в такъв случай. За моя препоръка ще използвам един единствен критерий: нормално разпределение.

Най-доброто място за търсене на рейтинг на филм е да видите чии рейтинги се разпределят по модел, който прилича най-много или е идентичен с модела на нормално разпределение, който е следният: даден набор от стойности, лежащи в определен интервал , повечето от тях са в средата му, а малкото други в крайностите на този интервал. По принцип така изглежда нормалното (наричано още Гаусово) разпределение:

Каква е причината за този критерий? Е, от моя собствен опит, състоящ се от няколкостотин филма, мога да кажа, че съм гледал:

  • няколко изключителни, които съм гледал няколко пъти
  • двойка, която беше наистина ужасяваща и ме накара да съжалявам за времето, прекарано в гледането им
  • и цял куп средни, за повечето от които вече дори не мога да си спомня сюжета.

Вярвам, че повечето хора - независимо дали са критици, кинофили или просто обикновени киномани - са имали подобно преживяване.

Ако рейтингите на филми наистина изразяват качеството на филма, тогава трябва да видим един и същ модел и за двамата.

Като се има предвид, че повечето от нас оценяват по-голямата част от филмите като средно качествени, би трябвало да видим същия модел, когато анализираме рейтинги на филми. Подобна логика се отнася за лоши и добри филми.

Ако все още не сте убедени, че трябва да има такова съответствие между моделите, помислете за разпределението на рейтингите за един филм. Тъй като много хора оценяват филма, не е скок на вярата, ако предположим, че най-често ще има много от тях с подобни предпочитания. Обикновено те ще се съгласят, че филмът е или лош, среден или добър (по-късно ще определя количествено тези качествени стойности). Също така, ще има няколко други, които оценяват филма с една от другите две качествени стойности.

Ако визуализираме разпределението на всички оценки за отделен филм, най-вероятно ще видим, че един-единствен клъстер се формира в една от областите, съответстващи на нисък, среден или висок рейтинг.

Ако повечето филми се считат за средни, клъстерът около средната площ има най-голяма вероятност да се появи, а другите два клъстера имат по-малка (но все още значителна) вероятност. (Обърнете внимание, че всички тези вероятности могат да бъдат количествено определени по принцип, но това ще изисква много данни и би имало потенциала да превърне тази статия в книга.)

Най-малко вероятно би било еднакво разпределение, при което няма клъстери, а предпочитанията на хората са разделени почти по равно между трите качествени стойности.

Като се имат предвид тези вероятности, разпределението на рейтингите за достатъчно голяма извадка от филми трябва да бъде такова с тъп клъстер в средната площ, граничещ с ленти с намаляваща височина (честота), наподобяващи по този начин нормално разпространение.

Ако ви е трудно да разберете всичко това, помислете за тази илюстрация:

IMDB, Rotten Tomatoes, Fandango или Metacritic?

Сега, след като имаме критерий, с който да работим, нека се потопим в данните.

Има много уебсайтове, които създават свои собствени рейтинги за филми. Избрах само четири, главно въз основа на тяхната популярност, за да мога да получа рейтинги за филми с приемлив брой гласове. Щастливите победители са IMDB, Fandango, Rotten Tomatoes и Metacritic.

За последните две се фокусирах само върху емблематичните им типове рейтинг - а именно томатометърът и метарезултатът -главно защото те са по-видими за потребителя на всеки от уебсайтовете (което означава, че е по-бързо да ги намерите). Те се споделят и на другите два уебсайта (метарезултатът се споделя на IMDB, а томатометърът на Fandango). Освен тези емблематични оценки, двата уебсайта имат и по-слабо представен тип рейтинг, при който само потребители могат да допринесат.

Събрах рейтинги за някои от най-гласуваните и прегледани филми през 2016 и 2017 г. Изчистеният набор от данни има оценки за 214 филма и може да бъде изтеглен от това репозитори на Github.

Не съм събирал рейтинги за филми, пуснати преди 2016 г., просто защото е настъпила малка промяна в рейтинговата система на Fandango скоро след анализа на Walt Hickey, на който ще се позова по-късно в тази статия.

Наясно съм, че работата с малка извадка е рискована, но поне това се компенсира чрез получаване на най-новата моментна снимка на разпределенията на рейтингите.

Преди да начертая и интерпретирам разпределенията, нека да определя количествените качествени стойности, които използвах по-рано: в мащаб от 0 до 10 лош филм е някъде между 0 и 3, среден между 3 и 7 и добър между 7 и 10 .

Моля, обърнете внимание на разликата между качество и количество. За да бъде забележимо в следващото, ще посоча рейтингите (количеството) като ниски, средни или високи. Както и преди, качеството на филма се изразява като лошо, средно или добро. Ако се притеснявате, че „средният“ термин е еднакъв, не го правете, защото аз ще се погрижа да избегна всякакви неясноти.

Сега нека да разгледаме разпределенията:

С един поглед може да се забележи, че хистограмата на metascore (така се нарича този вид графика) най-много прилича на нормално разпределение. Той има дебел грозд в средната площ, съставен от пръти с неправилна височина, което прави върха нито тъп, нито остър.

Те обаче са по-многобройни и по-високи от решетките във всяка от другите две области, които намаляват във височина към крайности, малко или много постепенно. Всичко това ясно показва, че повечето метаскори имат средна стойност, което е почти това, което търсим.

В случая с IMDB, по-голямата част от разпределението също е в средната област, но има очевиден наклон към най-високите средни стойности. Областта с високи оценки изглежда подобна на тази, която се очаква да се види за нормално разпределение в тази част на хистограмата. Поразителната черта обаче е, че областта, представяща ниски рейтинги на филми, е напълно празна, което поражда голям въпросителен знак.

Първоначално хвърлих вината върху малката извадка, мислейки, че една по-голяма ще даде повече справедливост на IMDB. За щастие успях да намеря готов набор от данни на Kaggle, съдържащ IMDB оценки за 4917 различни филма. За моя голяма изненада разпределението изглеждаше така:

Формата на разпространението изглежда почти същата като тази за пробата с 214 филма, с изключение на областта с ниски рейтинги, която в този случай е слабо заселена с 46 филма (от 4917). По-голямата част от стойностите все още са в средната област, което прави IMDB рейтинга си струва да се обмисли допълнително за препоръка, въпреки че е очевидно трудно да се конкурира с метарезултата с този изкривяване.

Както и да е, това, което наистина е страхотно за този резултат, е, че той може да се използва като силен аргумент в подкрепа на тезата, че извадката от 214 филма е доста представителна за цялото население. С други думи, сега има по-голяма увереност, че резултатите от този анализ ще бъдат еднакви - или поне подобни - на резултатите, постигнати, ако бъдат анализирани абсолютно всички рейтинги на филми от четирите уебсайта.

С тази повишена увереност, нека преминем към изследване на разпределението на рейтингите на Fandango, което изглежда не се е променило много след анализа на Hickey. Изкривяването все още е видимо към по-високата част от спектъра за рейтинг на филми, където се намират повечето оценки. Областта за долната половина на средните оценки е напълно празна, точно като тази за ниски оценки. Лесно може да се заключи, че разпределението е доста далеч от това да отговаря на моя критерий. Следователно няма да го разглеждам допълнително за евентуална препоръка.

(Обещавам, че мъките от превъртането ще приключат скоро. Много по-лесно е да сравните дистрибуциите, ако са поставени една до друга, вместо да ги разпръснете по статията.)

И накрая, разпределението на томатометъра е неочаквано равномерно и би изглеждало още по-плоско при различна стратегия за свързване (стратегията за свързване се определя от общия брой ленти и техните диапазони; можете да играете с тези два параметъра, когато генерирате хистограма) .

Това разпределение не е лесно да се тълкува в контекста, тъй като томатометърът не е класически рейтинг, а по-скоро представлява процентът на критиците, които са дали положителна оценка на филм. Това го прави негоден за качествено-лошо-средно-добро качество, защото прави филмите или добри, или лоши. Както и да е, предполагам, че все пак трябва да се свежда до същото нормално разпространение, като повечето от филмите имат умерена разлика между броя на положителните отзиви и отрицателните (отразявайки много рейтинги от 30% - 70% положителни отзиви) и малко филми, които имат значително по-голяма разлика, по един или друг начин.

Предвид последното съображение и формата на разпределението, томатометърът не отговаря на моя критерий. Това би могло да бъде, че по-голяма извадка ще го направи по-правосъдие, но дори и така, ако аз трябваше да го препоръчвам, аз ще го направя с някои резерви, поради неясни положителен или отрицателен рейтинг системата.

На този етап от анализа бих могъл да кажа, че като разглеждам разпределенията, моята препоръка е metascore.

Изглежда обаче, че разпределението на IMDB също си струва да бъде разгледано, особено ако промените малко рейтинговите интервали за трите качествени категории (интервали, които аз определих повече или по-малко произволно). От тази гледна точка препоръчването на метабала, като се прави най-вече визуален преглед, очевидно не е достатъчно.

Така че, ще се опитам да разгранича между двете с помощта на количествен метод.

Идеята е да се използва променливата Fandango като отрицателна препратка и след това да се определи коя променлива от IMDB рейтинга и метарезултата е най-малко корелирана с нея (аз ги наричам тези променливи, тъй като те могат да приемат различни стойности - например метаоценката е променлива, тъй като приема различни стойности, в зависимост от филма).

Просто ще изчисля някои коефициенти на корелация и променливата с най-малката стойност ще бъде моята препоръка (тогава ще обясня как работят тези коефициенти на корелация). Но преди това, нека накратко обоснова избора на променливата Fandango като отрицателна препратка.

Потребителите на Fandango обичат филмите твърде много

Една от причините за този избор е, че разпространението на рейтингите на филмите на Фанданго е най-далеч от това на нормалното, тъй като има очевиден наклон към по-високата част от спектъра на филмовите рейтинги.

Другата причина е облакът на подозрението около Фанданго, оставен от анализа на Уолт Хики. На октомври 2015 г. той също беше озадачен от подобно разпространение и откри, че на уебсайта на Fandango числовите рейтинги винаги са били закръглени до следващата най-висока полузвезда, а не до най-близката (например среден рейтинг от 4.1 за филм са закръглени до 4,5 звезди, вместо до 4,0).

Екипът на Fandango коригира пристрастната рейтингова система и каза на Hickey, че логиката за оценка е по-скоро „софтуерен проблем“ на уебсайта им, сочейки към безпристрастна система в мобилното им приложение. (Повече за това в статията на Hickey.) Корекцията промени някои статистически параметри към по-добро, но недостатъчно, за да ме убеди да не работя с променливата Fandango като отрицателна препратка.

Ето как изглежда промяната:

Сега да увеличим мащаба на Fandango:

Между метарезултата и рейтинга на IMDB, кое е най-малко свързано с рейтинга на Fandango?

Най-малко корелиращият с рейтинга на Фанданго е метарезултатът. Той има стойност на r на Pearson от 0,38 по отношение на Fandango, докато IMDB рейтингът има стойност от 0,63.

Сега нека да обясня всичко това.

Тъй като две променливи се променят, като приемат различни стойности, те са свързани, ако има модел, съответстващ на двете промени. Измерването на корелация просто означава измерване на степента, до която има такъв модел.

Един от начините за извършване на тази мярка е да се изчисли r на Pearson. Ако стойността е +1.0, това означава, че има перфектна положителна корелация, а ако е -1.0, това означава, че има перфектна отрицателна корелация.

Степента на корелация на променливите намалява с приближаването на r на Пиърсън до 0, както от отрицателната, така и от положителната страна.

Нека да визуализираме по-добре това:

Сега, за да поставим абстракцията по-горе в контекст, ако сравним как се променят стойностите за два типа рейтинги - да кажем на Fandango и IMDB - можем да определим степента, в която има модел, съответстващ и на двете промени.

Като се имат предвид току-що споменатите коефициенти на корелация, има модел между Fandango и IMDB в по-голяма степен, отколкото при Fandango и метаоценката. И двата коефициента са положителни и като такива се казва, че корелацията е положителна, което означава, че тъй като рейтингите на Fandango се покачват, рейтингите на IMDB също се повишават, повече отколкото метабалите.

Казано по друг начин, за всеки даден рейтинг на филм на Fandango е по-вероятно метарезултатът да бъде по-различен от него от рейтинга на IMDB.

Присъдата: използвайте метарезултата на Metacritic

Като цяло препоръчвам да проверите метарезултата, когато търсите рейтинг на филм. Ето как работи и неговите недостатъци.

Накратко, метарезултатът е среднопретеглена стойност на много рецензии, идващи от известни критици. Екипът на Metacritic чете рецензиите и присвоява на всеки по 0–100 оценка, която след това получава тежест, главно въз основа на качеството и източника на рецензията. Можете да намерите повече за тяхната рейтингова система тук.

Сега просто искам да посоча няколко недостатъка на метарезултата:

  • Коефициентите на тежест са поверителни, така че няма да разберете до каква степен всеки отзив е отчетен в метарезултата.
  • Ще имате трудно време да намерите метаскори за по-малко известни филми, които се появиха преди 1999, годината на създаване на Metacritic
  • Някои скорошни филми, чийто основен език не е английски, дори не са включени в Metacritic. Например румънските филми Two Lottery Tickets (2016) и Eastern Business (2016) не са включени в Metacritic, докато са в IMDB, с рейтинги.

Малко повече думи

В обобщение, в тази статия направих една препоръка къде да търся рейтинг на филм. Препоръчах метарезултата въз основа на два аргумента: разпространението му прилича на най-нормалния и най-малко корелира с рейтинга на Фанданго.

Всички количествени и визуални елементи на статията са възпроизводими в Python, както е показано тук.

Благодаря за четенето! И щастливо кино!