Въведение в ROUGE и как да го използвате за оценка на обобщения

Въведение в ROUGE и как да го използвате за оценка на обобщения

ROUGE е съкращение от Recall-Oriented Understudy for Gisting Evaluation. По същество това е набор от показатели за оценка на автоматично обобщаване на текстове, както и машинни преводи.

Той работи чрез сравняване на автоматично създадено резюме или превод с набор от референтни резюмета (обикновено произведени от човека). Да кажем, че имаме следната система и справки:

Резюме на системата (какво е произвела машината):

the cat was found under the bed

Резюме (златен стандарт - обикновено от хора):

the cat was under the bed

Ако разгледаме само отделните думи, броят на припокриващите се думи между системното резюме и резюмето на справките е 6. Това обаче не ви казва много като метрика. За да получим добра количествена стойност, всъщност можем да изчислим точността и да извикаме с помощта на припокриването.

Най-просто казано, припомнянето (в контекста на ROUGE) се отнася до това колко от референтното резюмена резюмето система се възстановява или заснемане. Ако просто разглеждаме отделните думи, това може да се изчисли като:

В този пример изземването по този начин би било:

Това означава, че всички думи в референтното резюме са уловени от системното резюме , какъвто е случаят в този пример. Voila!

Това изглежда наистина добре за система за обобщаване на текст. Но това не ви казва другата страна на историята. Машинно генерирано резюме (системно резюме) може да бъде изключително дълго, като обхваща всички думи в референтното резюме. Но много от думите в системното резюме може да са безполезни, което прави резюмето излишно многословно.

Тук в играта влиза прецизността. По отношение на точността, това, което по същество измервате, е, колко от обобщението на системата всъщност е било уместно или необходимо ? Точността се измерва като:

В този пример точността по този начин би била:

Това просто означава, че 6 от 7-те думи в резюмето на системата всъщност са били подходящи или необходими. Ако имахме следното резюме на системата, за разлика от горния пример -

Резюме на системата 2:

the tiny little cat was found under the big funny bed

Прецизността сега става:

Сега това не изглежда толкова добре, нали? Това е така, защото имаме доста ненужни думи в резюмето. Най- прецизен аспект става наистина от решаващо значение, когато се опитвате да генерира справки, които са кратки по своя характер. Следователно, винаги е най-добре да се изчисли както точността, така и да се извика и след това да се докладва F-мярката .

Ако вашите обобщения по някакъв начин са принудени да бъдат кратки чрез някои ограничения, тогава бихте могли да обмислите използването само на изземването, тъй като точността е по-малко притеснителна в този сценарий.

ROUGE-N, ROUGE-S и ROUGE-L могат да се разглеждат като детайлност на текстовете, които се сравняват между системните резюмета и референтните резюмета.

  • Руж-N - мерки unigram , биграми , триграматаи припокриване на n-грам от по-висок ред
  • ROUGE-L - измерва най-дълго съвпадащата последователност от думи, използвайки LCS. Предимство на използването на LCS е, че не се изискват последователни съвпадения, а последователни съвпадения, които отразяват реда на думите на ниво изречение. Тъй като автоматично включва най-дългите последователни общи n-грама, не се нуждаете от предварително дефинирана n-грамова дължина.
  • ROUGE-S - Подредени ли са чифт думи в изречението, позволяващи произволни пропуски. Това може да се нарече и съвпадение на пропускане на грам. Например, skip-bigram измерва припокриването на двойки думи, които могат да имат максимум две празнини между думите. Като пример, за фразата „котка в шапката“ пропускащите биграми биха били „котка, котка, котешка шапка, в, в шапка, шапката“.

Например ROUGE-1 се отнася до припокриване на униграми между системното резюме и резюмето на справките. ROUGE-2 се отнася до припокриването на биграми между системата и референтните резюмета.

Да вземем примера отгоре. Нека кажем, че искаме да изчислим ROUGE-2 точността и да извикаме резултатите.

Резюме на системата:

the cat was found under the bed

Резюме:

the cat was under the bed

Резюме на системата Биграми:

the cat, cat was, was found, found under, under the, the bed

Резюме Резюме Биграми:

the cat, cat was, was under, under the, the bed

Въз основа на биграмите по-горе, изземването на ROUGE-2 е както следва:

По същество системното резюме е възстановило 4 биграма от 5 биграма от референтното резюме, което е доста добре! Сега точността на ROUGE-2 е както следва:

Точността тук ни казва, че от всички системни биграмни резюмета има 67% припокриване с референтното резюме. Това също не е лошо. Имайте предвид, че когато обобщенията (както системните, така и референтните резюмета) стават все по-дълги и по-дълги, ще има по-малко припокриващи се биграми. Това е особено вярно в случая на абстрактно обобщение, където не се използва повторно изреченията за обобщение.

Причината, поради която човек би използвал ROUGE-1 над или съвместно с ROUGE-2 (или други по-фини гранулирани ROUGE мерки), е също така да покаже плавността на резюметата или превода. Интуицията е, че ако следвате по-отблизо подреждането на думите в референтното резюме, вашето резюме всъщност е по-свободно.

За по-задълбочена информация относно тези показатели за оценка можете да се обърнете към статията на Лин. Коя мярка да използвате зависи от конкретната задача, която се опитвате да оцените. Ако работите по екстрактивно обобщение с доста подробна система и референтни резюмета, тогава може да има смисъл да използвате ROUGE-1 и ROUGE-L. За много кратки резюмета само ROUGE-1 може да е достатъчен, особено ако прилагате също така задържане и спиране на премахването на думи.

Документи за четене

  • ROUGE: Пакет за автоматична оценка на обобщения