Автоматично обобщение на текста – Линкълн, Въведение в автоматично обобщение – Блогът на данните
<h1>Блог за данни, изкуствен интелект и моите проекти</h1>
<blockquote>Автоматичното обобщение е да се вземе дълъг текст или дори набор от текстове и автоматично да генерира много по -кратък текст, който съдържа по -голямата част от информацията. Просто ? Не толкова много. Първо, трябва да се съгласите каква информация е наистина важна. След това трябва да можем да ги извлечем правилно, да ги реорганизираме, всичко това в граматичен текст и без човешка намеса. И това е без да се разчита на големия брой варианти на възможни резюмета !</blockquote>
<h2>Автоматично обобщение на текста</h2>
<p>С експлозията на събирането и съхранението на текстурата необходимостта от анализ и извличане на подходяща информация от тази маса е все повече и повече присъстваща.</p>
<p>В допълнение, бумът в моделите за дълбоко обучение за автоматична обработка на естествен език (TALN) улесни използването на текстови данни в оперативни проблеми. Автоматичното обобщение на текста, по същия начин като отговора на въпроса, анализът на сходството, класификацията на документа и други задачи, свързани с Taln, са част от тези проблеми.</p>
<p>Именно в този контекст <strong>Лабораторна иновация</strong> Де Линкълн е решил да извърши работа по резюмето на автоматичния текст. Тези произведения позволиха да се установи еталон на автоматичните обобщени модели, достъпни за езика <strong>Френски,</strong> За да причиним собствения си модел и накрая да го поставим в производство.</p>
<h2>�� Обучение на модела</h2>
<p><img src=”https://www.lincoln.fr/wp-content/uploads/2022/01/A234-209×300.png” alt=”Световното автоматично обобщение” width=”470″ height=”675″ /></p>
<h3>Данни</h3>
<p>Преди да успеем да започнем работата си, първо трябваше да изградим база данни за изучаване на автоматични обобщени модели. Възстановихме предмети от пресата от няколко френски сайта за новини. Тази база съдържа ~ 60K статии и непрекъснато се актуализира.</p>
<h3>Състояние на изкуството</h3>
<p>Автоматичните обобщени алгоритми могат да бъдат разделени на две категории: обобщения <strong>Екстрактивен</strong> и резюмета <strong>абстрактно</strong>. В рамката <strong>Екстрактивен</strong>, Обобщенията са изградени от изречения, извлечени от текста, докато обобщенията <strong>абстрактно</strong> се генерират от нови изречения.</p>
<p>Автоматичните обобщени модели са доста често срещани на английски, но те са много по -малко на френски.</p>
<h3>Метрика</h3>
<p>За оценка на моделите използвахме следните показатели:</p>
<p><strong>ЧЕРВЕН :</strong> Безспорно измерването, което най-често се съобщава в обобщени задачи, ориентираното към извикване недоумение за оценка на обединяването (Lin, 2004) изчислява броя на подобни N-грамове между оценяваното обобщение и референтната референция на човека.</p>
<p><strong>Метеор:</strong> <em>Показателя за оценка на превод с изрично подреждане</em> (Banerjee и Lavie, 2005) е проектиран за оценка на резултатите от автоматичния превод. Той се основава на хармоничната средна точност и оттегляне на униграмите, като оттеглянето има тежест, по -голямо от прецизността. Метеорът често се използва в автоматични обобщени публикации (виж и др., 2017; Dong et al., 2019), в допълнение към червено.</p>
<p><strong>Новост:</strong> Забелязано е, че някои абстрактни модели почиват твърде много на извличането (вж. Et al., 2017; Krysci ‘Nski et al.„, 2018). Следователно, стана обичайно да се измери процентът на новите n-грамове, произведени в рамките на генерираните обобщения.</p>
<p>Източник: Превод от MLSUM хартия [2].</p>
<h3>Разгръщането на моделите</h3>
<p>За обучение на модели използвахме услугата Cloud Azure ML, която осигурява пълна среда за обучение, мониторинг и внедряване на модели.</p>
<p><img src=”https://www.lincoln.fr/wp-content/uploads/2022/01/A32-300×169.png” alt=”Автоматичен обобщен модел” width=”859″ height=”484″ /></p>
<p>По -прецизно използвахме Python SDK, който ви позволява да управлявате цялата среда на Azureml по програмен начин, от старта на „работни места“ до внедряването на модели.</p>
<p>Въпреки това, ние капсулирахме окончателния си модел в контейнерно приложение на колбата, след което се разгърнахме чрез CI/CD тръбопроводи на клъстер Kubernetes</p>
<h3>Резултатите</h3>
<p>На първо място, направихме няколко опита, водейки моделите на 10K статии, променяйки броя на жетоните, дадени в началото на модела (512 или 1024) и различни архитектури.</p>
<p>Първо наблюдение: Показателите за червени и метеори не изглеждат много подходящи за оценка на ефективността на нашите модели. Следователно избрахме да основаваме сравненията си само на новостта и избрани <strong>Архитектура</strong> предпочитане на по -абстрактни резюмета.</p>
<p>След като натиснахме обучението на нашия модел на 700k артикули, ние значително подобрихме резултатите и потвърдихме първа версия, която ще намерите по -долу.</p>
<h3>Точки за внимание</h3>
<p>Отвъд представянето този експеримент ни позволи да подчертаем някои <strong>граници</strong> Автоматично обобщение:</p>
<p>Понастоящем размерът на текста във входовете на типа модели <em>Трансформация</em> е ограничен от капацитета в памет на графични процесори. Цената в паметта е квадратична с размера на текста като вход, това създава истински проблем за задачите на автоматично обобщение, когато текстът, който трябва да бъде обобщен, често е достатъчно дълъг.</p>
<p>Много е трудно да се намерят подходящи показатели за оценка на задачите за генериране на текст.</p>
<p>Бъди внимателен <strong>Теглото на екстрактора</strong> : Сблъскахме се и с няколко проблема, свързани с данните сами по себе си. Основният проблем е, че статията на статията често е била перифраза или дори дубликат на първите изречения на статията. Това имаше следствие от насърчаването на нашите модели да бъдат по -екстрактивни, отколкото абстрактивни, като просто върнат първите изречения на статията. Ето защо беше необходимо да се извърши работа на курацията, като изтриете статиите, поставящи проблем, за да се избегне този вид пристрастия.</p>
<h2>Блог за данни, изкуствен интелект и моите проекти.</h2>
<p>Автоматичното обобщение е да се вземе дълъг текст или дори набор от текстове и автоматично да генерира много по -кратък текст, който съдържа по -голямата част от информацията. Просто ? Не толкова много. Първо, трябва да се съгласите каква информация е наистина важна. След това трябва да можем да ги извлечем правилно, да ги реорганизираме, всичко това в граматичен текст и без човешка намеса. И това е без да се разчита на големия брой варианти на възможни резюмета !</p>
<p>Успях да работя около година по тази вълнуваща тема точно преди докторат, този пост е възможност за мен да се потопя в тази тема и да направя равносметка на най -новите иновации в домейна.</p>
<p>Така че нека да направим преглед на тази тема, като създадем, като описваме различните видове обобщения, които съществуват, преди да се настанят леко в два типа системи: тези от AI и невронни мрежи и тези, които са по -скоро фокусирани върху оптималното извличане на информация.</p>
<h2>Различните видове обобщени</h2>
<p>Когато говорим за резюме, често мислим за задната корица на книга или описанието на сценария за филм. Като цяло те избягват да развалят края, когато това е точно това, което човек би поискал инструмент за класическо автоматично обобщение: да каже на интригата, така че обобщението да е достатъчно, за да знае основното нещо. Ето го за <strong>Резюмета на моно-документа</strong>, Тоест, че обобщаваме само един документ (филм, книга, статия, …).</p>
<p>Напротив, бихме могли да искаме a <strong>Многодокументално обобщение</strong>, Че се срещаме по -често в контекста на прегледите на пресата: искаме да имаме обобщение на най -важната информация, както се съобщава от различни пресни организации.</p>
<p>След като решихме за типа данни, които се стремим да обобщим, моно или многодокументално, имаме избор между два подхода: The<strong>Екстрактивен</strong>, която се състои в извличане като каква е информацията, преди да я върнете, за да създадете обобщение и подхода <strong>генеративен</strong>, която се състои в създаването на нови изречения, които първоначално не се появяват в документите, за да имат по -течно и по -свободно обобщение.</p>
<p>В допълнение към тези критерии има различни стилове на обобщения, които няма да подходим тук: актуализиране на резюмета, които се състоят в обобщаването на информацията, появяваща се в нов документ и която не е посочена досега, обобщена насочена, която се състои в приемането на точен ъгъл Дадено от потребителя, ..</p>
<h2>AI и невронни мрежи революционизират автоматичното обобщение</h2>
<p>До средата на -2010 -те години повечето от резюмета бяха екстрактивни. Въпреки това, голямо разнообразие вече съществува в тези алгоритми, които биха могли да варират от подбора и извличането на цели изречения до извличането на точна информация, решена тогава в текстове с дупки, приготвени предварително, наречени шаблони. Пристигането на нови подходи, базирани на невронни мрежи, значително промени ситуацията. Тези алгоритми са много по -ефективни от предишните, за да генерират граматичен и течен текст, като това, което може да се направи с тази демонстрация на GPT.</p>
<p>Невронните мрежи обаче изискват големи количества данни, които да бъдат обучени и са сравнително некотирани. Те работят перфектно за генериране на коментари, за които истинността е от малко значение, но силно може да генерира противоречива или просто неправилна информация, която е проблематична в контекста на резюмета на статиите в печата, например. Много изследователски статии се интересуват от тези „халюцинации“ на невронните мрежи.</p>
<h2>Пример за хибриден инструмент: Potara</h2>
<p>Автоматичното обобщение беше първият изследователски предмет, в който се интересувах, и имах възможността да разработя по време на моя господар хибридна система на обобщение чрез извличане/поколение за подход на много документи, тоест обобщават набор от документи, които говорят на същия предмет.</p>
<p>Идеята беше да се започне от класическо извличане, а именно да се идентифицират най -важните изречения и да ги сглобите, за да генерират обобщение. Проблемът с този подход е, че най -важните изречения често могат да бъдат подобрени допълнително. Например, в статия, която говори за президентско разселване, фразата “Еманюел Макрон се срещна с американския си колега и обсъжда икономиката”, може да бъде подобрена в „Еманюел Макрон се срещна с Джо Байдън и обсъди икономиката“. Журналистите, внимателно избягвайки репетициите, ние често се сблъскваме с този вид явление.</p>
<p>За да преодолеем този дефект, можем да идентифицираме подобни изречения, присъстващи в различни документи, и да се опитаме да ги обединим, за да получим по -добро изречение. ANSI, от следните две изречения:</p>
<ul>
<li>Еманюел Макрон се срещна с американския си колега във Вашингтон и говори за икономиката дълго.</li>
<li>Френският президент се срещна с Джо Байдън и обсъди икономиката.</li>
</ul>
<p>Можем да създадем кратко и информативно изречение:</p>
<ul>
<li>Еманюел Макрон се срещна с Джо Байдън във Вашингтон и обсъди икономиката.</li>
</ul>
<p>Необходими са няколко стъпки за постигане на този резултат: Намиране на подобни изречения, намиране на най -доброто сливане, проверка на това, че сливането е много по -добро от оригинално изречение. Те участват в много технологии: Word2 с невронни мрежи, за да намерят подобни изречения, графики за съвместна култура, за да ги обединят, ILP оптимизация, за да изберете най-добрите сливания.</p>
<p>Ако искате да видите повече, Potara е с отворен код, но не се поддържа от известно време. Този проект беше по -специално като витрина, когато бях освободен и затова имах документация, тестове, непрекъсната интеграция, внедряване на PYPI, ..</p>
<h2>Какво е добро автоматично обобщение ?</h2>
<p>Ако определени критерии изглеждат очевидни и сравнително лесни за оценка (граматичността на изреченията например), други са много по -сложни. Решението на това, което най -важната информация на даден текст вече е много субективна задача сама по себе си. Оценете плавността, правилният избор на използваните думи, се връща към публикуването на работа и нека не говорим за политическата ориентация, която обобщението може да вземе !</p>
<p>Новите генеративни модели, базирани на невронни мрежи, вероятно ще въведат пейоративни преценки или квалификатори (или приятелски настроен на потребителите), ефект, който се търси, когато става въпрос за генериране на филмов критик, но много по -малко, когато говорим за програма на кандидат за президент !</p>
<p>Следователно автоматичното обобщение остава много активен предмет в изследванията и може да бъде за момент, особено по отношение на способността да се ръководи резултатът от алгоритъма, точно към определено чувство, специфичен стил, политическо оцветяване, дадено дадено. В бранша той просто започва да влиза в много специфични ръководители (обобщение на срещите например).</p>
<p> <img src=”https://ledatablog.com/images/thumbs/catme.jpg” /></p>
<h3>Президент 2022: Към вашите данни !</h3>
<p>3 примера за проекти за данни, които ще се извършват за президентските избори през 2022 г.</p>