Avtomatik mətn xülasəsi – Lincoln, Avtomatik Xülasə – Məlumat Blogu

Məlumat, süni intellekt və layihələrimdə bir blog

Avtomatik xülasə uzun bir mətn və ya hətta mətn dəsti almaq və məlumatların əksəriyyətini özündə birləşdirən daha qısa bir mətn yaratmaqdır. Sadə ? O qədər də deyil. Birincisi, məlumatın həqiqətən vacib olduğunu qəbul etməlisiniz. Sonra, onları düzgün şəkildə çıxarmağı, hamısını qrammatik mətndə və insanın müdaxiləsi olmadan yenidən təşkil edə bilməliyik. Və bu, mümkün xülasələrin çox sayda olmasına baxmadan !

Avtomatik mətn xülasəsi

Toxuculuq yığılması və saxlama partlaması ilə bu kütlədən müvafiq məlumatları təhlil etmək və çıxarmaq ehtiyacı daha çox mövcuddur.

Bundan əlavə, avtomatik təbii dilin emalı (TALN) üçün dərin öyrənmə modellərində bum, əməliyyat məsələlərində mətn məlumatlarının istifadəsini asanlaşdırdı. Avtomatik mətn xülasəsi, cavab verən sual, oxşarlıq təhlili, sənədin təsnifatı və TALN ilə əlaqəli digər vəzifələrin təsnifatı bu məsələlərin bir hissəsidir.

Bu kontekstdədir Laboratoriya yeniliyi De Lincoln, avtomatik mətn xülasəsi üzərində iş aparmaq qərarına gəldi. Bu işlər, dil üçün mövcud olan avtomatik xülasə modellərinin bir benchmark qurmağı mümkün etdi Fransız dili, öz modelimizə səbəb olmaq və nəhayət istehsalata qoyulur.

�� Model təhsili

Dünya avtomatik xülasəsi

Məlumat

İşimizi başlamazdan əvvəl, əvvəlcə avtomatik xülasə modellərini öyrənmək üçün bir verilənlər bazası qurmalıyıq. Bir neçə Fransız xəbər saytından mətbuat elementlərini bərpa etdik. Bu bazada ~ 60k məqalə var və davamlı olaraq yenilənir.

Sənət vəziyyəti

Avtomatik xülasə alqoritmləri iki kateqoriyaya ayrıla bilər: xülasələr hasilat və xülasələr mücərrəd. Çərçivədə hasilat, Xülasələr, xülasələr zamanı mətndən çıxarılmış cümlələrdən qurulmuşdur mücərrəd yeni cümlələrdən yaranır.

Avtomatik xülasə modelləri ingilis dilində olduqca yaygındır, lakin onlar fransızca daha azdır.

Metrik

Modellərin qiymətləndirilməsi üçün aşağıdakı ölçülərdən istifadə etdik:

Qırmızı: Şübhəsiz ki, xülasə tapşırıqlarında ən çox məlumat verilən ölçüdə, Gisting qiymətləndirməsi üçün xatırlatma yönümlü, qiymətləndirilmiş xülasə və insan istinad xülasəsi arasında oxşar n-qramların sayını hesablayır.

Meteor: Tərcümənin dəqiq sifarişlə qiymətləndirilməsi üçün metrik (Banerjee və Lavie, 2005) avtomatik tərcümə nəticələrinin qiymətləndirilməsi üçün hazırlanmışdır. Harmonikanın harmonik ortalamasına əsaslanır və qeyri-şirkəti, dəqiqliyindən daha böyük bir ağırlığını artırır. Meteor tez-tez avtomatik xülasə nəşrlərində istifadə olunur (bax., 2017; Dong et al., 2019), qırmızıya əlavə olaraq.

Yenilik: Bəzi mücərrəd modellərin hasilat üzərində çox istirahət etdikləri barədə fərq edildi (bax.)., 2017; Krysci ‘Nski et al.’, 2018). Buna görə, yaradılan xülasələr çərçivəsində istehsal olunan yeni n-qramların faizini ölçmək adi hala gəldi.

Mənbə: Mlsum kağızından tərcümə [2].

Modellərin yerləşdirilməsi

Model təhsili üçün, modellərin təlim, monitorinqi və yerləşdirilməsi üçün tam bir mühit təmin edən bulud Azure ML xidmətindən istifadə etdik.

Avtomatik xülasə modeli

Bütün Azureml mühitini bir proqram tərzində, “iş yerlərinin” modellərinin yerləşdirilməsinə başlamasından bir proqramda idarə etməyə imkan verən Python SDK-ni daha dəqiq istifadə edirik.

Bununla birlikdə, son modelimizi bir KuberNetes çoxluqdakı CI / CD boru kəmərləri vasitəsilə yerləşdirildikdən sonra bir konteynerli bir qab tətbiqetməsindəyik

Nəticələr

Əvvəla, modelin (512 və ya 1024) və fərqli memarlıqların başlanğıcında verilən ayələr sayını 10k məqalə ilə dəyişən bir neçə cəhd etdik.

İlk müşahidə: Qırmızı və meteor ölçüləri modellərimizin performans qiymətləndirməsi üçün çox uyğun görünmür. Buna görə müqayisələrimizi yalnız yenilik hesabı ilə seçib seçdik memarlıq Daha çox mücərrəd xülasə üstünlük vermək.

Modelimizin 700K maddəsinə təhsili itələdikdən sonra nəticələrini əhəmiyyətli dərəcədə yaxşılaşdırdıq və aşağıda tapa biləcəyiniz ilk versiyanı təsdiq etdik.

Diqqət nöqtələri

Performansdan kənarda, bu təcrübə bizə biraz vurğulamağa imkan verdi sərhəd Avtomatik xülasə:

Hal-hazırda tip modellərin girişindəki mətnin ölçüsü Dəyişdirmək GPU-ların xatirəsinə imkan ilə məhdudlaşır. Mətnin ölçüsü ilə kvadrat olan yaddaşın qiyməti, bu, mətnin ümumiləşdiriləcəyi mətnin çox vaxt kifayət qədər uzun olduğuna görə avtomatik xülasənin vəzifələri üçün əsl problem yaradır.

Mətn yaratmaq tapşırıqlarını qiymətləndirmək üçün müvafiq ölçüləri tapmaq çox çətindir.

Ehtiyatlı ol ekstraktorun çəkisi : Özlərində olan məlumatlarla əlaqəli bir neçə problemlə də rast gəldik. Əsas problem, məqalənin məqaləsinin tez-tez bir parafraz və ya hətta məqalənin ilk cümlələrinin bir dublikatı olmasıdır. Bu, Məqalələrimizi sadəcə maddənin ilk cümlələrini geri qaytarmaqla abistraktivdən daha çox hasil etmək üçün təşviq etmək üçün nəticəsi var idi. Buna görə bu cür qərəzdən yayınmaq üçün problemləri pozan məqalələri silməklə bir müalicə işini etmək lazım idi.

Məlumat, süni intellekt və layihələrimdə bir blog.

Avtomatik xülasə uzun bir mətn və ya hətta mətn dəsti almaq və məlumatların əksəriyyətini özündə birləşdirən daha qısa bir mətn yaratmaqdır. Sadə ? O qədər də deyil. Birincisi, məlumatın həqiqətən vacib olduğunu qəbul etməlisiniz. Sonra, onları düzgün şəkildə çıxarmağı, hamısını qrammatik mətndə və insanın müdaxiləsi olmadan yenidən təşkil edə bilməliyik. Və bu, mümkün xülasələrin çox sayda olmasına baxmadan !

Təxminən bir il ərzində bu maraqlı mövzumda bir il ərzində işləməyi bacardım, bu yazı bu mövzuda özümü batırmaq və domendəki ən son yenilikləri almaq mənim üçün bir fürsətdir.

Beləliklə, iki növ sistemdə bir qədər ətraflı şəkildə, optimal hasilona yönəlmiş olanlar və əksinə olanlar olanlar, mövcud olan müxtəlif xülasələrin müxtəlif növlərini təsvir etməklə bu mövzuya baxaq. məlumat.

Müxtəlif xülasə növləri

Xülasə haqqında danışdığımızda, tez-tez bir kitabın arxa qapağını və ya bir film üçün skriptin təsvirini düşünürük. Ümumiyyətlə, bu, sonunu korlamaqdan çəkinirlər, bu, klassik avtomatik xülasə bir vasitə istədi: intriqaya danışmaq üçün, xülasənin əsasları bilmək üçün kifayət ola biləcəyi üçün. Burada bu Mono-sənəd xülasəsi, Yəni yalnız bir sənədi (bir film, bir kitab, bir məqalə, …) demək olduğunu söyləməkdir.

Əksinə, istəyə bilərik Çox sənədli xülasə, Mətbuat rəyləri kontekstində daha tez-tez tanış olduğumuz üçün: Müxtəlif mətbuat təşkilatlarının məlumat verdiyi kimi ən vacib məlumatların xülasəsi olmaq istəyirik.

Bir dəfə ümumiləşdirməyə, mono və ya çox sənədli, iki yanaşma arasında seçimimiz var: thehasilat, bir xülasə yaratmaq üçün geri qoymadan əvvəl məlumatların nə olduğu kimi çıxarışdan ibarətdir və yanaşma generativ, Daha çox maye və sərbəst xülasə etmək üçün əvvəlcə sənədlərdə görünməyən yeni cümlələr yaratmaqdan ibarətdir.

Bu meyarlara əlavə olaraq, burada yaxınlaşmayacağımız müxtəlif xülasələrin müxtəlif üslubları var: yeni bir sənəddə görünməyən və bu günə qədər sadalanan məlumatların ümumiləşdirilməsində olan, dəqiq bir açı qəbul edən ümumiləşdirilmiş xülasə İstifadəçi tərəfindən verilmişdir, ..

AI və neyron şəbəkələri avtomatik xülasəni inqilab edir

2010-cu illərin ortalarına qədər xülasələrin əksəriyyəti hasilat idi. Bununla birlikdə, bu alqoritmlərdə artıq mövcud olan bu alqoritmlərdə, bütün cümlələrin seçimi və hasilatından fərqlənən dəqiq məlumatların çıxarılması, sonra əvvəlcədən hazırlanan deliklər olan mətnlərdə şablonlar adlanır. Neural şəbəkələrinə əsaslanan yeni yanaşmaların gəlişi vəziyyəti xeyli dəyişdirdi. Bu alqoritmlər bu GPT demo ilə edilə biləcək kimi qrammatik və maye mətnini yaratmaq üçün əvvəlkilərdən daha təsirlidir.

Neyron şəbəkələri, yetişdirilməli və nisbətən təmizlənmələri üçün çox miqdarda məlumat tələb edir. Doğrulama az əhəmiyyət kəsb edən şərhlər yaratmaq üçün mükəmməl işləyirlər, lakin məsələn, mətbuat məqalələri xülasəsi kontekstində problemli olan ziddiyyətli və ya sadəcə səhv məlumatlar yarada bilərlər. Bir çox tədqiqat məqalələri bu “halüsinasiyalar” nın “halüsinasiyalar” ilə maraqlanır.

Hibrid bir vasitənin nümunəsi: Potara

Avtomatik xülasə mənim maraqlandığım ilk tədqiqat mövzusu idi və mənimsəmiş sənədlər toplusunu dərc etmək üçün hasilat / nəsil ilə hibrid xülasə sistemində bir hibrid icmal sistemi var idi eyni mövzunun.

Fikir klassik bir hasilatdan başlamaq idi, yəni ən vacib cümlələri müəyyənləşdirmək və xülasə yaratmaq üçün toplamaq idi. Bu yanaşma ilə bağlı problem ən vacib cümlələrin tez-tez daha da yaxşılaşdırılmasıdır. Məsələn, prezidentin yerdəyişməsindən danışan bir məqalədə “Emmanuel Macron, Amerikalı həmkarı ilə görüşdü və İqtisadiyyat” ifadəsi “Emmanuel Macron ilə tanış olundu və İqtisadiyyatı müzakirə edildi”. Jurnalistlər məşqlərdən çəkinirlər, bu cür fenomenlə tez-tez qarşı-qarşıya gəldik.

Bu qüsuru aradan qaldırmaq üçün müxtəlif sənədlərdə bu oxşar cümlələri müəyyənləşdirə bilərik və daha yaxşı bir cümlə əldə etmək üçün onları birləşdirməyə çalışırıq. ANSI, aşağıdakı iki cümlədən:

  • Emmanuel Macron, Vaşinqtondakı Amerika həmkarı onunla görüşdü və uzunluğu iqtisadiyyatdan danışdı.
  • Fransa prezidenti Joe Biden ilə görüşdü və iqtisadiyyatı müzakirə etdi.

Qısa və məlumatlı bir cümlə yarada bilərik:

  • Emmanuel Macron, Vaşinqtonda Joe Biden ilə görüşdü və İqtisadiyyatı müzakirə etdi.

Bu nəticəni əldə etmək üçün bir neçə addım lazımdır: oxşar cümlələri tapmaq, ən yaxşı füzyonu tapmaq, bu füzionun orijinal cümləndən daha yaxşı olduğunu yoxlamaq. Bir çox texnologiyaların bir hissəsini alırlar: oxşar cümlələri tapmaq üçün neyron şəbəkələri olan Word2, onları birləşdirmək üçün co-cccurence qrafikləri, ən yaxşı birləşmələri seçmək üçün optimallaşdırma.

Daha çox görmək istəyirsinizsə, Potara açıq mənbəyidir, lakin bir müddət saxlanılmayıb. Bu layihə, sərbəst buraxıldığımda vitrin kimi xidmət etdi və buna görə sənədləri, testlər, davamlı inteqrasiya, Pypi-də yerləşdirmə, ..

Yaxşı avtomatik xülasə nədir ?

Müəyyən meyarlar açıq və qiymətli görünsə (məsələn cümlələrin qrammatikliyi), digərləri daha mürəkkəbdirsə. Bir mətnin ən vacib məlumatının artıq özündə çox subyektiv bir vəzifə olduğunu qərar vermək. Trafikliyi, istifadə olunan sözlərin düzgün seçimini qiymətləndirin, dərc etmək üçün geri qayıdır və xülasənin götürə biləcəyi siyasi yönüm haqqında danışmayaq !

Neural şəbəkələrinə əsaslanan yeni generativ modellər, peorative mühakimələri və ya seçmələri (və ya istifadəçiyə), bir filmə tənqidçi yaratmaq üçün gəldikdə, lakin prezidentliyə namizəd proqramı haqqında danışarkən daha az bir şey təqdim etmək ehtimalı var !

Buna görə avtomatik xülasə tədqiqatda çox aktiv bir mövzu olaraq qalır və bir anlığa, xüsusən də alqoritmin nəticəsini müəyyən bir hissə, müəyyən bir üsluba, müəyyən bir üsluba, müəyyən bir üsluba, müəyyən bir üsluba yönəltmək imkanı ilə əlaqədar ola bilər. Sənayendə, o, sadəcə konkret idarəçilərə daxil olmağa başlayır (məsələn görüşlərin xülasəsi).

Prezident 2022: Məlumatlarınıza !

2022-ci il prezident seçkiləri üçün aparılan məlumat layihələrinin 3 nümunəsi.