Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Eesti keele automaatse sisukokkuvõtja hetkeseisust ja plaanidest

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Eesti keele automaatse sisukokkuvõtja hetkeseisust ja plaanidest"— Μεταγράφημα παρουσίασης:

1 Eesti keele automaatse sisukokkuvõtja hetkeseisust ja plaanidest
Kaili Müürisep Arvutilingvistika kevadkool Kääriku, 6. mai 2006

2 Mis on sisukokkuvõtja Programm, mis teeb olemasolevast tekstist lühema versiooni, esitades kasutajale ainult vajalikku infot. Sisukokkuvõtte põhieesmärk on esitada teksti peamised ideed väiksemas mahus.

3 Sisukokkuvõtete liigitus
Väljavõte - sisukokkuvõtte laused on originaaltekstist välja valitud Ülevaade - sisukokkuvõtte laused on automaatselt genereeritud Indikatiivne sisukokkuvõte peab andma arusaama, millest on dokumendis juttu, ilma detailidesse laskumata. Informatiivsed sisukokkuvõtted peavad edastama lühidalt kogu olulise informatsiooni. Üldised sisukokkuvõtted Temaatilised sisukokkuvõtted

4 Sisendi eripärad Valdkond Sisendi pikkus Meedia Žanr Sisendite arv
Keel

5 Kokkuvõtte pikkusest Tavaliselt 1%-30% Artiklite puhul 10%
Mitme dokumendi sisukokkuvõte on ettemääratud pikkusega Võib olla ette määratud füüsilise kontekstiga – üks ekraanitäis. Ühikuks võib olla lõik, lause, sõna, sümbol.

6 Keel Ühekeelne Mitmekeelne Keeltevaheline

7 Meetodid Pindmised Üksuse tasandil Diskursuse tasandil

8 Pindmised meetodid Sõnasagedused Asukoht Pealkirja sõnad Märgusõnad

9 Üksuse tasandil meetodid
Analüüsivad üksuste vahelisi seoseid: Sarnasus Kaugus Kohesioon ehk ühendatavus

10 Diskursuse tasandil meetodid
Analüüsivad kogu dokumendi struktuuri Formaat: peatükkide struktuur, hüperteksti märgendus Teemade lõimed Retooriline struktuur

11 EstSumist Genereerib väljavõtte
Väga pindmine meetod ja lihtne algoritm Perli-programm Eelkõige ajaleheartiklid (uudised)

12 Arhitektuur EstSum koosneb kolmest moodulist: HTML-konverter,
lausestaja, väljavõtete tegija.

13 HTML-konverter <font face="Verdana, Arial" size="3">
<b>Looduskaitsjad uinutasid küla hirmutanud karu </b></font> <font face="Verdana, Arial" size="2" color="#CC0000"></font> <!< img hspace=6 vspace=6 border="" src=" > <br><font face="Verdana, Arial" size="2"><table width=170 align="right"><tr><td><br><font size=1> Alles viies annus uimasteid ja lihaseid halvavat ainet sundis visalt ärkvel püsinud karu alla andma </td></tr></table> <B>Viljandimaa keskkonnateenistuse ja Nigula looduskaitseala töötajatel kulus neljapäeval tunde, et kinni püüda ja Pärnumaa metsasügavustesse viia karu, kes oli päev varem Marna küla elanikke hirmutanud.<P> </B><P> Marna küla Lohu talu peremees Vahur rääkis, et eelmisel õhtul küla piiranud karu liikus öö <div1 type='unknown'><head>Looduskaitsjad uinutasid küla hirmutanud karu</head> <p>Pildi allkiri: Alles viies annus uimasteid ja lihaseid halvavat ainet sundis visalt ärkvel püsinud karu alla andma</p> <p><hi rend='bold'>Viljandimaa keskkonnateenistuse ja Nigula looduskaitseala töötajatel kulus neljapäeval tunde, et kinni püüda ja Pärnumaa metsasügavustesse viia karu, kes oli päev varem Marna küla elanikke hirmutanud.</hi></p> <p>Marna küla Lohu talu peremees Vahur rääkis, et eelmisel õhtul küla piiranud karu liikus öö

14 Lausestaja <div1 type='unknown'><head><s>Looduskaitsjad uinutasid küla hirmutanud karu</s></head> <p> <s>Pildi allkiri: Alles viies annus uimasteid ja lihaseid halvavat ainet sundis visalt ärkvel püsinud karu alla andma</s> </p> <s><hi rend='bold'>Viljandimaa keskkonnateenistuse ja Nigula looduskaitseala töötajatel kulus neljapäeval tunde, et kinni püüda ja Pärnumaa metsasügavustesse viia karu, kes oli päev varem Marna küla elanikke hirmutanud.</hi></s> <s>Marna küla Lohu talu peremees Vahur rääkis, et eelmisel õhtul küla piiranud karu liikus öö läbi samas ringi ja loom leiti hommikul siitsamast metsast.</s>

15 Ekstraktor W(s)=αP(s)+βF(s)+γK(s) P(s) – positsiooniskoor
Teksti 1. lause Lõigu esimene lause Lõigu teine ja kolmas lause F(s) – formaadiskoor Rasvane ja kaldkiri Hüüu- ja küsimärgid Jutumärgid K(s) – Võtmesõnade skoor

16 Ekstraktor - näide <div1 type='unknown'><head><s>Looduskaitsjad uinutasid küla hirmutanud karu</s></head> Min score ################## <p> 2. p= f= w= s= <s><hi rend='bold'>Viljandimaa keskkonnateenistuse ja Nigula looduskaitseala töötajatel kulus neljapäeval tunde, et kinni püüda ja Pärnumaa metsasügavustesse viia karu, kes oli päev varem Marna küla elanikke hirmutanud.</hi></s> </p> 3. p= f= w= s= <s>Marna küla Lohu talu peremees Vahur rääkis, et eelmisel õhtul küla piiranud karu liikus öö läbi samas ringi ja loom leiti hommikul siitsamast metsast.</s> 4. p= f= w= s= <s>Hommikul üritati teda metsast välja ajada ja tehti tema pihta esimene uinutilask.</s>

17 Tulemused Kuidas hinnata sisukokkuvõtte headust? Mis teeb ühe sisukokkuvõtte heaks ja teise halvaks? Kahe inimese poolt koostatud väljavõtetes kattub ainult 70% lausetest EstSumi poolt valitud laused kattusid 60% ulatuses inimese poolt valitud lausetega. Parimal juhul oli samu lau­ seid 85% ja halvimal juhul ei kattunud ükski

18 Probleemid Liiga väike andmehulk nii õppimiseks kui hindamiseks
Lingvistilise mooduli puudumine Asesõnade lahendamine Sidususe probleemid

19 Värsked näited Põdrapere sattus merehätta
Loomariiki oleks tänavu tabanud justkui reisimispalavik. Lisaks Ruhnu purjetanud kuulsale karule avastas kohalik kalur paar nädalat tagasi Saaremaa ranniku lähedal jääpangal triivimas näljase põdrapere. Kui aga järgmisel päeval olid põdrad alles, otsustas mees asja paadiga lähemalt vaatama minna. «Kui ma paadi ja fotoaparaadiga põtrade juurde läksin, sain neist mõnekümne meetri kaugusele ja märkasin kohe, et loomad olid väga nõrgad ja uimased.» Ta tuli kiiresti kaldale tagasi, helistas kohalikele jahimeestele ning teatas, et põdrad on laiul jäävangis. «Vee sügavus oli veidi üle poole meetri, ilmselt põdrad ei julenud üle pehme jää minna, põdrapabulate järgi hinnates võisid nad mitu päeva jäävangis olla,» arvas Eldur Saarkoppel.

20 Veel Vana-Kreeka jumalad võivad naasta
Ateena kohus otsustas, et Vana-Kreeka jumalate nagu Zeus, Hera, Hermes ja ülejäänute kummardamise keeld tuleb tühistada, kirjutab The Guardian. Vanade jumalate poole kummardajad loodavad, et neil on varsti ametlikult õigus 12ne Olümpose mäel elava jumala poole kummardada. Kuid Kreeka ortodoksne kirik süüdistab paganlike jumalate poole kummardajaid aga ebajumalakummardamises ja mürgitavas new Age`i teguviisis.

21 Veel Kujundaja: AK uus kujundus on diletantlik
Kujundaja Kristjan Mändmaa leiab Eesti Päevalehe arvamusrubriigis, et 1. mail eetrisse paisatud Aktuaalse kaamera uus kujundus ja logo on diletantlikud. Tema hinnangul on uudistesaate logo tehtud ülejala ning jääb mulje nagu oleks logo looja, reklaamiagentuur Kontuur selle välja töötamise asemel lihtsalt «valmis visanud».

22 Viimane AK uus graafiline lahendus: diletantism riigitelevisioonis
1. mail eetrisse paisatud «Aktuaalse kaamera» uue kujunduse kohta võib pressiteatest lugeda: «Koostöös reklaamiagentuuriga Kontuur töötati välja ka uus AK logo.» ETV peareþissöör René Vilbre ütleb: »Lisaks uuele kujundusele muudame ka AK logo ehk graafilist ühendit AK. Iga logo peaks olema arusaadav, lihtne ja selgelt märgikeskne.» Märksõnana nimetatakse veel «uudiste kiirteed». Midagi on sassi läinud. Esiteks. Teiseks. Kontuur on üks Eesti vanemaid ja kogenumaid reklaamiagentuure, loendamatute õnnestunud logode looja. Kolmandaks. Hõre ja abitu Neljandaks. Lihtsuse ja minimalismi asemel võiks pigem rääkida hõredusest ja abitusest. Tehtust õhkub diletantismi ja põhjendamatust. Kasutatud kirjatüüp Bank Gothic pärineb aastast 1930, art deco kõrgajast.


Κατέβασμα ppt "Eesti keele automaatse sisukokkuvõtja hetkeseisust ja plaanidest"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google