Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Μάθημα 3ο Επεξεργασία Κειμένου και Δεικτοδότηση
Advertisements

Indexing.
Ανάκτηση Πληροφορίας Φροντιστήριο 1 Οκτώβριος 2013.
Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ ΘΕΜΑ:«ΣΥΣΤΗΜΑ ΗΜΙ-ΑΥΤΟΜΑΤΗΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ.
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
ΚΕΙΜΕΝΟ  Ο πρώτος τρόπος απεικόνισης πληροφορίας (και βασικός ως σήμερα).  Αδυναμία πρώτων υπολογιστών να χειριστούν άλλη μορφή πληροφορίας.  Πρόβλημα.
Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές
-Στοίβα-Ουρά - Πλεονεκτήματα πινάκων -Δομές δεδομένων δευτερεύουσας μνήμης -Πληροφορική και δεδομένα -Παραδείγματα-Προβλήματα ψευδοκώδικα.
Αλφαριθμητικά.
Ειδικά & Υβριδικά Εργαλεία Αναζήτησης. Εισαγωγή  Υπάρχει μια πλειάδα από ειδικά και υβριδικά εργαλεία αναζήτησης που αξίζουν ιδιαίτερης αναφοράς.  Αυτά.
Support.ebsco.com Εισαγωγή στο EBSCOhost Εκπαιδευτικό μάθημα.
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Ο Αντεστραμμένος Κατάλογος
Okapi Formula (BM25) Γιαννάκης Παναγιώτης (Α.Μ. 181)
Εισαγωγή στη Βιοπληροφορική
Δεικτοδότηση και Αναζήτηση (Indexing & Searching)
Ανάκτηση Πληροφορίας Το Boolean μοντέλο.
Ανάκτηση Πληροφορίας Το Διανυσματικό μοντέλο.
Μηχανική Μάθηση και Εξόρυξη Γνώσης
Εργασία Η υλοποίηση του αλγορίθμου συγχώνευσης θα πρέπει να χρησιμοποιεί την ιδέα των ροών (streams). Θα πρέπει να υπάρχουν δύο διαφορετικά είδη.
ΘΠ06 - Μεταγλωττιστές Πίνακας Συμβόλων. Πίνακας Συμβόλων (Symbol Table) (Ι)  Είναι μια δομή στην οποία αποθηκεύονται τα ονόματα ενός προγράμματος και.
Ανάκτηση Πληροφορίας Φροντιστήριο 1 Πλέγας Γιάννης Οκτώβριος 2009.
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Διαχείριση μνήμης Υπόβαθρο Εναλλαγή Συνεχής κατανομή Σελιδοποίηση
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
Ανάπτυξη και εκπαίδευση ιεραρχίας ταξινομητών για την κατηγοριοποίηση κειμένων Αβραμίδη Γεωργία 719.
Μεταβλητές – εντολές εκχώρησης- δομή ακολουθίας
ΤΗΣ ΦΟΙΤΗΤΡΙΑΣ : ΤΣΑΛΤΑ ΑΝΑΣΤΑΣΙΑ Α.Μ. : 30920
Γλωσσική Τεχνολογία Μάθημα 5 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ «ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ» ΜΕ ΘΕΜΑ: A Comparison of Methodic Segmentation Techniques for.
Ενότητα Α.4. Δομημένος Προγραμματισμός
Δομές Δεδομένων. Επιλογή δομής δεδομένων Κριτήρια: – Μέγεθος του προβλήματος – Πως θα χρησιμοποιηθεί Ενέργειες που καθορίζουν το κόστος: – Lookup: αναζήτηση/έλεγχος.
Επικοινωνία Ανθρώπου Μηχανής HTML CGI JAVASCRIPT Κουμπούλης Χρήστος Α.Μ. 921 Χαλαβαζής Βασίλης Α.Μ. 988.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
ΕΡΩΤΗΜΑΤΑ ΕΠΙΛΟΓΗΣ 2 ΜΑΘΗΜΑ 8. ΑΠΑΛΟΙΦΗ ΔΙΠΛΟΕΓΓΡΑΦΩΝ DISTINCT Μπορούμε να απαλείψουμε τις διπλοεγγραφές που μας επιστρέφονται και που οφείλονται στην.
Κλασσικά Μοντέλα Ανάκτησης Πληροφορίας Βασική πηγη το βιβλίο και οι διαφάνειες R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley,
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Κατακερματισμός – Hashing (1 ο Μέρος)
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
Επέκταση Ερωτημάτων Βάσει Σωμάτων Κειμένου σε Ανοιχτούς Καταλόγους Ελεύθερης Πρόσβασης βασισμένο στο άρθρο των Jeffry Komarjaya, Danny C.C. Poo, and Min-Yen.
Γλωσσική Τεχνολογία Μάθημα 8 ο Γλώσσα και Ανάκτηση Πληροφορίας Σοφία Στάμου Άκ.Έτος
ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ Διδάσκοντες:Στάθης Ζάχος Νίκος Παπασπύρου
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων.
Επιστημονικός Υπολογισμός Ι Πρώτο Εργαστήριο Εισαγωγή στο matlab 15 Οκτωβρίου 2010 Γιώργος Δρακόπουλος ΤΜΗΥΠ.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Επεξεργασία Ερωτήσεων.
Τεχνολογία ΛογισμικούSlide 1 Εξειδίκευση Βασισμένη σε Μοντέλο u Τυπική εξειδίκευση λογισμικού με ανάπτυξη μαθηματικού μοντέλου για το σύστημα.
Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 1 Βάσεις Διαδικτύου.
Βασικά στοιχεία της Java
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Συνδετικότητα γραφήματος (graph connectivity). α β Υπάρχει μονοπάτι μεταξύ α και β; Παραδείγματα: υπολογιστές ενός δικτύου ιστοσελίδες ισοδύναμες μεταβλητές.
Γλώσσες Προγραμματισμού Μεταγλωττιστές Πίνακας Συμβόλων Πανεπιστήμιο Μακεδονίας Τμήμα Εφαρμοσμένης Πληροφορικής Ηλίας Σακελλαρίου.
Δομές δεδομένων και Αλγόριθμοι Κεφάλαιο 3. Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον Δεδομένα Δεδομένα (data) Δεδομένα (data) –αφαιρετική αναπαράσταση.
 Στόχος της παρουσίασης αυτής είναι η εξοικείωση με τον Ηλεκτρονικό Κατάλογο της Βιβλιοθήκης προκειμένου να αναζητήσουμε ένα τεκμήριο από τη συλλογή.
Γλωσσική τεχνολογία και ψηφιακή επιμέλεια Ίων Ανδρουτσόπουλος Τμήμα Πληροφορικής, Οικονομικό Πανεπιστήμιο Αθηνών και Μονάδα Ψηφιακής Επιμέλειας, Ερευνητικό.
Βάσεις Δεδομένων και Παγκόσμιος Ιστός IR και Μηχανές αναζήτησης.
ΜΥΕ003: Ανάκτηση Πληροφορίας
Ευρετήρια Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Ενότητα 6 : Δομές αρχείων Δρ. Γκόγκος Χρήστος
Δυναμικός Κατακερματισμός
ΑΛΓΟΡΙΘΜΟΣ ΠΡΟΒΛΗΜΑ ΑΛΓΟΡΙΘΜΟΣ ΛΥΣΗ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας
Αρχεσ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Η/Υ ΤΑξη Β΄
Μανασσάκης Βασίλης Καθηγητής Πληροφορικής
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΑΕΠΠ
Β.ΕΠΑΛ-Γενικής Παιδείας  ΜΑΘΗΜΑ: Εισαγωγή στης αρχές Επιστήμης των Η/Υ  ΚΕΦΑΛΑΙΟ 4: Γλώσσες Αναπαράστασης Αλγορίθμων  ΕΝΟΤΗΤΑ 4.2: Δομή Ακολουθίας 
Διαχείριση πληροφοριών και επικοινωνίες
Μάθημα 9ο Επεξεργασία Κειμένου
Εξωτερική Αναζήτηση Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη
Μεταγράφημα παρουσίασης:

Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση Γλωσσική Τεχνολογία Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10

Βασικά Θέματα Δεικτοδότηση Λεξιλογική επεξεργασία Πιθανοτικό μοντέλο ανάκτησης πληροφορίας Κατηγοριοποίηση κειμένων Εξαγωγή πληροφορίας από κείμενο Σημασιολογική ανάλυση 24/11/2018 Γλωσσική Τεχνολογία

Δεικτοδότηση Ανεστραμμένο ευρετήριο Αποτελεσματικό για μεγάλες συλλογές κειμένων Συσχετίζει λέξεις με τις εμφανίσεις τους μέσα στη συλλογή Όροι  Λέξεις: όροι ή εκφράσεις Λεξιξόγιο V Το σύνολο των όρων που μας ενδιαφέρουν 24/11/2018 Γλωσσική Τεχνολογία

Ανεστραμμένο Ευρετήριο Το απλούστερο ευρετήριο Ένα λεξικό Κάθε κλειδί είναι ένας όρος   V Η τιμή που συσχετίζεται με αυτό b() δείχνει σε ένα bucket (posting list) Το bucket είναι μια λίστα από δείκτες που σημειώνουν όλες τις εμφανίσεις του  στη συλλογή κειμένων 24/11/2018 Γλωσσική Τεχνολογία

Ανεστραμμένο Ευρετήριο Bucket entries: Το αναγνωριστικό κειμένου (docID) Αριθμός του κειμένου στη συλλογή Ξεχωριστή καταχώριση για κάθε εμφάνιση του όρου docID offset (υπό τη μορφή χαρακτήρων) της εμφάνισης του όρου στο συγκεκριμένο κείμενο Δίνει στο χρήστη ένα σύντομο περιεχομένο του κειμένου Επιτρέπει ερωτήματα εγγύτητας 24/11/2018 Γλωσσική Τεχνολογία

Ανεστραμμένο Ευρετήριο 24/11/2018 Γλωσσική Τεχνολογία

Δημιουργία Ανεστραμμένου Ευρετηρίου Επεξεργασία κειμένων Εξαγωγή όρων i Αν i δεν υπάρχει στο ευρετήριο προσθήκη i στο ανεστραμμένο ευρετήριο Εισαγωγή της εμφάνισης του όρου στο bucket 24/11/2018 Γλωσσική Τεχνολογία

Αναζήτηση σε Ανεστραμμένο Ευρετήριο Για να βρούμε τον όρο  σε μια δεικτοδοτημένη συλλογή κειμένων Ανακτούμε την τιμή του όρου b() από το ανεστραμμένο ευρετήριο Ελέγχουμε το bucket για να ανακτήσουμε τη λίστα με τις εμφανίσεις του όρου Για να βρούμε k όρους Παίρνουμε k λίστες με τις εμφανίσεις όρων Συνδυάζουμε τις λίστες με ένα βασικό σύνολο τελεστών 24/11/2018 Γλωσσική Τεχνολογία

Δημιουργία Ανεστραμμένου Ευρετηρίου Μέγεθος = (|V|) Υλoποιημένο με χρήση hash table Τα Buckets αποθηκεύονται στη μνήμη Κατασκευή με απλούς αλγορίθμους Τα Buckets αποθηκεύονται στο δίσκο Μη-πρακτικό δεδομένου του χρόνου προσπέλασης του δίσκου Χρήση ειδικευμένων αλγορίθμων βοηθητικής μνήμης 24/11/2018 Γλωσσική Τεχνολογία

Συμπίεση Buckets Ταξινόμηση των εμφανίσεων κάθε όρου βάσει docID Αποθήκευση ως λίστα κενών – η ακολουθία των διαφορών μεταξύ διαδοχικών docID s Πλεονέκτημα – εξοικονόμηση μνήμης Όροι με μεγάλη συχνότητα παράγουν πολλά μικρά κενά Μικροί ακέραιοι κωδικοποιούνται ως λέξεις-κωδικοί με μικρού μήκους μεταβλητές Παράδειγμα: Η ακολουθία docIDs: (14, 22, 38, 42, 66, 122, 131, 226 ) Μια ακολουθία κενών: (14, 8, 16, 4, 24, 56, 9, 95) 24/11/2018 Γλωσσική Τεχνολογία

Λεξιλογική Επεξεργασία Προηγείται της δεικτοδότησης ή της μετατροπής των κειμένων σε διανυσματικές αναπαραστάσεις Tokenization Εξαγωγή των όρων του κειμένων Συγχώνευση όρων – μείωση του λεξιλογίου Αποκατάληξη Αναγωγή των όρων στη ρίζα θέματος Απαλοιφή τερματικών όρων Κοινοί όροι άνευ σημασιολογικού περιεχομένου 20-30% μείωση του μεγέθους του ευρετηρίου 24/11/2018 Γλωσσική Τεχνολογία

Tokenization Εξαγωγή των όρων του κειμένου Παράδειγμα Απομάκρυνση μεταδεδομένων δομικών στοιχείων Παράδειγμα Απομάκρυνση HTML tags Απομάκρυνση σημείων στίξης & ειδικών συμβόλων Αναδίπλωση πεζών –κεφαλαίων (π.χ. όλα πεζά) 24/11/2018 Γλωσσική Τεχνολογία

Αποκατάληξη Συγχώνευση κλιτικών τύπων σε έναν όρο δεικτοδότησης Π.χ. ένα κείμενο με τους όρους fish και fisher μπορεί να ανακτηθεί από το ερώτημα fishing (χωρίς το fishing να περιέχεται στο κείμενο) Αποκατάληξη – συγχώνευση λέξεων στον τύπο ρίζας π.χ. fish – ο όρος δεικτοδότησης Αλγόριθμος αποκατάληξης Porter (1980) Στηρίζεται σε προϋπάρχουσα λίστα καταλήξεων και σε ένα σύνολο κανόνων Π.χ. Αν suffix=IZATION και το prefix περιέχει τουλάχιστον έναν φωνήεν ακολουθούμενο από σύμφωνο, replace με suffix=IZE BINARIZATION => BINARIZE 24/11/2018 Γλωσσική Τεχνολογία

Ταξινόμηση βάσει περιεχομένου Boolean query Επιστρέφει πολλά σχετικά κείμενα π.χ. Το query ‘Web AND graphs’, επιστρέφει 4M αποτελέσματα Πρόβλημα Ο χρήστης μπορεί να διαβάσει μερικά μόνο από αυτά Ταξινόμηση βάσει περιεχομένου Οργάνωση των αποτελεσμάτων βάσει σχετικότητας με το ερώτημα 24/11/2018 Γλωσσική Τεχνολογία

Μοντέλο Διανυσματικού Χώρου Αντιστοίχιση κειμένων σε διανυσματικό χώρο Κάθε κείμενο d Αναπαρίσταται ως μια ακολουθία όρων σ(t) d = ((1), (2), (3), …, (|d|)) Οι μοναδικοί όροι σε ένα σύνολο κειμένων Καθορίζουν τις διαστάσεις του διανυσματικού μοντέλου 24/11/2018 Γλωσσική Τεχνολογία

Παράδειγμα Boolean αναπαράσταση των διανυσμάτων: document text terms d1 web web graph web graph d2 graph web net graph net graph web net d3 page web complex Boolean αναπαράσταση των διανυσμάτων: V = [ web, graph, net, page, complex ] V1 = [1 1 0 0 0] V2 = [1 1 1 0 0] V3 = [1 0 0 1 1] 24/11/2018 Γλωσσική Τεχνολογία

tf*idf Βαθμολόγηση tf = term frequency df = document frequency Συχνότητα όρου σε ένα κείμενο. df = document frequency Πόσα κείμενα περιέχουν τον όρο; Κατανομή του όρου idf = inverse document frequency Η άνιση κατανομή του όρου στο κείμενο Πόσο συγκεκριμένος είναι ο όρος για το κείμενο Όσο πιο ομοιόμορφη είναι η κατανομή του όρου στη συλλογή τόσο λιγότερο συγκεκριμένος είναι για ένα κείμενο weight(t,D) = tf(t,D) * idf(t) 24/11/2018 Γλωσσική Τεχνολογία

Term frequency (TF) Ένας όρος που εμφανίζεται πολλές φορές σ’ένα κείμενο ίσως είναι πιο σημαντικός από τους όρους που εμφανίζονται μόνο μία φορά nij – ο αριθμός των εμφανίσεων του όρου j σε ένα κείμενο di Term frequency 24/11/2018 Γλωσσική Τεχνολογία

Inverse document frequency (IDF) Ένας όρος που εμφανίζεται σε λίγα κείμενα είναι πιθανόν να διακρίνει καλύτερα τα κείμενα μεταξύ τους απ’ ότι ένας όρος που εμφανίζεται στα περισσότερα ή σε όλα τα κείμενα nj – ο αριθμός των κειμένων που περιέχουν τον όρο j n – ο συνολικός αριθμός των κειμένων στη συλλογή Inverse document frequency 24/11/2018 Γλωσσική Τεχνολογία

Βαθμολόγηση όρων (TF-IDF) Το TF-IDF βάρος του όρου j στο κείμενο di είναι: 24/11/2018 Γλωσσική Τεχνολογία

Ευρετήρια Μηχανών Αναζήτησης 24/11/2018 Γλωσσική Τεχνολογία

Ανεστραμμένο ευρετήριο Λεξικό: λίστα των λέξεων που εμφανίζονται σε όλα τα κείμενα της συλλογής Postings: αρχείο που καταχωρίζει όλα τα docID των κειμένων στα οποία εμφανίζεται κάθε λέξη του λεξικού Encoding: απομακρύνει διπλοεγγραφές από το λεξικό και τα αρχεία καταχωρίσεων (postings files) για να κρατήσουμε το μέγεθος μικρό 24/11/2018 Γλωσσική Τεχνολογία

Ανεστραμμένο ευρετήριο / λεξικό Αναπαράσταση κάθε κειμένου υπό μορφή διανύσματος Συνδυασμός όλων των διανυσμάτων Απαλοιφή διπλότυπων λέξεων Αλφαβητική ταξινόμηση της προκύπτουσας λίστας 24/11/2018 Γλωσσική Τεχνολογία

Παράδειγμα Κείμενο 1: It was a dark and stormy night in the country manor. ==> country dark manor night storm Κείμενο 2: Now is the time for all good men to come to the aid of their country. ==> aid all come country good men time Λεξικό: aid all come country dark good manor men night storm time 24/11/2018 Γλωσσική Τεχνολογία

Παράδειγμα (cont’d) Postings: aid (2) all (2) come (2) country (1&2) dark (1) good (2) manor (1) men (2) night (1) storm (1) time (2) Το αρχείο καταχωρίσεων (postings file) επισημειώνει το αρχείο του λεξικού με το αναγωνριστικό των κειμένων στα οποία εμφανίζεται μία λέξη 24/11/2018 Γλωσσική Τεχνολογία

Πώς θα ταξινομήσουμε τα ανακτηθέντα κείμενα; Ανάκτηση Το postings file υποστηρίζει boolean queries Π.χ. Η αναζήτηση κειμένων που περιέχουν τη λέξη “country” επιστρέφει τα κειμένα 1 & 2 Π.χ. Η αναζήτηση κειμένων που περιέχουν τις λέξεις “country” and “manor” επιστρέφει το κείμενο 1 Πώς θα ταξινομήσουμε τα ανακτηθέντα κείμενα; Αν η λέξη country περιέχεται στα κείμενα 1 & 2 θα επιστρέψουμε το 1 πριν το 2; 24/11/2018 Γλωσσική Τεχνολογία

..... http://www.dblab.upatras.gr/gr/GlwssikiTexnologia.html 24/11/2018 Γλωσσική Τεχνολογία