Λειτουργίες επί των Κειμένων

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Ανάκτηση Πληροφορίας Φροντιστήριο 3 Οκτώβριος 2013.
Advertisements

Βασικές έννοιες αλγορίθμων
Δομές Δεδομένων και Αλγόριθμοι
5 Οργάνωση υπολογιστών Εισαγωγή στην Επιστήμη των Υπολογιστών ã Εκδόσεις Κλειδάριθμος.
Κώδικες Huffman Μέθοδος συμπίεσης δεδομένων:
ΚΕΙΜΕΝΟ  Ο πρώτος τρόπος απεικόνισης πληροφορίας (και βασικός ως σήμερα).  Αδυναμία πρώτων υπολογιστών να χειριστούν άλλη μορφή πληροφορίας.  Πρόβλημα.
ΕΝΤΟΛΕΣ.
-Στοίβα-Ουρά - Πλεονεκτήματα πινάκων -Δομές δεδομένων δευτερεύουσας μνήμης -Πληροφορική και δεδομένα -Παραδείγματα-Προβλήματα ψευδοκώδικα.
Αντισταθμιστική ανάλυση Κατά τη διάρκεια εκτέλεσης του Α η Δ πραγματοποιεί μία ακολουθία από πράξεις. Θεωρήστε έναν αλγόριθμο Α που χρησιμοποιεί μια δομή.
ΚΕΝΤΡΟ ΠΟΛΙΤΙΣΜΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΤΕ 21,23/2/2005Πληροφοριακή σχεδίαση για πολιτισμική τεκμηρίωση και διαλειτουργικότητα1 Τεκμηρίωση.
ΟΙ ΠΛΗΡΟΦΟΡΙΕΣ ΣΤΟ ΕΣΩΤΕΡΙΚΟ ΤΟΥ Η/Υ
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
ΣΥΜΠΙΕΣΗ Τεράστιες ανάγκες σε αποθηκευτικό χώρο Παράδειγμα:
Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού
Ο Αντεστραμμένος Κατάλογος
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A εισαγωγή αναζήτησηεπιλογή διατεταγμένος πίνακας.
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Δεικτοδότηση και Αναζήτηση (Indexing & Searching)
Ψηφιακά Δένδρα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μπορούμε να χρησιμοποιήσουμε την παραπάνω αναπαράσταση.
Ανάκτηση Πληροφορίας Το Boolean μοντέλο.
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Αναγνώριση Προτύπων.
Περισσότερες Ασκήσεις Συνδυαστικής
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
ΘΠ06 - Μεταγλωττιστές Πίνακας Συμβόλων. Πίνακας Συμβόλων (Symbol Table) (Ι)  Είναι μια δομή στην οποία αποθηκεύονται τα ονόματα ενός προγράμματος και.
Σημειώσεις : Χρήστος Μουρατίδης
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
ΣΥΣΤΗΜΑΤΑ ΣΥΛΛΟΓΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΜΕΤΡΗΣΕΩΝ
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
Ψηφιακά Δένδρα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μπορούμε να χρησιμοποιήσουμε την παραπάνω αναπαράσταση.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Μεταβλητές – εντολές εκχώρησης- δομή ακολουθίας
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
ΘΠ06 - Μεταγλωττιστές Πίνακας Συμβόλων Φροντιστήριο - 30/04/2009.
Δομές Δεδομένων.
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
Ενότητα Α.4. Δομημένος Προγραμματισμός
Βάσεις Δεδομένων Εργαστήριο ΙΙ Τμήμα Πληροφορικής ΑΠΘ
Browsing Τεχνικές που χρησιμοποιούνται για τη διευκόλυνση του χρήστη στην αναζήτηση κειμένων.
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
Ανάκτηση Πληροφορίας 1 Multimedia IR Multimedia IR Δεικτοδότηση και Αναζήτηση.
ΨηφιοποίησηΨηφιοποίηση Οι περισσότερες μεταβολές επηρεάζονται από τον Η/Υ. Τα συστήματα μετατρέπονται ώστε να μπορούν να συνδέονται με Υπολογιστές.
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
Βασικά στοιχεία της Java
ΗΥ150 – ΠρογραμματισμόςΚώστας Παναγιωτάκης ΗΥ-150 Προγραμματισμός Τύποι Μεταβλητών Τελεστές Βασική Είσοδος/Έξοδος.
12/01/2007 ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «Ψηφιακές Μορφές Τέχνης»1 Εισαγωγή στους Η/Υ Μάθημα 2: Αναπαράσταση και Αποθήκευση Ψηφιακής Πληροφορίας Διδάσκουσα:
ΚΕΦΑΛΑΙΟ Το αλφάβητο της ΓΛΩΣΣΑΣ
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Ροές Δεδομένων (3 ο Μέρος)
ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ.
Γλώσσες Προγραμματισμού Μεταγλωττιστές Πίνακας Συμβόλων Πανεπιστήμιο Μακεδονίας Τμήμα Εφαρμοσμένης Πληροφορικής Ηλίας Σακελλαρίου.
Ενότητα 2 η Σήματα και Συστήματα. Σήματα Γενικά η πληροφορία αποτυπώνεται και μεταφέρεται με την βοήθεια των σημάτων. Ως σήμα ορίζουμε την οποιαδήποτε.
Δυναμικός Κατακερματισμός
ΑΛΓΟΡΙΘΜΟΣ ΠΡΟΒΛΗΜΑ ΑΛΓΟΡΙΘΜΟΣ ΛΥΣΗ
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΚΩΔΙΚΕΣ-ΚΕΦΑΛΑΙΟ 1ο
Τεχνολογία Πολυμέσων Ενότητα # 8: Αρχές κωδικοποίησης
Αρχεσ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Η/Υ ΤΑξη Β΄
MOODLE- assessment tools
Κεφάλαιο 10 Streams.
Εντολές και δομές αλγορίθμου
ΑΝΑΠΑΡΑΣΤΑΣΗ ΧΑΡΑΚΤΗΡΩΝ
Β.ΕΠΑΛ-Γενικής Παιδείας  ΜΑΘΗΜΑ: Εισαγωγή στης αρχές Επιστήμης των Η/Υ  ΚΕΦΑΛΑΙΟ 4: Γλώσσες Αναπαράστασης Αλγορίθμων  ΕΝΟΤΗΤΑ 4.2: Δομή Ακολουθίας 
Διαχειρίζεται, Επεξεργάζεται και Ανταλλάσσει
ΗΜΥ 210: Λογικός Σχεδιασμός
Εισαγωγή στα Προσαρμοστικά Συστήματα
Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση
Διαχρονικές Δομές Δεδομένων
Μεταγράφημα παρουσίασης:

Λειτουργίες επί των Κειμένων Προεπεξεργασία Clustering Συμπίεση

Προεπεξεργασία Κειμένων Πριν από τη δεικτοδότηση των κειμένων προηγούνται μερικές βασικές διαδικασίες οι οποίες χρησιμοποιούνται για την απλοποίηση των κειμένων. Το σύνολο των διεργασιών αυτών καλείται Προεπεξεργασία Κειμένου. Ανάκτηση Πληροφορίας

Προεπεξεργασία Κειμένων accents spacing etc. automatic or manual indexing noun groups document stopwords stemming structure recognition text + structure text structure full text index terms Ανάκτηση Πληροφορίας

Προεπεξεργασία Κειμένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms Δημιουργία δομών κατηγοριών Ανάκτηση Πληροφορίας

Λεκτική Ανάλυση Διαδικασία μετατροπής ενός κειμένου από σειρά χαρακτήρων (character stream) σε σειρά λέξεων (word stream). Η αρχική εντύπωση που δημιουργείται είναι ότι το μόνο που έχουμε να κάνουμε είναι να αναγνωρίσουμε τους κενούς χαρακτήρες του κειμένου, οι οποίοι διαχωρίζουν τις λέξεις. Όμως υπάρχουν πολύ περισσότερα που πρέπει να προσέξουμε! Ανάκτηση Πληροφορίας

Λεκτική Ανάλυση Αριθμητικά ψηφία Συλλαβισμός Σύμβολα Στίξης Μικρά και Κεφαλαία Γράμματα Ανάκτηση Πληροφορίας

Αριθμητικά Ψηφία Οι αριθμοί δεν θεωρούνται καλές περιπτώσεις index terms διότι χωρίς τα συμφραζόμενα το νόημά τους είναι αρκετά ασαφές. Γενικά, τα συστήματα IR δεν περιλαμβάνουν τους αριθμούς στη λίστα των index terms. Ωστόσο, υπάρχουν περιπτώσεις στις οποίες απαιτείται ιδιαίτερη προσοχή. Για παράδειγμα, κείμενα τα οποία περιέχουν αριθμούς πιστωτικών καρτών. Ανάκτηση Πληροφορίας

Συλλαβισμός Συνήθως η απαλοιφή του συμβόλου συλλαβισμού (‘-’) δε δημιουργεί προβλήματα στην ανάκτηση πληροφορίας (π.χ. State-of-the-art -> state of the art) Ωστόσο απαιτείται προσοχή, διότι υπάρχουν λέξεις στις οποίες το σύμβολο ‘-’ παίζει σημαντικό ρόλο (B-52) Ανάκτηση Πληροφορίας

Σύμβολα Στίξης Συνήθως τα σύμβολα στίξης αφαιρούνται εντελώς κατά τη φάση της λεκτικής ανάλυσης κειμένων και ερωτήσεων (I.K.A -> IKA, D.N.A. -> DNA) Υπάρχουν ειδικές περιπτώσεις οι οποίες πρέπει να προσεχθούν ιδιαίτερα. Για παράδειγμα, σε ένα σύστημα IR το οποίο διαχειρίζεται κώδικα γραμμένο σε C/C++, υπάρχει διαφορά ανάμεσα στις εκφράσεις x.id και xid. Ανάκτηση Πληροφορίας

Μικρά-Κεφαλαία Γράμματα Κατά τη φάση της λεκτικής ανάλυσης όλα τα γράμματα μετατρέπονται σε μικρά ή σε κεφαλαία. (HORSE, Horse, horse) Ειδικές περιπτώσεις πρέπει να αντιμετωπίζονται ξεχωριστά. Για παράδειγμα, κατά την αναζήτηση κειμένων που σχετίζονται με το λειτουργικό σύστημα Unix, η σημασία των εντολών ls –l και ls –L είναι διαφορετική. (To Unix διαχωρίζει μικρά και κεφαλαία γράμματα). Ανάκτηση Πληροφορίας

Προεπεξεργασία Κειμένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms Δημιουργία δομών κατηγοριών Ανάκτηση Πληροφορίας

Απαλοιφή stopwords Λέξεις οι οποίες εμφανίζονται στην πλειοψηφία των κειμένων δεν είναι καλές για index terms. Αυτές οι λέξεις καλούνται stopwords. Άρθρα, προθέσεις, σύνδεσμοι Η απαλοιφή των stopwords μειώνει σημαντικά το μέγεθος ενός κειμένου. Ωστόσο, η απαλοιφή των stopwords μπορεί να μειώσει το recall. Για παράδειγμα αναζητώντας τη φράση “to be or not to be” ο χρήστης θα αντιμετωπίσει πρόβλημα. Για το λόγο αυτό πολλές μηχανές αναζήτησης στο WEB χρησιμοποιούν όλες τις λέξεις των κειμένων. Ανάκτηση Πληροφορίας

Προεπεξεργασία Κειμένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms Δημιουργία δομών κατηγοριών Ανάκτηση Πληροφορίας

Stemming Η λέξη που αναζητά ο χρήστης μπορεί να υπάρχει με αυτήν την μορφή στο κείμενο (π.χ. connect, connecting). Stem: τμήμα της λέξης που απομένει μετά την απομάκρυνση prefix και suffix. Μειώνεται ο αριθμός των διακριτών λέξεων του κειμένου. Μερικές μηχανές αναζήτησης στο WEB δεν πραγματοποιούν stemming. Ανάκτηση Πληροφορίας

Stemming Affix removal, table lookup, successor variety, n-grams. Το πιο σημαντικό μέρος είναι η απομάκρυνση του suffix, διότι οι διαφορετικές εκδοχές μίας λέξης προσδιορίζονται με διαφορετικές καταλήξεις. Αλγόριθμος Porter, για την απομάκρυνση των καταλήξεων από τις λέξεις. Χρησιμοποιούνται μερικοί κανόνες (π.χ. s->null). Ανάκτηση Πληροφορίας

Προεπεξεργασία Κειμένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms Δημιουργία δομών κατηγοριών Ανάκτηση Πληροφορίας

Επιλογή Index Terms Σε full text αναπαράσταση, όλες οι λέξεις ενός κειμένου χρησιμοποιούνται ως index terms. Διαφορετικά, ένα σύνολο από index terms πρέπει να επιλεγεί είτε χειροκίνητα είτε αυτόματα. Επιλέγονται ουσιαστικά τα οποία ομαδοποιούνται σε ομάδες ουσιαστικών με κοινό νόημα (π.χ. computer science, information retrieval, query language) Ανάκτηση Πληροφορίας

Προεπεξεργασία Κειμένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms Δημιουργία δομών κατηγοριών (θησαυροί) Ανάκτηση Πληροφορίας

Θησαυροί Λέξεων Στην απλή του μορφή ένας θησαυρός λέξεων αποτελείται από ένα σύνολο σημαντικών λέξεων, και για κάθε λέξη ένα σύνολο σχετικών λέξεων (π.χ. συνώνυμα). Σύμφωνα με τον Foskett οι βασικοί στόχοι ενός θησαυρού είναι: Να παρέχει ένα σταθερό λεξιλόγιο για αναζήτηση. Να βοηθά τους χρήστες στη μορφοποίηση των ερωτήσεων. Να παρέχει ιεραρχίες ώστε να μπορεί ο χρήστης να διευρύνει ή να περιορίζει τα αποτελέσματα. Ανάκτηση Πληροφορίας

Θησαυροί Λέξεων Κίνητρο: ελεγχόμενο λεξιλόγιο για indexing και searching. Το ελεγχόμενο λεξιλόγιο προσφέρει κανονικοποίηση, μείωση θορύβου, ανάκτηση βασισμένη στο νόημα (concept) παρά σε λέξεις. Σε συγκεκριμένους τομείς (π.χ. ιατρική) τα παραπάνω είναι πολύ σημαντικά. Ωστόσο, υπάρχουν τομείς στους οποίους η κατασκευή θησαυρού είναι δύσκολη διότι: το γνωστικό αντικείμενο είναι νέο, μεγάλο, αλλάζει δυναμικά (π.χ. WEB). Ανάκτηση Πληροφορίας

Clustering Clustering είναι η ομαδοποίηση κειμένων τα οποία είναι όμοια μεταξύ τους. Δεν αναφέρεται σε ένα μόνο κείμενο αλλά σε μία συλλογή κειμένων. Global clustering: τα κείμενα ομαδοποιούνται ανάλογα με την εμφάνισή τους σε όλη τη συλλογή κειμένων. Local clustering: η ομαδοποίηση πραγματοποιείται σύμφωνα με τα χαρακτηριστικά των ερωτήσεων του χρήστη και το σύνολο των κειμένων της απάντησης. Ανάκτηση Πληροφορίας

Συμπίεση Κειμένων Δυνατότητα να αναπαραστήσουμε τα κείμενα με μικρότερο αριθμό bytes. Οι μέθοδοι συμπίεσης χρησιμοποιούν τη δομή που υπάρχει στο κείμενο για να δημιουργήσουν μία «μειωμένη» έκδοση του αρχικού κειμένου. Από τη συμπιεσμένη έκδοση του κειμένου το αρχικό κείμενο μπορεί να ανακτηθεί πλήρως. Ανάκτηση Πληροφορίας

Συμπίεση Κειμένων Τι κερδίζουμε; Λιγότερος χώρος αποθήκευσης Λιγότερος χρόνος για λειτουργίες εισόδου/εξόδου (Ι/Ο) Λιγότερος χρόνος μετάδοσης δεδομένων από έναν σταθμό σε άλλον Ανάκτηση Πληροφορίας

Συμπίεση Κειμένων Οι μέθοδοι συμπίεσης διακρίνονται σε δύο βασικές κατηγορίες: Στατιστικές μέθοδοι, οι οποίες στηρίζονται σε εκτιμήσεις πιθανότητας σχετικά με την εμφάνιση των συμβόλων στο κείμενο. Μέθοδοι βασισμένες σε λεξικό, οι οποίες αντικαθιστούν την εμφάνιση μίας σειράς συμβόλων με έναν δείκτη (pointer) στην αμέσως προηγούμενη εμφάνιση της σειράς. Ανάκτηση Πληροφορίας

Συμπίεση Κειμένων Συμπίεση Statistical Dictionary Modeling Coding 1. adaptive 2. static 3. semi-static 1. Huffman coding 2. Byte-oriented Huffman coding 1. adaptive 2. static 3. semi-static Inverted File coding Ανάκτηση Πληροφορίας

Στατιστικές Μέθοδοι Συμπίεσης Σύμβολο: ένας χαρακτήρας, μία λέξη, μία σειρά χαρακτήρων. Αλφάβητο: το σύνολο των διαφορετικών συμβόλων. Μοντελοποίηση: η διαδικασία εκτίμησης της πιθανότητας των συμβόλων Κωδικοποίηση: η διαδικασία της μετατροπής των συμβόλων σε δυαδικά ψηφία Ανάκτηση Πληροφορίας

Στατιστικές Μέθοδοι Συμπίεσης Δύο βασικές μέθοδοι κωδικοποίησης (coding) που χρησιμοποιούνται στις στατιστικές μεθόδους συμπίεσης: Κωδικοποίηση Huffman (Huffman Coding) Αριθμητική Κωδικοποίηση (Arithmetic Coding) Ανάκτηση Πληροφορίας

Στατιστικές Μέθοδοι Συμπίεσης Η αριθμητική κωδικοποίηση επεξεργάζεται ένα σύμβολο τη φορά. Δεν επιτρέπεται η αποκωδικοποίηση μίας σειράς χαρακτήρων η οποία βρίσκεται στη μέση του κειμένου. Πρέπει κάθε φορά η αποκωδικοποίηση να ξεκινά από την αρχή του κειμένου. Για το λόγο αυτό τα συστήματα IR δεν χρησιμοποιούν τη μέθοδο της αριθμητικής κωδικοποίησης. Ανάκτηση Πληροφορίας

Στατιστικές Μέθοδοι Συμπίεσης Σχέση μεταξύ πιθανοτήτων και κωδικών (Claudde Shannon): Σε μία βέλτιστη μέθοδο κωδικοποίησης, ένα σύμβολο το οποίο αναμένεται να εμφανιστεί με πιθανότητα p, πρέπει να του αντιστοιχεί ένας κωδικός με μέγεθος bits Ανάκτηση Πληροφορίας

Στατιστικές Μέθοδοι Συμπίεσης Η μέση ποσότητα πληροφορίας κάθε συμβόλου σε όλο το αλφάβητο καλείται εντροπία της κατανομής και δίνεται από τον τύπο: Το Ε αποτελεί κάτω φράγμα ως προς τον αριθμό των bits που πρέπει να περιέχει ένα κωδικοποιημένο σύμβολο. Ανάκτηση Πληροφορίας

Στατιστικές Μέθοδοι Συμπίεσης Modeling Προσαρμοστικά (adaptive) Στατικά (static) Ημιστατικά (semi-static) Ανάκτηση Πληροφορίας

Στατιστικές Μέθοδοι Συμπίεσης Modeling Προσαρμοστικά Μοντέλα: Δεν έχουν καμία πληροφορία για το κείμενο, αλλά την αποκτούν σταδιακά καθώς προχωρά η διαδικασία συμπίεσης. Απαιτούν μόνο ένα πέρασμα στο κείμενο εισόδου. Για αρκετά μεγάλα κείμενα το μοντέλα συγκλίνουν στην πραγματική κατανομή του κειμένου. Η διαδικασία της αποσυμπίεσης πρέπει να ξεκινά από την αρχή. Καλή τεχνική για γενικές εφαρμογές αλλά όχι τόσο καλή για IR. Ανάκτηση Πληροφορίας

Στατιστικές Μέθοδοι Συμπίεσης Modeling Στατικά Μοντέλα: Θεωρούν μία μέση κατανομή όλων των κειμένων εισόδου. Δεν έχουν καλό λόγο συμπίεσης όταν το περιεχόμενο του κειμένου ξεφεύγει από τις αρχικές πιθανοτικές εκτιμήσεις (π.χ. οικονομικά κείμενα τα οποία περιέχουν πολλούς αριθμούς). Ανάκτηση Πληροφορίας

Στατιστικές Μέθοδοι Συμπίεσης Modeling Ημιστατικά Μοντέλα: Δεν υποθέτουν κατανομή δεδομένων, αλλά παίρνουν αυτήν την πληροφορία κατά το πρώτο πέρασμα. Στο δεύτερο πέρασμα γίνεται συμπίεση με βάση τα στατιστικά στοιχεία που εξάχθηκαν από το πρώτο πέρασμα. Στη φάση της αποκωδικοποίησης, η στατιστική πληροφορία μεταδίδεται στον decoder πριν την αποστολή του συμπιεσμένου κειμένου. Το βασικό τους μειονέκτημα είναι τα δύο περάσματα που απαιτούνται. Επιτρέπεται άμεση προσπέλαση σε οποιοδήποτε σημείο του κειμένου. Ανάκτηση Πληροφορίας

Στατιστικές Μέθοδοι Συμπίεσης Modeling Μοντέλα βασισμένα σε λέξεις (word-based): Επιτυγχάνεται καλύτερος λόγος συμπίεσης. Τα περισσότερα συστήματα IR στηρίζονται σε λέξεις. Η συχνότητα εμφάνισης λέξεων είναι χρήσιμη στην απάντηση ερωτήσεων τα οποία χρησιμοποιούν πολλές λέξεις μαζί. Η επεξεργασία συνήθως ξεκινά από τη λέξη με τη μικρότερη συχνότητα εμφάνισης. Ανάκτηση Πληροφορίας

Στατιστικές Μέθοδοι Συμπίεσης Modeling Μοντέλα βασισμένα σε λέξεις (word-based): Σε μερικές περιπτώσεις παράγονται μεγάλες ποσότητες διαφορετικών κωδικών (π.χ. αριθμοί) Συνήθως οι μέθοδοι που στηρίζονται σε λέξεις είναι αποδοτικές για αρκετά μεγάλα κείμενα. Γιατι; Ανάκτηση Πληροφορίας

Στατιστικές Μέθοδοι Συμπίεσης Coding Βασικά Σημεία: Ο κύριος στόχος ενός κωδικοποιητή είναι η αντιστοίχιση μικρών κωδικών σε συχνά εμφανιζόμενα σύμβολα και μεγάλων κωδικών σε σπάνια εμφανιζόμενα σύμβολα. Ο χρόνος κωδικοποίησης και αποκωδικοποίησης είναι σημαντικός. Μερικές φορές προτιμούμε να έχουμε μικρότερο λόγο συμπίεσης προκειμένου να κερδίσουμε σε χρόνο (π.χ. WinZIP). Ανάκτηση Πληροφορίας

Στατιστικές Μέθοδοι Συμπίεσης Coding Έστω τα σύμβολα A,B,C,D με τους εξής κωδικούς: Code(‘A’) = 0 Code(‘B’) = 000 Code(‘C’) = 11 Code(‘D’) = 1 Ο κωδικός 111000 σε ποια σειρά χαρακτήρων αντιστοιχεί; DDDAAA DCB CDAAA DDDB Ανάκτηση Πληροφορίας

Στατιστικές Μέθοδοι Συμπίεσης Coding Βασική προϋπόθεση: Μετά τη φάση της κωδικοποίησης κανένας κωδικός δεν πρέπει να αποτελεί prefix άλλου κωδικού. Ανάκτηση Πληροφορίας

Κωδικοποίηση Huffman Έστω το ακόλουθο κείμενο: one two three one two one one one two three four five one: 5/12 two: 3/12 three: 2/12 four: 1/12 five: 1/12 Συχνότητες εμφάνισης λέξεων Ανάκτηση Πληροφορίας

Κωδικοποίηση Huffman 12/12 Δένδρο Huffman 7/12 1 4/12 1 1 2/12 1 Δένδρο Huffman 7/12 1 4/12 1 1 2/12 1 five 1/12 four 1/12 three 2/12 two 3/12 one 5/12 Ανάκτηση Πληροφορίας

Κωδικοποίηση Huffman five: 0000 four: 0001 three: 001 two: 01 one: 1 Μετά την κωδικοποίηση προκύπτουν οι εξής κωδικοί: five: 0000 four: 0001 three: 001 two: 01 one: 1 Τι παρατηρούμε; Ανάκτηση Πληροφορίας

Κωδικοποίηση Huffman Τι συμπίεση επιτυγχάνουμε για το παράδειγμα; Απαιτούνται 42*8 = 336 bits για το αρχικό κείμενο (χωρίς τους κενούς χαρακτήρες) Απαιτούνται 25 bits για το συμπιεσμένο κείμενο Ανάκτηση Πληροφορίας

Κωδικοποίηση Huffman Έστω το ακόλουθο κείμενο ABRACADABRA A 5/11 Ανάκτηση Πληροφορίας

Κωδικοποίηση Huffman 11/11 Δένδρο Huffman 6/11 1 1 2/11 4/11 1 1 000 11/11 Δένδρο Huffman 6/11 1 1 2/11 4/11 1 1 C 1/11 D 1/11 B 2/11 R 2/11 A 5/11 000 001 010 011 1 Ανάκτηση Πληροφορίας

Λεξικά Οι μέθοδοι βασισμένες σε λεξικά επιτυγχάνουν συμπίεση αντικαθιστώντας σειρές συμβόλων με δείκτες. Αυτό που πρέπει να προσέξουμε είναι η επιλογή των entries στο λεξικό. Ανάκτηση Πληροφορίας

Στατικές Μέθοδοι Λεξικών Οι πιο απλές μέθοδοι χρησιμοποιούν στατικά λεξικά τα οποία περιέχουν μικρές εκφράσεις. Είναι αρκετά γρήγορες και απαιτούν λίγο χρόνο για να επιτύχουν μικρά ποσοστά συμπίεσης. Μία διαδεδομένη μέθοδος είναι διγραμματική κωδικοποίηση (digram coding), στην οποία επιλεγμένα ζεύγη γραμμάτων αντικαθιστώνται με κωδικούς. Το βασικό πρόβλημα των στατικών μεθόδων είναι ότι ένα λεξικό κατάλληλο για ένα κείμενο μπορεί να είναι ακατάλληλο για κάποιο άλλο. Ανάκτηση Πληροφορίας

Ημι-στατικές Μέθοδοι Λεξικών Κατασκευάζουν νέο λεξικό για κάθε νέο κείμενο που συμπιέζεται. Το βασικό πρόβλημα στις μεθόδους αυτές είναι η επιλογή του λεξικού. Ανάκτηση Πληροφορίας

Προσαρμοστικές Μέθοδοι Μέθοδος Ziv-Lempel, 1970 Μία φράση αντικαθίσταται με έναν δείκτη ο οποίος αναφέρεται στην προηγούμενη εμφάνιση της φράσης. Η διαδικασία της αποκωδικοποίησης δεν μπορεί να ξεκινήσει από τη μέση του κειμένου, αλλά μόνο από την αρχή. Το ενδιαφέρον για τις μεθόδους βασισμένες σε λεξικά συνεχώς μειώνεται. Ανάκτηση Πληροφορίας

Αντεστραμμένο Αρχείο Μία δομή αντεστραμμένου αρχείου αποτελείται από: Ένα διάνυσμα (vocabulary) το οποίο περιέχει όλες τις διακριτές λέξεις του κειμένου, και Μία λίστα κειμένων για κάθε διακριτή λέξη Ανάκτηση Πληροφορίας

Παράδειγμα Λέξεις IDs κειμένων 1, 2, 10, 30, ... 1, 2, 10, 40, 43, ... βιβλίο 1, 2, 10, 30, ... μολύβι 1, 2, 10, 40, 43, ... ταινία 11, 21, 22, 23, ... ήχος 4, 6, 8, ... Ανάκτηση Πληροφορίας

Συμπίεση Αντεστραμμένου Αρχείων Το μέγεθος ενός αντεστραμμένου αρχείου μπορεί να περιοριστεί αν συμπιέσουμε τις λίστες. Εφόσον τα IDs των κειμένων είναι σε αύξουσα σειρά, η σειρά μπορεί να χαρακτηριστεί σαν ακολουθία από κενά μεταξύ των κειμένων. Βασικό χαρακτηριστικό: για συχνά εμφανιζόμενες λέξεις τα κενά είναι μικρά, ενώ για σπάνιες λέξεις τα κενά είναι μεγάλα. Ανάκτηση Πληροφορίας

Unary Code Ένας ακέραιος αριθμός x κωδικοποιείται με (x-1) άσσους και ακολουθεί ένα μηδενικό. 1, 0 2, 10 3, 110 4, 1110 Ανάκτηση Πληροφορίας

Elias - γ Ένας ακέραιος αριθμός x κωδικοποιείται με την ένωση δύο τμημάτων: έναν unary code για τον αριθμό 1+floor(logx) και έναν κωδικό από floor(logx) bits ο οποίος αναπαριστά στο δυαδικό σύστημα τον αριθμό Elias-δ παραλλαγή Ανάκτηση Πληροφορίας

Golomb Στα αντεστραμμένα αρχεία η πιθανότητα ένα κενό (gap) να έχει μέγεθος x ισοδυναμεί με την πιθανότητα να έχουμε x-1 απουσίες της λέξης και να ακολουθεί μία παρουσία της λέξης. Εάν μία λέξη εμφανίζεται σε ένα κείμενο με πιθανότητα p, η πιθανότητα να υπάρχει gap μεγέθους x δίνεται από τη γεωμετρική κατανομή Ανάκτηση Πληροφορίας

Παραδείγματα Gap (x) Unary Elias-γ Elias-δ Golomb b=3 1 00 2 10 100 1000 010 3 110 101 1001 011 4 1110 11000 10100 5 11110 11001 10101 1010 6 111110 11010 10110 1011 7 1111110 11011 10111 1100 8 11111110 1110000 11000000 9 111111110 1110001 11000001 1111111110 1110010 11000010 11100 Ανάκτηση Πληροφορίας  

Σύγκριση Μεθόδων Συμπίεσης Χαρακτηριστικό Αριθμητικές Μέθοδοι Huffman character-based word-based Ziv-Lempel λόγος συμπίεσης Πολύ καλός Όχι καλός Καλός ταχύτητα συμπίεσης Αργή Γρήγορη Πολύ γρήγορη ταχύτητα αποσυμπίεσης μνήμη Χαμηλή Υψηλή Μέτρια αναζήτηση σε συμπιεσμένο κείμενο Όχι Ναι τυχαία προσπέλαση   Ανάκτηση Πληροφορίας

Τάσεις και Έρευνα Η τάση στα σύγχρονα συστήματα IR είναι η χρήση semi-static word-based Huffman coding. Τα πειραματικά αποτελέσματα έχουν δείξει ότι είναι οι πλέον αποτελεσματικές μέθοδοι. Με τη δυνατότητα που υπάρχει να αναζητούμε απευθείας στο συμπιεσμένο κείμενο, υπάρχει η τάση τόσο ο index όσο και το κείμενο να παραμένουν συμπιεσμένα και να αποσυμπιέζονται μόνο μετά από απαίτηση του χρήστη. Ανάκτηση Πληροφορίας

Σύνοψη Προεπεξεργασία κειμένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms Δημιουργία δομών κατηγοριών Συμπίεση κειμένων Μοντελοποίηση Κωδικοποίηση Ανάκτηση Πληροφορίας