Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Λειτουργίες επί των Κειμένων Προεπεξεργασία Clustering Συμπίεση.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Λειτουργίες επί των Κειμένων Προεπεξεργασία Clustering Συμπίεση."— Μεταγράφημα παρουσίασης:

1 Λειτουργίες επί των Κειμένων Προεπεξεργασία Clustering Συμπίεση

2 Ανάκτηση Πληροφορίας2 Προεπεξεργασία Κειμένων Πριν από τη δεικτοδότηση των κειμένων προηγούνται μερικές βασικές διαδικασίες οι οποίες χρησιμοποιούνται για την απλοποίηση των κειμένων. Το σύνολο των διεργασιών αυτών καλείται Προεπεξεργασία Κειμένου.

3 Ανάκτηση Πληροφορίας3 Προεπεξεργασία Κειμένων document structure recognition accents spacing etc. stopwords noun groups stemming automatic or manual indexing structurefull textindex terms text + structure text

4 Ανάκτηση Πληροφορίας4 Προεπεξεργασία Κειμένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms Δημιουργία δομών κατηγοριών

5 Ανάκτηση Πληροφορίας5 Λεκτική Ανάλυση Διαδικασία μετατροπής ενός κειμένου από σειρά χαρακτήρων (character stream) σε σειρά λέξεων (word stream). Η αρχική εντύπωση που δημιουργείται είναι ότι το μόνο που έχουμε να κάνουμε είναι να αναγνωρίσουμε τους κενούς χαρακτήρες του κειμένου, οι οποίοι διαχωρίζουν τις λέξεις. Όμως υπάρχουν πολύ περισσότερα που πρέπει να προσέξουμε!

6 Ανάκτηση Πληροφορίας6 Λεκτική Ανάλυση Αριθμητικά ψηφία Συλλαβισμός Σύμβολα Στίξης Μικρά και Κεφαλαία Γράμματα

7 Ανάκτηση Πληροφορίας7 Αριθμητικά Ψηφία Οι αριθμοί δεν θεωρούνται καλές περιπτώσεις index terms διότι χωρίς τα συμφραζόμενα το νόημά τους είναι αρκετά ασαφές. Γενικά, τα συστήματα IR δεν περιλαμβάνουν τους αριθμούς στη λίστα των index terms. Ωστόσο, υπάρχουν περιπτώσεις στις οποίες απαιτείται ιδιαίτερη προσοχή. Για παράδειγμα, κείμενα τα οποία περιέχουν αριθμούς πιστωτικών καρτών.

8 Ανάκτηση Πληροφορίας8 Συλλαβισμός Συνήθως η απαλοιφή του συμβόλου συλλαβισμού (‘-’) δε δημιουργεί προβλήματα στην ανάκτηση πληροφορίας (π.χ. State-of-the-art -> state of the art) Ωστόσο απαιτείται προσοχή, διότι υπάρχουν λέξεις στις οποίες το σύμβολο ‘-’ παίζει σημαντικό ρόλο (B-52)

9 Ανάκτηση Πληροφορίας9 Σύμβολα Στίξης Συνήθως τα σύμβολα στίξης αφαιρούνται εντελώς κατά τη φάση της λεκτικής ανάλυσης κειμένων και ερωτήσεων (I.K.A -> IKA, D.N.A. -> DNA) Υπάρχουν ειδικές περιπτώσεις οι οποίες πρέπει να προσεχθούν ιδιαίτερα. Για παράδειγμα, σε ένα σύστημα IR το οποίο διαχειρίζεται κώδικα γραμμένο σε C/C++, υπάρχει διαφορά ανάμεσα στις εκφράσεις x.id και xid.

10 Ανάκτηση Πληροφορίας10 Μικρά-Κεφαλαία Γράμματα Κατά τη φάση της λεκτικής ανάλυσης όλα τα γράμματα μετατρέπονται σε μικρά ή σε κεφαλαία. (HORSE, Horse, horse) Ειδικές περιπτώσεις πρέπει να αντιμετωπίζονται ξεχωριστά. Για παράδειγμα, κατά την αναζήτηση κειμένων που σχετίζονται με το λειτουργικό σύστημα Unix, η σημασία των εντολών ls –l και ls –L είναι διαφορετική. (To Unix διαχωρίζει μικρά και κεφαλαία γράμματα).

11 Ανάκτηση Πληροφορίας11 Προεπεξεργασία Κειμένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms Δημιουργία δομών κατηγοριών

12 Ανάκτηση Πληροφορίας12 Απαλοιφή stopwords Λέξεις οι οποίες εμφανίζονται στην πλειοψηφία των κειμένων δεν είναι καλές για index terms. Αυτές οι λέξεις καλούνται stopwords. Άρθρα, προθέσεις, σύνδεσμοι Η απαλοιφή των stopwords μειώνει σημαντικά το μέγεθος ενός κειμένου. Ωστόσο, η απαλοιφή των stopwords μπορεί να μειώσει το recall. Για παράδειγμα αναζητώντας τη φράση “to be or not to be” ο χρήστης θα αντιμετωπίσει πρόβλημα. Για το λόγο αυτό πολλές μηχανές αναζήτησης στο WEB χρησιμοποιούν όλες τις λέξεις των κειμένων.

13 Ανάκτηση Πληροφορίας13 Προεπεξεργασία Κειμένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms Δημιουργία δομών κατηγοριών

14 Ανάκτηση Πληροφορίας14 Stemming Η λέξη που αναζητά ο χρήστης μπορεί να υπάρχει με αυτήν την μορφή στο κείμενο (π.χ. connect, connecting). Stem: τμήμα της λέξης που απομένει μετά την απομάκρυνση prefix και suffix. Μειώνεται ο αριθμός των διακριτών λέξεων του κειμένου. Μερικές μηχανές αναζήτησης στο WEB δεν πραγματοποιούν stemming.

15 Ανάκτηση Πληροφορίας15 Stemming Affix removal, table lookup, successor variety, n- grams. Το πιο σημαντικό μέρος είναι η απομάκρυνση του suffix, διότι οι διαφορετικές εκδοχές μίας λέξης προσδιορίζονται με διαφορετικές καταλήξεις. Αλγόριθμος Porter, για την απομάκρυνση των καταλήξεων από τις λέξεις. Χρησιμοποιούνται μερικοί κανόνες (π.χ. s->null).

16 Ανάκτηση Πληροφορίας16 Προεπεξεργασία Κειμένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms Δημιουργία δομών κατηγοριών

17 Ανάκτηση Πληροφορίας17 Επιλογή Index Terms Σε full text αναπαράσταση, όλες οι λέξεις ενός κειμένου χρησιμοποιούνται ως index terms. Διαφορετικά, ένα σύνολο από index terms πρέπει να επιλεγεί είτε χειροκίνητα είτε αυτόματα. Επιλέγονται ουσιαστικά τα οποία ομαδοποιούνται σε ομάδες ουσιαστικών με κοινό νόημα (π.χ. computer science, information retrieval, query language)

18 Ανάκτηση Πληροφορίας18 Προεπεξεργασία Κειμένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms Δημιουργία δομών κατηγοριών (θησαυροί)

19 Ανάκτηση Πληροφορίας19 Θησαυροί Λέξεων Στην απλή του μορφή ένας θησαυρός λέξεων αποτελείται από ένα σύνολο σημαντικών λέξεων, και για κάθε λέξη ένα σύνολο σχετικών λέξεων (π.χ. συνώνυμα). Σύμφωνα με τον Foskett οι βασικοί στόχοι ενός θησαυρού είναι: – Να παρέχει ένα σταθερό λεξιλόγιο για αναζήτηση. – Να βοηθά τους χρήστες στη μορφοποίηση των ερωτήσεων. – Να παρέχει ιεραρχίες ώστε να μπορεί ο χρήστης να διευρύνει ή να περιορίζει τα αποτελέσματα.

20 Ανάκτηση Πληροφορίας20 Θησαυροί Λέξεων Κίνητρο: ελεγχόμενο λεξιλόγιο για indexing και searching. Το ελεγχόμενο λεξιλόγιο προσφέρει κανονικοποίηση, μείωση θορύβου, ανάκτηση βασισμένη στο νόημα (concept) παρά σε λέξεις. Σε συγκεκριμένους τομείς (π.χ. ιατρική) τα παραπάνω είναι πολύ σημαντικά. Ωστόσο, υπάρχουν τομείς στους οποίους η κατασκευή θησαυρού είναι δύσκολη διότι: το γνωστικό αντικείμενο είναι νέο, μεγάλο, αλλάζει δυναμικά (π.χ. WEB).

21 Ανάκτηση Πληροφορίας21 Clustering Clustering είναι η ομαδοποίηση κειμένων τα οποία είναι όμοια μεταξύ τους. Δεν αναφέρεται σε ένα μόνο κείμενο αλλά σε μία συλλογή κειμένων. Global clustering: τα κείμενα ομαδοποιούνται ανάλογα με την εμφάνισή τους σε όλη τη συλλογή κειμένων. Local clustering: η ομαδοποίηση πραγματοποιείται σύμφωνα με τα χαρακτηριστικά των ερωτήσεων του χρήστη και το σύνολο των κειμένων της απάντησης.

22 Ανάκτηση Πληροφορίας22 Συμπίεση Κειμένων Δυνατότητα να αναπαραστήσουμε τα κείμενα με μικρότερο αριθμό bytes. Οι μέθοδοι συμπίεσης χρησιμοποιούν τη δομή που υπάρχει στο κείμενο για να δημιουργήσουν μία «μειωμένη» έκδοση του αρχικού κειμένου. Από τη συμπιεσμένη έκδοση του κειμένου το αρχικό κείμενο μπορεί να ανακτηθεί πλήρως.

23 Ανάκτηση Πληροφορίας23 Συμπίεση Κειμένων Τι κερδίζουμε; Λιγότερος χώρος αποθήκευσης Λιγότερος χρόνος για λειτουργίες εισόδου/εξόδου (Ι/Ο) Λιγότερος χρόνος μετάδοσης δεδομένων από έναν σταθμό σε άλλον

24 Ανάκτηση Πληροφορίας24 Συμπίεση Κειμένων Οι μέθοδοι συμπίεσης διακρίνονται σε δύο βασικές κατηγορίες: Στατιστικές μέθοδοι, οι οποίες στηρίζονται σε εκτιμήσεις πιθανότητας σχετικά με την εμφάνιση των συμβόλων στο κείμενο. Μέθοδοι βασισμένες σε λεξικό, οι οποίες αντικαθιστούν την εμφάνιση μίας σειράς συμβόλων με έναν δείκτη (pointer) στην αμέσως προηγούμενη εμφάνιση της σειράς.

25 Ανάκτηση Πληροφορίας25 Συμπίεση Κειμένων Συμπίεση StatisticalDictionary ModelingCoding 1. adaptive 2. static 3. semi-static 1. Huffman coding 2. Byte-oriented Huffman coding ModelingCoding 1. adaptive 2. static 3. semi-static Inverted File coding

26 Ανάκτηση Πληροφορίας26 Στατιστικές Μέθοδοι Συμπίεσης Σύμβολο: ένας χαρακτήρας, μία λέξη, μία σειρά χαρακτήρων. Αλφάβητο: το σύνολο των διαφορετικών συμβόλων. Μοντελοποίηση: η διαδικασία εκτίμησης της πιθανότητας των συμβόλων Κωδικοποίηση: η διαδικασία της μετατροπής των συμβόλων σε δυαδικά ψηφία

27 Ανάκτηση Πληροφορίας27 Στατιστικές Μέθοδοι Συμπίεσης Δύο βασικές μέθοδοι κωδικοποίησης (coding) που χρησιμοποιούνται στις στατιστικές μεθόδους συμπίεσης: Κωδικοποίηση Huffman (Huffman Coding) Αριθμητική Κωδικοποίηση (Arithmetic Coding)

28 Ανάκτηση Πληροφορίας28 Στατιστικές Μέθοδοι Συμπίεσης Η αριθμητική κωδικοποίηση επεξεργάζεται ένα σύμβολο τη φορά. Δεν επιτρέπεται η αποκωδικοποίηση μίας σειράς χαρακτήρων η οποία βρίσκεται στη μέση του κειμένου. Πρέπει κάθε φορά η αποκωδικοποίηση να ξεκινά από την αρχή του κειμένου. Για το λόγο αυτό τα συστήματα IR δεν χρησιμοποιούν τη μέθοδο της αριθμητικής κωδικοποίησης.

29 Ανάκτηση Πληροφορίας29 Στατιστικές Μέθοδοι Συμπίεσης Σχέση μεταξύ πιθανοτήτων και κωδικών (Claudde Shannon): Σε μία βέλτιστη μέθοδο κωδικοποίησης, ένα σύμβολο το οποίο αναμένεται να εμφανιστεί με πιθανότητα p, πρέπει να του αντιστοιχεί ένας κωδικός με μέγεθος bits

30 Ανάκτηση Πληροφορίας30 Στατιστικές Μέθοδοι Συμπίεσης Η μέση ποσότητα πληροφορίας κάθε συμβόλου σε όλο το αλφάβητο καλείται εντροπία της κατανομής και δίνεται από τον τύπο: Το Ε αποτελεί κάτω φράγμα ως προς τον αριθμό των bits που πρέπει να περιέχει ένα κωδικοποιημένο σύμβολο.

31 Ανάκτηση Πληροφορίας31 Στατιστικές Μέθοδοι Συμπίεσης Modeling Προσαρμοστικά (adaptive) Στατικά (static) Ημιστατικά (semi-static)

32 Ανάκτηση Πληροφορίας32 Στατιστικές Μέθοδοι Συμπίεσης Modeling Προσαρμοστικά Μοντέλα: Δεν έχουν καμία πληροφορία για το κείμενο, αλλά την αποκτούν σταδιακά καθώς προχωρά η διαδικασία συμπίεσης. Απαιτούν μόνο ένα πέρασμα στο κείμενο εισόδου. Για αρκετά μεγάλα κείμενα το μοντέλα συγκλίνουν στην πραγματική κατανομή του κειμένου. Η διαδικασία της αποσυμπίεσης πρέπει να ξεκινά από την αρχή. Καλή τεχνική για γενικές εφαρμογές αλλά όχι τόσο καλή για IR.

33 Ανάκτηση Πληροφορίας33 Στατιστικές Μέθοδοι Συμπίεσης Modeling Στατικά Μοντέλα: Θεωρούν μία μέση κατανομή όλων των κειμένων εισόδου. Δεν έχουν καλό λόγο συμπίεσης όταν το περιεχόμενο του κειμένου ξεφεύγει από τις αρχικές πιθανοτικές εκτιμήσεις (π.χ. οικονομικά κείμενα τα οποία περιέχουν πολλούς αριθμούς).

34 Ανάκτηση Πληροφορίας34 Στατιστικές Μέθοδοι Συμπίεσης Modeling Ημιστατικά Μοντέλα: Δεν υποθέτουν κατανομή δεδομένων, αλλά παίρνουν αυτήν την πληροφορία κατά το πρώτο πέρασμα. Στο δεύτερο πέρασμα γίνεται συμπίεση με βάση τα στατιστικά στοιχεία που εξάχθηκαν από το πρώτο πέρασμα. Στη φάση της αποκωδικοποίησης, η στατιστική πληροφορία μεταδίδεται στον decoder πριν την αποστολή του συμπιεσμένου κειμένου. Το βασικό τους μειονέκτημα είναι τα δύο περάσματα που απαιτούνται. Επιτρέπεται άμεση προσπέλαση σε οποιοδήποτε σημείο του κειμένου.

35 Ανάκτηση Πληροφορίας35 Στατιστικές Μέθοδοι Συμπίεσης Modeling Μοντέλα βασισμένα σε λέξεις (word-based): Επιτυγχάνεται καλύτερος λόγος συμπίεσης. Τα περισσότερα συστήματα IR στηρίζονται σε λέξεις. Η συχνότητα εμφάνισης λέξεων είναι χρήσιμη στην απάντηση ερωτήσεων τα οποία χρησιμοποιούν πολλές λέξεις μαζί. Η επεξεργασία συνήθως ξεκινά από τη λέξη με τη μικρότερη συχνότητα εμφάνισης.

36 Ανάκτηση Πληροφορίας36 Στατιστικές Μέθοδοι Συμπίεσης Modeling Μοντέλα βασισμένα σε λέξεις (word-based): Σε μερικές περιπτώσεις παράγονται μεγάλες ποσότητες διαφορετικών κωδικών (π.χ. αριθμοί) Συνήθως οι μέθοδοι που στηρίζονται σε λέξεις είναι αποδοτικές για αρκετά μεγάλα κείμενα. Γιατι;

37 Ανάκτηση Πληροφορίας37 Στατιστικές Μέθοδοι Συμπίεσης Coding Βασικά Σημεία: Ο κύριος στόχος ενός κωδικοποιητή είναι η αντιστοίχιση μικρών κωδικών σε συχνά εμφανιζόμενα σύμβολα και μεγάλων κωδικών σε σπάνια εμφανιζόμενα σύμβολα. Ο χρόνος κωδικοποίησης και αποκωδικοποίησης είναι σημαντικός. Μερικές φορές προτιμούμε να έχουμε μικρότερο λόγο συμπίεσης προκειμένου να κερδίσουμε σε χρόνο (π.χ. WinZIP).

38 Ανάκτηση Πληροφορίας38 Στατιστικές Μέθοδοι Συμπίεσης Coding Έστω τα σύμβολα A,B,C,D με τους εξής κωδικούς: Code(‘A’) = 0 Code(‘B’) = 000 Code(‘C’) = 11 Code(‘D’) = 1 Ο κωδικός σε ποια σειρά χαρακτήρων αντιστοιχεί; DDDAAA DCB CDAAA DDDB

39 Ανάκτηση Πληροφορίας39 Στατιστικές Μέθοδοι Συμπίεσης Coding Βασική προϋπόθεση: Μετά τη φάση της κωδικοποίησης κανένας κωδικός δεν πρέπει να αποτελεί prefix άλλου κωδικού.

40 Ανάκτηση Πληροφορίας40 Κωδικοποίηση Huffman Έστω το ακόλουθο κείμενο: one two three one two one one one two three four five one: 5/12 two: 3/12 three: 2/12 four: 1/12 five: 1/12 Συχνότητες εμφάνισης λέξεων

41 Ανάκτηση Πληροφορίας41 five 1/12four 1/12three 2/12two 3/12one 5/12 2/12 4/12 7/12 12/ Κωδικοποίηση Huffman Δένδρο Huffman

42 Ανάκτηση Πληροφορίας42 Κωδικοποίηση Huffman five: 0000 four: 0001 three: 001 two: 01 one: 1 Μετά την κωδικοποίηση προκύπτουν οι εξής κωδικοί: Τι παρατηρούμε;

43 Ανάκτηση Πληροφορίας43 Κωδικοποίηση Huffman Τι συμπίεση επιτυγχάνουμε για το παράδειγμα; Απαιτούνται 42*8 = 336 bits για το αρχικό κείμενο (χωρίς τους κενούς χαρακτήρες) Απαιτούνται 25 bits για το συμπιεσμένο κείμενο

44 Ανάκτηση Πληροφορίας44 Κωδικοποίηση Huffman Έστω το ακόλουθο κείμενο ABRACADABRA A5/11 B2/11 C1/11 D1/11 R2/11

45 Ανάκτηση Πληροφορίας45 Κωδικοποίηση Huffman C 1/11 D 1/11 B 2/11 R 2/11 A 5/11 2/11 4/11 6/11 11/ Δένδρο Huffman

46 Ανάκτηση Πληροφορίας46 Λεξικά Οι μέθοδοι βασισμένες σε λεξικά επιτυγχάνουν συμπίεση αντικαθιστώντας σειρές συμβόλων με δείκτες. Αυτό που πρέπει να προσέξουμε είναι η επιλογή των entries στο λεξικό.

47 Ανάκτηση Πληροφορίας47 Στατικές Μέθοδοι Λεξικών Οι πιο απλές μέθοδοι χρησιμοποιούν στατικά λεξικά τα οποία περιέχουν μικρές εκφράσεις. Είναι αρκετά γρήγορες και απαιτούν λίγο χρόνο για να επιτύχουν μικρά ποσοστά συμπίεσης. Μία διαδεδομένη μέθοδος είναι διγραμματική κωδικοποίηση (digram coding), στην οποία επιλεγμένα ζεύγη γραμμάτων αντικαθιστώνται με κωδικούς. Το βασικό πρόβλημα των στατικών μεθόδων είναι ότι ένα λεξικό κατάλληλο για ένα κείμενο μπορεί να είναι ακατάλληλο για κάποιο άλλο.

48 Ανάκτηση Πληροφορίας48 Ημι-στατικές Μέθοδοι Λεξικών Κατασκευάζουν νέο λεξικό για κάθε νέο κείμενο που συμπιέζεται. Το βασικό πρόβλημα στις μεθόδους αυτές είναι η επιλογή του λεξικού.

49 Ανάκτηση Πληροφορίας49 Προσαρμοστικές Μέθοδοι Μέθοδος Ziv-Lempel, 1970 Μία φράση αντικαθίσταται με έναν δείκτη ο οποίος αναφέρεται στην προηγούμενη εμφάνιση της φράσης. Η διαδικασία της αποκωδικοποίησης δεν μπορεί να ξεκινήσει από τη μέση του κειμένου, αλλά μόνο από την αρχή. Το ενδιαφέρον για τις μεθόδους βασισμένες σε λεξικά συνεχώς μειώνεται.

50 Ανάκτηση Πληροφορίας50 Αντεστραμμένο Αρχείο Μία δομή αντεστραμμένου αρχείου αποτελείται από: – Ένα διάνυσμα (vocabulary) το οποίο περιέχει όλες τις διακριτές λέξεις του κειμένου, και – Μία λίστα κειμένων για κάθε διακριτή λέξη

51 Ανάκτηση Πληροφορίας51 Παράδειγμα βιβλίο 1, 2, 10, 30,... μολύβι 1, 2, 10, 40, 43,... ταινία 11, 21, 22, 23,... ήχος 4, 6, 8,... Λέξεις IDs κειμένων

52 Ανάκτηση Πληροφορίας52 Συμπίεση Αντεστραμμένου Αρχείων Το μέγεθος ενός αντεστραμμένου αρχείου μπορεί να περιοριστεί αν συμπιέσουμε τις λίστες. Εφόσον τα IDs των κειμένων είναι σε αύξουσα σειρά, η σειρά μπορεί να χαρακτηριστεί σαν ακολουθία από κενά μεταξύ των κειμένων. Βασικό χαρακτηριστικό: για συχνά εμφανιζόμενες λέξεις τα κενά είναι μικρά, ενώ για σπάνιες λέξεις τα κενά είναι μεγάλα.

53 Ανάκτηση Πληροφορίας53 Unary Code Ένας ακέραιος αριθμός x κωδικοποιείται με (x-1) άσσους και ακολουθεί ένα μηδενικό. 1, 0 2, 10 3, 110 4, 1110

54 Ανάκτηση Πληροφορίας54 Ένας ακέραιος αριθμός x κωδικοποιείται με την ένωση δύο τμημάτων: - έναν unary code για τον αριθμό 1+floor(logx) και - έναν κωδικό από floor(logx) bits ο οποίος αναπαριστά στο δυαδικό σύστημα τον αριθμό Elias - γ Elias-δ παραλλαγή

55 Ανάκτηση Πληροφορίας55 Golomb Στα αντεστραμμένα αρχεία η πιθανότητα ένα κενό (gap) να έχει μέγεθος x ισοδυναμεί με την πιθανότητα να έχουμε x-1 απουσίες της λέξης και να ακολουθεί μία παρουσία της λέξης. Εάν μία λέξη εμφανίζεται σε ένα κείμενο με πιθανότητα p, η πιθανότητα να υπάρχει gap μεγέθους x δίνεται από τη γεωμετρική κατανομή

56 Ανάκτηση Πληροφορίας56 Παραδείγματα Gap (x)UnaryElias-γElias-δGolomb b=

57 Ανάκτηση Πληροφορίας57 Σύγκριση Μεθόδων Συμπίεσης ΧαρακτηριστικόΑριθμητικές Μέθοδοι Huffman character-based Huffman word-based Ziv-Lempel λόγος συμπίεσηςΠολύ καλόςΌχι καλόςΠολύ καλόςΚαλός ταχύτητα συμπίεσηςΑργήΓρήγορη Πολύ γρήγορη ταχύτητα αποσυμπίεσης ΑργήΓρήγορηΠολύ γρήγορη μνήμηΧαμηλή ΥψηλήΜέτρια αναζήτηση σε συμπιεσμένο κείμενο ΌχιΝαι τυχαία προσπέλασηΌχιΝαι Όχι

58 Ανάκτηση Πληροφορίας58 Τάσεις και Έρευνα Η τάση στα σύγχρονα συστήματα IR είναι η χρήση semi-static word-based Huffman coding. Τα πειραματικά αποτελέσματα έχουν δείξει ότι είναι οι πλέον αποτελεσματικές μέθοδοι. Με τη δυνατότητα που υπάρχει να αναζητούμε απευθείας στο συμπιεσμένο κείμενο, υπάρχει η τάση τόσο ο index όσο και το κείμενο να παραμένουν συμπιεσμένα και να αποσυμπιέζονται μόνο μετά από απαίτηση του χρήστη.

59 Ανάκτηση Πληροφορίας59 Σύνοψη Προεπεξεργασία κειμένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms Δημιουργία δομών κατηγοριών Συμπίεση κειμένων Μοντελοποίηση Κωδικοποίηση


Κατέβασμα ppt "Λειτουργίες επί των Κειμένων Προεπεξεργασία Clustering Συμπίεση."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google