Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Εργασίες 1. Συμ π ίεση κειμένου με τη μέθοδο της κωδικο π οίησης Huffmann. Στην π αρούσα εργασία ζητείται η ε π ισκό π ηση μιας π ολύ διαδεδομένης μεθόδου.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Εργασίες 1. Συμ π ίεση κειμένου με τη μέθοδο της κωδικο π οίησης Huffmann. Στην π αρούσα εργασία ζητείται η ε π ισκό π ηση μιας π ολύ διαδεδομένης μεθόδου."— Μεταγράφημα παρουσίασης:

1 Εργασίες 1. Συμ π ίεση κειμένου με τη μέθοδο της κωδικο π οίησης Huffmann. Στην π αρούσα εργασία ζητείται η ε π ισκό π ηση μιας π ολύ διαδεδομένης μεθόδου κωδικο π οίησης και συμ π ίεσης, της μεθόδου Huffman. Η μέθοδος αυτή δίνει κωδικο π οίηση συμβόλου με μέσο μήκος κώδικα, ίσο με την εντρο π ία της κατανομής εμφάνισης των συμβόλων και γι ’ αυτό το λόγο είναι βέλτιστη. Στην π αρούσα εργασία ζητείται ε π ισκό π ηση της μεθόδου και των π αραλλαγών της με έμφαση στη δυναμική κωδικο π οίηση Huffman. Προαιρετικά μ π ορεί να γίνει και μια υλο π οίηση της μεθόδου. Υλικό :  Κεφάλαιο 7 από το βιβλίο “Modern Information Retrieval”.  Κεφάλαιο 2 από το βιβλίο “Managing Gigabytes”.  Δημοσιεύσεις του Jeff Vitter για Huffman Coding (http://www.cs.duke.edu/~jsv/Papers/catalog/).http://www.cs.duke.edu/~jsv/Papers/catalog/  Kεφάλαιο 12 από το βιβλίο “Algorithms and Theory of Computation Handbook”, CRC Press 1999.

2 Εργασίες 2. Συμ π ίεση κειμένου με τη μέθοδο της αριθμητικής κωδικο π οίησης. Στην παρούσα εργασία ζητείται η επισκόπηση μιας διαδεδομένης μεθόδου κωδικοποίησης συμβόλων και συμπίεσης κειμένων, της αριθμητικής κωδικοποίησης. Ζητείται η επισκόπηση της μεθόδου και των παραλλαγών της καθώς και παρουσίαση των πλεονεκτημάτων ή μειονεκτημάτων που τυχόν αυτή παρουσιάζει σε σχέση με άλλες τεχνικές κωδικοποίησης. Προαιρετικά η εργασία μπορεί να συνοδευτεί και από υλοποίηση της μεθόδου. Υλικό :  Κεφάλαιο 7 από το βιβλίο «Modern Information Retrieval”.  Κεφάλαιο 2 από το βιβλίο «Managing Gigabytes”.  Δημοσιεύσεις του Jeff Vitter για Arithmetic Coding (http://www.cs.duke.edu/~jsv/Papers/catalog/).http://www.cs.duke.edu/~jsv/Papers/catalog/  Kεφάλαιο 12 από το βιβλίο “Algorithms and Theory of Computation Handbook” CRC Press 1999.

3 Εργασίες 3. Μέθοδοι Συμπίεσης με χρήση της μεθόδου Burrows- Wheeler. Ο μετασχηματισμός Burrows-Wheeler μετασχηματίζει την ακολουθία εισόδου σε μια ακολουθία, η οποία στη συνέχεια είναι εύκολο να συμπιεστεί. Η παρούσα εργασία αποσκοπεί στην μελέτη της μεθόδου και κάποιων παραλλαγών της. Υλικό :  H δημοσίευση του G. Manzini “An Analysis of the Burrows–Wheeler Transform”, Journal of the ACM, 48:3, pp

4 Εργασίες 4. Τεχνικές συμπίεσης ανεστραμμένων αρχείων. Αντικείμενο αυτής της εργασίας είναι η μελέτη των διαφόρων τεχνικών που έχουν προταθεί για την συμπίεση των ανεστραμμένων αρχείων (inverted files). Τα ανεστραμμένα αρχεία είναι μια από τις πιο γνωστές μεθόδους αποθήκευσης κειμένων σε συστήματα ανάκτησης πληροφορίας. Ζητείται παρουσίαση της μεθόδου και κάποιων από τις τεχνικές για την συμπίεση των ανεστραμμένων αρχείων. Εναλλακτικά η εργασία μπορεί να παρουσιάσει μια συγκριτική μελέτη των ανεστραμμένων αρχείων με άλλες γνωστές τεχνικές, όπως είναι τα signature files. Υλικό :  Κεφάλαιο 3 από το βιβλίο “Managing Gigabytes”  Η δημοσίευση των Zobel J.R., Moffat A. and Ramamohanarao K., “Inverted Files Versus Signature Files for Text Indexing”, ACM Trans. On Database Systems, Vol. 23, No 4, pp , 1998.

5 Εργασίες 5. Τεχνικές δημιουργίας ανεστραμμένων αρχείων. Τα ανεστραμμένα αρχεία είναι μια από τις πιο διαδεδομένες τεχνικές δεικτοδότησης κειμένων και η λειτουργία τους βασίζεται στην αποθήκευση των λέξεων και των εμφανίσεών τους σε κείμενα, αντί για την αποθήκευση κειμένων. Στην παρούσα εργασία ζητείται η παρουσίαση των τεχνικών που έχουν παρουσιαστεί στη βιβλιογραφία για την κατασκευή των ανεστραμμένων αρχείων με προαιρετική συνοδεία υλοποίησης κάποιας από αυτές. Υλικό :  Κεφάλαιο 5 από το βιβλίο “Managing Gigabytes”.  Κεφάλαιο 3 από το βιβλίο “Information Retrieval: Data Structures and Algorithms”.  Κεφάλαιο 8 από το βιβλίο “Modern Information Retrieval”.

6 Εργασίες 6. Ανάκτηση Πληροφορίας με τη μέθοδο της Λανθάνουσας Σημασιολογικής Δεικτοδότησης (Latent Semantic Indexing).. Η Λανθάνουσα Σημασιολογική Δεικτοδότηση είναι μια μέθοδος δεικτοδότησης και αναπαράστασης κειμένων, βάσει των εννοιολογικών συστάδων που προκύπτουν στα περιεχόμενα των κειμένων και όχι της απλής λεκτικής δεικτοδότησης που εφαρμόζεται στο μοντέλο Διανυσματικού Χώρου (Vector Space). Η αναπαράσταση δανείζεται τεχνικές από τη γραμμική άλγεβρα και συγκεκριμένα την Διάσπαση Ιδιαζουσών Τιμών (Singular Value Decomposition). Στην εργασία προτείνεται παρουσίαση της μεθόδου και των ιδιοτήτων της, καθώς και των εφαρμογών που τυγχάνει. Υλικό :  Δημοσιεύσεις σχετικά με το LSI από τη σελίδα της Telcordia (http://lsi.research.telcordia.com/lsi/LSIpapers.html) με σημείο εκκίνησης το πρώτο paper για LSI από Deerwester, S., Dumais, S. T., Landauer, T. K., Furnas, G. W. και Harshman, R. A., "Indexing by Latent Semantic Analysis." Journal of the Society for Information Science, 41(6), , 1990.http://lsi.research.telcordia.com/lsi/LSIpapers.html  Δημοσιεύσεις σχετικά με το LSI από τη σελίδα u.ac.jp/member/kita/NLP/IR.htmlhttp://www-a2k.is.tokushima- u.ac.jp/member/kita/NLP/IR.html

7 Εργασίες 7. Τεχνικές Μοντελοποίησης Χρήστη (User Modeling) για Φιλτράρισμα Πληροφορίας (Information Filtering) Αντικείμενο της π αρούσας εργασίας είναι η π αρουσίαση των τεχνικών για την π ροσω π ο π οίηση των συστημάτων ανάκτησης π ληροφορίας και συγκεκριμένα συστημάτων φιλτραρίσματος π ληροφορίας, με τη χρήση π ροσαρμοστικών υ π ερμέσων. Υλικό :  Κεφάλαιο 10 α π ό το βιβλίο “ Modern Information Retrieval ”.  Ένα κεφάλαιο α π ό το βιβλίο “ Adaptive Hypertext and Hypermedia ”.  H δημοσίευση της Kjersti Aas “ A Survey on Personalized Information Filtering Systems for the World Wide Web” December 1997”.

8 Εργασίες 8. Δεικτοδότηση κειμένων με χρήση Suffix Trees και Suffix Arrays. Δύο εναλλακτικές μέθοδοι για την δεικτοδότηση κειμένων στην κύρια μνήμη, α π οτελούν τα Suffix Trees και μια π αρόμοια αλλά π ιο α π οδοτική σε χώρο π αρόμοια δομή, τα Suffix Arrays. Οι μέθοδοι αυτοί έχουν π ροσελκύσει μεγάλο ενδιαφέρον λόγω των αυξημένων δυνατοτήτων π ου π αρουσιάζουν για α π οδοτική διαχείριση συμβολοσειρών, ταχύ ταίριασμα π ροτύ π ου (pattern matching), εύρεση ε π αναλήψεων κλ π. Προτείνεται η συγκριτική μελέτη των δύο δομών με εστίαση στα π λεονεκτήματα - μειονεκτήματα π ου εμφανίζουν. Προαιρετικά π ροτείνεται η υλο π οίηση suffix arrays. Υλικό :  Κεφάλαιο 11 από το βιβλίο “Algorithms and Theory of Computation Handbook” CRC Press  Κεφάλαιο 5 από το βιβλίο “Ηandbook of Theoretical Computer Science: Algorithms and Complexity, Volume A” Elsevier,1990.  Η δημοσίευση των Manbers, U. και Myers, G.W. “Suffix arrays: a new method for on-line string searches”. SIAM J. Comput., 22, , 1993.

9 Εργασίες 9. Αλγόριθμοι Ανάκτησης Πληροφορίας στο Παγκόσμιο Ιστό. Η μεγαλύτερη π ρόκληση για τα μοντέρνα συστήματα ανάκτησης π ληροφορίας, είναι ο χώρος του διαδικτύου με την α π εραντοσύνη και την χαοτική δομή π ου τον διακρίνει. Κά π οια α π ό τα ε π ιτυχημένα μοντέλα ( ένα α π ό αυτά μάλιστα χρησιμο π οιείται α π ό το Google ) για την α π οδοτική ανάκτηση π ληροφορίας, ανάγουν τη δομή του διαδικτύου σε γράφημα και μελετούν τις φασματικές ιδιότητές τους. Στα π λαίσια αυτής της εργασίας π ροτείνεται η συγκριτική μελέτη των κυριότερων αλγορίθμων ανάκτησης π ληροφορίας στο διαδίκτυο ( HITS, Pagerank ). Προαιρετικά η άσκηση μ π ορεί να συνοδεύεται με υλο π οίηση ενός εκ των δύο αλγορίθμων. Υλικό :  Οι δημοσιεύσεις του Kleinberg σχετικά με Information Networks, και οι αντίστοιχες δημοσιεύσεις για το σύστημα Clever (http://www.cs.cornell.edu/home/kleinber/, ).http://www.cs.cornell.edu/home/kleinber/  Δημοσιεύσεις σχετικά με τη μηχανή αναζήτησης Google. (http://www7.scu.edu.au/programme/fullprog.html ).http://www7.scu.edu.au/programme/fullprog.html

10 Εργασίες 10. Τεχνικές Μοντελοποίησης και Διαχείρισης Πολυμεσικών Αντικειμένων Πληροφορίας. Στα συστήματα πολυμεσικής ανάκτησης πληροφορίας τα δεδομένα που αποθηκεύονται παρουσιάζουν μεγάλο βαθμό ετερογένειας και γι’ αυτό το λόγο τόσο η αποθήκευση όσο και η μοντελοποίηση των δεδομένων και η μοντελοποίηση του τρόπου υποβολής ερωτημάτων έχουν ιδιαίτερη σημασία. Αντικείμενο αυτής της εργασίας είναι η παρουσίαση κάποιων μοντέλων και τεχνικών για fuzzy searching και content based υποβολή ερωτημάτων σε πολυμεσικά συστήματα ανάκτησης πληροφορίας Υλικό :  Κεφάλαια 11,12 από το βιβλίο “Modern Information Retrieval”.  Κεφάλαιο 9 από το βιβλίο “Principles of Multimedia Database Systems” του V.S. Subrahmanian.  H δημοσίευση των S. Marcus και V.S. Subrahmanian, “Foundations of Multimedia Database Systems” Journal of the ACM 43(3): , 1996

11 Εργασίες 11. Αλγόριθμοι και Τεχνικές για Text Mining και Text Categorization Τόσο η κατηγοριοποίηση κειμένων όσο και η εξόρυξη πληροφορίας από κείμενα είναι περιοχές μεγάλου ενδιαφέροντος στην Ανάκτηση Πληροφορίας. Και οι δύο τομείς αυτοί έχουν προσελκύσει ιδιαίτερο ενδιαφέρον τελευταία λόγω του μεγάλου όγκου των δεδομένων που είναι διαθέσιμα ηλεκτρονικά, σε συστήματα Ανάκτησης Πληροφορίας και στο Διαδίκτυο. Υλικό :  Η δημοσίευση του F. Sebastiani, “Machine learning in automated text categorization”, ACM Computing Surveys, 34:1, pp.1-47, 2002, διαθέσιμη στο: =ACM&CFID= &CFTOKEN= =ACM&CFID= &CFTOKEN=  Οι δημοσιεύσεις της Kjersti Aas “Pattern Recognition in Text Documents”, June 2000, “Text categorization – A survey”, June

12 Εργασίες 12. Aλγόριθμοι και Τεχνικές για Web Mining. Το Web Mining είναι μια επέκταση του κλασσικού Data Mining για την εξόρυξη πληροφορίας που αφορά τη δομή του παγκόσμιου ιστού και κατά κύριο λόγο, τις πλοηγητικές και αγοραστικές συνήθειες των επισκεπτών του. Για τον σκοπό αυτό, χρησιμοποιούνται μια πλειάδα από τεχνικές και ευρετικές μέθοδοι. Η εργασία αυτή θα παρουσιάζει επιλεγμένες τεχνικές για Web Mining. Υλικό :  Η δημοσίευση των M.-S. Chen, J.S. Park, P.S. Yu, “Efficient Data Mining for Path Traversal Patterns”, Knowledge and Data Engineering, 10:2, pp , 1998, διαθέσιμη από  Η δημοσίευση των R. Srikant, Y. Yang, “Mining Web Logs to Improve Website Organization”, WWW10,  Η διδακτορική διατριβή του R.W. Cooley, “Web Usage Mining: Discovery and Application of Interesting Patterns from Web Data”, University of Minnesota, 2000.

13 Εργασίες 13. Αλγόριθμοι και Τεχνικές Αποθήκευσης, Δεικτοδότησης για XML-κείμενα Η γλώσσα XML είναι το νέο ε π ερχόμενο π ρότυ π ο στην α π οθήκευση π ληροφορίας, ό π ου ε π ι π λέον υ π άρχει η δυνατότητα α π οθήκευσης π ληροφορίας σχετικά με τη δομή. Στα π λαίσια αυτής της εργασίας έχει ενδιαφέρον η μελέτη των εφαρμογών της γλώσσας XML στον χώρο της Ανάκτησης Πληροφορίας καθώς και των μεθόδων για α π οθήκευση και δεικτοδότηση XML κειμένων. Υλικό :  To XML tutorial των Anders Møller & Michael I. Schwartzbach, από την διεύθυνση:  Η δημοσίευση των F. Rizzolo, A. Mendelzon “Indexing XML Data with ToXin”, 4 th WebDB 2001, από τη διεύθυνση:  H. Wang, S. Park, W. Fan, and P. S. Yu. “ViST: A dynamic index method for querying XML data by tree structures.” In SIGMOD, 2003, από τη διεύθυνση:

14 Εργασίες 14. Social networks και Ανάκτηση Πληροφορίας Στα κοινωνιολογικά Δίκτυα, π αρατηρείται εμ π ειρικά το φαινόμενο της δυνατότητας ε π ικοινωνίας δύο π αντελώς αγνώστων ανθρώ π ων, μέσω μιας, μικρής σε μήκος, αλυσίδας α π ό γνωριμίες. Αυτό το φαινόμενο ε π ιδέχεται ερμηνείας α π ό τη θεωρία γραφημάτων και οι συνέ π ειες α π ό την εφαρμογή σχετικών μοντέλων, μ π ορούν να φανούν χρήσιμες σε εφαρμογές Ανάκτησης Πληροφορίας. Υλικό :  Δημοσίευσεις του J. Kleinberg, σχετικά με Small World Phenomena,  Η δημοσίευση των R. Kumar, S. Rajagopalan, P. Raghavan and A. Tomkins “The web and social networks”, IEEE Computer, November  Η δημοσίευση των M. Bawa, G.S. Manku and P. Raghavan, “SETS: Search Enhanced by Topic Segmentation”. Proceedings of ACM SIGIR 2003.

15 15. Πολυγλωσσική Ανάκτηση Πληροφορίας 16. Κατανεμημένη Ανάκτηση Πληροφορίας 17. Νέα Μοντέλα Ανάκτησης Πληροφορίας, Language Models and Probabilistic Models 18. Υλοποίηση αλγορίθμων stemming 19. Opinion mining sentiment analysis 20. Learning to Rank Techniques. 21. Compression by Web Page Identification 22. Dynamic Inverted Files/Wavelet Trees


Κατέβασμα ppt "Εργασίες 1. Συμ π ίεση κειμένου με τη μέθοδο της κωδικο π οίησης Huffmann. Στην π αρούσα εργασία ζητείται η ε π ισκό π ηση μιας π ολύ διαδεδομένης μεθόδου."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google