Εργασίες 1. Συμπίεση κειμένου με τη μέθοδο της κωδικοποίησης Huffmann.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Επαγγέλματα Πληροφορικής Λύκειο Αρχαγγέλου «Απ. Μάρκος» Επιμέλεια παρουσίασης: Κ. Γεωργιάδης Π. Πελοπίδας Χ. Παπαχριστοδούλου Ε. Μιχαήλ.
Advertisements

Εργασίες 1. Συμπίεση κειμένου με τη μέθοδο της κωδικοποίησης Huffmann.
Indexing.
Διάγραμμα Παρουσίασης
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
ΚΕΙΜΕΝΟ  Ο πρώτος τρόπος απεικόνισης πληροφορίας (και βασικός ως σήμερα).  Αδυναμία πρώτων υπολογιστών να χειριστούν άλλη μορφή πληροφορίας.  Πρόβλημα.
1 Μηχανές αναζήτησης στον Παγκόσμιο Ιστό Search Engines.
Συστήματα Διαχείρισης Βάσεων Δεδομένων Τίμος Σελλής, Καθηγητής ΕΜΠ, Διευθυντής ΙΠΣΥΠ, Ε.K. “Αθηνά”
Η Θεματική Ταξινόμηση και η Συμβολή της στην Αναζήτηση Ευρωπαϊκών Κοινωνικών Δεδομένων.
ΗΥ-566 Διαχείρηση Γνώσης στο Διαδίκτυο1 SWRC Ontology Κτιστάκης Γιώργος Μπούτσικα Κατερίνα Παπαδάκης Μύρων.
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
ΠΡΟΤΥΠΑ ΜΑΘΗΣΙΑΚΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΠΑΡΟΥΣΙΑΣΗ ΚΑΙ ΔΙΔΑΚΤΙΚΑ ΟΦΕΛΗ Ενότητα 3.7 – Β’ Μέρος.
Δεικτοδότηση και Αναζήτηση (Indexing & Searching)
Τεχνικές κατασκευής δένδρων επιθεμάτων πολύ μεγάλου μεγέθους και χρήσης τους για γρήγορη αναζήτηση βιολογικών δεδομένων Βασίλης Πολυχρονόπουλος.
Πτυχιακή εργασία των Κωνσταντίνου Κουρμούση (1604)
Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)
Τμήμα Πληροφορικής ΑΠΘ
Μηχανική Μάθηση και Εξόρυξη Γνώσης
Η μηχανική μάθηση στην αντιμετώπιση της Υπερπληροφόρησης
1 ΠΟΛΥΜΕΣΑ ΚΑΙ ΔΙΚΤΥΑ Μάθημα 1 ο : Μέσα και πολυμέσα Εισηγήτρια:Αναστασία Κατρανίδου.
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ
ΚΕΦΑΛΑΙΟ 3 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΩΝ Γ.Σ.Π.. ΟΡΙΣΜΟΙ Ένα σύστημα για τακτικό και συνηθισμένο τρόπο επεξεργασίας δεδομένων και για απάντηση προκαθορισμένων και.
ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ & ΤΕΧΝΟΛΟΓΙΑΣ Θέμα: Διοίκηση ανάπτυξης μη-κερδοσκοπικού ιστόπεδου (ιστόπεδου Δήμου Αγ.Παρασκευής)
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Οργάνωση πληροφοριών Ευρετηρίαση Μέρος Β Σχεδιασμός ευρετηρίων.
ΠΟΛΥΜΕΣΑ. OI “MULTI-ΔΙΑΣΤΑΣΕΙΣ” ΤΩΝ MULTIMEDIA ΣΤΟ BLOG ΜΑΣ Τι είναι τα πολυμέσα? Τα Πολυμέσα (Multimedia) είναι ο κλάδος της πληροφορικής τεχνολογίας.
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Ανάκτηση Πληροφορίας Διδάσκων: Μακρής Χρήστος Γραφείο: Π502 (ΠΡΟΚΑΤ)
ΠΟΛΥΜΝΙΑ - Ολοκληρωμένο Σύστημα Εργαλείων Μουσικής και Μουσική Πύλη
Δομές Δεδομένων (Data Structures) 3o Εξάμηνο Σπουδών Διδάσκων: Απόστολος Παπαδόπουλος και
ΑΝΑΠΤΥΞΗ ΤΑΞΙΝΟΜΗΤΗ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΑΛΕΖΑ ΣΟΦΙΑ ΑΕΜ:765.
Ψηφιακό Αρχείο Τύπου Δημοσιογραφικού Οργανισμού Λαμπράκη
CALIS (China Academic Library and Information System) Κοινοπραξία ακαδημαϊκών βιβλιοθηκών της Κίνας Σύστημα παροχής πληροφοριών 1998.
Πανόπουλος Κώστας Διευθυντής Ανάπτυξης Εφαρμογών.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΜΣ: «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΕΡΓΑΣΙΑ: MULTI-DOCUMENT SUMMARIZATIONS.
Εικονικοί τρισδιάστατοι κόσμοι ΠΜΣ:Δυνητικές κοινότητες Παρουσίαση : Θεοδωρίδη Άννα
Νευρωνικά Δίκτυα και Latent Semantic Indexing 1.Άλλα αλγεβρικά συστήματα που αξιοποιούν εξάρτηση όρων (α) Μοντέλο Νευρωνικών Δικτύων (β) Μοντέλο Λανθάνουσας.
ΠΜΣ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ The Digital Library and Computational Philology: The BAMBI Project Γόντικα Ειρήνη.
Κλασσικά Μοντέλα Ανάκτησης Πληροφορίας Βασική πηγη το βιβλίο και οι διαφάνειες R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley,
ΣΥΓΚΟΜΙΔΗ ΜΕΤΑΔΕΔΟΜΕΝΩΝ (METADATA HARVESTING) ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ - ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ "Διοίκηση & Οργάνωση Βιβλιοθηκών με έμφαση στις.
ΜΑΘΗΜΑ: ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ ΔΙΔΑΣΚΟΝΤΕΣ: Κ. ΛΑΖΟΣ - Π. ΚΑΤΣΑΡΟΣ Τρίτη, 14 Απριλίου 2015Τρίτη, 14 Απριλίου 2015Τρίτη, 14 Απριλίου 2015Τρίτη, 14 Απριλίου 2015Τμ.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ- ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Υπεύθυνος καθηγητής: κος. Σ. Καπιδάκης Επιμελήτρια: Παπαγιάννη Ανδρονίκη.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ “ USING MILOS TO BUILD A MULTIMEDIA.
University of Crete HY566-Semantic Web CS566 – Semantic Web Computer Science Department - UoC Heraklion 1 April, 2003 Παπαγγελής Μάνος, Κοφφινά Ιωάννα,
1 Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ XML ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ επιμέλεια : ΡΑΜΜΑ ΧΑΡΙΚΛΕΙΑ ΑΘΗΝΑ 2007 Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας –
Διαδίκτυο Κίκα Χρυσοστόμου. Υπάρχει η δυνατότητα ενσωμάτωσης μιας φόρμας σε μια ιστοσελίδα. Μπορούμε να συμπληρώσουμε κάποια στοιχεία και να τα υποβάλουμε.
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 1 Βάσεις Διαδικτύου.
ΑΠΟΘΗΚΕΣ ΚΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ
Εισαγωγή στη Βιοπληροφορική Ενότητα 9: Text Mining Μακρής Χρήστος, Τσακαλίδης Αθανάσιος, Ιωάννου Μαρίνα Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ και Πληροφορικής.
Χάρης Κονδυλάκης Σχεδιασμός Ιστοχώρων 1. Παραδείγματα ιστοχώρων del.icio.us europa.eu lufthansa.aero cnn.tv.
ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ανδρέου Βασίλης.
Εισαγωγή στις βάσεις δεδομένων ISBN
Ανάλυση δεδομένων κοινωνικής έρευνας
Web, Web 2.0, Web 3.0 και Web X.0 ΚΕΦΑΛΑΙΟ 9.
Σημασιολογική Διαχείριση και Επεξεργασία Πολυμεσικών Μεταδεδομένων
MOODLE- assessment tools
Βάσεις Δεδομένων και Παγκόσμιος Ιστός
Ανάκτηση Πληροφορίας Διδάσκων: Μακρής Χρήστος
Εργασίες 1. Συμπίεση κειμένου με τη μέθοδο της κωδικοποίησης Huffmann.
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Διαδικαστικά.
Εισαγωγή στις Βάσεις Δεδομένων
ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ
Εισαγωγή στις Βάσεις Δεδομένων
Η ΔΙΑΧΥΣΗ ΤΩΝ ΠΛΗΡΟΦΟΡΙΩΝ ΜΕΣΩ ΔΙΑΔΙΚΤΥΟΥ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΣΤΟΝ ΚΛΑΔΟ ΤΗΣ ΥΓΕΙΑΣ 1. Τσώνη Αλεξία, Μετ. Φοιτήτρια , Πανεπιστήμιο Πελοποννήσου, Τμήμα.
Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση
Διαχείριση πληροφοριών και επικοινωνίες
Μεταγράφημα παρουσίασης:

Εργασίες 1. Συμπίεση κειμένου με τη μέθοδο της κωδικοποίησης Huffmann. Στην παρούσα εργασία ζητείται η επισκόπηση μιας πολύ διαδεδομένης μεθόδου κωδικοποίησης και συμπίεσης, της μεθόδου Huffman. Η μέθοδος αυτή δίνει κωδικοποίηση συμβόλου με μέσο μήκος κώδικα, ίσο με την εντροπία της κατανομής εμφάνισης των συμβόλων και γι’ αυτό το λόγο είναι βέλτιστη. Στην παρούσα εργασία ζητείται επισκόπηση της μεθόδου και των παραλλαγών της με έμφαση στη δυναμική κωδικοποίηση Huffman. Προαιρετικά μπορεί να γίνει και μια υλοποίηση της μεθόδου. Υλικό: Κεφάλαιο 7 από το βιβλίο “Modern Information Retrieval”. Κεφάλαιο 2 από το βιβλίο “Managing Gigabytes”. Δημοσιεύσεις του Jeff Vitter για Huffman Coding (http://www.cs.duke.edu/~jsv/Papers/catalog/). Kεφάλαιο 12 από το βιβλίο “Algorithms and Theory of Computation Handbook”, CRC Press 1999.

Εργασίες   2. Συμπίεση κειμένου με τη μέθοδο της αριθμητικής κωδικοποίησης . Στην παρούσα εργασία ζητείται η επισκόπηση μιας διαδεδομένης μεθόδου κωδικοποίησης συμβόλων και συμπίεσης κειμένων, της αριθμητικής κωδικοποίησης. Ζητείται η επισκόπηση της μεθόδου και των παραλλαγών της καθώς και παρουσίαση των πλεονεκτημάτων ή μειονεκτημάτων που τυχόν αυτή παρουσιάζει σε σχέση με άλλες τεχνικές κωδικοποίησης. Προαιρετικά η εργασία μπορεί να συνοδευτεί και από υλοποίηση της μεθόδου. Υλικό: Κεφάλαιο 7 από το βιβλίο «Modern Information Retrieval”. Κεφάλαιο 2 από το βιβλίο «Managing Gigabytes”. Δημοσιεύσεις του Jeff Vitter για Arithmetic Coding (http://www.cs.duke.edu/~jsv/Papers/catalog/) . Kεφάλαιο 12 από το βιβλίο “Algorithms and Theory of Computation Handbook” CRC Press 1999.

Εργασίες 3. Μέθοδοι Συμπίεσης με χρήση της μεθόδου Burrows-Wheeler . Υλικό: H δημοσίευση του G. Manzini “An Analysis of the Burrows–Wheeler Transform”, Journal of the ACM, 48:3, pp. 407-430.

Εργασίες 4. Τεχνικές συμπίεσης ανεστραμμένων αρχείων .   4. Τεχνικές συμπίεσης ανεστραμμένων αρχείων . Αντικείμενο αυτής της εργασίας είναι η μελέτη των διαφόρων τεχνικών που έχουν προταθεί για την συμπίεση των ανεστραμμένων αρχείων (inverted files). Τα ανεστραμμένα αρχεία είναι μια από τις πιο γνωστές μεθόδους αποθήκευσης κειμένων σε συστήματα ανάκτησης πληροφορίας. Ζητείται παρουσίαση της μεθόδου και κάποιων από τις τεχνικές για την συμπίεση των ανεστραμμένων αρχείων. Εναλλακτικά η εργασία μπορεί να παρουσιάσει μια συγκριτική μελέτη των ανεστραμμένων αρχείων με άλλες γνωστές τεχνικές, όπως είναι τα signature files. Υλικό: Κεφάλαιο 3 από το βιβλίο “Managing Gigabytes” Η δημοσίευση των Zobel J.R., Moffat A. and Ramamohanarao K., “Inverted Files Versus Signature Files for Text Indexing”, ACM Trans. On Database Systems, Vol. 23, No 4, pp. 863-896, 1998.

Εργασίες 5. Τεχνικές δημιουργίας ανεστραμμένων αρχείων.   5. Τεχνικές δημιουργίας ανεστραμμένων αρχείων. Τα ανεστραμμένα αρχεία είναι μια από τις πιο διαδεδομένες τεχνικές δεικτοδότησης κειμένων και η λειτουργία τους βασίζεται στην αποθήκευση των λέξεων και των εμφανίσεών τους σε κείμενα, αντί για την αποθήκευση κειμένων. Στην παρούσα εργασία ζητείται η παρουσίαση των τεχνικών που έχουν παρουσιαστεί στη βιβλιογραφία για την κατασκευή των ανεστραμμένων αρχείων με προαιρετική συνοδεία υλοποίησης κάποιας από αυτές. Υλικό: Κεφάλαιο 5 από το βιβλίο “Managing Gigabytes”. Κεφάλαιο 3 από το βιβλίο “Information Retrieval: Data Structures and Algorithms”. Κεφάλαιο 8 από το βιβλίο “Modern Information Retrieval”.

Εργασίες   6.Ανάκτηση Πληροφορίας με τη μέθοδο της Λανθάνουσας Σημασιολογικής Δεικτοδότησης (Latent Semantic Indexing). . Η Λανθάνουσα Σημασιολογική Δεικτοδότηση είναι μια μέθοδος δεικτοδότησης και αναπαράστασης κειμένων, βάσει των εννοιολογικών συστάδων που προκύπτουν στα περιεχόμενα των κειμένων και όχι της απλής λεκτικής δεικτοδότησης που εφαρμόζεται στο μοντέλο Διανυσματικού Χώρου (Vector Space). Η αναπαράσταση δανείζεται τεχνικές από τη γραμμική άλγεβρα και συγκεκριμένα την Διάσπαση Ιδιαζουσών Τιμών (Singular Value Decomposition). Στην εργασία προτείνεται παρουσίαση της μεθόδου και των ιδιοτήτων της, καθώς και των εφαρμογών που τυγχάνει. Υλικό: Δημοσιεύσεις σχετικά με το LSI από τη σελίδα της Telcordia (http://lsi.research.telcordia.com/lsi/LSIpapers.html) με σημείο εκκίνησης το πρώτο paper για LSI από Deerwester, S., Dumais, S. T., Landauer, T. K., Furnas, G. W. και Harshman, R. A. , "Indexing by Latent Semantic Analysis." Journal of the Society for Information Science, 41(6), 391-407, 1990. Δημοσιεύσεις σχετικά με το LSI από τη σελίδα http://www-a2k.is.tokushima-u.ac.jp/member/kita/NLP/IR.html

Εργασίες   7. Τεχνικές Μοντελοποίησης Χρήστη (User Modeling) για Φιλτράρισμα Πληροφορίας (Information Filtering) Αντικείμενο της παρούσας εργασίας είναι η παρουσίαση των τεχνικών για την προσωποποίηση των συστημάτων ανάκτησης πληροφορίας και συγκεκριμένα συστημάτων φιλτραρίσματος πληροφορίας, με τη χρήση προσαρμοστικών υπερμέσων. Υλικό: Κεφάλαιο 10 από το βιβλίο “Modern Information Retrieval”. Ένα κεφάλαιο από το βιβλίο “Adaptive Hypertext and Hypermedia”. H δημοσίευση της Kjersti Aas “A Survey on Personalized Information Filtering Systems for the World Wide Web” December 1997” .

Εργασίες   8. Δεικτοδότηση κειμένων με χρήση Suffix Trees και Suffix Arrays . Δύο εναλλακτικές μέθοδοι για την δεικτοδότηση κειμένων στην κύρια μνήμη, αποτελούν τα Suffix Trees και μια παρόμοια αλλά πιο αποδοτική σε χώρο παρόμοια δομή, τα Suffix Arrays. Οι μέθοδοι αυτοί έχουν προσελκύσει μεγάλο ενδιαφέρον λόγω των αυξημένων δυνατοτήτων που παρουσιάζουν για αποδοτική διαχείριση συμβολοσειρών, ταχύ ταίριασμα προτύπου (pattern matching), εύρεση επαναλήψεων κλπ. Προτείνεται η συγκριτική μελέτη των δύο δομών με εστίαση στα πλεονεκτήματα-μειονεκτήματα που εμφανίζουν. Προαιρετικά προτείνεται η υλοποίηση suffix arrays. Υλικό: Κεφάλαιο 11 από το βιβλίο “Algorithms and Theory of Computation Handbook” CRC Press 1999. Κεφάλαιο 5 από το βιβλίο “Ηandbook of Theoretical Computer Science: Algorithms and Complexity, Volume A” Elsevier,1990. Η δημοσίευση των Manbers, U. και Myers, G.W. “Suffix arrays: a new method for on-line string searches”. SIAM J. Comput., 22, 935-948, 1993.

Εργασίες 9. Αλγόριθμοι Ανάκτησης Πληροφορίας στο Παγκόσμιο Ιστό .   9. Αλγόριθμοι Ανάκτησης Πληροφορίας στο Παγκόσμιο Ιστό . Η μεγαλύτερη πρόκληση για τα μοντέρνα συστήματα ανάκτησης πληροφορίας, είναι ο χώρος του διαδικτύου με την απεραντοσύνη και την χαοτική δομή που τον διακρίνει. Κάποια από τα επιτυχημένα μοντέλα (ένα από αυτά μάλιστα χρησιμοποιείται από το Google) για την αποδοτική ανάκτηση πληροφορίας, ανάγουν τη δομή του διαδικτύου σε γράφημα και μελετούν τις φασματικές ιδιότητές τους. Στα πλαίσια αυτής της εργασίας προτείνεται η συγκριτική μελέτη των κυριότερων αλγορίθμων ανάκτησης πληροφορίας στο διαδίκτυο (HITS, Pagerank). Προαιρετικά η άσκηση μπορεί να συνοδεύεται με υλοποίηση ενός εκ των δύο αλγορίθμων. Υλικό: Οι δημοσιεύσεις του Kleinberg σχετικά με Information Networks, και οι αντίστοιχες δημοσιεύσεις για το σύστημα Clever (http://www.cs.cornell.edu/home/kleinber/, http://www.almaden.ibm.com/cs/k53/clever.html ). Δημοσιεύσεις σχετικά με τη μηχανή αναζήτησης Google. (http://www7.scu.edu.au/programme/fullprog.html ).

Εργασίες   10. Τεχνικές Μοντελοποίησης και Διαχείρισης Πολυμεσικών Αντικειμένων Πληροφορίας. Στα συστήματα πολυμεσικής ανάκτησης πληροφορίας τα δεδομένα που αποθηκεύονται παρουσιάζουν μεγάλο βαθμό ετερογένειας και γι’ αυτό το λόγο τόσο η αποθήκευση όσο και η μοντελοποίηση των δεδομένων και η μοντελοποίηση του τρόπου υποβολής ερωτημάτων έχουν ιδιαίτερη σημασία. Αντικείμενο αυτής της εργασίας είναι η παρουσίαση κάποιων μοντέλων και τεχνικών για fuzzy searching και content based υποβολή ερωτημάτων σε πολυμεσικά συστήματα ανάκτησης πληροφορίας Υλικό: Κεφάλαια 11,12 από το βιβλίο “Modern Information Retrieval”. Κεφάλαιο 9 από το βιβλίο “Principles of Multimedia Database Systems” του V.S. Subrahmanian. H δημοσίευση των S. Marcus και V.S. Subrahmanian, “Foundations of Multimedia Database Systems” Journal of the ACM 43(3):474-523, 1996

Εργασίες 11. Αλγόριθμοι και Τεχνικές για Text Mining και Text Categorization Τόσο η κατηγοριοποίηση κειμένων όσο και η εξόρυξη πληροφορίας από κείμενα είναι περιοχές μεγάλου ενδιαφέροντος στην Ανάκτηση Πληροφορίας. Και οι δύο τομείς αυτοί έχουν προσελκύσει ιδιαίτερο ενδιαφέρον τελευταία λόγω του μεγάλου όγκου των δεδομένων που είναι διαθέσιμα ηλεκτρονικά, σε συστήματα Ανάκτησης Πληροφορίας και στο Διαδίκτυο. Υλικό: Η δημοσίευση του F. Sebastiani, “Machine learning in automated text categorization”, ACM Computing Surveys, 34:1, pp.1-47, 2002, διαθέσιμη στο: http://portal.acm.org/ft_gateway.cfm?id=505283&type=pdf&coll=GUIDE&dl=ACM&CFID=12688243&CFTOKEN=39196086 Οι δημοσιεύσεις της Kjersti Aas “Pattern Recognition in Text Documents”, June 2000, “Text categorization – A survey”, June 1999..

Εργασίες 12. Aλγόριθμοι και Τεχνικές για Web Mining. Το Web Mining είναι μια επέκταση του κλασσικού Data Mining για την εξόρυξη πληροφορίας που αφορά τη δομή του παγκόσμιου ιστού και κατά κύριο λόγο, τις πλοηγητικές και αγοραστικές συνήθειες των επισκεπτών του. Για τον σκοπό αυτό, χρησιμοποιούνται μια πλειάδα από τεχνικές και ευρετικές μέθοδοι. Η εργασία αυτή θα παρουσιάζει επιλεγμένες τεχνικές για Web Mining. Υλικό: Η δημοσίευση των M.-S. Chen, J.S. Park, P.S. Yu, “Efficient Data Mining for Path Traversal Patterns” , Knowledge and Data Engineering, 10:2, pp.209-221, 1998, διαθέσιμη από http://citeseer.nj.nec.com/8204.html Η δημοσίευση των R. Srikant, Y. Yang, “Mining Web Logs to Improve Website Organization”, WWW10, 2002. Η διδακτορική διατριβή του R.W. Cooley, “Web Usage Mining: Discovery and Application of Interesting Patterns from Web Data”, University of Minnesota, 2000.

Εργασίες   13. Αλγόριθμοι και Τεχνικές Αποθήκευσης, Δεικτοδότησης για XML-κείμενα Η γλώσσα XML είναι το νέο επερχόμενο πρότυπο στην αποθήκευση πληροφορίας, όπου επιπλέον υπάρχει η δυνατότητα αποθήκευσης πληροφορίας σχετικά με τη δομή. Στα πλαίσια αυτής της εργασίας έχει ενδιαφέρον η μελέτη των εφαρμογών της γλώσσας XML στον χώρο της Ανάκτησης Πληροφορίας καθώς και των μεθόδων για αποθήκευση και δεικτοδότηση XML κειμένων. Υλικό: To XML tutorial των Anders Møller & Michael I. Schwartzbach, από την διεύθυνση: http://www.brics.dk/~amoeller/XML/index.html. Η δημοσίευση των F. Rizzolo, A. Mendelzon “Indexing XML Data with ToXin”, 4th WebDB 2001, από τη διεύθυνση: http://citeseer.nj.nec.com/rizzolo01indexing.html H. Wang, S. Park, W. Fan, and P. S. Yu. “ViST: A dynamic index method for querying XML data by tree structures.” In SIGMOD, 2003, από τη διεύθυνση: http://citeseer.nj.nec.com/wang03vist.html

Εργασίες 14. Social networks και Ανάκτηση Πληροφορίας Στα κοινωνιολογικά Δίκτυα, παρατηρείται εμπειρικά το φαινόμενο της δυνατότητας επικοινωνίας δύο παντελώς αγνώστων ανθρώπων, μέσω μιας, μικρής σε μήκος, αλυσίδας από γνωριμίες. Αυτό το φαινόμενο επιδέχεται ερμηνείας από τη θεωρία γραφημάτων και οι συνέπειες από την εφαρμογή σχετικών μοντέλων, μπορούν να φανούν χρήσιμες σε εφαρμογές Ανάκτησης Πληροφορίας. Υλικό: Δημοσίευσεις του J. Kleinberg, σχετικά με Small World Phenomena, http://www.cs.cornell.edu/home/kleinber/ Η δημοσίευση των R. Kumar, S. Rajagopalan, P. Raghavan and A. Tomkins “The web and social networks”, IEEE Computer, November 2002. Η δημοσίευση των M. Bawa, G.S. Manku and P. Raghavan, “SETS: Search Enhanced by Topic Segmentation”. Proceedings of ACM SIGIR 2003.

15. Πολυγλωσσική Ανάκτηση Πληροφορίας 16. Κατανεμημένη Ανάκτηση Πληροφορίας 17. Νέα Μοντέλα Ανάκτησης Πληροφορίας, Language Models and Probabilistic Models 18. Υλοποίηση αλγορίθμων stemming 19. Opinion mining sentiment analysis 20. Learning to Rank Techniques. 21. Compression by Web Page Identification 22. Dynamic Inverted Files/Wavelet Trees 23. Χτίσιμο μίας μηχανής αναζήτησης στο Παγκόσμιο Ιστό, με χρήση Python (υπεύθυνος κ. Πισπιρίγκος) Στις μέρες οι μηχανές αναζήτησης αποτελούν αναπόσπαστο κομμάτι της καθημερινότητας του χρήστη, από τη στιγμή που απαντούν ολοένα και πιο έυστοχα σε ερωτήματα για αρχεία κάθε μορφής, συνυπολογίζοντας τα ενγενή χαρακτηριστικά του χρήστη ανά απάντηση. Παρά τα σύνθετα χαρακτηριστικά και την εκπληκτική απόδοση που παρουσιάζουν, κάθε μηχανή αναζήτησης αποτελείται τα παρακάτω 3 στοιχειώδη υποσυστήματα τα οποία και παρουσιάζονται αναλυτικά κατά τη διάρκεια του μαθήματος και των φροντιστήριων : - Crawler, - Δομή δεικτοδότησης, - Σύστημα εκτέλεσης ερωτημάτων. Στην παρούσα εργασία, ζητούμενο σας είναι, έχοντας κατανοήσει τη δομή, τις δυνατότητες και τη λειτουργία της του κώδικα της μηχανής αναζήτησης που θα σας δοθεί, να προτείνετε και να υλοποιήσετε μια βελτίωση, έπειτα από συνενόηση, σε ένα ή περισσότερα υποσυστήματα. Υλοποίηση: Python, PySpark Αριθμός Ομάδων: 5