Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
GB ( ) 5 1 ( ) ( ) ( /cm 2 ) 0.2 /30min·φ90 (5 /m 3 ) 0.4 /30min·φ90 (10 /m 3 ) /30min·φ90 (25 /m 3 )
Advertisements

Ανάδραση Σχετικότητας (Relevance Feedback ή RF)
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
1 Ανάκτηση Πληροφοριών Χρήστος Παπαθεοδώρου Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο.
Ανάλυση Πολλαπλής Παλινδρόμησης
ΕΦΑΡΜΟΓΕΣ ΓΕΩΠΛΗΡΟΦΟΡΙΚΗΣ ΟΑΣΑ
Χρήση και αξιοποίηση των ΤΠΕ κατά τη διδασκαλία των μαθηματικών στη δευτεροβάθμια ελληνική εκπαίδευση Δρ. Σάλτας Βασίλειος, Ιωαννίδου Ευφροσύνη Τμήμα.
Εισαγωγή στους Η/Υ Πίνακες.
Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων
Σύστημα ηλεκτρονικής δημοσίευσης DiVA Μάθημα: «Ηλεκτρονική Δημοσίευση» Χαρίκλεια Μπρίντεζη.
EDUC 612 Ανωτερες μορφες στατιστικης αναλυσησ
ΗΥ-566 Διαχείρηση Γνώσης στο Διαδίκτυο1 SWRC Ontology Κτιστάκης Γιώργος Μπούτσικα Κατερίνα Παπαδάκης Μύρων.
Προγραμματισμός PASCAL Πληροφορική Γ' Λυκείου μέρος γ
Δρ. Παναγιώτης Συμεωνίδης
Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας.
Ανάκτηση Πληροφορίας Το Boolean μοντέλο.
Ανάκτηση Πληροφορίας Το Διανυσματικό μοντέλο.
Τμήμα Πληροφορικής ΑΠΘ
Page  1 Ο.Παλιάτσου Γαλλική Επανάσταση 1 ο Γυμνάσιο Φιλιππιάδας.
ΝΕΟ ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ Α’, Β’, & Γ’ ΓΥΜΝΑΣΙΟΥ ΟΜΑΔΑ ΕΡΓΑΣΙΑΣ Ανδρέας Σ. Ανδρέου (Αναπλ. Καθηγητής ΤΕΠΑΚ - Συντονιστής) Μάριος Μιλτιάδου, Μιχάλης Τορτούρης.
Κώστας Διαμαντάρας Τμήμα Πληροφορικής ΤΕΙ Θεσσαλονίκης 2011 Συστολικοί επεξεργαστές.
© GfK 2012 | Title of presentation | DD. Month
-17 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Σεπτέμβριος 2013 Δείκτης > +20 Δείκτης 0 a +20 Δείκτης 0 a -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
+21 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Δεκέμβριος 2013 Δείκτης > +20 Δείκτης 0 να +20 Δείκτης 0 να -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
Έρευνα για το Εθνικό Φορολογικό Σύστημα Αθήνα 9 Νοεμβρίου ο Πανελλήνιο Επιστημονικό Συνέδριο Ι.Ο.Φο.Μ. Ι.Ο.Φο.Μ. – Π.Μ.Σ. Φορολογία και Ελεγκτική.
1 4 Square Questions B A D C Κοιτάξτε προσεκτικά το διάγραμμα. Θα σας κάνω 4 ερωτήσεις γι’ αυτό το τετράγωνο. ΕΤΟΙΜΟΙ;
Αναγνώριση Προτύπων.
Γραφήματα & Επίπεδα Γραφήματα
Page 1 ΑΠΟΤΕΛΕΣΜΑΤΑ ΕΡΕΥΝΑΣ ΑΠΟΨΕΩΝ ΚΑΙ ΠΡΟΒΛΗΜΑΤΙΣΜΩΝ ΚΟΡΥΦΑΙΩΝ ΣΤΕΛΕΧΩΝ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΑΓΟΡΑΣ Εμείς δεν βλέπουμε ένα απλό σχεδιάγραμμα. Βλέπουμε τον τρόπο.
Αποκεντρωμένη Διοίκηση Μακεδονίας Θράκης ∆ιαχείριση έργων επίβλεψης µε σύγχρονα µέσα και επικοινωνία C2G, B2G, G2G Γενική Δ/νση Εσωτερικής Λειτουργίας.
Επεξεργασία σεναρίου-σχεδίου διδασκαλίας Λογοτεχνίας (Γ λυκείου)
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
A Balanced Tree Structure for Peer-to-Peer Networks
Travel Salesman. ABDCA, ABCDA, ACBDA, ACDBA, ADBCA, ADCBA … (3!) 3 σταθμοί και 1 βάση (3! διαδρομές) 4 σταθμοί και 1 βάση (4! = 24) 5 σταθμοί και 1 βάση.
Ανάλυση Πολλαπλής Παλινδρόμησης
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
Δημιουργικό Marketing συνθέσεις...με χρωματιστούς όγκους παιδικές.
Dr. Holbert Νικ. Α. Τσολίγκας Χρήστος Μανασής
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Στατιστική Ι Παράδοση 9 Ο Δείκτης Συσχέτισης.
Τα προϊόντα της EmGoldEx Τα προϊόντα της EmGoldEx Ράβδοι χρυσού 24k καθαρότητας 999,9 απο 1 έως 100 γραμμάρια Όλες οι ράβδοι χρυσού είναι πιστοποιημένες.
Το Εκτεταμένο Μοντέλο Οντοτήτων - Συσχετίσεων
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακός Λογισμός.
ΜΑΘΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗ ΜΕΤΑΓΓΙΣΗ ΑΙΜΑΤΟΣ - ΑΙΜΟΔΟΣΙΑ
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεδιασμός Σχεσιακών Σχημάτων.
Νευρωνικά Δίκτυα και Latent Semantic Indexing 1.Άλλα αλγεβρικά συστήματα που αξιοποιούν εξάρτηση όρων (α) Μοντέλο Νευρωνικών Δικτύων (β) Μοντέλο Λανθάνουσας.
MΑΘ 106/3122Ξενοφών Ζαμπούλης ΜΑΘ 106/3122 Γλώσσα Προγραμματισμού Δείκτες (Pointers)
Βάσεις Δεδομένων Εργαστήριο ΙΙ Τμήμα Πληροφορικής ΑΠΘ
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού Προπτυχιακό.
Τα προβλήματα στην διαχείριση της πληροφορίας μέσα στην επιχείρηση
Distance Functions on Hierarchies Eftychia Baikousi.
1 ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ TΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ «Επιστήμη της Πληροφορίας – Διοίκηση και Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες.
1 Βάσεις Δεδομένων ΙI Επιμέλεια: ΘΟΔΩΡΗΣ ΜΑΝΑΒΗΣ SQL (3 από 3) T Manavis.
+19 Δεκέμβριος 2014 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20 Δείκτης < -20 Συνολικά της ΕΕ: +5 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20.
ΕΡΕΥΝΑ ΚΕ.ΜΕ.ΤΕ. - Ο.Λ.Μ.Ε. (Απρίλης – Μάης 2008)
Αγγελική Γεωργιάδου- Αναστασία Πεκτέσογλου Δράμα 2006
Μοντελοποίηση Μοντέλα IR που έχουν προταθεί και χρησιμοποιούνται από υπάρχοντα συστήματα.
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
ΜΗΧΑΝΙΚΗ Ι - ΣΤΑΤΙΚΗ 1. Στατική Ισορροπία (επανάληψη)
Εισαγωγή στη Βιοπληροφορική Ενότητα 9: Text Mining Μακρής Χρήστος, Τσακαλίδης Αθανάσιος, Ιωάννου Μαρίνα Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ και Πληροφορικής.
Introduction to Latent Variable Models. A comparison of models X1X1 X2X2 X3X3 Y1Y1 δ1δ1 δ2δ2 δ3δ3 Model AModel B ξ1ξ1 X1X1 X2X2 X3X3 δ1δ1 δ2δ2 δ3δ3.
Βασικές Έννοιες της Πληροφορικής
ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ "ΛΟΓΙΣΤΙΚΗ & ΕΛΕΓΚΤΙΚΗ”
Μία πρακτική εισαγωγή στην χρήση του R
Find: φ σ3 = 400 [lb/ft2] CD test Δσ = 1,000 [lb/ft2] Sand 34˚ 36˚ 38˚
Ερωτήματα Επιλογής σε ACCESS
GLY 326 Structural Geology
Find: Force on culvert in [lb/ft]
Μεταγράφημα παρουσίασης:

Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis) Ανάκτηση Πληροφορίας Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)

Τμήμα Πληροφορικής ΑΠΘ Μοντέλα IR Κλασικά Μοντέλα - Boolean - Vector - Probabilistic Συνολοθεωρητικά - Fuzzy - Extended Boolean Αλγεβρικά - Generalized Vector - Latent Semantic - Neural Networks Πιθανοτικά - Inference Network - Belief Network Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Κίνητρο Βασικό μειονέκτημα των μέχρι τώρα μοντέλων είναι ότι υποθέτουν την ανεξαρτησία των όρων (η πιθανότητα ένας όρος να ανήκει σε ένα έγγραφο δεν εξαρτάται από την ύπαρξη κάποιου άλλου όρου στο έγγραφο). Επίσης, έχουμε δύο βασικά προβλήματα με τους όρους: πολυσημία (ένας όρος έχει διαφορετικό νόημα σε διαφορετικές περιοχές, π.χ. ποντίκι) και συνωνυμία (δύο όροι έχουν ακριβώς το ίδιο ή πολύ κοντινό νόημα, άστρο, αστέρας). Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Κίνητρο Ποια η επίδραση της πολυσημίας και της συνωνυμίας στην ανάκληση και την ακρίβεια; Η πολυσημία μειώνει την ακρίβεια και η συνωνυμία μειώνει την ανάκληση Γιατί; Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Στόχος Να μπορέσουμε να βρούμε συσχετίσεις μεταξύ των όρων έτσι ώστε να μεταβούμε από τους όρους στις θεματικές περιοχές (concepts). Να μειώσουμε την επίδραση της πολυσημίας και της συνωνυμίας. Να μειώσουμε τον αριθμό των διαστάσεων. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Singular Value Decomposition Η τεχνική LSI (Latent Semantic Indexing) βασίζεται στο μαθηματικό εργαλείο SVD (Singular Value Decomposition) Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Singular Value Decomposition Problem: #1: Find concepts in text #2: Reduce dimensionality Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ SVD - Definition A[n x m] = U[n x r] L [ r x r] (V[m x r])T A: n x m matrix (e.g., n documents, m terms) U: n x r matrix (n documents, r concepts) L: r x r diagonal matrix (strength of each ‘concept’) (r: rank of the matrix) V: m x r matrix (m terms, r concepts) Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ SVD - Properties THEOREM [Press+92]: always possible to decompose matrix A into A = U L VT , where U, L, V: unique (*) U, V: column orthonormal (ie., columns are unit vectors, orthogonal to each other) UTU = I; VTV = I (I: identity matrix) L: singular value are positive, and sorted in decreasing order Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ SVD - Properties ‘spectral decomposition’ of the matrix: l1 x x = u1 u2 l2 v1 v2 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ SVD - Interpretation ‘documents’, ‘terms’ and ‘concepts’: U: document-to-concept similarity matrix V: term-to-concept similarity matrix L: its diagonal elements: ‘strength’ of each concept Projection: best axis to project on: (‘best’ = min sum of squares of projection errors) Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ SVD - Example A = U L VT - example: retrieval inf. lung brain data CS x x = MD Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ SVD - Example A = U L VT - example: doc-to-concept similarity matrix retrieval CS-concept inf. lung MD-concept brain data CS x x = MD Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

SVD - Example A = U L VT - example: ‘strength’ of CS-concept CS x x = retrieval ‘strength’ of CS-concept inf. lung brain data CS x x = MD Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ SVD - Example A = U L VT - example: term-to-concept similarity matrix retrieval inf. lung brain data CS-concept CS x x = MD Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

SVD – Dimensionality reduction Q: how exactly is dim. reduction done? A: set the smallest singular values to zero: x x = Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

SVD - Dimensionality reduction x x ~ Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

SVD - Dimensionality reduction ~ Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ LSI Q1: How to do queries with LSI? A: map query vectors into ‘concept space’ – how? data inf. retrieval brain lung = CS MD x Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ LSI Q: How to do queries with LSI? A: map query vectors into ‘concept space’ – how? retrieval inf. term2 lung q brain data q= v2 v1 A: inner product (cosine similarity) with each ‘concept’ vector vi term1 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ LSI compactly, we have: qconcept = q V e.g.: CS-concept data inf. retrieval brain lung q= = term-to-concept similarities Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Little example How would the document (‘information’, ‘retrieval’) handled by LSI? A: SAME: dconcept = d V Eg: CS-concept data inf. retrieval brain lung d= = term-to-concept similarities Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Προσοχή Εάν στον αρχικό πίνακα A τα διανύσματα των εγγράφων είναι στις γραμμές του πίνακα τότε για τη μείωση των διαστάσεων χρησιμοποιείται ο μετασχηματισμός: A’ = A * Vk. Εάν στον αρχικό πίνακα Α τα διανύσματα των εγγράφων είναι στις στήλες του Α τότε: A’ = UkT * A Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ