Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Ανάκτηση Πληροφορίας Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Ανάκτηση Πληροφορίας Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)"— Μεταγράφημα παρουσίασης:

1 Ανάκτηση Πληροφορίας Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)

2 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 2 Μοντέλα IR Κλασικά Μοντέλα - Boolean - Vector - Probabilistic Συνολοθεωρητικά - Fuzzy - Extended Boolean Αλγεβρικά - Generalized Vector - Latent Semantic - Neural Networks Πιθανοτικά - Inference Network - Belief Network

3 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 3 Κίνητρο Βασικό μειονέκτημα των μέχρι τώρα μοντέλων είναι ότι υποθέτουν την ανεξαρτησία των όρων (η πιθανότητα ένας όρος να ανήκει σε ένα έγγραφο δεν εξαρτάται από την ύπαρξη κάποιου άλλου όρου στο έγγραφο). Επίσης, έχουμε δύο βασικά προβλήματα με τους όρους: πολυσημία (ένας όρος έχει διαφορετικό νόημα σε διαφορετικές περιοχές, π.χ. ποντίκι) και συνωνυμία (δύο όροι έχουν ακριβώς το ίδιο ή πολύ κοντινό νόημα, άστρο, αστέρας).

4 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 4 Κίνητρο Ποια η επίδραση της πολυσημίας και της συνωνυμίας στην ανάκληση και την ακρίβεια; Η πολυσημία μειώνει την ακρίβεια και η συνωνυμία μειώνει την ανάκληση Γιατί;

5 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 5 Στόχος Να μπορέσουμε να βρούμε συσχετίσεις μεταξύ των όρων έτσι ώστε να μεταβούμε από τους όρους στις θεματικές περιοχές (concepts). Να μειώσουμε την επίδραση της πολυσημίας και της συνωνυμίας. Να μειώσουμε τον αριθμό των διαστάσεων.

6 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 6 Singular Value Decomposition Η τεχνική LSI (Latent Semantic Indexing) βασίζεται στο μαθηματικό εργαλείο SVD (Singular Value Decomposition)

7 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 7 Singular Value Decomposition Problem: –#1: Find concepts in text –#2: Reduce dimensionality

8 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 8 SVD - Definition A [n x m] = U [n x r]   r x r] (V [m x r] ) T A: n x m matrix (e.g., n documents, m terms) U: n x r matrix (n documents, r concepts)  : r x r diagonal matrix (strength of each ‘concept’) (r: rank of the matrix) V: m x r matrix (m terms, r concepts)

9 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 9 SVD - Properties THEOREM [Press+92]: always possible to decompose matrix A into A = U  V T, where U,  V: unique (*) U, V: column orthonormal (ie., columns are unit vectors, orthogonal to each other) –U T U = I; V T V = I (I: identity matrix)  : singular value are positive, and sorted in decreasing order

10 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 10 SVD - Properties ‘spectral decomposition’ of the matrix: = xx u1u1 u2u2 1 2 v1v1 v2v2

11 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 11 SVD - Interpretation ‘documents’, ‘terms’ and ‘concepts’: U: document-to-concept similarity matrix V: term-to-concept similarity matrix  : its diagonal elements: ‘strength’ of each concept Projection: best axis to project on: (‘best’ = min sum of squares of projection errors)

12 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 12 SVD - Example A = U  V T - example: data inf. retrieval brain lung = CS MD xx

13 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 13 SVD - Example A = U  V T - example: data inf. retrieval brain lung = CS MD xx CS-concept MD-concept doc-to-concept similarity matrix

14 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 14 SVD - Example A = U  V T - example: data inf. retrieval brain lung = CS MD xx ‘strength’ of CS-concept

15 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 15 SVD - Example A = U  V T - example: data inf. retrieval brain lung = CS MD xx term-to-concept similarity matrix CS-concept

16 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 16 SVD – Dimensionality reduction Q: how exactly is dim. reduction done? A: set the smallest singular values to zero: = xx

17 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 17 SVD - Dimensionality reduction ~ xx

18 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 18 SVD - Dimensionality reduction ~

19 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 19 LSI Q1: How to do queries with LSI? A: map query vectors into ‘concept space’ – how? data inf. retrieval brain lung = CS MD xx

20 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 20 LSI Q: How to do queries with LSI? A: map query vectors into ‘concept space’ – how? data inf. retrieval brain lung q=q= term1 term2 v1 q v2 A: inner product (cosine similarity) with each ‘concept’ vector v i

21 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 21 LSI compactly, we have: q concept = q V e.g.: data inf. retrieval brain lung q=q= term-to-concept similarities = CS-concept

22 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 22 Little example How would the document (‘information’, ‘retrieval’) handled by LSI? A: SAME: d concept = d V Eg: data inf. retrieval brain lung d= term-to-concept similarities = CS-concept

23 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 23 Προσοχή Εάν στον αρχικό πίνακα A τα διανύσματα των εγγράφων είναι στις γραμμές του πίνακα τότε για τη μείωση των διαστάσεων χρησιμοποιείται ο μετασχηματισμός: A’ = A * Vk. Εάν στον αρχικό πίνακα Α τα διανύσματα των εγγράφων είναι στις στήλες του Α τότε: A’ = Uk T * A


Κατέβασμα ppt "Ανάκτηση Πληροφορίας Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google