Μέθοδοι συνάθροισης αποτελεσμάτων στη μετα-αναζήτηση Ιστού Μεταπτυχιακό Μάθημα: Τεχνολογία της Επικοινωνίας, 2008-2009 Αθανασόπουλος Μιχαήλ, ΥΔ ΣΗΜΜΥ ΕΜΠ,

Μέθοδοι συνάθροισης αποτελεσμάτων στη μετα-αναζήτηση Ιστού Μεταπτυχιακό Μάθημα: Τεχνολογία της Επικοινωνίας, 2008-2009 Αθανασόπουλος Μιχαήλ, ΥΔ ΣΗΜΜΥ ΕΜΠ, ΑΜ 03002017

Αναζήτηση στο Web  Η 2 η πιο δημοφιλής δραστηριότητα στο Διαδίκτυο (Pew Internet and Life Project, 2008)  49% των ερωτηθέντων απάντησαν ότι χρησιμοποίησαν «χθες» κάποια μηχανή αναζήτησης για να βρούνε κάποια πληροφορία στο Web  Συγκεντρώνει εντονότατο ερευνητικό και επιχειρηματικό ενδιαφέρον  Μηχανές αναζήτησης – βασικά δομοστοιχεία:  Βάση δεδομένων / index / catalog  «Περιπατητής» Ιστού / web crawler / spider  Αλγόριθμος κατάταξης αποτελεσμάτων

Αναζήτηση στο Web  Προκλήσεις - Ζητήματα:  Κλιμάκωση και κάλυψη  Από το Official Google Blog: 1998 -> 26 εκατ. links, 2000 -> 1 δις, 2008 -> 1 τρις  Μόνο ένα τμήμα του Web καταλογογραφείται από κάθε μηχανή.  Συγχρονισμός και ενημέρωση δεδομένων  Ποιότητα αποτελεσμάτων και ευστοχία κατάταξης  Deep Web, τύποι περιεχομένου  Εξατομίκευση

Μετα-αναζήτηση στο Web Ιδέα:  Ο συνδυασμός πληροφοριών και αποτελεσμάτων από πολλές μηχανές αναζήτησης για την αναβάθμιση της ποιότητας και της ευστοχίας της τελικής τους κατάταξης. Οφέλη:  Καλύτερα αποτελέσματα  Μείωση του απαιτούμενου χρόνου και της προσπάθειας από τον χρήστη  Μεγαλύτερη κάλυψη του Web  Δυνατότητες εξατομίκευσης  Αποδοτικότερη επιλογή μηχανών, υποβολή ερωτημάτων κ.ά.

Μετα-αναζήτηση στο Web  Βασικά ερωτήματα για τη λειτουργία μιας μηχανής μετά- αναζήτησης  Πως υποβάλλονται τα ερωτήματα και ποια επεξεργασία υφίστανται τα αποτελέσματα;  Προσαρμογή ερωτημάτων (γλώσσες ερωτημάτων, stop word lists, stemming, κλπ).  Παράλληλη υποβολή και λήψη αποτελεσμάτων  Αναπαράσταση πληροφοριών, επίδοση διαδικασίας κ.ά.  Πόσες, ποιες και πως επιλέγονται οι μηχανές αναζήτησης που θα ερωτηθούν;  Πως συνδυάζονται οι διατεταγμένες λίστες αποτελεσμάτων σε μια τελική ώστε να βελτιώνεται η ευστοχία της ταξινόμησης με την οποία παρατίθενται τα αποτελέσματα στον χρήστη; Ερώτημα που έχει συγκεντρώσει σημαντικό ερευνητικό ενδιαφέρον την τελευταία δεκαετία

Μηχανές μετα-αναζήτησης Ιστού  Διεπαφή χρήστη (User Interface)  Επιλογέας βάσης & εγγράφου (Database & Document Selector)  Μεταβιβαστής ερωτημάτων (Query Dispatcher)  Μηχανή αναζήτησης (Search Engine)  Συγχώνευση αποτελεσμάτων (Result Merger)

Συνάθροιση αποτελεσμάτων Πρόβλημα:  Αποδοτική συνάθροιση διατεταγμένων λιστών αποτελεσμάτων αναζήτησης Ιστού σε μια τελική λίστα. Η τελική κατάταξη πρέπει να βελτιώνει την ευστοχία των αποτελεσμάτων που παρατίθενται στο χρήστη. Παράμετροι:  Επικάλυψη δεδομένων επί των οποίου εφαρμόζεται  Data fusion (υψηλή επικάλυψη)  Collection fusion (χαμηλή επικάλυψη)  Συνάθροιση top-k λιστών (μερική επικάλυψη)  Διαθέσιμη πληροφορία  Decision-level fusion (διάταξη)  Signal-level fusion (βαθμολογία)  Data-level fusion (περιεχόμενο)  Υβριδική περίπτωση  Δεδομένα εκπαίδευσης, επιλογές εξατομίκευσης Ανάλογα προβλήματα εμφανίζονται και σε περιοχές/προβλήματα όπως:  Social choice theory, biology & genetics, classifiers combination και αλλού

Κατηγορίες μεθόδων συνάθροισης  Rank-based: η συνάθροιση βασίζεται μόνο στις πληροφορίες κατάταξης  positional: βασίζονται στη θέση  majoritarian: βασίζονται σε συγκρίσεις των διατάξεων  Score-based: η συνάθροιση βασίζεται σε βαθμολογία (συνήθως σχετικότητας) που συνοδεύει κάθε αποτέλεσμα  Οριζόντια διάσταση: συνυπολογισμός δεδομένων εκπαίδευσης (εικόνα από το [20])

Μέθοδοι που εξετάζονται  Rank-based  Borda Count, Weighted Borda-fuse  Condorcet-fuse  Μέθοδοι βελτιστοποίησης κριτηρίων  Kemeny Rule  Spearman footrule distance  Αλγόριθμοι εξάλειψης  MaxIn, MinIn, MaxDiff  Markov chain model  MC 1, MC 2, MC 3, MC 4  Bayes-fuse  Αλγόριθμοι συγχώνευσης των Liu et al. ([12])  Outranking προσέγγιση των Farah et al. ([24])  Score-based  Score Combinations  CombSUM, CombMIN, CombMAX, CombANZ, CombANZ, CombMNZ, CombMED  Γενική μέθοδος γραμμικού συνδυασμού  Belief Aggregation προσέγγιση Στη συνέχεια παρουσιάζουμε τις μεθόδους: Borda Count, wBorda-fuse, Condorcet-fuse, Markov Chain model, Combinations και Γενική μέθοδος γραμμικού συνδυασμού ως πιο αντιπροσωπευτικές και δημοφιλείς στην ερευνητική κοινότητα.

Borda Count & wBorda-fuse  Κανόνας του Jean-Charles de Borda, 1770 [39] ως μοντέλο ψηφοφορίας  Borda Count: Κάθε ψηφοφόρος (μηχανή αναζήτησης) δημιουργεί μια κατάταξη των n υποψηφίων (αποτελεσμάτων). Σε κάθε τέτοια λίστα ο υποψήφιος στην πρώτη θέση λαμβάνει n πόντους, ο υποψήφιος στη δεύτερη θέση n-1 και ούτω καθεξής, έως ότου ο υποψήφιος στην τελευταία θέση λάβει 1 πόντο.  Η τελική κατάταξη δημιουργείται αθροίζοντας τους πόντους για κάθε υποψήφιο και ταξινομώντας τη λίστα ως προς τους πόντους των υποψηφίων ακολουθώντας φθίνουσα σειρά.  wBorda-fuse: Σε κάθε ψηφοφόρο αποδίδεται ένα βάρος α i.  Παράδειγμα:  SE 1 : a, b, c, d, e  SE 2 : a, e, d, b, c  SE 3 : e, a, b, d, c  Βάρη: α SE1 = 2, α SE2 = 1, α SE2 = 1,5  Πόντοι  a, B: 5 + 5 + 4 = 14, wB: 21  b, Β: 4 + 2 + 3 = 9, wB: 14,5  c, B: 3 + 1 + 1 = 4, wB: 8,5  d, B: 2 + 3 + 2 = 7, wB: 10  e, B: 1 + 4 + 5 = 10, wB: 13,5  Τελική κατάταξη: 1. B: a, wB: a 2. B: e, wB: b 3. B: b, wB: e 4. B: d, wB: d 5. B: c, wB: c

Condorcet-fuse  Κανόνας του Condorcet: οποιοσδήποτε υποψήφιος μπορεί να κερδίσει όλους τους άλλους υποψηφίους σε κατά μέτωπο αντιπαράθεση πρέπει να κερδίσει την ψηφοφορία.  Μοντέλο γράφου:  Κόμβοι: υποψήφιοι  Ακμές: Ένα διάνυσμα από το x στο y δημιουργείται αν ο υποψήφιος που αντιστοιχεί στο κόμβο x έχει ταξινομηθεί υψηλότερα από τοv y τουλάχιστον από τόσους ψηφοφόρους όσους ταξινόμησαν τον y υψηλότερα από τον x.  Παράδειγμα:  SE 1 : a, b, c, d, e  SE 2 : a, e, d, b, c  SE 3 : e, a, b, d, c a b c d e  Η τελική κατάταξη γίνεται βάση του out-degree του κάθε κόμβου: a, [b | e], d, c  Condorcet-fuse: O(nklogn)  n υποψήφιοι (αποτελέσματα)  k διατάξεις (μηχανές)

Markov chain μοντέλο  Ορίζεται μια Μαρκοβιανή αλυσίδα με:  Σύνολο καταστάσεων S: το σύνολο των υποψηφίων n προς κατάταξη οι οποίοι περιλαμβάνονται σε ένα σύνολο κατατάξεων έστω R = {τ 1, τ 2, …, τ k }.  Ένας μη αρνητικός, στοχαστικός n x n πίνακας Μ ο οποίος περιλαμβάνει τις πιθανότητες μετάβασης από υποψήφιο σε υποψήφιο, δηλ. M ij = Ρ(i -> j).  Αν x μια αρχική κατανομή πιθανότητας επί των καταστάσεων, μετά από έστω t μεταβάσεις έχουμε την στάσιμη (stationary) κατανομή y = xM t, από την οποία προκύπτει μια διάταξη επί των υποψηφίων.  Αποδεικνύεται ότι η στάσιμη κατανομή προκύπτει από το κύριο αριστερό ιδιοδιάνυσμα του Μ και μπορεί να υπολογιστεί αποδοτικά με power-iteration αλγόριθμους.  Ζητούμενο: ο προσδιορισμός του πίνακα Μ για το σύνολο κατατάξεων R. (εικόνα από το [15])

Markov chain μοντέλο Dwork et al. [30] προτείνουν 4 αλυσίδες:  MC 1 : Αν η τρέχουσα κατάσταση είναι το αποτέλεσμα-υποψήφιος P, τότε η επόμενη κατάσταση επιλέγεται ομοιόμορφα από το πολυσύνολο όλων των αποτελεσμάτων που έχουν καταταχθεί υψηλότερα ή ίσα με το P από κάποια μηχανή αναζήτησης η οποία κατέταξε το P. Περισσότερο τυπικά: επιλέγεται ομοιόμορφα ένα στοιχείο από το πολυσύνολο U i {Q | τ i (Q) ≥ τ i (P)}.  MC 2 : Αν η τρέχουσα κατάσταση είναι το αποτέλεσμα P, τότε η επόμενη κατάσταση επιλέγεται ως εξής: αρχικά επιλέγεται ομοιόμορφα μια κατάταξη τ από όλες τις μερικές λίστες τ 1, τ 2, …, τ w που περιλαμβάνουν το P, κι έπειτα επιλέγεται ένα αποτέλεσμα Q ομοιόμορφα από το σύνολο των αποτελεσμάτων που έχουν υψηλότερη ή ίση θέση με το P στην διάταξη τ, δηλαδή από το σύνολο {Q | τ(Q) ≥ τ(P)}.  MC 3 : Αν η τρέχουσα κατάσταση είναι το αποτέλεσμα P, τότε η επόμενη κατάσταση επιλέγεται ως εξής: αρχικά επιλέγεται μία διάταξη τ με ομοιόμορφο τρόπο από όλες τις μερικές λίστες τ 1, τ 2, …, τ w που περιλαμβάνουν το P (όπως προηγουμένως) κι έπειτα επιλέγεται ομοιόμορφα ένα αποτέλεσμα Q το οποίο υπάρχει στη τ. Αν το Q έχει καταταχθεί υψηλότερα από το P στην τ, τότε η επόμενη κατάσταση είναι το αποτέλεσμα Q, διαφορετικά παραμένει το αποτέλεσμα P.  MC 4 : Αν η τρέχουσα κατάσταση είναι το αποτέλεσμα P, τότε η επόμενη κατάσταση επιλέγεται ως εξής: αρχικά επιλέγεται ένα αποτέλεσμα Q με ομοιόμορφο τρόπο από την ένωση όλων των αποτελεσμάτων όλων των μηχανών αναζήτησης. Αν η θέση που λαμβάνει το Q είναι υψηλότερη από αυτή που λαμβάνει το P για την πλειονότητα των κατατάξεων οι οποίες περιλαμβάνουν και τα δύο αποτελέσματα, τότε η επόμενη κατάσταση είναι το αποτέλεσμα Q, διαφορετικά παραμένει το αποτέλεσμα P.

Markov chain - Παράδειγμα MC 1  Παράδειγμα:  SE 1 : a, b, c, d, e  SE 2 : a, e, d, b, c  SE 3 : e, a, b, d, c  MC 1 :Ομοιόμορφη επιλογή από το πολυσύνολο C P = U i {Q | τ i (Q) ≥ τ i (P)} abcde a ¾000¼ b 1/3 01/92/9 c 3/13 2/13 d 3/112/111/113/112/11 e ¼1/8 3/8  M aa : C a = { a, a, e, a} → M aa = #a ÷|C| = ¾  M cd : C c = { c, b, a, c, b, d, e, a, c, d, b, a, e} → M aa = #d ÷|C| = 2/13

Score Combinations  Προέρχονται και βρίσκουν εφαρμογή στην ευρύτερη περιοχή του IR.  Σκεπτικό: οι κατατάξεις που παράγει κάποιο σύστημα ανάκτησης πληροφορίας μπορεί να εμφανίζουν δύο βασικούς τύπους σφαλμάτων:  να έχουν καταταχθεί σχετικά ψηλά μη σχετικά έγγραφα, ή  να έχουν καταταχθεί σχετικά χαμηλά σχετικά έγγραφα.  Συνδυάζοντας με κατάλληλο τρόπο τις βαθμολογίες ομοιότητας που έχουν αποδοθεί σε κάθε αποτέλεσμα από κάθε σύστημα ανάκτησης μπορεί να παραχθεί μια πιο εύστοχη τελική κατάταξη. ΜέθοδοςΤύπος CombMINMIN(ατομικές ομοιότητες) CombMAXMAX(ατομικές ομοιότητες) CombSUMSUM(ατομικές ομοιότητες) CombANZCombSUM ÷ Πλήθος μη μηδενικών ομοιοτήτων CombMNZCombSUM * Πλήθος μη μηδενικών ομοιοτήτων CombMEDMED(ατομικές ομοιότητες) Αλλά:  κάθε διάταξη έχει το ίδιο βάρος  δεν λαμβάνονται πάντα υπόψη οι πολλαπλές εμφανίσεις κάποιου αποτελέσματος

Γραμμικός συνδυασμός  Γενικεύοντας: Η συναθροιστική βαθμολογία ενός αποτελέσματος i στην τελική κατάταξη ť, μπορεί να υπολογιστεί ως γραμμικός συνδυασμός των επιμέρους βαθμολογιών ως εξής:  Όπου:  h(i, R), το πλήθος των εμφανίσεων-επιτυχιών (hits) του αποτελέσματος i στο σύνολο των κατατάξεων R,  y, παράμετρος που καθορίζει αν λαμβάνονται υπόψη ή όχι οι εμφανίσεις του αποτελέσματος και παίρνει τιμές {0, 1},  α τ, το βάρος της εκάστοτε κατάταξης τ (  α τ = 1, α τ  0) και  w τ (i), η (κανονικοποιημένη) βαθμολογία του αποτελέσματος i στην κατάταξη τ

Μελέτες σύγκρισης Συνήθως:  Η αποτίμηση μιας μεθόδου γίνεται ως προς τυποποιημένες μετρικές (π.χ. Mean Average Precision (MAP), Precision @ 10, Success @ n).  Tα σύνολα δεδομένων που χρησιμοποιούνται προέρχονται από το TREC (Text REtrival Conference) –και συνήθως από το Web track.  Στο TREC διεξάγεται ένας διαγωνισμός: δίνεται μια μεγάλη βάση δεδομένων εγγράφων και μια λίστα με 50 ερωτήματα.  Τα διάφορα συστήματα κατάταξης που προτείνονται από τους συμμετέχοντες καλούνται να επιστρέψουν ταξινομημένες λίστες με τα 1000 πιο σχετικά έγγραφα για το κάθε ερώτημα και στη συνέχεια κάθε ένα από αυτά αξιολογείται ως προς την μέση ακρίβειά του.  Οι παραγόμενες κατατάξεις συνήθως των καλύτερων n συστημάτων, είναι αυτές που χρησιμοποιούνται ως δεδομένα εισόδου για να αξιολογηθούν οι αλγόριθμοι συνάθροισης

Μελέτες σύγκρισης  TREC9 από το [21]

Μελέτες σύγκρισης  Με δεδομένα από TREC8, TREC9, TREC9L και TREC2001 από το [35]  Όπου Σ.x.y είναι οι μέθοδοι γραμμικού συνδυασμού, με x την τεχνική κανονικοποίησης (rank, score, z-score, borda) και y το αν λαμβάνονται υπόψη τα πολλαπλά hits.  Σημείωση: η Σ.b.0 είναι ισοδύναμη με το Borda-fuse  οι βαθμολογίες παράγονται από τη διάταξη με ένα τύπο που ονομάζουν borda transformation:

Μέθοδοι συνάθροισης αποτελεσμάτων στη μετα-αναζήτηση Ιστού Μεταπτυχιακό Μάθημα: Τεχνολογία της Επικοινωνίας, 2008-2009 Αθανασόπουλος Μιχαήλ, ΥΔ ΣΗΜΜΥ ΕΜΠ,

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

Μέθοδοι συνάθροισης αποτελεσμάτων στη μετα-αναζήτηση Ιστού Μεταπτυχιακό Μάθημα: Τεχνολογία της Επικοινωνίας, 2008-2009 Αθανασόπουλος Μιχαήλ, ΥΔ ΣΗΜΜΥ ΕΜΠ,

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια