QProber Εξερευνώντας το Αόρατο Web

QProber Εξερευνώντας το Αόρατο Web
Παναγιώτης Ηπειρώτης Columbia University & New York University

Τι είναι το «αόρατο» Web
«Κανονικές» σελίδες Συνδέονται με links Προσπελάσιμες από μηχανές αναζήτησης «Αόρατες» σελίδες Αποθηκευμένες σε βάσεις δεδομένων Δεν υπάρχουν links Μη προσπελάσιμες από μηχανές αναζήτησης 22/9/2018

Παραδείγματα βάσεων δεδομένων με «αόρατο» περιεχόμενο
Αναζήτηση στη βάση ευρεσιτεχνιών των ΗΠΑ: [wireless network]  25,749 αποτελέσματα (USPTO database is at Αναζήτηση σε Google: [wireless network site:patft.uspto.gov]  0 αποτελέσματα Βάση δεδομένων Ερώτημα Αποτελέσματα από απευθείας ερώτημα στη βάση Αποτελέσματα από Google US Patent Office wireless network 25,749 Library of Congress visa regulations >10,000 PubMed thrombopenia 26,460 172 Μέγεθος «ορατού» Web ~ 4 δισεκατομμύρια σελίδες Μέγεθος «αόρατου» Web ~ 500 δισεκατομμύρια σελίδες 22/9/2018

Πώς μπορούμε να βρούμε τις «αόρατες» σελίδες;
Χρησιμοποιώντας καταλόγους όπως το Yahoo! InvisibleWeb.com SearchEngineGuide.com Χρησιμοποιώντας τα κατάλληλα εργαλεία αναζήτησης: Metasearchers Οι κατάλογοι δημιουργούνται χειρωνακτικά 22/9/2018

Περιεχόμενα Ομιλίας Ταξινόμηση «Αόρατων» Βάσεων Δεδομένων
Αναζήτηση σελίδων σε «Αόρατες» Βάσεις Δεδομένων 22/9/2018

Ταξινομώντας ιεραρχικά τη βάση ACM Digital Library
ACM DL ?   ? 22/9/2018

Ορισμός ταξινόμησης μιας βάσης δεδομένων
Μια βάση δεδομένων D ανήκει στην κατηγορία C εάν: Ο αριθμός των κειμένων που ανήκουν στην κατηγορία C είναι μεγαλύτερος από μια σταθερά Tc (π.χ., περισσότερα από 100 κείμενα ανήκουν στην κατηγορία “Computers”) Το ποσοστό κειμένων που ανήκουν στην κατηγορία C είναι μεγαλύτερος από μια σταθερά Ts (π.χ., περισσότερα από το 40% των κειμένων ανήκουν στην κατηγορία “Computers”) 22/9/2018

Ταξινόμηση: Στόχος και Προβλήματα
Στόχος: Να βρούμε τον αριθμό των κειμένων σε κάθε κατηγορία Προβλήματα: Δεν έχουμε πλήρη πρόσβαση στα κείμενα που είναι αποθηκευμένα στη βάση Η ανάκτηση κειμένων γίνεται μόνο μέσω ερωτημάτων Δεν μπορούμε να στείλουμε μεγάλο αριθμό ερωτημάτων For example, in a health-related database a query on “cancer” will generate a large number of matches, while a query on “Michael Jordan” will generate small or zero matches. So, we will see now how we generate such queries, and how we exploit the returned results Μόνο ερωτήματα σχετικά με τα περιεχόμενα της βάσης επιστρέφουν μεγάλο αριθμό αποτελεσμάτων 22/9/2018

Ταξινόμηση με Χρήση Ερωτημάτων: Ο Αλγόριθμος Περιληπτικά
Ταξινόμηση με Χρήση Ερωτημάτων: Ο Αλγόριθμος Περιληπτικά Δημιουργούμε ταξινομητές Δημιουργούμε ένα ταξινομητή κειμένων Δημιουργούμε ερωτήματα χρησιμοποιώντας τον ταξινομητή Στέλνουμε τα κατάλληλα ερωτήματα στη βάση Υπολογίζουμε τον αριθμό των κειμένων ανά κατηγορία Ταξινομούμε τη βάση Δημιουργούμε ερωτήματα Sports: +nba +knicks Health +sars Στέλνουμε ερωτήματα στη βάση Υπολογίζουμε τον αριθμό κειμένων ανά κατηγορία Ταξινομούμε τη βάση   22/9/2018

Δημιουργώντας ερωτήματα από ένα ταξινομητή κειμένων
Δημιουργούμε ταξινομητές Συγκεντρώνουμε κείμενα ταξινομημένα ανά κατηγορία Χρησιμοποιούμε ένα από τους υπάρχοντες αλγορίθμους για να δημιουργήσουμε ένα ταξινομητή κειμένων Βασιζόμενοι στο μοντέλο του ταξινομητή εξάγουμε κανόνες ταξινόμησης Δημιουργούμε ερωτήματα Sports: +nba +knicks Health +sars Στέλνουμε ερωτήματα στη βάση Έξοδος: Κανόνες για αυτόματη ταξινόμηση κειμένων Π.χ. Sports: +nba +knicks If you have several points, steps, or key ideas use multiple slides. Determine if your audience is to understand a new idea, learn a process, or receive greater depth to a familiar concept. Back up each point with adequate explanation. As appropriate, supplement your presentation with technical support data in hard copy or on disc, , or the Internet. Develop each point adequately to communicate with your audience. Υπολογίζουμε τον αριθμό κειμένων ανά κατηγορία   Ταξινομούμε τη βάση   Κείμενο   Ταξινομητής 22/9/2018

Στέλνοντας τους κανόνες σαν ερωτήματα
SIGMOD 2001 ACM TOIS 2003 Στέλνοντας τους κανόνες σαν ερωτήματα Στέλνουμε τους κανόνες σαν ερωτήματα στη βάση, και κρατάμε μόνο τον αριθμό των αποτελεσμάτων, αγνοώντας τα κείμενα Αυξάνουμε ανάλογα τον αριθμό των κειμένων για την αντίστοιχη κατηγορία (π.χ. #Sports = #Sports + 706) Με βάση τα λάθη που κάνει ο ταξινομητής «διορθώνουμε» τα αποτελέσματα και υπολογίζουμε τον αριθμό των κειμένων ανά κατηγορία Δημιουργούμε ταξινομητές Δημιουργούμε ερωτήματα Sports: +nba +knicks Health +sars Στέλνουμε ερωτήματα στη βάση If you have several points, steps, or key ideas use multiple slides. Determine if your audience is to understand a new idea, learn a process, or receive greater depth to a familiar concept. Back up each point with adequate explanation. As appropriate, supplement your presentation with technical support data in hard copy or on disc, , or the Internet. Develop each point adequately to communicate with your audience. Υπολογίζουμε τον αριθμό κειμένων ανά κατηγορία Ταξινομούμε τη βάση   22/9/2018

Demo 22/9/2018

Αυτόματη ταξινόμηση βάσεων δεδομένων: Συμπεράσματα
Ο αλγόριθμος ταξινόμησης δουλεύει με πλήρως αυτόνομες βάσεις με «αόρατο» περιεχόμενο Ακρίβεια ταξινόμησης ~75% (F-measure) Χρειάζεται περίπου 120 ερωτήματα για να ταξινομήσει μια βάση 22/9/2018

Περιεχόμενα Ομιλίας Ταξινόμηση «Αόρατων» Βάσεων Δεδομένων
Αναζήτηση σελίδων σε «Αόρατες» Βάσεις Δεδομένων 22/9/2018

  ? Metasearchers Metasearcher
Η επιλογή των βάσεων βασίζεται σε απλά στατιστικά στοιχεία, όπως η συχνότητα με την οποία εμφανίζεται η κάθε λέξη thrombopenia PubMed ( κείμενα) … aids cancer heart hepatitis thrombopenia Metasearcher ... thrombopenia 27,960 thrombopenia 0 thrombopenia 42   ? PubMed NYTimes Archives USPTO 22/9/2018

Δημιουργώντας τα στατιστικά δεδομένα
Στέλνουμε ερωτήματα στη βάση για να την ταξινομήσουμε Δημιουργούμε ένα δείγμα, παρατηρώντας τις λέξεις που εμφανίζονται στα πρώτα 4-5 κείμενα που επιστρέφονται για κάθε ερώτημα Συνήθως παρατηρούμε ~500 κείμενα κατά τη διαδικασία ταξινόμησης If you have several points, steps, or key ideas use multiple slides. Determine if your audience is to understand a new idea, learn a process, or receive greater depth to a familiar concept. Back up each point with adequate explanation. As appropriate, supplement your presentation with technical support data in hard copy or on disc, , or the Internet. Develop each point adequately to communicate with your audience. Δημιουργούμε τα στατιστικά με βάση τις λέξεις που εμφανίζονται στα κείμενα Πρόβλημα: Στατιστικά τα οποία βασίζονται σε δειγματοληψία δεν περιλαμβάνουν πολλές λέξεις 22/9/2018

Στατιστικά βασισμένα σε δείγματα είναι ελλιπή
Μέγεθος δείγματος: 300 Log(Συχνότητα) 107 10% των πιο συχνών λέξεων που εμφανίζονται στη βάση δεδομένων PubMed 106 9,000 . . ……………………………………… endocarditis ~9,000 κείμενα / ~0.1% 103 102 2·104 4·104 105 Rank Πολλές λέξεις εμφανίζονται σε πολύ λίγα κείμενα (νόμος του Zipf) Ακόμα και λέξεις με μικρή συχνότητα είναι σημαντικές Μικρά δείγματα δεν περιλαμβάνουν την πλειοψηφία των λέξεων 22/9/2018

Βελτιώνοντας τα στατιστικά
Πρόβλημα: Πώς μπορούμε να βελτιώσουμε τα στατιστικά, χωρίς να μεγαλώσουμε το μέγεθος του δείγματος; Βασική ιδέα: Η ταξινόμηση μπορεί να βοηθήσει Παρόμοια κατηγορία ↔ Παρόμοια στατιστικά Στατιστικά από διαφορετικές βάσεις ταξινομημένα σε παρόμοιες κατηγορίες αλληλοσυμπληρώνονται 22/9/2018

Βάσεις με παρόμοιο περιεχόμενο
Η βάση Cancerlit περιλαμβάνει τη λέξη “metastasis”, η οποία όμως δε βρέθηκε κατά τη δειγματοληψία Η βάση CancerBacup περιλαμβάνει τη λέξη “metastasis” Βάσεις που ανήκουν στην ίδια κατηγορία έχουν παρόμοιες λέξεις και μπορούν να συμπληρώσουν η μία την άλλη 22/9/2018

Στατιστικά για κατηγορίες
Βάσεις με από ίδιες κατηγορίες έχουν παρόμοιο λεξιλόγιο Αλλά και βάσεις από γενικές κατηγορίες είναι χρήσιμες για να δώσουν επιπρόσθετα στοιχεία για την συχνότητα εμφάνισης μιας λέξης Μπορούμε να χρησιμοποιήσουμε εκτιμήσεις από πολλαπλές κατηγορίες 22/9/2018

Βελτιώνοντας τα στατιστικά με τη χρήση “Shrinkage”
Στατιστικά βασισμένα μόνο σε δείγματα από τη βάση είναι γενικά μη αξιόπιστα Στατιστικά για τις κατηγορίες είναι βασισμένα σε μεγαλύτερα δείγματα, άρα πιο αξιόπιστα, αλλά λιγότερο αντιπροσωπευτικά για τη βάση Συνδυάζοντας στατιστικά από τη βάση και από τις κατηγορίες μπορούμε να εξάγουμε καλύτερες εκτιμήσεις 22/9/2018

Στατιστικά βασισμένα σε Shrinkage
Δημιουργούμε νέες εκτιμήσεις για την πιθανότητα εμφάνισης των λέξεων Pr [metastasis | D] = λ1 * λ2 * λ3 * 0.092 + λ4 * 0.000 Υπολογίζουμε τα βάρη λi χρησιμοποιώντας έναν EM αλγόριθμο, και μεγιστοποιούμε την πιθανότητα η βάση D να ανήκει σε όλες τις «πατρικές» κατηγορίες  22/9/2018

Αποτελέσματα χρήσης Shrinkage
νέα εκτίμηση αρχική εκτίμηση CANCERLIT Shrinkage-based λroot=0.02 λhealth=0.13 λcancer=0.20 λcancerlit=0.65 metastasis 2.5% 0.2% 5% 9.2% 0% aids 14.3% 0.8% 7% 2% 20% football 0.17% 1% … Αυξάνει τις εκτιμήσεις για λέξεις που υποεκτιμήθηκαν (π.χ. metastasis) Μειώνει τις εκτιμήσεις για λέξεις που υπερεκτιμήθηκαν (π.χ. aids) … (σπάνια) προκαλεί την εμφάνιση λέξεων που δεν υπάρχουν στη βάση 22/9/2018

Αναζήτηση σελίδων σε «Αόρατες» Βάσεις Δεδομένων: Συμπεράσματα
Αναζήτηση σελίδων σε «Αόρατες» Βάσεις Δεδομένων: Συμπεράσματα Παρουσιάσαμε μια τεχνική δειγματοληψίας που: Ταξινομεί αυτόματα σε ένα ιεραρχικό κατάλογο, και παράλληλα Δημιουργεί πλήρη στατιστικά για βάσεις δεδομένων με «αόρατο» περιεχόμενο Τα στατιστικά βοηθούνε σε γρήγορη αναζήτηση όταν υπάρχουν χιλιάδες διαθέσιμες βάσεις Δεν απαιτείται η συνεργασία των βάσεων (π.χ. χρήση ειδικών πρωτοκόλλων) Η τεχνική shrinkage βελτιώνει τα στατιστικά χωρίς να αυξάνει το μέγεθος του δείγματος Τα αποτελέσματα της αναζήτησης περιέχουν έως και 100% περισσότερα χρήσιμα κείμενα 22/9/2018

Όλοι οι αλγόριθμοι είναι υλοποιημένοι και διαθέσιμοι για χρήση:
Ερωτήσεις; Όλοι οι αλγόριθμοι είναι υλοποιημένοι και διαθέσιμοι για χρήση: Παναγιώτης Ηπειρώτης 22/9/2018

Παναγιώτης Ηπειρώτης http://www.cs.columbia.edu/~pirot
Classification and Search of Hidden-Web Databases P. Ipeirotis, L. Gravano, When one Sample is not Enough: Improving Text Database Selection using Shrinkage [SIGMOD 2004] L. Gravano, P. Ipeirotis, M. Sahami QProber: A System for Automatic Classification of Hidden-Web Databases [ACM TOIS 2003] E. Agichtein, P. Ipeirotis, L. Gravano Modelling Query-Based Access to Text Databases [WebDB 2003] P. Ipeirotis, L. Gravano Distributed Search over the Hidden-Web: Hierarchical Database Sampling and Selection [VLDB 2002] L. Gravano, P. Ipeirotis, M. Sahami Query- vs. Crawling-based Classification of Searchable Web Databases [DEB 2002] P. Ipeirotis, L. Gravano, M. Sahami Probe, Count, and Classify: Categorizing Hidden-Web Databases [SIGMOD 2001] Approximate Text Matching L. Gravano, P. Ipeirotis, N. Koudas, D. Srivastava Text Joins in an RDBMS for Web Data Integration [WWW2003] L. Gravano, P. Ipeirotis, H.V. Jagadish, N. Koudas, S. Muthukrishnan, D. Srivastava Approximate String Joins in a Database (Almost) for Free [VLDB 2001] L. Gravano, P. Ipeirotis, H.V. Jagadish, N. Koudas, S. Muthukrishnan, D. Srivastava, L. Pietarinen Using q-grams in a DBMS for Approximate String Processing [DEB 2001] SDARTS: Protocol & Toolkit for Metasearching N. Green, P. Ipeirotis, L. Gravano SDLIP + STARTS = SDARTS. A Protocol and Toolkit for Metasearching [JCDL 2001] P. Ipeirotis, T. Barry, L. Gravano Extending SDARTS: Extracting Metadata from Web Databases and Interfacing with the Open Archives Initiative [JCDL 2002] 22/9/2018

Is Shrinkage Always Necessary?
Shrinkage used to reduce uncertainty (variance) of estimations Small samples of large databases  high variance In sample: 10 out of 100 documents contain metastasis In database: ? out of 10,000,000 documents? Small samples of small databases  small variance In database: ? out of 200 documents? Shrinkage less useful (or even harmful) when uncertainty is low 22/9/2018

Adaptive Application of Shrinkage
Database selection algorithms assign scores to databases for each query When word frequency estimates are uncertain, assigned score has high variance shrinkage improves score estimates When word frequency estimates are reliable, assigned score has small variance shrinkage unnecessary Unreliable Score Estimate: Use shrinkage Probability 1 Database Score for a Query Reliable Score Estimate: Shrinkage might hurt Probability Solution: Use shrinkage adaptively in a query- and database-specific manner 1 Database Score for a Query 22/9/2018

Searching Algorithm Extract document samples
Get database classification Compute shrinkage-based summaries One-time process To process a query Q: For each database D: Use a regular database selection algorithm to compute query score for D using old, “unshrunk” summary Analyze uncertainty of score If uncertainty high, use new, shrinkage-based summary instead and compute new query score for D Evaluate Q over top-k scoring databases For every query 22/9/2018

Υπολογίζοντας τον αριθμό κειμένων ανά κατηγορία
Η προσέγγιση που παίρνουμε χρησιμοποιώντας μόνο τα αποτελέσματα των ερωτημάτων δεν είναι τέλεια: Δημιουργούμε ταξινομητές Οι ταξινομητές δεν είναι τέλειοι: Οι λέξεις σε ένα κανόνα μπορεί να εμφανιστούν σε κείμενο άλλης κατηγορίας Τα ερωτήματα δεν είναι τέλεια: Διαφορετικά ερωτήματα μπορεί να επιστρέψουν τα ίδια κείμενα Μερικά κείμενα στη βάση δεν θα επιστραφούν ως απάντηση σε κανένα ερώτημα Δημιουργούμε ερωτήματα Sports: +nba +knicks Health +sars Στέλνουμε ερωτήματα στη βάση If you have several points, steps, or key ideas use multiple slides. Determine if your audience is to understand a new idea, learn a process, or receive greater depth to a familiar concept. Back up each point with adequate explanation. As appropriate, supplement your presentation with technical support data in hard copy or on disc, , or the Internet. Develop each point adequately to communicate with your audience. Υπολογίζουμε τον αριθμό κειμένων ανά κατηγορία Λύση: Μαθαίνουμε να διορθώνουμε τα λάθη των ταξινομητών Ταξινομούμε τη βάση   22/9/2018

Confusion Matrix για καλύτερη of Query Probe Results
Σωστή κατηγορία Ακριβής (αλλά άγνωστη) κατανομή κειμένων Προσεγγιστική κατανομή με βάση τα αποτελέσματα των ερωτημάτων Κατανομή 1000 5000 50 comp sports health 0.80 0.10 0.00 0.08 0.85 0.04 0.02 0.15 0.96 Προσεγγιστική Κατανομή 1300 4332 818 = X = = = If you have several points, steps, or key ideas use multiple slides. Determine if your audience is to understand a new idea, learn a process, or receive greater depth to a familiar concept. Back up each point with adequate explanation. As appropriate, supplement your presentation with technical support data in hard copy or on disc, , or the Internet. Develop each point adequately to communicate with your audience. Ανατεθείσα κατηγορία Ο «πολλαπλασιασμός» είναι δυνατό να «αναστραφεί» ώστε να υπολογίσουμε μια καλύτερη προσέγγιση της κατανομής των κειμένων ανά κατηγορία 10% των κειμένων από την κατηγορία “sport” ταξινομήθηκαν ως “computers” 22/9/2018

Ταξινόμηση με Χρήση Ερωτημάτων: Ο Αλγόριθμος Περιληπτικά
Ταξινόμηση με Χρήση Ερωτημάτων: Ο Αλγόριθμος Περιληπτικά Δημιουργούμε ταξινομητές Δημιουργούμε ένα ταξινομητή κειμένων Δημιουργούμε ερωτήματα χρησιμοποιώντας τον ταξινομητή Στέλνουμε τα κατάλληλα ερωτήματα στη βάση Υπολογίζουμε τον αριθμό των κειμένων ανά κατηγορία Ταξινομούμε τη βάση Μόνο μια φορά Δημιουργούμε ερωτήματα Sports: +nba +knicks Health +sars Στέλνουμε ερωτήματα στη βάση Υπολογίζουμε τον αριθμό κειμένων ανά κατηγορία Για κάθε βάση Ταξινομούμε τη βάση   22/9/2018

Sample Frequencies vs. Actual Frequencies
Problem 2: Frequencies in summary “compressed” to sample size range PubMed (11,868,552 docs) … cancer 1,562,477 heart ,360 … PubMed Sample (300 documents) … cancer 45 heart 16 … Sampling Key Observation: Query matches reveal frequency information 22/9/2018

Adjusting Document Frequencies
Zipf’s law empirically connects word frequency f and rank r f = A (r + B) c frequency rank VLDB 2002 22/9/2018

Zipf’s law empirically connects word frequency f and rank r We know document frequency and rank r of the words in sample f = A (r + B) c frequency Frequency in sample 100 rank …. VLDB 2002 Rank in sample 22/9/2018

Zipf’s law empirically connects word frequency f and rank r We know document frequency and rank r of the words in sample We know real document frequency f of some words from one-word queries frequency f = A (r + B) c Frequency in database rank …. VLDB 2002 Rank in sample 22/9/2018

Zipf’s law empirically connects word frequency f and rank r We know document frequency and rank r of the words in sample We know real document frequency f of some words from one-word queries We use curve-fitting to estimate the absolute frequency of all words in sample f = A (r + B) c frequency Estimated frequency in database rank …. VLDB 2002 22/9/2018

Actual PubMed Content Summary
Number of Documents: 8,691,360 (Actual: 11,868,552) Category: Health, Diseases … cancer 1,562,477 heart ,506 (Actual: 691,360) aids ,491 hepatitis ,481 (Actual: 121,129) basketball (Actual: 1,063) cpu Extracted automatically ~ 27,500 words in extracted content summary Fewer than 200 queries sent At most 4 documents retrieved per query (heart, hepatitis, basketball not in 1-word probes) 22/9/2018

Sampling and Incomplete Content Summaries
Problem 3: Summaries from small samples are highly incomplete Log(Frequency) Sample=300 107 106 Frequency & rank of 10% most frequent words in PubMed database 9,000 . . aphasia ~9,000 docs / ~0.1% 103 102 2·104 4·104 105 Rank Many words appear in “relatively few” documents (Zipf’s law) Low-frequency words are often important Small document samples miss many low-frequency words 22/9/2018

Sample-based Content Summaries
Challenge: Improve content summary quality without increasing sample size Main Idea: Database Classification Helps Similar topics ↔ Similar content summaries Extracted content summaries complement each other 22/9/2018

Databases with Similar Topics
CANCERLIT` contains “metastasis”, not found during sampling CancerBACUP contains “metastasis” Databases under same category have similar vocabularies, and can complement each other 22/9/2018

Content Summaries for Categories
Databases under same category share similar vocabulary Higher level category content summaries provide additional useful estimates All estimates in category path are potentially useful 22/9/2018

Enhancing Summaries Using “Shrinkage”
Estimates from database content summaries can be unreliable Category content summaries are more reliable (based on larger samples) but less specific to database By combining estimates from category and database content summaries we get better estimates SIGMOD 2004 22/9/2018

Shrinkage-based Estimations
Adjust estimate for metastasis in D: λ1 * λ2 * λ3 * 0.092 + λ4 * 0.000 Select λi weights to maximize the probability that the summary of D is from a database under all its parent categories  Avoids “sparse data” problem and decreases estimation risk 22/9/2018

Adaptive Application of Shrinkage
Database selection algorithms assign scores to databases for each query When frequency estimates are uncertain, assigned score is uncertain… …but sometimes confidence about assigned score is high When confident about score, shrinkage unnecessary Unreliable Score Estimate: Use shrinkage Probability 1 Database Score for a Query Reliable Score Estimate: Shrinkage might hurt Probability 1 Database Score for a Query 22/9/2018

Extracting Content Summaries: Problems Solved
Problem 1: Random sampling may retrieve non-representative documents Solution: Focus querying on “topically dense” areas of the database Problem 2: Frequencies are “compressed” to the sample size range Solution: Exploit number of matches for query and adjust estimates using curve fitting Problem 3: Summaries based on small samples are highly incomplete Solution: Exploit database classification and augment summaries using samples from topically similar databases 22/9/2018

Searching Algorithm Classify databases and extract document samples
Adjust frequencies in samples One-time process For each query: For each database D: Assign score to database D (using extracted content summary) Examine uncertainty of score If uncertainty high, apply shrinkage and give new score; else keep existing score Query only top-K scoring databases For every query 22/9/2018

Experimental Setup Two standard testbeds from TREC (“Text Retrieval Conference”): 200 databases 100 queries with associated human-assigned document relevance judgments Two sets of experiments: Content summary quality Metrics: precision, recall, Spearman correlation coefficient, KL-divergence Database selection accuracy Metric: fraction of relevant documents for queries in top-scored databases SIGMOD 2004 22/9/2018

Experimental Results Content summary quality:
Shrinkage improves quality of content summaries without increasing sample size Frequency estimation gives accurate (within ±20%) estimates of actual frequencies Database selection accuracy: Frequency estimation: Improves performance by 20%-30% Focused sampling: Improves performance by 40%-50% Adaptive application of shrinkage: Improves performance up to 100% Shrinkage is robust: Improved performance consistently across many different configurations 22/9/2018

Other Experiments Additional data set: 315 real Web databases
Choice of database selection algorithm (CORI, bGlOSS, Language Modeling) Effect of stemming Effect of stop-word elimination SIGMOD 2004 22/9/2018

Classification & Search: Overall Contributions
Support for browsing and searching Hidden-Web databases No need for cooperation: Work with autonomous Hidden-Web databases Scalable and work with large number of databases Not restricted to “Hidden”-Web databases: Work with any searchable text database Classification and content summary extraction implemented and available for download at: 22/9/2018

Outline of Talk Classification of Hidden-Web Databases
Search over Hidden-Web Databases SDARTS: Protocol and Toolkit for Metasearching 22/9/2018

SDARTS: Protocol and Toolkit for Metasearching
Query Harrison’s Online SDARTS British Medical Journal PubMed Unstructured text documents DLI2 Corpus XML documents Local Web 22/9/2018

SDARTS: Protocol and Toolkit for Metasearching
Accomplishments: Combines the strength of existing Digital Library protocols (SDLIP, STARTS) Enables indexing and wrapping of “local” collections of text and XML documents Enables “declarative” wrapping of Hidden-Web databases, with no programming Extracts content summary, topical focus, and technical level of each database Interfaces with Open Archives Initiative, an emerging Digital Library interoperability protocol Critical building block for search component of Columbia’s PERSIVAL project (5-year, $5M NSF Digital Libraries – Phase 2 project) Open source, available at: ~1,000 downloads since Jan 2003 Supervised and coordinated eight students during development ACM+IEEE JCDL Conference 2001, 2002 22/9/2018

Current Work: Updating Content Summaries
Databases are not static. Their content changes. When should we refresh the content summary? Examined 150 real Web databases over 52 weeks Modeled changes using “survival analysis” techniques (Cox proportional hazards model) Currently developing updating algorithms: Contact database only when necessary Improve quality of summaries by exploiting history Joint work with Junghoo Cho and Alex Ntoulas (UCLA) 22/9/2018

Other Work: Approximate Text Matching
VLDB’01 WWW’03 Matching similar strings within relational DBMS important: data resides there Service A Jenny Stamatopoulou John Paul McDougal Aldridge Rodriguez Panos Ipeirotis John Smith Service B Panos Ipirotis Jonh Smith Stamatopulou, Jenny John P. McDougal Al Dridge Rodriguez Exact joins not enough: Typing mistakes, abbreviations, different conventions Introduced algorithms for mapping approximate text joins into SQL: No need for import/export of data Provides crucial building block for data cleaning applications Identifies many interesting matches Joint work with Divesh Srivastava, Nick Koudas (AT&T Labs-Research) and others 22/9/2018

Future Work: Integrated Access to Hidden-Web Databases
Query: [good indie movies playing in los angeles now] Current top Google result: as of April 5th, 2004 22/9/2018

Query: [ indie movies playing in los angeles now] good query review databases query movie databases query ticket databases All information already available on the web Review databases: Rotten Tomatoes, NY Times, TONY,… Movie databases: All Movie Guide, IMDB Tickets: Moviefone, Fandango,… Privacy: Should the database know that it was selected for one of my queries? Authorization: If a query is sent to a database that I do not have access, I know that it contains something relevant 22/9/2018

Query: [ indie movies playing in los angeles now] good query review databases query movie databases query ticket databases Challenges: Short term: Learn to interface with different databases Adapt database selection algorithms Long term: Understand semantics of query Extract “query plans” and optimize for distributed execution Personalization Security and privacy Privacy: Should the database know that it was selected for one of my queries? Authorization: If a query is sent to a database that I do not have access, I know that it contains something relevant 22/9/2018

No Good Category for Database
General “problem” with supervised learning Example: English vs. Chinese databases Devised technique to analyze if can work with given database: Find candidate textfields Send top-level queries Examine results & construct similarity matrix If “matrix rank” small  Many “similar” pages returned Web form is not a search interface Textfield is not a “keyword” field Database is of different language Database is of an “unknown” topic 22/9/2018

Database not Category Focused
Extract one content summary per topic: Focused queries retrieve documents about known topic Each database is represented multiple times in hierarchy 22/9/2018

Near Future Work: Definition and analysis of query-based algorithms
Currently query-based algorithms are evaluated only empirically Possible to model querying process using random graph theory and: Analyze thoroughly properties of the algorithms Understand better why, when, and how the algorithms work Interested in exploring similar directions: Adapt hyperlink-based ranking algorithms Use results in graph theory to design sampling algorithms WebDB 2003 22/9/2018

Database Selection (CORI, TREC6)
More results in … Stemming/No Stemming, CORI/LM/bGlOSS, QBS/FPS/RS/CMPL, Stopwords 22/9/2018

3-Fold Cross-Validation
These charts are not included in the paper and I am not quite sure whether they can be useful or not. Actually they are the F measure values for the three disjoint sets of the Web set. Their behavior is exactly the same for Varying thresholds, confirming strongly the fact that we are not overfitting the data 22/9/2018

Crawling- vs. Query-based Classification for CNN Sports
Efficiency Statistics: Crawling-based Query-based Time Files Size Queries 1325min 270,202 8Gb 2min (-99.8%) 112 357Kb (-99.9%) IEEE DEB – March 2002 Accuracy Statistics: Crawling-based classification is classified correctly only after downloading 70% of the documents in CNN-Sports 22/9/2018

Experiments: Precision of Database Selection Algorithms
Content Summary Generation Technique CORI Hierarchical Flat FP-SVM-Documents 0.270 0.170 FP-SVM-Snippets 0.200 0.183 Random Sampling 0.177 QPilot (backlinks + front page) 0.050 VLDB 2002 (extended version) 22/9/2018

F-measure vs. Hierarchy Depth
ACM TOIS 2003 22/9/2018

Real Confusion Matrix for Top Node of Hierarchy
Health Sports Science Computers Arts 0.753 0.018 0.124 0.021 0.017 0.006 0.171 0.016 0.064 0.024 0.255 0.047 0.004 0.042 0.080 0.610 0.031 0.027 0.298 22/9/2018

Overlap Elimination 22/9/2018

No Support for Conjunctive Queries (Boolean vs. Vector-space)
22/9/2018

Experimental Setup 72-node 4-level topic hierarchy from InvisibleWeb/Yahoo! (54 leaf nodes) 500,000 Usenet articles (April-May 2000): Newsgroups assigned by hand to hierarchy nodes RIPPER trained with 54,000 articles (1,000 articles per leaf), 27,000 articles to construct confusion matrix 500 “Controlled” databases built using 419,000 newsgroup articles (to run detailed experiments) 130 real Web databases picked from InvisibleWeb (first 5 under each topic) If you have several points, steps, or key ideas use multiple slides. Determine if your audience is to understand a new idea, learn a process, or receive greater depth to a familiar concept. Back up each point with adequate explanation. As appropriate, supplement your presentation with technical support data in hard copy or on disc, , or the Internet. Develop each point adequately to communicate with your audience. comp.hardware rec.music.classical rec.photo.* 22/9/2018

Experimental Results: Controlled Databases
Accuracy (using F-measure): Above 80% for most <Tc, Ts> threshold combinations tried Degrades gracefully with hierarchy depth Confusion-matrix adjustment helps Efficiency: Relatively small number of queries (<500) needed for most threshold <Tc, Ts> combinations tried 22/9/2018

Experimental Results: Web Databases
Accuracy (using F-measure): ~70% for best <Tc, Ts> combination Learned thresholds that reproduce human classification Tested threshold choice using 3-fold cross validation Efficiency: 120 queries per database on average needed for choice of thresholds, no documents retrieved Only small part of hierarchy “explored” Queries are short: 1.5 words on average; 4 words maximum (easily handled by most Web databases) 22/9/2018

Other Experiments Effect of choice of document classifiers: RIPPER
Naïve Bayes SVM Benefits of feature selection Effect of search-interface heterogeneity: Boolean vs. vector-space retrieval models Effect of query-overlap elimination step Over crawlable databases: query-based classification orders of magnitude faster than “brute-force” crawling-based classification ACM TOIS 2003 IEEE Data Engineering Bulletin 2002 22/9/2018

Hidden-Web Database Classification: Summary
Handles autonomous Hidden-Web databases accurately and efficiently: ~70% F-measure Only 120 queries issued on average, with no documents retrieved Handles large family of document classifiers (and can hence exploit future advances in machine learning) 22/9/2018

Outline of Talk Classification of Hidden-Web Databases
Search over Hidden-Web Databases SDARTS 22/9/2018

QProber Εξερευνώντας το Αόρατο Web

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "QProber Εξερευνώντας το Αόρατο Web"— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

QProber Εξερευνώντας το Αόρατο Web

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "QProber Εξερευνώντας το Αόρατο Web"— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια