Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Αυτόματη Συμπλήρωση Οντολογίας Προϊόντων από Σελίδες του Παγκόσμιου Ιστού ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ Διπλωματική.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Αυτόματη Συμπλήρωση Οντολογίας Προϊόντων από Σελίδες του Παγκόσμιου Ιστού ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ Διπλωματική."— Μεταγράφημα παρουσίασης:

1 Αυτόματη Συμπλήρωση Οντολογίας Προϊόντων από Σελίδες του Παγκόσμιου Ιστού ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ Διπλωματική Εργασία Μαρινέλα Β. Μάρκο Επιβλέποντες : Ευστάθιος Χατζηευθυμιάδης Κωνσταντίνος Κολομβάτσος Δεκέμβριος 2011

2 2 ΕΙΣΑΓΩΓΗ  Σημασιολογική αναπαράσταση προϊόντων (τα οποία αποτελούν βασικό αντικείμενο εμπορίου), πρόκληση κλειδί για επιχειρηματικές εφαρμογές στον Σημασιολογικό Ιστό.  Οι οντολογίες αποτελούν βασικό συστατικό του Σημασιολογικού Ιστού.  Αυτόματη συμπλήρωση οντολογίας (automatic ontology population) : η διαδικασία προσθήκης στιγμιοτύπων (instances) σε οντολογία με αυτόματο τρόπο.  Προτεινόμενη προσέγγιση : η δημιουργία εμπλουτισμένης οντολογίας προϊόντων με νέα στιγμιότυπα και χαρακτηριστικά προϊόντων που εξάγωνται από HTML λίστες και πίνακες σελίδων ηλεκτρονικών καταστημάτων.  Γιατί HTML λίστες και πίνακες; 1. Δομημένη παρουσίαση των προϊόντων, άρα πρακτική εξαγωγή πληροφορίας. 2. Πλούσια πηγή πληροφοριών. 3. Οι HTML λίστες/πίνακες αποτελούν σχεδιαστική επιλογή στις περισσότερες σελίδες ηλεκτρονικών καταστημάτων για την παρουσίαση των προϊόντων τους σήμερα. 4. Οι σελίδες Ιστού είναι δημόσια διαθέσιμες και περιέχουν πληροφορία που είναι εύκολα προσβάσιμη από όλους.

3 3 ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ  ΜΑΘΗΣΗ ΟΝΤΟΛΟΓΙΑΣ ΑΠΟ ΣΧΕΣΙΑΚΑ ΣΧΗΜΑΤΑ Οι προσεγγίσεις που έχουν αναπτυχθεί για ημιαυτόματη εξαγωγή οντολογιών από σχεσιακές βάσεις συνοψίζονται στις παρακάτω : 1. Προσεγγίσεις που βασίζονται στην ανάλυση των επερωτήσεων χρηστών (analysis of user queries). 2. Προσεγγίσεις που βασίζονται στην ανάλυση του σχεσιακού σχήματος (analysis of relational schema). 3. Προσεγγίσεις που βασίζονται στην ανάλυση των πλειάδων (analysis of tuples). 4. Προσεγγίσεις που βασίζονται στην ανάλυση των HTML-πινάκων (analysis of HTML- table). 5. Προσεγγίσεις που βασίζονται στην ανάλυση HTML-φορμών (analysis of HTML- forms).  ΜΑΘΗΣΗ ΟΝΤΟΛΟΓΙΑΣ ΑΠΟ ΗΜΙΔΟΜΗΜΕΝΑ ΔΕΔΟΜΕΝΑ. Χρησιμοποιούν τεχνικές data mining και web content mining. Παραδείγματα εργασιών :  Αυτόματη δημιουργία οντολογίας από σελίδες στον Ιστό που εξάγονται ως αποτέλεσμα αναζήτησης με βάση μια λέξη-κλειδί σε μηχανή αναζήτησης. Η οντολογία που προκύπτει αναπαριστά μια ταξινομία κλάσεων, χωρίς ιδιότητες.  Σύστημα OntoMiner.  Σύστημα δημιουργίας οντολογίας από ένα σύνολο σελίδων Ιστού συγκεκριμένου πεδίου και ενός συνόλου εννοιών-βάσης (seed concepts).  Μια σχετική εργασία, για συμπλήρωση οντολογιών με στιγμιότυπα από πίνακες HTML σελίδων,χρησιμοποιεί σελίδες ηλεκτρονικών καταστημάτων που παρουσιάζουν αναλυτικά κάθε προϊόν σε πίνακα για να ταιριάξει τον web πίνακα με την κατάλληλη κλάση στην οντολογία, ώστε να δημιουργήσει στιγμιότυπο προϊόντος της κλάσης αυτής.

4 4 ΕΙΚΟΝΙΚΕΣ ΑΓΟΡΕΣ  Φέρνουν πολλαπλούς αγοραστές και πωλητές μαζί (με την «εικονική» έννοια) με σκοπό τη διεξαγωγή συναλλαγών μέσω του διαδικτύου.  Συστατικά στοιχεία : αγοραστές, πωλητές, προϊόντα ή υπηρεσίες, front-end, back-end, μεσάζοντες, που είναι τρίτες οντότητες μεταξύ αγοραστών και πωλητών, επιχειρηματικοί εταίροι, υποστηρίζουσες υπηρεσίες.  Διάφορες κατηγοριοποίησεις με βασικότερη εκείνη που τις χωρίζει σε : buyer-oriented, seller-oriented ή neutral.  Οφέλη από την χρήση οντολογιών στις εκονικές αγορές είναι πολλά. Ενδεικτικά αναφέρονται: 1. Καλύτερο ταίριασμα μεταξύ απαιτήσεων αγοραστών και πωλητών (matchmaking). 2. Χρήση από συστήματα συστάσεων (recommender systems). 3. Η ενοποίηση δεδομένων καταλόγου που προέρχονται από διαφορετικούς προμηθευτές από κατανεμημένες πηγές. 4. Η έκφραση, η τυποποίηση, η μεταφορά ακόμη και η εμπορία γνώσεων για τη σχέση των προϊόντων μεταξύ τους.

5 5 ΟΝΤΟΛΟΓΙΕΣ ΠΡΟΪΟΝΤΩΝ (1/2)  Διευκολύνουν την ανταλλαγή δεδομένων προϊόντων.  Οι εργασίες ολοκλήρωσης περιεχομένου μπορούν να αυτοματοποιηθούν καλύτερα εάν οι περιγραφές επαυξάνονται με μια σημασιολογική πληροφορία, αναγνώσιμη από τις μηχανές. Έτσι, τα πρότυπα κατηγοριοποίησης προϊόντων και υπηρεσιών γίνονται όλο και πιο χρήσιμα.  Το πρότυπο κατηγοριοποίησης eCl@ss : κατηγοριοποίηση προϊόντων με βάση την χρήση τους. Επομένως πιο χρήσιμο για τους αγοραστές. Αριθμός κλάσεων = 25658 (έκδοση 5.1de). Αυξάνεται κατά 280 κλάσεις το μήνα. Το μεγαλύτερο μερίδιο κατηγοριών προέρχεται από πολύ λίγες διακλαδώσεις και ο βαθμός ανισορροπίας είναι εμφανής.  Το πρότυπο κατηγοριοποίησης UNSPSC : κατηγοριοποίηση προϊόντων με βάση τα χαρακτηριστικά του. Επομένως, πιο χρήσιμο στους προμηθευτές. Αριθμός κλάσεων = 20789 (έκδοση 7,0901). Αυξάνεται κατά 230 κλάσεις το μήνα. Το μεγαλύτερο μερίδιο κατηγοριών προέρχεται από πολύ λίγες διακλαδώσεις.

6 6 ΟΝΤΟΛΟΓΙΕΣ ΠΡΟΪΟΝΤΩΝ (2/2)  Συμπέρασμα : 1. Τα δυο πρότυπα έχουν πάρα πολλές κλάσεις προϊόντων, που είναι είναι αρκετά άνισα κατανεμημένες μεταξύ των διαφόρων τμημάτων. 2. Ο βαθμός πληρότητας μειώνεται σε μεγάλο βαθμό όσο κατεβαίνουμε επίδεδο. 3. Πολλές από τις διακλαδώσεις εξακολουθούν να είναι πολύ ελλιπείς.  Επομένως, λόγω της πολυπλοκότητας, του μεγάλου αριθμού κλάσεων και των λοιπών μειωνεκτημάτων στα πλαίσια της εργασίας υιθετήθηκε μια πιο ελαφριά οντολογία προϊόντων που μπορεί να κλιμακωθεί (scale) πολύ καλά στις βασικές υποδομές του Σημασιολογικού Ιστού που είναι διαθέσιμες σήμερα.

7 7 ΑΥΤΟΜΑΤΕΣ ΜΗΧΑΝΕΣ ΑΓΟΡΑΣ (SHOPBOTS)  Shopbots : κατηγορία έξυπνων πρακτόρων (intelligent agents) που αναζητούν (αυτόματα και αποτελεσματικά), σε ένα μεγάλο αριθμό πωλητών, και παρέχουν στον καταναλωτή σχεδόν όλες τις πληροφορίες, που υπάρχουν μια δεδομένη στιγμή στο διαδίκτυο, σχετικά με ένα προϊόν.  Οφέλη από την χρήση οντολογιών προϊόντων στα shopbots: 1. Πιο ευέλικτη απεικόνιση προϊόντων και χαρακτηριστικών τους. 2. Πιο εξειδικευμένη δήλωση προϊόντων και χαρακτηριστικών τους, με αποτέλεσμα πιο ακριβή αποτελέσματα αναζήτησης. 3. Μικρότερο χρόνο εκτέλεσης επερωτήσεων, επομένως γρηγορότερη απόκριση στις αιτήσεις χρηστών.

8 8 Η ΓΕΝΙΚΗ ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ

9 9 Η ΟΝΤΟΛΟΓΙΑ ΠΡΟΪΟΝΤΩΝ

10 10 ΜΕΘΟΔΟΛΟΓΙΑ ΔΗΜΙΟΥΡΓΙΑΣ ΠΡΟΪΟΝΤΩΝ ΣΤΗΝ ΟΝΤΟΛΟΓΙΑ

11 11 ΠΑΡΑΔΕΙΓΜΑΤΑ ΣΕΛΙΔΩΝ ΜΕ ΠΡΟΪΟΝΤΑ ΣΕ ΠΙΝΑΚΑ & ΛΙΣΤΑ

12 12 ΠΗΓΗ ΣΕΛΙΔΑΣ ΜΕ ΠΡΟΪΟΝΤΑ ΣΕ ΠΙΝΑΚΑ  Περιγράφεται ένα προϊόν γιατί έχει.  Επομένως θα ανακτηθούν όλα τα εμφωλευμένα στοιχεία, δηλαδή οι τιμές των attribute “class”, τα “product_summary”, “brand_name”, “product_name” κτλ.  Θα συγκριθεί το καθένα από αυτά με τα data-properties της κλάσης “Product”, και αν βρεθεί λεξικογραφική ομοιότητα >=0.5, θα προστεθεί στην οντολογία.

13 13 ΠΗΓΗ ΣΕΛΙΔΑΣ ΜΕ ΜΗ ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

14 14 ΑΠΟΤΕΛΕΣΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΣΤΙΓΜΙΟΤΥΠΩΝ ΣΥΝΟΛΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΓΙΑ ΣΤΙΓΜΙΟΤΥΠΑ ΠΡΟΪΟΝΤΩΝ ΣΕΝΑΡΙΟ# ΙΣΤΟΣΕΛΙΔΩΝ # ΝΕΩΝ ΣΤΙΓΜΙΟΤΥΠΩ Ν # ΠΡΑΓΜΑΤΙΚΩΝ ΠΡΟΪΟΝΤΩ Ν # ΜΗ ΠΡΑΓΜΑΤΙΚΩ Ν ΠΡΟΪΟΝΤΩΝ PRECISION ΣΤΙΓΜΙΟΤΥ ΠΩΝ 1ο118 01 2ο510296696/102 = 0.94 3ο1022614581145/226 = 0.64 4ο2042834385343/428 = 0.80 5ο1023413896138/234 = 0.58 6ο30692576116576/692 = 0.83  Αρκετά καλή επίδοση στον εντοπισμό και την εξαγωγή των προϊόντων από σελίδες ηλεκτρονικών καταστημάτων που εμφανίζονται σε μορφή πίνακα ή λίστας.

15 15 ΑΠΟΤΕΛΕΣΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΚΑΤΗΓΟΡΙΑΣ ΠΡΟΪΟΝΤΩΝ ΑΞΙΟΛΟΓΗΣΗ ΓΙΑ ΚΑΤΗΓΟΡΙΕΣ ΠΡΟΪΟΝΤΩΝ ΣΕΝΑΡΙΟ# ΙΣΤΟΣΕΛΙΔΩΝ # ΣΩΣΤΩΝ ΕΙΣΑΓΩΓΩΝ ΚΑΤΗΓΟΡΙΑΣ ΠΡΟΪΟΝΤΩΝ ΣΤΗΝ ΟΝΤΟΛΟΓΙΑ # ΣΩΣΤΩΝ ΑΝΑΚΤΗΣΕΩΝ ΚΑΤΗΓΟΡΙΑΣ ΑΠΟ ΙΣΤΟΣΕΛΙΔΕΣ 1ο101 2ο51/5 = 0.24/5 = 0.8 3ο102/10 =0.21 4ο205/20 = 0.2516/20 = 0.8 5ο104/10 = 0.41 6ο3012/30 = 0.429/30 = 0.96  Οι κατηγορίες προϊόντων ανακτώνται στις περισσότερες περιπτώσεις σωστά από τις ιστοσελίδες, δηλαδή # ΣΩΣΤΩΝ ΑΝΑΚΤΗΣΕΩΝ ΚΑΤΗΓΟΡΙΑΣ ΑΠΟ ΙΣΤΟΣΕΛΙΔΕΣ έχουν τιμή από 0.8 έως 1.  Όμως, η τοποθέτησή τους στη σωστή θέση στην οντολογία εμφανίζει κάποιο πρόβλημα, διότι # ΣΩΣΤΩΝ ΕΙΣΑΓΩΓΩΝ ΚΑΤΗΓΟΡΙΑΣ ΠΡΟΪΌΝΤΟΣ ΣΤΗΝ ΟΝΤΟΛΟΓΙΑ είναι της τάξης του 0.2 με 0.4.  Συμπέρασμα : η κατηγορία δεν αποθηκεύεται σωστά λόγω του τρόπου παρουσίασης των κατηγοριών στις ιστοσελίδες. Οι αλγόριθμοι ομοιότητας δεν εντοπίζουν την συσχέτιση π.χ. Underwear με Cloth, με αποτέλσμα την δημιουργία νέας κατηγορίας ως κλάση στην οντολογία.

16 16 ΕΠΙΜΕΡΟΥΣ ΑΠΟΤΕΛΕΣΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ 3 ΟΥ ΣΕΝΑΡΙΟΥ ΕΠΙΜΕΡΟΥΣ ΑΠΟΤΕΛΕΣΜΑΤΑ 3ου ΣΕΝΑΡΙΟΥ URL # ΝΕΩΝ ΣΤΙΓΜ ΙΟΤΥΠ ΩΝ # ΠΡΑΓΜ ΑΤΙΚΩΝ ΠΡΟΪΟΝ ΤΩΝ # ΜΗ ΠΡΑΓΜ ΑΤΙΚΩΝ ΠΡΟΪΟΝ ΤΩΝ ΙΔΙΟΤΗΤΕΣ ΠΡΟΪΟΝΤ ΟΣ ΜΕ ΣΩΣΤΕΣ ΤΙΜΕΣ ΙΔΙΟΤΗΤΕΣ ΠΡΟΪΟ ΝΤΟΣ ΜΕ ΛΑΘΟΣ ΤΙΜΕΣ ΙΔΙΟΤΗΤΕΣ ΠΡΟΪΟΝΤΟ Σ ΜΕ ΚΕΝΕΣ ΤΙΜΕΣ ACCURACY ΙΔΙΟΤΗΤΩΝ 1442024ΑhasPidΒ - hasPid5/13 = 0.38 2381226Α0Β5/13 = 0.38 319127Α0Β5/13 = 0.38 411 0 Α - {hasPric e,hasCur rency} hasName B - hasName + {hasPrice, hasCurren cy} 3/13 = 0.23 5331122Α0Β5/13 = 0.38 6990Α + hasName0B - hasName6/13 = 0.46 718 0A0B5/13 = 0.38 824 0AhasNameB - hasName5/13 = 0.38 923203A hasTimeVali dity, hasOri ginCou ntry, B -{ hasTimeV alidity,has OriginCou ntry} 5/13 = 0.38 10880A0B5/13 = 0.38  A = {hasCurrency, hasPrice, hasCategory, hasProvider, hasDescription}  B = {hasName, hasPid, hasRelevance, hasTimeValidity, hasOriginCountry, hasDiscount, hasShipment, hasManufacturer }

17 17 ΑΠΟΤΕΛΕΣΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΕΠΙΔΟΣΗΣ 7 ΟΥ ΣΕΝΑΡΙΟΥ  Τα σενάρια εκτελέστηκαν σε υπολογιστή με χαρακτηριστικά : Επεξεργαστής Core 2 Duo 2.20 GHz. και Μνήμη RAM 4.00 GB.  Ο χρόνος εκτέλεσης αυξάνεται σε μικρό βαθμό αν συγκριθεί με τους χρόνους εκτέλεσης των σεναρίων 1 εως 6 που εκτελούνταν σε άδεια οντολογία.  το 6ο σενάριο είχε χρόνο εκτέλεσης (28' 42'') σε άδεια οντολογία, ενώ όταν εκτελέστηκε σε οντολογία με 1014 στιγμιότυπα, εμφάνισε χρόνο εκτέλεσης (37' 55''). ΑΠΟΤΕΛΕΣΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΕΠΙΔΟΣΗΣ ΣΕΝΑΡΙΟΥΠΟΣΕΝΑΡΙΟ # ΙΣΤΟΣΕΛΙΔΩ Ν # ΝΕΩΝ ΣΤΙΓΜΙΟΤΥΠΩ Ν ΧΡΟΝΟΣ ΕΚΤΕΛΕΣΗΣ ΑΔΕΙΑ ΟΝΤΟΛΟΓΙΑ ΧΡΟΝΟΣ ΕΚΤΕΛΕΣΗ Σ 7ο 1ο11822 ' 33''20 ' 33'' 2ο51021 ' 4''1' 17'' 3ο102268' 42''9' 40'' 4ο204235' 6''6' 51'' 5ο102344' 40''7' 33'' 6ο3069228' 42''37' 55''

18 18 ΓΕΝΙΚΑ ΣΥΜΠΕΡΑΣΜΑΤΑ  Η μέθοδος ανάκτησης προϊόντων που χρησιμοποιήθηκε βασίζεται σε λεξικογραφική ανάλυση των HTML στοιχείων (tags) που παριστάνουν λίστες και πίνακες.  Η προτεινόμενη προσέγγιση είναι πρακτική και χρήσιμη για την μείωση του χρόνου που καταναλώνεται για την δημιουργία στιγμιοτύπων προϊόντων.  Εισάγονται στιγμιότυπα για προϊόντα από κατανεμημένες πηγές σε ένα σημείο συγκέντρωσης.  Έτσι, η πληροφορία που είναι αποθηκευμένη στις σχεσιακές βάσεις και γίνεται προσβάσιμη μέσω HTML λιστών και πινάκων των σελίδων Ιστού είναι πλέον διαθέσιμη στον Ιστό και επεξεργάσιμη από μηχανές.  Αυτό σημαίνει ότι η εμπλουτισμένη οντολογία προϊόντων μπορεί να χρησιμοποιηθεί από λογισμικούς πράκτορες (π.χ. shopbots) ή άλλες οντότητες μιας εικονικής αγοράς, ώστε να εκτελούν σύνθετες εργασίες και επερωτήσεις στην οντολογία προϊόντων, με σκοπό την παροχή καλύτερης πληροφόρησης στους χρήστες για τα προϊόντα και τα χαρακτηριστικά τους.

19 19 ΜΕΛΛΟΝΤΙΚΕΣ ΚΑΤΕΥΘΥΝΣΕΙΣ  Η εύρεση πιο αποτελεσματικής μεθόδου αποθήκευσης κατηγορίας προϊόντων στην οντολογία.  Τα ονόματα των νέων στιγμιοτύπων δημιουργούνται με την χρήση μιας Random γεννήτριας τυχαίων αριθμών τύπου long. Ενδεχομένως να υπάρχει καλύτερη μέθοδος δημιουργίας παγκόσμια μοναδικών αναγνωριστικών προϊόντων για την δημιουργία στιγμιοτύπων.  Ο συνδυασμός δημιουργίας νέων κλάσεων ως κατηγορίες προϊόντων στην οντολογία, με ταυτόχρονη δημιουργία object- properties ή data-properies κατάλληλων για την κλάση αυτή, ώστε να προκύψει πιο εκφραστική οντολογία. Αυτό δεν είναι εφικτό γιατί δεν μπορεί να εξαχθεί τέτοια σύνθετη πληροφορία μόνο από ανάλυση των html headers και titles της κάθε ιστοσελίδας.  Μια πιθανή βελτίωση θα ήταν να βρεθεί μέθοδος που να αντιστιχίζει περισσότερα html attributes σε ιδιότητες προϊόντων στην οντολογία.  Δεν υπάρχει υλοποιημένη (built-in) μέθοδος στο OWL API 3.2.4 για την αποθήκευση τιμών τύπου date στις ιδιότητες των προϊόντων στην οντολογία (π.χ. hasValidityTime).


Κατέβασμα ppt "Αυτόματη Συμπλήρωση Οντολογίας Προϊόντων από Σελίδες του Παγκόσμιου Ιστού ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ Διπλωματική."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google