Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Ιδρύθηκε το 1998 Ανακηρύχτηκε πρόσφατα σαν μία από τις "Top 100 Companies to Watch" (eContent magazine) "Top 100 Companies That Matter" (KMWorld magazine)

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Ιδρύθηκε το 1998 Ανακηρύχτηκε πρόσφατα σαν μία από τις "Top 100 Companies to Watch" (eContent magazine) "Top 100 Companies That Matter" (KMWorld magazine)"— Μεταγράφημα παρουσίασης:

1

2 Ιδρύθηκε το 1998 Ανακηρύχτηκε πρόσφατα σαν μία από τις "Top 100 Companies to Watch" (eContent magazine) "Top 100 Companies That Matter" (KMWorld magazine) Ιδιωτική επιχείρηση (κεντρικά γραφεία στο Los Angeles, California) Βασικοί χρηματοδότες της εταιρείας είναι: The company

3 The Technology CIRCA Technology Applied Semantics Ontology  Βάση γνώσης όρων, εννοιών και των σχέσεων μεταξύ τους  Αναπτύχθηκε από μία ομάδα πεπειραμένων γλωσσολόγων και λεξικογράφων  Αποτελείται από εκατομμύρια λέξεων, εννοιών και των σχέσεων μεταξύ τους  Συγκαταλέγεται στα πιο περιεκτικά λεξικά

4 The Ontology - Levels Η Οντολογία χαρακτηρίζεται από τρία βασικά αντιπροσωπευτικά επίπεδα: Tokens (μεμονωμένες μορφές λέξης) Terms (ακολουθίες ενός ή περισσοτέρων tokens που μπορούν να σταθούν ως μονάδες με κάποια σημασία) Meanings (έννοιες) O όρος Term 1 συσχετίζεται με δύο διακριτές έννοιες: 1.Establish the validity of something, be shown or be found to be; ''This behavior bears witness to his true nature'‘ 2.Give testimony in a court of law

5 The Ontology – Relationships Synonymy/antonymy (“good” είναι αντώνυμο του “bad”) Similarity (“gluttonous” είναι παρόμοιο του“greedy”) Hypernymy (is a kind of / has kind) (“horse” είναι είδους “Arabian”) Membership (“commissioner” είναι μέλος του“commission”) Metonymy (whole/part relations) (“motor vehicle” έχει μέρος “clutch pedal”) Substance (e.g. “lumber” έχει ουσία “wood”) Product (e.g. “Microsoft Corporation” παράγει το “Microsoft Access”) Attribute (“past”, “preceding” είναι ιδιότητες του “timing”) Causation (e.g. “travel” προκαλεί “displacement” ή “motion”) Entailment (e.g. “buying” συνεπάγεται “paying”) Lateral bonds (έννοιες που σχετίζονται μεταξύ τους, αλλά η σχέση αυτή δεν μπορεί να περιγράφει με βάση τις παραπάνω σχέσεις, e.g. “dog” and “dog collar”)

6 The Ontology – Customization Η CIRCA δίνει την δυνατότητα "επίστρωσης" πρόσθετων επιπέδων από δεδομένα της Οντολογίας πάνω από την βάση της Applied Semantics Ontology. Αυτό επιτρέπει την προσαρμογή του συστήματος σε κάθετα περιβάλλοντα όπου απαιτείται μεγαλύτερη ανάλυση εξειδικευμένων εννοιών. Εκτός από τη δημιουργία των νέων εννοιών και των όρων μέσα στο προσαρμοσμένο επίπεδο της Οντολογίας, είναι επίσης δυνατό να δημιουργηθούν νέοι τύποι σχέσεων μεταξύ των εννοιών. Χρήση του συστήματος γι’ αυτό το σκοπό μέσω ενός intuitive interface και με τη βοήθεια προγμένων editing tools.

7 CIRCA – Pre-processing

8 Tokenizer Είναι αρμόδιο για το διαχωρισμό των ακατέργαστων δεδομένων (raw data) σε μεμονωμένα αντικείμενα (tokens), και για την αναγνώριση και το χαρακτηρισμό των προτάσεων. Διατηρεί συγκεκριμένες πληροφορίες για το αρχικό κείμενο, όπως το byte offset ενός token, ενώ αφαιρεί κάποια δεδομένα (π.χ. περιττά tags), ή προσθέτει κάποια δομή στο κείμενο εισόδου (π.χ. sentence annotations). Spell – checking: τα tokens που δεν αναγνωρίζονται μπορούν να αντιστοιχηθούν σε σωστά ορθογραφικά υποψήφια tokens, με βάση τη στατιστική πιθανότητα του τύπου σφάλματος

9 Part of Speech Tagger Ο στόχος του Part of Speech Tagger είναι να αναλυθεί μία σειρά από tokens που συνθέτουν μια πρόταση και να ανατεθεί μια ετικέτα συντακτικής κατηγορίας (syntactic category tag) σε κάθε token. Το Tagger λειτουργεί με βάση κανόνες συμφραζομένων (contextual rules). Τα tokens αρχικοποιούνται με τις πιθανότερες ετικέτες, όπως παράγονται από τα δεδομένα των tokens στην Οντολογία. Η ετικέτα που δίνεται σε κάθε σημείο μπορεί να αλλάξει με βάση τις κατηγορίες των tokens γύρω από εκείνο το token. Παράδειγμα: "branches"  "branches of a tree" -> ουσιαστικό  " The conversation branches out to.... " -> ρήμα

10 Named Entity Recognition Eίναι αρμόδιο για την αναγνώριση μίας σειράς από tokens, που πρέπει ενδεχομένως να αντιμετωπιστούν ως μονάδα, και που μπορούν να αντιστοιχηθούν σε έναν συγκεκριμένο σημασιολογικό τύπο. Κάθε αναγνωρισμένη μονάδα χαρακτηρίζεται ως όρος, και συνδέεται με μια ορισμένη πιθανότητα ότι η σειρά αυτή πρέπει να αντιμετωπιστεί ως μονάδα. Στην περίπτωση των όρων που υπάρχουν ήδη στην Οντολογία, αυτή η πιθανότητα προέρχεται από τις προηγούμενες παρατηρήσεις του όρου από το σύστημα.

11 Term Segmenter Xαρτογραφεί τα tokens ή τις ακολουθίες tokens στους όρους που αναπαριστώνται στην Οντολογία. Στους ανταγωνιστικούς όρους - όροι που επικαλύπτονται σε ένα ή περισσότερα tokens – δίνεται μία πιθανότητα σε σχέση με τους ανταγωνιστές τους. Για παράδειγμα, έστω μια συμβολική ακολουθία "kicked the bucket"  "Grandpappy kicked the bucket last year" : η φράση πρέπει να αντιμετωπιστεί ως μονάδα (ένας multi-token όρος που σημαίνει "to die")  "The toddler kicked the bucket and all the water poured out": Η φράση πρέπει να αντιμετωπιστεί ως μία σειρά από τρεις μεμονωμένους όρους. Όταν αυτά τα βήματα προεπεξεργασίας ολοκληρωθούν, καταλήγουμε με το κείμενο εισόδου που μπορεί να το δει πλέον κανείς σαν μία σειρά από πιθανολογικά σύνολα από meaning sets.

12 Word Sense Disambiguation Χρησιμοποιούνται οι γνωστές σημασιολογικές σχέσεις μεταξύ των εννοιών, όπως αυτές αναπαριστώνται στην Οντολογία, για να αυξηθεί η πιθανότητα μιας συγκεκριμένης έννοιας μιας λέξης Κάθε έννοια στο έγγραφο στέλνει έναν "pulse" στις έννοιες που βρίσκονται κοντά μέσα στο έγγραφο, και οι οποίες είναι σχετικές ή συσχετισμένες μαζί της. Το μέγεθος του σφυγμού είναι μια συνάρτηση της δύναμης (strength) της σχέσης μεταξύ της source έννοιας και της target έννοιας, και της "εστίασης" (focus) της source έννοιας - δηλαδή πόσο ενδεικτική των σχετικών εννοιών μπορεί να θεωρηθεί ότι είναι μια έννοια (βλ. παρακάτω).

13 Sensing Μετά από την εφαρμογή του αλγορίθμου word sense disambiguation, έχει υπολογιστεί η πιθανότητα κάθε έννοιας με βάση τα συμφραζόμενα. Me to sensing εντοπίζεται μια σφαιρική όψη της έννοιας του κειμένου - μια αναπαράσταση των σημαντικότερων εννοιών που εκφράζονται στο κείμενο. Ο αλγόριθμος χρησιμοποιεί την ίδια ιδέα της ενίσχυσης των εννοιών που εφαρμόζει ο αλγόριθμος αποσαφήνισης εννοιών. Ο αλγόριθμος ενσωματώνει την ιδέα ότι οι συχνότερες έννοιες είναι σημαντικότερες, επειδή οι έννοιες που εμφανίζονται συχνότερα θα ενισχυθούν και συχνότερα.

14 Προϊόντα Publishing Applied Semantics Concept Server News Series Domain Name Solutions DomainPark DomainSense DomainAppraise Advertising Solutions AdSense KeywordSense

15 Concept Server

16 News Series Editorial Syndication Archiving Newswire

17 Προϊόντα Publishing Applied Semantics Concept Server News Series Domain Name Solutions DomainPark DomainSense DomainAppraise Advertising Solutions AdSense KeywordSense

18 Domain Name Registration Προϊόντα που συσχετίζουν διακριτές ποσότητες πληροφορίας με βάση το νόημά τους. DomainPark Portal που συσχετίζει parked pages με κατάλληλες διαφημίσεις ανάλογα με το domain name. Δεν υπάρχει κόστος σύνδεσης.

19 DomainSense Sophisticated term parsing Prefix/Suffix συνδυασμοί Αξιολόγηση όρων

20 DomainSense Sophisticated term parsing Prefix/Suffix συνδυασμοί Αξιολόγηση όρων

21 DomainSense Sophisticated term parsing Prefix/Suffix συνδυασμοί Αξιολόγηση όρων

22 DomainAppraise Κριτήρια Parsed terms Number of parsed terms Number of Hyphens Word length Industry category Product usage Name availability TLD value Web frequency of parsed terms Domain Name search frequency Zone file frequency Υπηρεσία αξιολόγησης domain names.

23 Προϊόντα Publishing Applied Semantics Concept Server News Series Domain Name Solutions DomainPark DomainSense DomainAppraise Advertising Solutions AdSense KeywordSense

24 Online Advertising AdSense Εξάγει θέματα-κλειδιά μιας σελίδας για να συσχετίσει κατάλληλες διαφημίσεις με βάση εννοιολογικά σχετικούς όρους. KeywordSense Χρησιμοποιεί τεχνολογία semantic search για να συσχετίσει δυναμικά τις επερωτήσεις των τελικών χρηστών με εννοιολογικά σχετικούς και προσοδοφόρους, από διαφημιστική άποψη, όρους ή κατηγορίες αναζήτησης.

25 Εν κατακλείδι Ontology-based λύσεις σε θέματα διαχείρισης μη δομημένων δεδομένων. Πελάτες:

26 Ευχαριστούμε


Κατέβασμα ppt "Ιδρύθηκε το 1998 Ανακηρύχτηκε πρόσφατα σαν μία από τις "Top 100 Companies to Watch" (eContent magazine) "Top 100 Companies That Matter" (KMWorld magazine)"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google