Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Συνεχής μετασχηματισμός της γνώσης Υπονοούμενη Κατηγορηματική ΕΞΩΤΕΡΙΚΕΥΣΗ ΕΣΩΤΕΡΙΚΟΠΟΙΗΣΗΚΟΙΝΩΝΙΚΟΠΟΙΗΣΗ ΣΥΝΔΥΑΣΜΟΣ.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Συνεχής μετασχηματισμός της γνώσης Υπονοούμενη Κατηγορηματική ΕΞΩΤΕΡΙΚΕΥΣΗ ΕΣΩΤΕΡΙΚΟΠΟΙΗΣΗΚΟΙΝΩΝΙΚΟΠΟΙΗΣΗ ΣΥΝΔΥΑΣΜΟΣ."— Μεταγράφημα παρουσίασης:

1

2 Συνεχής μετασχηματισμός της γνώσης Υπονοούμενη Κατηγορηματική ΕΞΩΤΕΡΙΚΕΥΣΗ ΕΣΩΤΕΡΙΚΟΠΟΙΗΣΗΚΟΙΝΩΝΙΚΟΠΟΙΗΣΗ ΣΥΝΔΥΑΣΜΟΣ

3 Τεχνολογίες π ου υ π οστηρίζουν το μετασχηματισμό της γνώσης Text searchVisualization Κατηγορηματική σε κατηγορηματικήΚατηγορηματική σε υπονοούμενη AnnotationSynchronous collaboration (chat) Υπονοούμενη σε κατηγορηματικήΥπονοούμενη σε υπονοούμενη Document categorizationBrowsable video/audio of presentations Answering questionsE-meetings

4 Υπονοούμενη σε Υπονοούμενη  Τυπικός τρόπος δόμησης και διάχυσης υπονοούμενης γνώσης είναι οι συναντήσεις πρόσωπο με πρόσωπο και η ανταλλαγή εμπειριών με άτυπο τρόπο, στις οποίες οι Τεχνολογίες Πληροφορικής (ΤΠ) παίζουν μικρό ρόλο.  Τελευταία αυξάνεται συνεχώς στις συναντήσεις και τις άλλες διαπροσωπικές αλληλεπιδράσεις η χρήση on-line εργαλείων που είναι γνωστά σαν ομαδικό λογισμικό (groupware).  Το ομαδικό λογισμικό συνήθως υποστηρίζει τις συμβατικές συναντήσεις ή σε μερικές περιπτώσεις τις υποκαθιστά.

5 Ομαδικό λογισμικό  Πλατιά κατηγορία εφαρμογών λογισμικού που βοηθά τα άτομα να εργάζονται μαζί σαν ομάδες και να επικοινωνούν.  Το ομαδικό λογισμικό μπορεί σε κάποιο βαθμό να υποστηρίξει και τις τέσσαρες μορφές μετασχηματισμού της γνώσης.  Το ομαδικό λογισμικό δημιουργεί έναν εικονικό χώρο δια μέσου του οποίου οι συμμετέχοντες μπορούν να μοιράζονται εμπειρίες (συγκεκριμένου είδους). – Π.χ., διεξάγουν συναντήσεις, παρακολουθούν παρουσιάσεις, συζητούν, μοιράζονται κείμενα κ.λ.π.  Ηλεκτρονικές συναντήσεις σε πραγματικό χρόνο: μπορεί να περιλαμβάνουν διασκέψεις με video και κείμενο, σύγχρονη επικοινωνία και συζήτηση.

6 Ομαδικό λογισμικό (συνέχεια)  To ομαδικό λογισμικό διευκολύνει κυρίως τον συνδυασμό δηλ. το διαμοιρασμό της κατηγορηματικής γνώσης. Όμως, η επιλογή και σχολιασμός της κατηγορηματικής γνώσης κατά κάποιο τρόπο συνιστά διαμοιραζόμενη εμπειρία.  Προϊόντα groupware: Microsoft NetMeeting, Lotus Notes, Lotus Sametime.  Στα προϊόντα αυτά ενσωματώνεται η στιγμιαία ανταλλαγή μηνυμάτων και οι δυνατότητες ηλεκτρονικών συναντήσεων. – Στιγμιαία ανταλλαγή μηνυμάτων: δε διακόπτεται ο συνομιλητής, επιτρέπεται η ταυτόχρονη εκπομπή μηνύματος/ερωτήματος σε πολλούς. – Ηλεκτρονικές συναντήσεις: επεκτείνουν τις δυνατότητες τηλεφωνικών συνομιλιών επιτρέποντας στους συμμετέχοντες να βλέπουν οθόνες εφαρμογών και παρέχοντας κοινόχρηστο πίνακα.

7 Mocrosoft NetMeeting

8 Εντο π ισμός ειδικών  Προσέγγιση για διαμοιρασμό υπονοούμενης γνώσης: ο εντοπισμός ανθρώπων με κοινά ενδιαφέροντα.  Επίσης: εντοπισμός ειδικών για παροχή συμβουλών. – Συστήματα εντοπισμού ειδικών: μηχανές αναζήτησης προσώπων. Η ακρίβεια τους εξαρτάται από τα κριτήρια που χρησιμοποιούν για τον εντοπισμό των ειδικών. – Πιθανά κριτήρια: Προσωπικό περίγραμμα συμπληρωμένο από τον ειδικό. Βάση δεδομένων του οργανισμού. Συσχετίσεις ονομάτων – κειμένων: δείχνουν εξοικείωση του προσώπου (συγγραφέα) με το αντικείμενο του κειμένου με το οποίο συνδέεται το όνομα του. Η επιστημονική περιοχή στην οποία εντάσσεται το κείμενο είναι πιθανά και η περιοχή ειδίκευσης του συγγραφέα. Απάντηση σε ερωτήσεις. – Προϊόντα: Lotus Discovery Server (χρήση συσχετίσεων ονομάτων- εγγράφων), Knowledge System KnowledgeMail (αναλύει e-mails).

9 Υ π ονοούμενη σε Κατηγορηματική  Κατά το Nonaka, η μετατροπή της υπονοούμενης γνώσης σε κατηγορηματική προϋποθέτει τη δημιουργία ενός κοινού νοητικού μοντέλου και στη συνέχεια ακολουθεί η συνάρθρωση της κατηγορηματικής γνώσης με τη βοήθεια διαλόγου.  Συνεργατικά συστήματα και άλλα συστήματα ομαδικού λογισμικού μπορούν να συνεισφέρουν.  Οι βάσεις δεδομένων απευθείας ηλεκτρονικών συζητήσεων περιλαμβάνονται στα εργαλεία που υποστηρίζουν αυτού του είδους τις δραστηριότητες.  Τα συστήματα ομαδικής ενημέρωσης (newsgroups), σε αντίθεση με τις τυπικές συζητήσεις ομάδων, είναι ανοικτά σε όλους και μοιάζουν στο ότι ερωτήσεις μπορούν να υποβληθούν και να απαντηθούν, ενώ διαφέρουν στο ότι οι συμμετέχοντες είναι τυπικά άγνωστοι μεταξύ τους.

10 Κατηγορηματική σε Κατηγορηματική  Ο μετασχηματισμός από κατηγορηματική σε κατηγορηματική (συνδυασμός) υποστηρίζεται περισσότερο από όλους από τις τεχνολογίες της πληροφορικής.  H αποτύπωση της κατηγορηματικής γνώσης σε μορφή έκθεσης, μηνύματος ηλεκτρονικού ταχυδρομείου (e-mail), παρουσίασης, ιστοσελίδας κ.λ.π. την καθιστά διαθέσιμη σε άλλους ενδιαφερόμενους.  Η τεχνολογία ήδη συνεισφέρει στην αποτύπωση της γνώσης δια μέσου της επεξεργασίας κειμένου, με αποτέλεσμα τη δημιουργία ηλεκτρονικών κειμένων τα οποία μπορούν εύκολα να διαδοθούν δια μέσου του Web, του ηλεκτρονικού ταχυδρομείου, ή συστημάτων διαχείρισης εγγράφων.

11 Κατηγορηματική σε Κατηγορηματική (συνέχεια)  Ένας τρόπος για την παροχή κινήτρων στους ανθρώπους για να αποτυπώνουν τη γνώση είναι να ανταμείβονται γ’ αυτό. Αν η ανταμοιβή συνδέεται με τη ποιότητα τότε χρειάζεται ένας τρόπος μέτρησης της ποιότητας.  Η ποιότητα είναι δύσκολα μετρήσιμη και συνδέεται με την πιθανή χρήση ενός κειμένου.  Μέτρα ποιότητας κειμένου: – Αριθμός αναφορών σε ένα κείμενο. – Αριθμός υπερσυνδέσμων που οδηγούν στο κείμενο. – Κριτικές από ειδικούς. – Η τοποθέτηση αναφοράς ή υπερσυνδέσμου υποδηλώνει ότι ο συγγραφέας φαίνεται να θεωρεί το κείμενο σημαντικό. – Στις εφαρμογές του διαδικτύου τα πιο πολύτιμα και άγκυρα κείμενα μπορούν να εντοπιστούν αναλύοντας τους συνδέσμους ανάμεσα στις ιστοσελίδες

12 Μέθοδοι α π οτύ π ωσης γνώσης  Καταγραφή σε κείμενο. – Η πιο συνηθισμένη μέθοδος. – Εύκολη η διάδοση και η αναζήτηση.  Ηχητική εγγραφή, ή εγγραφή σε Video. – Ευκολότερη η καταγραφή. – Εύκολη η διάδοση μέσω του διαδικτύου, αλλά – δύσκολη η αναζήτηση και η πλοήγηση από ότι στα κείμενα και επομένως πιο δύσχρηστα για την αποθήκευση τους σε αποθήκες (repositories) γνώσης Έχουν αναπτυχθεί συστήματα αναζήτησης σε video βασισμένα στην αναζήτηση εικόνας, όμως σοβαρό εμπόδιο αποτελεί η δυσκολία στη διατύπωση ερωτήσεων. Πιο αποδοτική προσέγγιση η εξαγωγή κειμένου από πολυμεσική πληροφορία (σε μερικές περιπτώσεις το video είναι δυνατό να περιέχει κείμενο π.χ. εικόνες διαφανειών κειμένου, όμως η πραγματική πρόκληση είναι η μετατροπή του ήχου/ομιλίας σε κείμενο).

13 Αναζήτηση κατηγορηματικής γνώσης  Εύρεση κατηγορηματικής γνώσης: βασική λειτουργία.  Μηχανή αναζήτησης κειμένου: δημιουργεί ευρετήριο = λίστα λέξεων + δομή δεδομένων, που επιτρέπει εύκολη εύρεση κειμένου στο οποίο εμφανίζεται η λέξη. – Πρόβλημα: δε χρησιμοποιούν όλα τα κείμενα την ίδια λέξη για να περιγράψουν την ίδια έννοια. Αντιμετώπιση: επισύναψη μετά-πληροφορίας στο κείμενο η οποία περιγράφει τις έννοιες που συζητούνται με τη χρήση ενός ελεγχόμενου λεξιλογίου. – Πρόβλημα ακρίβειας της αναζήτησης: από την ερώτηση προκύπτουν πολλά κείμενα τα οποία είναι άσχετα με τις ανάγκες του χρήστη (συνήθως ερωτήσεις 1-2 λέξεων). Αντιμετώπιση_1: (καλά μελετημένη αλλά με περιορισμένα προς το παρόν αποτελέσματα) : συλλογή περισσότερης πληροφορίας αναφορικά με το περιβάλλον της αναζήτησης (π.χ., επιστημονική περιοχή στην οποία αναφέρεται το κείμενο) + αξιοποίηση της από τις μηχανές αναζήτησης. Αντιμετώπιση_2: Επέκταση της ερώτησης με συνώνυμα (αποδίδει για σαφώς ορισμένα πεδία), θησαυροί, οντολογίες κ.α.

14 Ταξινομικά συστήματα και ταξινόμηση κειμένων  Η γνώση μιας περιοχής μπορεί να κωδικοποιηθεί σαν ταξινομικό σύστημα, δηλ. ένα ιεραρχικά οργανωμένο σύνολο κατηγοριών. Οι σχέσεις μέσα στην ιεραρχία μπορεί να είναι διαφορετικών ειδών ανάλογα με την εφαρμογή.  Αξία των ταξινομικών συστημάτων: – Επιτρέπουν στον χρήστη να διατρέχει τα κείμενα που τον ενδιαφέρουν χωρίς να ανατρέχει σε αναζήτηση. – Επιτρέπουν την κατάταξη των κειμένων σε θεματικές ενότητες πράγμα που βοηθά το χρήστη να εκτιμήσει την εφαρμοσιμότητα τους σε σχέση με την εργασία που έχει στο μυαλό του. – Yahoo: κλασικό παράδειγμα ταξινομικού συστήματος.

15 Ταξινομικά συστήματα και ταξινόμηση κειμένων (συνέχεια)  Τα ταξινομικά συστήματα είναι μια δημοφιλής προσέγγιση για το κτίσιμο του μοντέλου μιας περιοχής το οποίο θα βοηθήσει τους χρήστες στην πλοήγηση και την αναζήτηση κειμένων. – Τάση: η κάθε ομάδα χρηστών να έχει το δικό της ταξινομικό σύστημα.  Επίπονη η χειρονακτική κατάταξη των κειμένων. Πρόσφατα εμφανίστηκαν εργαλεία αυτόματης κατάταξης. – Ενδιαφέρον χαρακτηριστικό των συστημάτων κατάταξης νέας γενιάς: η εφαρμογή αλγορίθμων μηχανικής μάθησης οι οποίοι εκπαιδεύονται μέσω παραδειγμάτων.

16 The ACM Computing Classification System (1998)  D. Software – D.0 GENERAL – D.1 PROGRAMMING TECHNIQUES (E)E D.1.0 General D.1.1 Applicative (Functional) Programming D.1.2 Automatic Programming (I.2.2)I.2.2 D.1.3 Concurrent Programming – Distributed programming – Parallel programming D.1.4 Sequential Programming D.1.5 Object-oriented Programming D.1.6 Logic Programming D.1.7 Visual Programming D.1.m Miscellaneous – D.2 SOFTWARE ENGINEERING (K.6.3)K.6.3 D.2.0 General (K.5.1)K.5.1 – Protection mechanisms – Standards D.2.1 Requirements/Specifications (D.3.1)D.3.1 – Elicitation methods (e.g., rapid prototyping, interviews, JAD) – Languages – Methodologies (e.g., object-oriented, structured) – Tools … – D.3 PROGRAMMING LANGUAGES...

17 Πύλες και μετά-δεδομένα  Οι πύλες (portals) παρέχουν μια εύχρηστη τοποθεσία για την αποθήκευση μετά-δεδομένων σχετικών με τα κείμενα και τα πεδία εφαρμογής τους. – Γενική τάση: Η αυτόματη παραγωγή όλο και περισσότερων μετά- δεδομένων στα πλαίσια των υπηρεσιών που παρέχει μια πύλη. – Παραδείγματα μετά-δεδομένων: ευρετήρια, ταξινομικά συστήματα, περιλήψεις κειμένων, κ.λ.π. – Αξία των περιλήψεων: δίνουν τη δυνατότητα στο χρήστη να αποφύγει την ανάγνωση κειμένων που στην πραγματικότητα δεν τον ενδιαφέρουν. Αυτόματη δημιουργία περιλήψεων: μια ενεργή ερευνητικά περιοχή (μέθοδος επιλογής προτάσεων, παραγωγή φυσικής γλώσσας κ.λ.π.)

18 Κατηγορηματική σε υ π ονοούμενη  Η τεχνολογία μπορεί να βοηθήσει τους χρήστες να διαμορφώσουν νέα υπονοούμενη γνώση π.χ. να εκτιμήσουν καλύτερα και να κατανοήσουν την κατηγορηματική γνώση.  Ένα σύστημα διαχείρισης γνώσης θα πρέπει να εξασφαλίζει τόσο την ανάκτηση, όσο και την κατανόηση και χρήση της πληροφορίας. – Π.χ. Δια της ανάλυσης και ταξινόμησης κειμένου, παραγωγή μεταδεδομένων για υποστήριξη γρήγορης πλοήγησης. – Κατανόηση: κατάταξη κειμένου σε θεματική κατηγορία. Η χρήση πληροφορίας κατάταξης διευκολύνει να κατανοηθεί η εφαρμοσιμότητα και η πιθανή αξία της πληροφορίας.  Ένα ευρύ φάσμα εργαλείων εφαρμόζεται στη διαμόρφωση υπονοούμενης γνώσης μέσω της μάθησης (εξ αποστάσεως εκπαίδευση, τηλε-εκπαίδευση).  Εργαλεία οπτικοποίησης: απόκτηση διορατικότητας.

19 Πύλες Γνώσης  Οι πύλες (portals) ξεκίνησαν σαν εφαρμογές βασισμένες στο Web, με στόχο να παρέχουν ένα σημείο για την προσπέλαση κατανεμημένης πληροφορίας όπως κείμενα που προκύπτουν από αναζήτηση, κανάλια πληροφορίας, και σύνδεσμοι σε εξειδικευμένες ιστοσελίδες.  Το περιεχόμενο του όρου πύλη έχει εξελιχθεί με το πέρασμα του χρόνου.  Οι πύλες εξ’ αρχής συμπεριέλαβαν εξελιγμένες δυνατότητες αναζήτησης και χρήση μεθόδων οργάνωσης (π.χ. ταξινομικά συστήματα).  Οι πύλες οργανώνονται σε συνάρτηση με κοινότητες χρηστών που μοιράζονται κοινά ενδιαφέροντα και πεδίο εργασίας.  Κάθετες πύλες (vertical portals-vortals): παρέχουν σε βάθος δυνατότητες σε ψηλό βαθμό εστιασμένες σε κάθετα τμήματα ενός οργανισμού ή σε ένα στενό επιστημονικό πεδίο.  Μια από τις πρώτες πύλες, που διατέθηκαν σε δημόσια χρήση, και η οποία εξακολουθεί να παραμένει από τις πιο δημοφιλείς, είναι το Yahoo.

20

21

22

23

24

25 Πύλες Γνώσης (συνέχεια)  Πύλες Γνώσης (Knowledge Portals ή K Portals): πύλες που υποστηρίζουν ένα ευρύ φάσμα δραστηριοτήτων που χαρακτηρίζουν τις εργασίες γνώσης.  Με τον όρο εργασίες γνώσης (knowledge work) αναφερόμαστε σε εργασίες που σχετίζονται με την αναζήτηση, συλλογή, οργάνωση, ανάλυση, δημιουργία, σύνθεση, μοίρασμα και διανομή της γνώσης.  Στη συνέχεια θα αναφερθούμε εκτενέστερα στις τεχνολογίες που είναι ενσωματωμένες στις πύλες και αναφέρονται σε: – Συλλογή και αποτύπωση γνώσης. – Ανάλυση κειμένου και εξαγωγή χαρακτηριστικών. – Οργάνωση κειμένων (ομαδοποίηση και κατηγοριοποίηση). – Αναζήτηση/εύρεση. – Υποστήριξη εργασιών γνώσης (ανάλυση, σύνθεση και συγγραφή). – Διανομή, μοίρασμα γνώσης και συνεργασία.

26 Τεχνολογίες π υλών γνώσης: Συλλογή και αποτύπωση  Τα κείμενα είναι αποθηκευμένα σε διάφορες τοποθεσίες. Για να καταστούν προσπελάσιμα στις τεχνολογίες της πύλης και τους τελικούς χρήστες, θα πρέπει να συλλεχθούν (αυτόματα), να καταχωρηθούν και να αναλυθούν.  Η εξόρυξη των κειμένων γίνεται με μια διαδικασία που λέγεται μπουσούλισμα (crawling). Το μπουσούλισμα ξεκινά από δεδομένο URL και ακολουθεί αυτόματα και αναδρομικά όλους τους συνδέσμους που οδηγούν σε άλλα κείμενα.  Οι αναλυτές περιεχομένου (content analyzers) χειρίζονται τις διαφορετικές μορφές αποθήκευσης των κειμένων (documents), τα αναλύουν και εξάγουν καθαρό κείμενο (text) και μεταδεδομένα.  Το καθαρό κείμενο και τα μεταδεδομένα που εξάγονται, κωδικοποιούνται (π.χ. σε XML) και καθίστανται διαθέσιμα για μεταγενέστερη επεξεργασία ανάλυσης και ευρετηρίασης.

27 Συλλογή και α π οτύπωση (συνέχεια)  Χρήσιμη η εξαγωγή συγκεντρωτικών στοιχείων μέσω του μπουσουλίσματος: – Διευκολύνει τη δημιουργία κεντρικού ευρετηρίου. – Πολλές χρήσιμες μέθοδοι ανάλυσης κειμένων βασίζονται στην ανάλυση των συγκεντρωτικών στοιχείων.  Δεν είναι πάντα εφικτό το αυτόματο μπουσούλισμα (π.χ. κείμενα αποθηκευμένα σε ιδιωτικές βάσεις που επιβάλλουν περιορισμούς πρόσβασης). – Αντιμετώπιση μέσω της ομόσπονδης αναζήτησης (federated search): οι προδιαγραφές της ερώτησης του χρήστη στέλνονται σε διάφορες μηχανές αναζήτησης και τα αποτελέσματα συνοψίζονται και επιστρέφονται. – Παρόμοια προσέγγιση ακολουθείται και όταν ένα συγκεντρωτικό ευρετήριο θα ήταν ιδιαίτερα μεγάλο: δημιουργία πολλών ευρετηρίων τα οποία επιτρέπουν παράλληλη επεξεργασία μικρότερων ομάδων πληροφορίας.

28 Συλλογή και αποτύπωση (συνέχεια)  Έλεγχος προσπέλασης: Κάποιες πληροφορίες μπορεί να επιτρέπουν την πρόσβαση μόνο σε συγκεκριμένες κατηγορίες χρηστών.  Οι πύλες θα μπορούσαν να αντιμετωπίσουν αυτήν την κατάσταση: – αγνοώντας αυτές της πληροφορίες Αυτό όμως υποσκάπτει τη φιλοσοφία των πυλών. – παρέχοντας συγκεντρωτικές πληροφορίες (π.χ. τίτλους & περιλήψεις), αλλά ελεγχόμενη πρόσβαση στα πλήρη κείμενα (π.χ. παροχή συνδέσμου προς το πλήρες κείμενο ο οποίος υπόκειται στον έλεγχο πρόσβασης της αποθήκης που είναι αποθηκευμένο). Πιθανή η τοποθέτηση ειδικής σήμανσης που να δείχνει αν η πρόσβαση είναι ελεγχόμενη ή όχι. Σε μερικές περιπτώσεις ακόμη και ο τίτλος του κειμένου μπορεί να είναι ευαίσθητος.

29 Τεχνολογίες π υλών γνώσης: Ανάλυση κειμένων και εξαγωγή χαρακτηριστικών  Καθώς ένα κείμενο εισάγεται στο σύστημα της πύλης, αποθηκεύεται ώστε να μπορεί στη συνέχεια να ανακτηθεί.  Το σύστημα της πύλης αναλύει το περιεχόμενο και αποθηκεύει τα αποτελέσματα με στόχο την εξασφάλιση αποδοτικότερης χρήσης του κειμένου από τους χρήστες της πύλης.  Εξάγονται χαρακτηριστικά τα οποία παρέχουν ενδείξεις για το περιεχόμενο του κειμένου.  Εφαρμόζονται μέθοδοι ανάλυσης (καθαρού) κειμένου (document/text analysis) για την εξαγωγή κειμενικών χαρακτηριστικών (textual features).  Κειμενικά χαρακτηριστικά: – Οντότητες που αναφέρονται στο κείμενο: πράγματα, πρόσωπα, τοποθεσίες, οργανισμοί, ημερομηνίες, τιμές ή ακόμη και σχέσεις μεταξύ οντοτήτων.  Εκτός από τα παραπάνω εγγενή χαρακτηριστικά του κειμένου, υπάρχουν και εξωγενή χαρακτηριστικά (χαρακτηριστικά μεταδεδομένων (meta-data features)): – Π.χ. ημερομηνία δημιουργίας, συγγραφείς, κατηγορία, σύστημα κατάταξης, βαθμός ασφαλείας.

30 Ανάλυση κειμένων και εξαγωγή χαρακτηριστικών (συνέχεια)  Χρησιμοποιούνται τεχνικές γλωσσολογικής ανάλυσης για την εύρεση λεξιλογίου και άλλων εκφράσεων της γλώσσας που αναφέρονται σε οντότητες του (επιστημονικού) πεδίου και στις μεταξύ τους συσχετίσεις. – Το πιο απλό (αλλά πλατιά χρησιμοποιούμενο) χαρακτηριστικό είναι οι λέξεις του κειμένου οι οποίες βρίσκονται εύκολα με λεκτική ανάλυση του κειμένου. – Για τις εφαρμογές που βασίζονται στη γνώση, όπως η δημιουργία ταξινομικού συστήματος και η πλοήγηση, είναι χρήσιμο να εξαχθούν χαρακτηριστικά που αφορούν το εννοιολογικό περιεχόμενο του κειμένου στο (επιστημονικό) πεδίο που αυτό αναφέρεται και τα οποία είναι ακριβέστερα από ότι η απλές λέξεις.  Εκτός από τις οντότητες, η ανάλυση του κειμένου πρέπει επίσης να προσδιορίσει σχέσεις μεταξύ των οντοτήτων.  Η εύρεση των οντοτήτων και των μεταξύ τους σχέσεων σε ένα κείμενο είναι σημαντική για την κατασκευή της πύλης γνώσης.

31 Τεχνολογίες π υλών γνώσης: Οργάνωση κειμένων  Ομαδοποίηση (clustering): Καθώς αυξάνει ο αριθμός των κειμένων που διαχειρίζεται το σύστημα, είναι σημαντικό να χωριστούν αυτά σε μικρότερες ομάδες (clusters) και να δοθούν ονόματα στις ομάδες αυτές.  Όλες οι μέθοδοι ομαδοποίησης χρησιμοποιούν κειμενικά χαρακτηριστικά για να αποφασίσουν αν δύο κείμενα είναι αρκετά παρόμοια ώστε να υπαχθούν στην ίδια ομάδα. – Μια τυπική προσέγγιση είναι να αναπαριστάνουμε το κείμενο σε μορφή διανύσματος των χαρακτηριστικών που περιέχει και να συγκρίνουμε τα διανύσματα διαφορετικών κειμένων για την εύρεση ομοιότητας. – Παραλλαγή: αγνόηση χαρακτηριστικών που εμφανίζονται πολύ συχνά ή πολύ σπάνια.  Αντί για ένα σύνολο ισότιμων ομάδων, μερικές μηχανές ομαδοποίησης παράγουν ιεραρχικές δομές οι οποίες περιλαμβάνουν ομάδες και υποομάδες. – Μια προσέγγιση είναι η συσσώρευση κειμένων σε μια ομάδα μέχρι αυτή να ξεπεράσει ένα κρίσιμο μέγεθος. Τότε η ομάδα διασπάται σε μια ή περισσότερες υποομάδες.

32 Οργάνωση κειμένων (συνέχεια)  Οι ομαδοποιητές είναι δυνατό να δέχονται παραμέτρους οι οποίες καθορίζουν το μέγεθος των ομάδων.  Μια σημαντική παράμετρος σε έναν ομαδοποιητή είναι η επιλογή των χαρακτηριστικών που θα χρησιμοποιήσει για την ομαδοποίηση και η βαρύτητα κάθε χαρακτηριστικού.  Αφού ο ομαδοποιητής ολοκληρώσει τη δουλειά του, πρέπει να δοθούν ονόματα (ετικέτες) στις ομάδες.  Επισύναψη ετικετών σε ομάδες (Cluster labeling): ελέγχει το τελικό περιεχόμενο των ομάδων και επιλέγει τα χαρακτηριστικά εκείνα τα οποία είναι καταλληλότερα για να παίξουν το ρόλο ονόματος.  Ταξινομικό σύστημα (taxonomy): ένα σύνολο ιεραρχικά οργανωμένων ομάδων στις οποίες έχουν επισυναφθεί ετικέτες. Οι ομάδες του ταξινομικού συστήματος ονομάζονται κόμβοι (nodes).  Πολλές φορές απαιτείται η παρέμβαση του διαχειριστής του ταξινομικού συστήματος με τη βοήθεια κατάλληλου λογισμικού (συντάκτη ταξινομικού συστήματος (taxonomy editor)).

33 Οργάνωση κειμένων (συνέχεια)  Επειδή οι συλλογές κειμένων δεν παραμένουν στατικές, οι πύλες πρέπει να προβλέπουν μια μορφή συντήρησης του ταξινομικού συστήματος. – Εισαγωγή νέων κειμένων στις κατάλληλες θέσεις του ταξινομικού συστήματος. – Διαγραφή κειμένων. – Περιοδική επανεξέταση.  Κατηγοριοποίηση κειμένων (document categorization) είναι η διαδικασία κατάταξης κειμένων σε κατηγορίες που είναι ισοδύναμες με τους κόμβους ενός ταξινομικού συστήματος.  Ένα σύστημα κατηγοριοποίησης κειμένων λειτουργεί σε δύο βήματα: – Βήμα εκπαίδευσης: εξερεύνηση των ήδη κατηγοριοποιημένων κειμένων και εξαγωγή των χαρακτηριστικών κάθε κατηγορίας για δημιουργία κατάλληλου μοντέλου. – Βήμα κατηγοριοποίησης: επεξεργασία ενός μη κατηγοριοποιημένου κειμένου και πρόταση μιας ή περισσότέρων κατηγοριών στις οποίες θα μπορούσε (κατά το σύστημα) να ενταχθεί το κείμενο.


Κατέβασμα ppt "Συνεχής μετασχηματισμός της γνώσης Υπονοούμενη Κατηγορηματική ΕΞΩΤΕΡΙΚΕΥΣΗ ΕΣΩΤΕΡΙΚΟΠΟΙΗΣΗΚΟΙΝΩΝΙΚΟΠΟΙΗΣΗ ΣΥΝΔΥΑΣΜΟΣ."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google