Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
1
Επεξεργασία Ομιλίας & Ήχου
Ενότητα # 8: Αναγνώριση Ομιλητή Ιωάννης Καρύδης Τμήμα Πληροφορικής
2
Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς.
3
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.
4
Σύστημα αναγνώρισης ομιλίας
Ένα σύστημα αναγνώρισης ομιλίας είναι ένα σύστημα που μετατρέπει το σήμα της ομιλία σε κείμενο Μας ενδιαφέρει τι λέει ο ομιλητής Αναγνώριση ομιλίας δεν συνεπάγεται και κατανόηση ομιλίας
5
Ανάλυση ομιλίας Ένα σύστημα αναγνώρισης ομιλίας χρησιμοποιεί μεθόδους παραμετροποίησης ομιλίας που έχουμε γνωρίσει Εξάγει διανύσματα παραμέτρων όπως συντελεστές Fourier, συντελεστές Cepstral, συντελεστές γραμμική πρόγνωσης (LPC) αλλά και ύψος φωνής, συχνότητες συντονισμού, ενέργεια Παράγει πλαίσια ομιλίας με N συντελεστές της ανάλυσης Χ = (x1,x2,x3,….,xN) Πλαίσια ομιλίας με Ν παραμέτρους το καθένα Σήμα ομιλίας
6
Σύστημα αναγνώρισης ομιλίας
γάτα Εξαγωγή διανύσματος παραμέτρων Εκπαίδευση μοντέλου αναγνώρισης Βάση δεδομένων παραμέτρων λέξεων σκύλος Φάση αναγνώρισης Εξαγωγή διανύσματος παραμέτρων Αναγνώριση λέξης σκύλος Φάση εκπαίδευσης
7
Τεχνικές δυσκολίες στην αναγνώριση
Καθορισμός του τι είναι ομιλία σε ένα σήμα Παράγοντες που οφείλονται στο άνθρωπο Χτύπημα γλώσσας, χτύπημα χειλιών, βαριά ανάσα Παράγοντες που οφείλονται στο περιβάλλον Θόρυβος, παραμορφώσεις από την μετάδοση Τα χαρακτηριστικά του υλικού δειγματοληψίας της ομιλίας Το μικρόφωνο, η κάρτα δειγματοληψίας επηρεάζουν την αναγνώριση
8
Κατηγορίες συστημάτων αναγνώρισης ομιλίας
Τα συστήματα αναγνώρισης ομιλίας κατηγοριοποιούνται ανάλογα με το είδος ομιλίας που μπορούν να αναγνωρίσουν το είδος ομιλητή το μέγεθος του λεξιλογίου που υποστηρίζουν την μονάδα αναγνώρισης την τεχνική αναγνώρισης
9
Είδος ομιλίας Ανάλογα με το είδος ομιλίας που υποστηρίζουν, διακρίνονται τρεις κατηγόριες συστημάτων: Συστήματα αναγνώρισης διακριτής ομιλίας. Συστήματα αναγνώρισης διασυνδεδεμένων λέξεων. Συστήματα αναγνώρισης συνεχούς ομιλίας.
10
Είδος ομιλητή Η παράμετρος αυτή προσδιορίζει τον χρήστη του συστήματος αναγνώρισης ομιλίας Σύστημα ανεξάρτητο από το χρήστη Σύστημα εξαρτώμενο από το χρήστη Σύστημα προσαρμοζόμενο στο χρήστη
11
Μέγεθος λεξιλογίου Το μέγεθος του λεξιλογίου επηρεάζει την πολυπλοκότητα, τις υπολογιστικές απαιτήσεις και την ακρίβεια του συστήματος: Συστήματα μικρού λεξιλογίου με μερικές λέξεις ως μερικές δεκάδες λέξεις (μέχρι 100 λέξεις). Συστήματα μεσαίου λεξιλογίου (από 100 μέχρι 1000 λέξεις). Συστήματα μεγάλου λεξιλογίου (περισσότερες από 1000 λέξεις).
12
Μονάδα αναγνώρισης Ανάλογα με την μονάδα αναγνώρισης διακρίνουμε συστήματα: αναγνώρισης λέξεων Χρησιμοποιούνται σε συστήματα αναγνώρισης διακριτής ομιλίας Υποστηρίζουν μικρό έως μέσο λεξιλόγιο (μεγάλη βάση λέξεων) Παρουσιάζουν την υψηλότερη αξιοπιστία αναγνώρισης. αναγνώρισης τμημάτων λέξεων (πχ συλλαβές). Είναι περισσότερο αξιόπιστες φωνητικές μονάδες από τα φωνήματα, επειδή περιγράφουν και τα μεταβατικά φαινόμενα μεταξύ των φθόγγων. Ο αριθμός τους είναι σχετικά μεγάλος (μεγάλο λεξικό) αναγνώρισης φωνημάτων Μικρό λεξικό Μικρή αξιοπιστία
13
Τεχνική αναγνώρισης Ανάλογα με την τεχνική αναγνώρισης διακρίνονται οι κατηγορίες: συστήματα σύγκρισης πρότυπων (Template Matching): ταξινόμηση με άμεση σύγκριση των χαρακτηριστικών των φωνητικών μονάδων. πιθανοτικά συστήματα αναγνώρισης: χρησιμοποιούν πιθανοτικά μοντέλα για την περιγραφή της ακουστικής διεργασίας (κρυμμένα μοντέλα Markov - ΗΜΜ). συντακτικά συστήματα: ταυτοποιούν πρότυπα αποτελούμενα από μικρότερα αρχέγονα πρότυπα. συστήματα δικτύων: αποτελούνται από ένα σύνολο διασυνδεδεμένων κόμβων σε διαφορετικά επίπεδα, όπως τα νευρωνικά δίκτυα.
14
Αναγνώριση Ομιλητή
15
Αναγνώριση ομιλητή Χρησιμοποιεί το σήμα φωνής του ομιλητή για να τον αναγνωρίσει (ποιος είναι) Αναγνώριση ομιλίας : Τι λέει ο ομιλητής; Αναγνώριση ομιλητή : Ποιος είναι ο ομιλητής; Στην αναγνώριση ομιλητή δεν μας νοιάζει τι λέει ο ομιλητής, αλλά το πώς το λέει Ο άνθρωπος μπορεί να αναγνωρίσει ποιος είναι αυτός που μιλάει με σχετική ευκολία αν τον ξέρει Ακόμα και αν δεν τον ξέρει μπορεί να διαπιστώσει παραμέτρους όπως ηλικία, φύλο, διάθεση
16
Ποιος μου μιλάει; Το πρόβλημα αναγνώρισης ομιλητή διαιρείται σε 2 περιοχές Εξακρίβωση ομιλητή (speaker identification) Επιβεβαίωση ομιλητή (speaker verification)
17
Ποιος μου μιλάει; Εξακρίβωση ομιλητή (speaker identification)
Δείξε μου το κρυφό αρχείο! Ορίστε!
18
Ποιος μου μιλάει; Επιβεβαίωση ομιλητή (speaker verification)
Είμαι ο Αι Βασίλης Αι Βασίλης Όχι, δεν είσαι!
19
Γιατί μας ενδιαφέρει; Δημιουργία αξιόπιστης προσωπικής ταυτότητας
Η φωνή μπορεί να χρησιμοποιηθεί σαν βιομετρικό στοιχείο (όπως τα δακτυλικά αποτυπώματα) εφαρμογές ασφάλειας (πχ ενεργοποίηση κλειδαριών) έλεγχος προσπέλασης σε δεδομένα υπολογιστή έλεγχο αυτόματης τηλεφωνικής εξυπηρέτησης (τηλεφωνική εξυπηρέτηση τραπεζικών συναλλαγών ταυτοποίηση χρήστη από μαγνητοφωνημένη ομιλία Η φωνή είναι μια ταυτότητα που δεν χάνεται και δεν ξεχνιέται
20
Μέθοδος Αναγνώρισης Εκτός από συστήματα εξακρίβωσης ή επιβεβαίωσης ομιλητή, διακρίνουμε ακόμα Σε σύστημα αναγνώρισης εξαρτημένο από κείμενο Ο χρήστης πρέπει να πει μια συγκεκριμένη φράση (σαν password) Μεγαλύτερη αξιοπιστία Σε σύστημα αναγνώρισης ανεξάρτητο από κείμενο Ο χρήστης μπορεί να πει όποια φράση επιθυμεί Μεγαλύτερη ευελιξία Μικρότερη αξιοπιστία Δυσκολότερο πρόβλημα
21
Σύστημα αναγνώρισης ομιλητή
Ένα σύστημα αναγνώρισης ομιλητή βασίζεται στην εξαγωγή ενός διανύσματος παραμέτρων από το σήμα ομιλίας και στην σύγκριση του με γνωστά διανύσματα από μια βάση δεδομένων. η εξαγωγή παραμέτρων η επιλογή παραμέτρων η ταξινόμηση προτύπων
22
Εξαγωγή παραμέτρων Η εξαγωγή παραμέτρων αφορά την διαδικασία μέτρησης χαρακτηριστικών που διακρίνουν τον ομιλητή τα χαρακτηριστικά αυτά πρέπει να περιγράφουν πλήρως τον ομιλητή πρέπει να είναι εύκολη και γρήγορη η μέτρηση τους
23
Επιλογή παραμέτρων Η επιλογή παραμέτρων αναφέρεται στον διαχωρισμό των πιο σημαντικών χαρακτηριστικών διάκρισης του ομιλητή για την δημιουργία του παραμετρικού διανύσματος Οι παράμετροι που επιλέγονται πρέπει να είναι χαρακτηριστικές και κοινές για όλες τις επαναλήψεις του ιδίου ομιλητή Πρέπει να είναι εύκολα μετρήσιμες πρέπει να αντιπροσωπεύουν τις διαφορές μεταξύ διαφορετικών ομιλητών Πρέπει να αποτρέπει την μίμηση των παραμέτρων από τρίτους Πρέπει να μην επηρεάζονται από ασθένειες (ή από το χρόνο) Πρέπει να μην επηρεάζονται από περιβαλλοντικό θόρυβο ή από το μέσο μετάδοσης
24
Ταξινόμηση προτύπων Ακολουθεί η διαδικασία της ταξινόμησης στην οποία αποφασίζεται από ποιόν ομιλητή προέρχεται το δείγμα, ή αν ειπώθηκε από τον ομιλητή που ισχυρίζεται ότι το είπε η δημιουργία ενός βέλτιστου αλγόριθμου απόφασης την ελαχιστοποίηση της πιθανότητας σφάλματος λαμβάνει υπόψη την ιδιομορφία των προτύπων και την πιθανότητα εμφάνισης τους Ο αλγόριθμος πρέπει να αποδίδει σωστά έστω και σε περιβάλλοντα να θόρυβο και παραμορφώσεις
25
Ταξινόμηση προτύπων Τεχνικές αναγνώρισης που μπορούν να χρησιμοποιηθούν για την ταξινόμηση συστήματα σύγκρισης πρότυπων (Template Matching): ταξινόμηση με άμεση σύγκριση των χαρακτηριστικών των φωνητικών μονάδων. πιθανοτικά συστήματα: χρησιμοποιούν πιθανοτικά μοντέλα για την περιγραφή της ακουστικής διεργασίας (κρυμμένα μοντέλα Markov - ΗΜΜ). συστήματα δικτύων: αποτελούνται από ένα σύνολο διασυνδεδεμένων κόμβων σε διαφορετικά επίπεδα, όπως τα νευρωνικά δίκτυα.
26
Οι φάσεις συστήματος αναγνώρισης
Πριν χρησιμοποιήσουμε ένα σύστημα αναγνώρισης πρέπει να το εκπαιδεύσουμε Εξαγωγή και αποθήκευση διανυσμάτων από γνωστούς χρήστες σε μια βάση δεδομένων Στην συνέχεια μπορούμε να το χρησιμοποιήσουμε για την αναγνώριση
27
Οι φάσεις συστήματος αναγνώρισης
Κώστας Εξαγωγή διανύσματος παραμέτρων Εκπαίδευση μοντέλου αναγνώρισης Βάση παραμέτρων χρηστών Δανάη Φάση αναγνώρισης Εξαγωγή διανύσματος παραμέτρων Επιβεβαίωση ομιλητή Ο χρήστης ισχυρίζεται ότι είναι η Δανάη Δεκτό Φάση εκπαίδευσης
28
Ερωτήσεις;
29
Τέλος Ενότητας
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.