Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας Γιώργος Παπανδρέου Ομάδα Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σήματος Εθνικό Μετσόβιο Πολυτεχνείο.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας Γιώργος Παπανδρέου Ομάδα Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σήματος Εθνικό Μετσόβιο Πολυτεχνείο."— Μεταγράφημα παρουσίασης:

1 Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας Γιώργος Παπανδρέου Ομάδα Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σήματος Εθνικό Μετσόβιο Πολυτεχνείο – Σχολή Ηλεκτρολόγων Μηχαν. και Μηχαν. Υπολ. Συνεργασία με Α. Κατσαμάνη, Β. Πιτσικάλη και Π. Μαραγκό

2 Ομάδα CVSP -- ΕΜΠ Μέλη  Καθ. Πέτρος Μαραγκός (επικεφαλής)  3 Μεταδιδακτορικοί Ερευνητές  7 Υποψ. Διδάκτορες Διπλ. Φοιτητές  + συνεργασία με ελληνικές και ξένες ερευνητικές ομάδες Περιοχές έρευνας  Ανάλυση εικόνας και όραση υπολογιστών Μη γραμμικά γεωμ. μοντέλα: μαθημ. μορφολογία, μερικές διαφ. εξισώσεις Ανάλυση και επεξεργασία εικόνων σε πολλαπλές κλίμακες Κατάτμηση, παρακολούθηση και αναγνώριση αντικειμένων  Επεξεργασία ήχου και φωνής Εύρωστη αναγνώριση φωνής Ανάλυση ακουστικών σημάτων με μοντέλα διαμόρφωσης/χαοτικά μοντέλα Μοντελοποίηση συστήματος παραγωγής φωνής (ακουστικά μοντέλα)  Πολυτροπική ανάλυση σημάτων Οπτική-ακουστική ανάλυση & αντιστροφή φωνής Ανάλυση/περίληψη βίντεο Αναγνώριση νοηματικής γλώσσας Συμμετοχή σε Ευρωπαϊκά & Ελληνικά ερευνητικά προγράμματα Ιστοσελίδα:

3 Αναγνώριση Ομιλίας από Ήχο και Εικόνα Θεμελιώδες φαινόμενο στην πρόσληψη ομιλίας (McGurk & MacDonald) Βελτίωση της επίδοσης συστημάτων Αυτόματης Αναγνώρισης Ομιλίας (ΑΑΟ) υπό δύσκολες ακουστικές συνθήκες:  Θόρυβος/Παρεμβολές Ήχος Εικόνα

4 Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού Ανάκτηση γεωμετρίας φωνητικής οδού  Μοντέλα σύνθεσης με μίμηση διαδικασίας παραγωγής  Αναγνώριση φωνής με χρήση αναπαραστάσεων άρθρωσης  Φωνητική επιστήμη/φωνολογία  Διδασκαλία ξένης γλώσσας, αντιμετώπιση προβλημάτων άρθρωσης Ακουστική Εικόνα Γεωμετρία φωνητικής οδού

5 Ομιλία: Πολύπλευρο φαινόμενο οπτική προβολή ακουστική προβολή

6 Από ακουστικές σε αρθρωτικές αναπαραστάσεις Ομιλία ως ακουστικό σήμα  Ακουστική αναπαράσταση Ομιλία ως οπτικό-ακουστικό σήμα  Αρθρωτική αναπαράσταση  Επιτυχία σε συστήματα αναγνώρισης ομιλίας (King et al., Deng) Φωνολογικές θεωρίες:  Αρθρωτικά Nεύματα (Articulatory Gestures, Browman & Goldstein)

7 Μια εντέλει αρκετά παλιά ιδέα... (Α.Μ. Bell, 1867)

8 Αναγνώριση Ομιλίας από Ακουστική και Οπτική Πληροφορία G. Papandreou, A. Katsamanis, V. Pitsikalis, and P. Maragos, “ Adaptive Multimodal Fusion by Uncertainty Compensation with Application to Audio-Visual Speech Recognition”, IEEE Trans. ASLP, 2009

9 Αναγνώριση Ομιλίας από Ήχο και Εικόνα Κύρια σημεία: Εξαγωγή οπτικών χαρακτηριστικών από το πρόσωπο ομιλητή Σύμμειξη οπτικής και ακουστικής πληροφορίας Μοντελοποίηση χαλαρού συγχρονισμού ακουστικού & οπτικού καναλιού Ήχος Εικόνα

10 Εξαγωγή Οπτικής Πληροφορίας Τόσο το σχήμα όσο και η υφή του προσώπου επιβοηθούν το διάβασμα των χειλιών Μοντελοποίηση προσώπου με Ενεργά Μοντέλα Όψης (ΕΜΟ)  Σχήμα και υφή αναλύονται σε χαμηλοδιάστατους υποχώρους Οπτικά χαρακτηριστικά: Παράμετροι του ΕΜΟ Εκτιμάται και η αβεβαιότητα ως προς τις τιμές των χαρακτηριστικών μέσο διάνυσμα 1 ο ιδιο- διάνυσμα 2 ο ιδιο- διάνυσμα υφή σχήμα

11 Εξαγωγή Οπτικής Πληροφορίας Μηχανισμός για μείωση της επίδρασης της ταυτότητας του ομιλητή: δυνατότητα αναγνώρισης πολλαπλών ομιλητών Επικέντρωση του παραθύρου ανάλυσης γύρω από το στόμα Ταχείς αλγόριθμοι για ανάλυση σε πραγματικό χρόνο

12 Σύστημα πραγματικού χρόνου για οπτική-ακουστική αναγν. ομιλίας Image Acquisition Firewire color camera, fps Face detector fps HMM-based backend Face tracking & feature extraction Real-time AAM fitting algorithms (Re)initialization System Overview GPU-accelerated processing OpenGL implementation Transcription

13 Σύμμειξη Πολυτροπικής Πληροφορίας: Γιατί είναι σημαντική; Πολλαπλές αισθητήριες πηγές παρέχουν συμπληρωματική πληροφορία Ετερόκλητες πηγές πληροφορίας επηρεάζονται διαφορετικά από θόρυβο Σημαντικές εφαρμογές (π.χ. βιομετρικά συστήματα) Η ανθρώπινη αντίληψη εκμεταλλεύεται ετερόκλητα αισθητήρια ερεθίσματα με μεγάλη επιτυχία

14 Σύμμειξη πληροφορίας σε αντιληπτικές διεργασίες Πολυαισθητηριακή περίπτωση  Ήχος, εικόνα, αφή,... Διαφορετικές όψεις εντός της ίδιας αίσθησης  Οπτική εκτίμηση βάθους: στέρεο, υφή, σκίαση Μπεϋζιανό στατιστικό πλαίσιο (Knill & Richards)  Ενδείξεις και από ψυχολογικά πειράματα (π.χ. Ernst et al.) Διαφορετικά επίπεδα σύμμειξης  Πρώιμη/ενδιάμεση/όψιμη σύμμειξη Maragos et al., “ Cross-Modal Integration”, Springer 2008

15 Σύμμειξη Πολυτροπικής Πληροφορίας: Η προσέγγισή μας Αρχή: “Μπορούμε να μετρήσουμε χαρακτηριστικά αναγνώρισης με πεπερασμένη μόνο ακρίβεια” Η αβεβαιότητα μέτρησης παίζει σημαντικό ρόλο στο φιλτράρισμα: Φίλτρα Wiener και Kalman Πώς η αβεβαιότητα μέτρησης χαρακτηριστικών επιδρά στις μεθόδους ταξινόμησης;

16 Αβεβαιότητα Μέτρησης Χαρακτηριστικών Συνήθως τροφοδοτούμε τους ταξινομητές με περιγραφές ‘άπειρης’ ακρίβειας Η προσέγγισή μας: Συνοδεύουμε τα χαρακτηριστικά με το σφάλμα στη μέτρησή τους: SNR= 20dB SNR= 5dB

17 Πιθανοτική Μοντελοποίηση Αβεβαιότητας Μέτρησης C X C X Y Η Προσέγγισή μας: Μετράμε χαρακτηριστικά αλλοιωμένα από θόρυβο Συμβατική Άποψη: Άμεσα παρατηρήσιμα χαρακτηριστικά Και τα δύο κρυφά! πρότερη Παράδειγμα: Ταξινoμητής με Μείγμα Γκαουσιανών ( Gaussian Mixture Model - GMM)  S ανεξάρτητες ροές ύστερη κατανομή καθαρών κατανομή θορύβου κρυφέςφανερές ανεξ. υπό συνθήκη:

18 GMM Ταξινόμηση με Γκαουσιανό Θόρυβο Μέτρησης C X C X Y χαρακτηριστικά αλλοιωμένα από θόρυβο συμβατική άποψη Μοντέλο θορύβου Γκάους:

19 GMM Ταξινόμηση – Δύο Πηγές Πληροφορίας Μετατόπιση ορίου ταξινόμησης με αυξανόμενο θόρυβο μέτρησης  Δύο 1-Δ ροές (y 1 και y 2 ), 2 τάξεις

20 Σχέση με Σύμμειξη Στάθμισης Ροής Πιθανότητα με Αντιστάθμιση Αβεβαιότητας: Βάρη Ροής: Ενεργό Βάρος Ροής: PoG Ταυτότητα:

21 EM-Εκπαίδευση με Αβέβαια Χαρακτηριστικά C X C X Y Η προσέγγισή μας Συμβατική άποψη Κρυφή Φανερή Κρυφή Φανερή Τα δεδομένα εκπαίδευσης μπορούν επίσης να είναι αβέβαια

22 Κρυφά Μοντέλα Markov (ΗΜΜ) & Αβεβαιότητα Η Προσέγγισή μας Συμβατική Άποψη Κρυφές Φανερές Κρυφές Φανερές Χρήση αντισταθμισμένων πιθανοτήτων στους αλγορίθμους Viterbi (αποκωδικοποίηση) και α-β (εκπαίδευση) Προσαρμογή στο χρόνο (επίπεδο frame) C1 X1 C2 X2 C3 X3 C4 X4 C1 X1 Y1 C2 X2 Y2 C3 X3 Y3 C4 X4 Y4

23 Ακουστικά Χαρακτηριστικά και Αβεβαιότητα Mel Frequency Cepstral Coefficients (MFCCs):  Pre-emphasis  STFT  |. |  Mel-scale  log(. )  DCT Καταπίεση θορύβου (e.g. SPLICE, ALGONQUIN) Μοντελοποίηση αλλοίωσης χαρακτηριστικών MFCC από θόρυβο (VTS) Εκτίμηση ακουστικών χαρακτηριστικών + αβεβαιότητας MFCC καθαρής φωνής MFCC θορύβου Deng, Droppo, Acero, IEEE Tr. SAP, 2005 Αβεβαιότητα

24 Μοντελοποίηση Συγχρονισμού Οπτικής-Ακουστικής Πληροφορίας Εναλλακτική μοντελοποίηση της αλληλεπίδρασης καναλιών:  Asynchronous-HMM, Coupled-HMM, Dynamic Bayesian Networks, … Τεχνικές για συγχρονισμό στο επίπεδο του σήματος ΗΜΜ με συγχρονισμό μόνο στα όρια της λέξης C1 X1 C2 X2 C3 X3 Υ1Υ1Υ2Υ2Υ3Υ3 Product-ΗΜΜ ελεγχόμενη ελευθερία συγχρονισμού Multistream-ΗΜΜ με απόλυτο συγχρονισμό ανά κατάσταση

25 Ποσοτική αξιολόγηση στη βάση CUAVE

26 Αναγν. Ομιλίας από Ήχο και Εικόνα: Πειράματα Χρήση της βάσης CUAVE:  36 αγγλόφωνοι ομιλητές (30 εκπαίδευση, 6 έλεγχος)  5 ακολουθίες από 10 συνεχόμενα ψηφία ανά ομιλητή  Σύνολο εκπαίδευσης: 1500 ψηφία (30x5x10)  Σύνολο ελέγχου: 300 ψηφία (6x5x10)  Διεπικύρωση για βελτίωση της στατιστικής εγκυρότητας αποτελεσμάτων Ταξινόμηση μεμονωμένων ψηφίων με μεταβλητό θόρυβο Προσθήκη θορύβου τύπου “babble” - βάση NOISEX Μοντέλα HMMs λέξης (αριστερά-δεξιά τοπολογία, 8 καταστάσεις, 1 γκαουσιανή/κατάσταση, διαγώνιοι πίνακες συμμεταβλητότητας) Χρήση μηχανής αναγνώρισης HTK (επαυξημένης με υλοποίηση μοντέλου σύμμειξης με αντιστάθμιση αβεβαιότητας)

27 Παράδειγμα Αναγνώρισης από Ήχο και Εικόνα AVA

28 Αναγνώριση μόνο από ήχο ή εικόνα Ικανοποιητική απόδοση με χαμηλοδιάστατο διάνυσμα οπτικών χαρακτηριστικών ΕΜΟ

29 Συνδυασμένη οπτική/ακουστική αναγνώριση Μέση απόλυτη βελτίωση χάρη στην οπτική πληροφορία AV-W-UC vs. A-UC 28.7 %

30 Σχετική μείωση ποσοστού λάθους χάρη στην αντιστάθμιση αβεβαιότητας Δίχως βάρη AV-UC vs. AVΜε βάρη AV-W-UC vs. AV-W Μέση σχετική μείωση ποσοστού λάθους χάρη στην αντιστάθμιση αβεβαιότητας 20 %

31 Μοντελοποίηση συγχρονισμού με Product-HMM Μέση απόλυτη βελτίωση χάρη στη μοντελοποίηση με Product-HMM vs. Multistream-HMM 1.2 %

32 Αναγνώριση Ομιλίας από Ήχο και Εικόνα Σύνοψη: Εξαγωγή οπτικών χαρακτηριστικών από το πρόσωπο ομιλητή Σύμμειξη οπτικής και ακουστικής πληροφορίας Μοντελοποίηση χαλαρού συγχρονισμού ακουστικού & οπτικού καναλιού Ήχος Εικόνα Χρηματοδότηση: Ευρωπαϊκά έργα MUSCLE (NoE) & HIWIRE (STREP)

33 Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού A. Katsamanis, G. Papandreou, and P. Maragos, “ Face Active Appearance Modeling and Speech Acoustic Information to Recover Articulation”, IEEE Trans. ASLP, 2009

34 Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού Ακουστική Εικόνα Γεωμετρία φωνητικής οδού Κύρια σημεία: Ανάκτηση γεωμετρίας φωνητικής οδού: αντίστροφο πρόβλημα Χρήση μόνο ακουστικής πληροφορίας ανεπαρκής (αμφισημία) Εμφανείς αρθρωτές: χείλη, δόντια, άκρο της γλώσσας Μη γραμμική απεικόνιση σε γεωμετρικά χαρακτηριστικά

35  Συλλέχθηκε από CSTR, Univ. Edinburgh  Δύο υποκείμενα (Βρετανοί, 1 άνδρας/1 γυναίκα), 460 προτάσεις TIMIT ο καθένας  Μετρήσεις άρθρωσης (2-Δ συντεταγμένες 9 ηλεκτροδίων ΕΜΑ)  Βίντεο με το πρόσωπο της ομιλήτριας  30 λεπτά αξιοποιήσιμων δεδομένων  Πρώτη εργασία που αξιοποιεί το βίντεο Βάση με μετρήσεις άρθρωσης MOCHA

36 Μετρήσεις στο πρόσωπο με ΕΜΟ

37 37 phoneme Οπτική-Ακουστική Αντιστροφή Ομιλίας

38 Γραμμική απεικόνιση χαρακτηριστικών σε μετρήσεις άρθρωσης Παρατηρήσεις y, παράμετροι άρθρωσης x Μοντέλο: prior μέτρηση Γραμμική εκτίμηση άρθρωσης: Yehia, Rubin & Vatikiotis-Bateson, Speech Comm., 1998

39 Εκτίμηση Παραμέτρων Γραμμικού Μοντέλου με CCA Βέλτιστη γραμμική απεικόνιση εκφρασμένη στη CCA βάση: Εκτίμηση από λίγα δεδομένα: απεικ. μειωμένης τάξης Ανάλυση σε κανονικές συνιστώσες συσχ. (CCA)  Εύρεση διευθύνσεων μέγιστης συμμεταβλητότητας

40 Εκτίμηση μειωμένης τάξης: λίγα δεδομένα εκπαίδευσης 40

41 Hiroya & Honda, IEEE TSAP 2004 Viterbi Προσέγγιση μη γραμμικής απεικόνισης με τμηματικά γραμμικό μοντέλο Μοντελοποίηση δυναμικής με Markov αλυσίδα στις κρυφές καταστάσεις -> ΗΜΜ Τμηματικά Γραμμικό Μοντέλο

42 Μοντέλο ΗΜΜ: Επίπεδα Συγκερασμού Οπτικής/Ακουστικής Πληροφορίας Πρόβλεψη δεδομένης της κρυφής κατάστασης: Επιλογή ενεργού μοντέλου. Εναλλακτικά σενάρια: Συγχρονισμένα HMM / MS-HMM: Κοινή κρυφή μεταβλητή Ασύγχρονο (όψιμο) μοντέλο: Ξεχωριστή αποκωδικοποίηση/ κανάλι. Καταστάσεις που αντιστοιχούν σε:  Visemes (οπτικό κανάλι)  Φωνήματα (ακουστικό κανάλι)

43 Αξιολόγηση Επίδοσης Αντιστροφής Πειράματα στη βάση MOCHA Ποσοτικά κριτήρια Ποιοτική αξιολόγηση

44 Αντιστροφή μόνο από ακουστική ή οπτική πληροφορία

45 Οπτική-Ακουστική Αντιστροφή (πρώιμη σύμμειξη)

46 Σύγκριση επιπέδων σύμμειξης (πρώιμο/μέσο/όψιμο)

47 Viseme Classes for Inversion

48 Ποιοτικά στοιχεία: Σφάλμα ανά αρθρωτή

49 Ποιοτικά στοιχεία: Σφάλμα ανά φώνημα

50 Παράδειγμα Αντιστροφής

51 Katsamanis et al. EUSIPCO Επεκτάσεις: Διακοπτόμενο Γραμ. Δυναμικό Μοντέλο

52 Audiovisual Speech Inversion Articulatory Parameter Extraction Articulatory Speech Synthesis Articulatory Model Training Προοπτική / Συνεχιζόμενη έρευνα στο CVSP Χρήση Αντιστροφής για Σύνθεση Φωνής με Αεροακουστικά Μοντέλα (Ν. Κατσαμάνης) Αξιοποίηση πολυτροπικών δεδομένων: X-rays, υπέρηχοι (Τ. Ρούσσος και Ν. Κατσαμάνης)

53 Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού Ακουστική Εικόνα Γεωμετρία φωνητικής οδού Σύνοψη: Ανάκτηση γεωμετρίας φωνητικής οδού: αντίστροφο πρόβλημα Χρήση μόνο ακουστικής πληροφορίας ανεπαρκής (αμφισημία) Εμφανείς αρθρωτές: χείλη, δόντια, άκρο της γλώσσας Μη γραμμική απεικόνιση σε γεωμετρικά χαρακτηριστικά Χρηματοδότηση: Ευρωπαϊκό έργο ASPI (FET) & ΠΕΝΕΔ (ΓΓΕΤ)

54 οπτική προβολή ακουστική προβολή

55 οπτική προβολή ακουστική προβολή Περαιτέρω πληροφορίες: Ευχαριστώ!


Κατέβασμα ppt "Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας Γιώργος Παπανδρέου Ομάδα Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σήματος Εθνικό Μετσόβιο Πολυτεχνείο."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google