Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας"— Μεταγράφημα παρουσίασης:

1 Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας
Ομάδα Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σήματος Εθνικό Μετσόβιο Πολυτεχνείο – Σχολή Ηλεκτρολόγων Μηχαν. και Μηχαν. Υπολ. Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας Good-morning everybody, I m gp I will present you our work on Adaptive Multimodal Fusion, Which has been inspired from applications in AV-ASR and ASPI. This is joint work with nk, vp, and ICCS-NTUA Γιώργος Παπανδρέου Συνεργασία με Α. Κατσαμάνη, Β. Πιτσικάλη και Π. Μαραγκό

2 Ομάδα CVSP -- ΕΜΠ Μέλη Περιοχές έρευνας
Καθ. Πέτρος Μαραγκός (επικεφαλής) 3 Μεταδιδακτορικοί Ερευνητές 7 Υποψ. Διδάκτορες Διπλ. Φοιτητές + συνεργασία με ελληνικές και ξένες ερευνητικές ομάδες Περιοχές έρευνας Ανάλυση εικόνας και όραση υπολογιστών Μη γραμμικά γεωμ. μοντέλα: μαθημ. μορφολογία, μερικές διαφ. εξισώσεις Ανάλυση και επεξεργασία εικόνων σε πολλαπλές κλίμακες Κατάτμηση, παρακολούθηση και αναγνώριση αντικειμένων Επεξεργασία ήχου και φωνής Εύρωστη αναγνώριση φωνής Ανάλυση ακουστικών σημάτων με μοντέλα διαμόρφωσης/χαοτικά μοντέλα Μοντελοποίηση συστήματος παραγωγής φωνής (ακουστικά μοντέλα) Πολυτροπική ανάλυση σημάτων Οπτική-ακουστική ανάλυση & αντιστροφή φωνής Ανάλυση/περίληψη βίντεο Αναγνώριση νοηματικής γλώσσας Συμμετοχή σε Ευρωπαϊκά & Ελληνικά ερευνητικά προγράμματα Ιστοσελίδα:

3 Αναγνώριση Ομιλίας από Ήχο και Εικόνα
Ήχος one two three four five six Θεμελιώδες φαινόμενο στην πρόσληψη ομιλίας (McGurk & MacDonald) Βελτίωση της επίδοσης συστημάτων Αυτόματης Αναγνώρισης Ομιλίας (ΑΑΟ) υπό δύσκολες ακουστικές συνθήκες: Θόρυβος/Παρεμβολές

4 Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού
Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού Εικόνα Γεωμετρία φωνητικής οδού Ακουστική Ανάκτηση γεωμετρίας φωνητικής οδού Μοντέλα σύνθεσης με μίμηση διαδικασίας παραγωγής Αναγνώριση φωνής με χρήση αναπαραστάσεων άρθρωσης Φωνητική επιστήμη/φωνολογία Διδασκαλία ξένης γλώσσας, αντιμετώπιση προβλημάτων άρθρωσης

5 Ομιλία: Πολύπλευρο φαινόμενο
οπτική προβολή ακουστική προβολή

6 Από ακουστικές σε αρθρωτικές αναπαραστάσεις
Ομιλία ως ακουστικό σήμα Ακουστική αναπαράσταση Ομιλία ως οπτικό-ακουστικό σήμα Αρθρωτική αναπαράσταση Επιτυχία σε συστήματα αναγνώρισης ομιλίας (King et al., Deng) Φωνολογικές θεωρίες: Αρθρωτικά Nεύματα (Articulatory Gestures, Browman & Goldstein)

7 Μια εντέλει αρκετά παλιά ιδέα... (Α.Μ. Bell, 1867)
Wikipedia text: Visible speech is the name of the writing system used by Alexander Melville Bell, who was known internationally as a teacher of speech and proper elocution and an author of books on the subject. The system is composed of symbols that show the position and movement of the throat, tongue, and lips as they produce the sounds of language, and it is a type of phonetic notation. The system was used to aid the deaf in learning to speak. Bell's son Alexander Graham Bell learned the symbols, assisted his father in giving public demonstrations of the system and mastered it to the point that he later improved upon his father's work. Eventually, Alexander Graham Bell became a powerful advocate of visible speech and oralism in the United States. The money he earned from his patent of the telephone helped him to pursue this mission.

8 Αναγνώριση Ομιλίας από Ακουστική και Οπτική Πληροφορία
G. Papandreou, A. Katsamanis, V. Pitsikalis, and P. Maragos, Adaptive Multimodal Fusion by Uncertainty Compensation with Application to Audio-Visual Speech Recognition, IEEE Transactions on Audio, Speech and Language Processing, vol. 17, no. 3, pp , Mar G. Papandreou, A. Katsamanis, V. Pitsikalis, and P. Maragos, “Adaptive Multimodal Fusion by Uncertainty Compensation with Application to Audio-Visual Speech Recognition”, IEEE Trans. ASLP, 2009

9 Αναγνώριση Ομιλίας από Ήχο και Εικόνα
Ήχος one two three four five six Κύρια σημεία: Εξαγωγή οπτικών χαρακτηριστικών από το πρόσωπο ομιλητή Σύμμειξη οπτικής και ακουστικής πληροφορίας Μοντελοποίηση χαλαρού συγχρονισμού ακουστικού & οπτικού καναλιού

10 Εξαγωγή Οπτικής Πληροφορίας
Τόσο το σχήμα όσο και η υφή του προσώπου επιβοηθούν το διάβασμα των χειλιών Μοντελοποίηση προσώπου με Ενεργά Μοντέλα Όψης (ΕΜΟ) Σχήμα και υφή αναλύονται σε χαμηλοδιάστατους υποχώρους Οπτικά χαρακτηριστικά: Παράμετροι του ΕΜΟ Εκτιμάται και η αβεβαιότητα ως προς τις τιμές των χαρακτηριστικών μέσο διάνυσμα 1ο ιδιο- διάνυσμα 2ο ιδιο- διάνυσμα υφή σχήμα

11 Εξαγωγή Οπτικής Πληροφορίας
Μηχανισμός για μείωση της επίδρασης της ταυτότητας του ομιλητή: δυνατότητα αναγνώρισης πολλαπλών ομιλητών Επικέντρωση του παραθύρου ανάλυσης γύρω από το στόμα Ταχείς αλγόριθμοι για ανάλυση σε πραγματικό χρόνο

12 Σύστημα πραγματικού χρόνου για οπτική-ακουστική αναγν. ομιλίας
System Overview Face detector fps Image Acquisition Firewire color camera, fps (Re)initialization Face tracking & feature extraction Real-time AAM fitting algorithms Overview of a Real-Time AV-ASR Prototype Image acquisition is done with cheap off-the-shelf camera. Firewire interface selected to support high transfer rates of high-res video. USB-2.0 would also be OK, but USB-1.0 is insufficient. Face detector initializes the face tracker at the first frame and whenever tracking fails. It is near real-time and is based on the popular Ada-boost algorithm. Implementation in Intel’s OpenCV used. Face tracking module is based on the Active Appearance Modeling (AAM) technique. AAM fitting algorithms run in Real-Time, thanks to the GPU-based module. Visual feature extraction (parameters of fitted AAM) is performed. AAM fitting requires repeated texture mapping. This is efficiently done in the Graphics Processing Unit (GPU). A simple modern graphics card is required (ATI Radeon 9700 used in the prototype). Texture mapping module is written in OpenGL and is thus quite generic. Visual features are fed into the HMM-based HTK recognition engine. Digit models have already been trained on the QUAVE database. Recognizer emits digit recognition results. [Top right] Photograph of the prototype in action. one two three four five six GPU-accelerated processing OpenGL implementation HMM-based backend Transcription

13 Σύμμειξη Πολυτροπικής Πληροφορίας: Γιατί είναι σημαντική;
Σύμμειξη Πολυτροπικής Πληροφορίας: Γιατί είναι σημαντική; Πολλαπλές αισθητήριες πηγές παρέχουν συμπληρωματική πληροφορία Ετερόκλητες πηγές πληροφορίας επηρεάζονται διαφορετικά από θόρυβο Σημαντικές εφαρμογές (π.χ. βιομετρικά συστήματα) Η ανθρώπινη αντίληψη εκμεταλλεύεται ετερόκλητα αισθητήρια ερεθίσματα με μεγάλη επιτυχία In these applications we have multiple cues available, and our systems can perform better if we properly fuse all the information sources available. Multiple cues provide complementary information  more informed decisions Different modalities affected dissimilarly by noise  more robust performance biometric apps particularly lend themselves to multimodal approaches I NEED TO DEVELOP A (PICTORIAL) ANALOGY OF MULTIPLE CUES AS DIFFERENT VIEWPOINTS OF THE REALITY

14 Σύμμειξη πληροφορίας σε αντιληπτικές διεργασίες
Πολυαισθητηριακή περίπτωση Ήχος, εικόνα, αφή, ... Διαφορετικές όψεις εντός της ίδιας αίσθησης Οπτική εκτίμηση βάθους: στέρεο, υφή, σκίαση Μπεϋζιανό στατιστικό πλαίσιο (Knill & Richards) Ενδείξεις και από ψυχολογικά πειράματα (π.χ. Ernst et al.) Διαφορετικά επίπεδα σύμμειξης Πρώιμη/ενδιάμεση/όψιμη σύμμειξη Maragos et al., “Cross-Modal Integration”, Springer 2008

15 Σύμμειξη Πολυτροπικής Πληροφορίας: Η προσέγγισή μας
Σύμμειξη Πολυτροπικής Πληροφορίας: Η προσέγγισή μας Αρχή: “Μπορούμε να μετρήσουμε χαρακτηριστικά αναγνώρισης με πεπερασμένη μόνο ακρίβεια” Η αβεβαιότητα μέτρησης παίζει σημαντικό ρόλο στο φιλτράρισμα: Φίλτρα Wiener και Kalman Πώς η αβεβαιότητα μέτρησης χαρακτηριστικών επιδρά στις μεθόδους ταξινόμησης; However effective cue integration is non-trivial. the key issue is that we can actually measure our features within limited precision , Thus, in the proposed scheme We model the feature uncertainty explicitly. In this way our scheme adapts both in time and the model’s class Next, one of the most important contributions, as a by product, is the Generalization and explanation of the conventionally stream weighting technique. Further our scheme is applicable on both AA. AV cases. For the AV case, where there is an asynchronicity issue, we can incorporate it By integrate our method with p-hmm models. Finally, over all the proposed scheme is prob. Rigorous, and simple to implement. Our approach to the problem builds on the following fundamental fact: “…” We explicitly model feature measurement uncertainty in a probabilistic framework.

16 Αβεβαιότητα Μέτρησης Χαρακτηριστικών
Συνήθως τροφοδοτούμε τους ταξινομητές με περιγραφές ‘άπειρης’ ακρίβειας Η προσέγγισή μας: Συνοδεύουμε τα χαρακτηριστικά με το σφάλμα στη μέτρησή τους: We argue that the following setup is much more realistic. Here we explicitly acknowledge the limited precision of our measurements and we quantitatively characterize it, by accompanying our features with confidence intervals / errorbars. SNR= 20dB SNR= 5dB

17 Πιθανοτική Μοντελοποίηση Αβεβαιότητας Μέτρησης
Παράδειγμα: Ταξινoμητής με Μείγμα Γκαουσιανών (Gaussian Mixture Model - GMM) S ανεξάρτητες ροές κρυφές φανερές ανεξ. υπό συνθήκη: Συμβατική Άποψη: Άμεσα παρατηρήσιμα χαρακτηριστικά C X Η Προσέγγισή μας: Μετράμε χαρακτηριστικά αλλοιωμένα από θόρυβο C X Y Pictorial notation of graphical models Και τα δύο κρυφά! ύστερη πρότερη κατανομή καθαρών κατανομή θορύβου

18 GMM Ταξινόμηση με Γκαουσιανό Θόρυβο Μέτρησης
συμβατική άποψη C X C X Y χαρακτηριστικά αλλοιωμένα από θόρυβο We can more easily grasp what’s going on if we make a gaussian noise assumption. Then one can compute the integral analytically, and the class posterior is given by the following formula; This implies that we can effectively compensate for feature uncertainty by increasing the Covariance matrix of the model by the covariance matrix of the measurement noise. This has a regularizing effect, which is particularly noticeable at the more peaky components. Μοντέλο θορύβου Γκάους:

19 GMM Ταξινόμηση – Δύο Πηγές Πληροφορίας
Μετατόπιση ορίου ταξινόμησης με αυξανόμενο θόρυβο μέτρησης Δύο 1-Δ ροές (y1 και y2), 2 τάξεις We are far more interested though for the effect of measurement noise compensation in the multimodal case. We show next an example of classification using two information streams, x- (video) and y- (audio). We have two gaussian mixtures centered at () and (), and we assume that they have the same covariance matrix. Then, in the case that we can measure very accurately both x- and y- features, the classification decision boundary is the black line, which intersects the axes at a 45o angle. Now, let’s assume that we have increasing acoustic noise and the precision in the y-feature measurements decreases. This is demonstrated by a corresponding effective increase of the model covariance matrices in the direction of the y-axis. Then the classification decision boundary tends to align with the y-feature axis; this means that we tend to discount the importance of the y-feature and concentrate more on the x-axis. In the limit of very high variance in the y-axis, the y-stream is effectively ignored completely, as desired.

20 Σχέση με Σύμμειξη Στάθμισης Ροής
Βάρη Ροής: Πιθανότητα με Αντιστάθμιση Αβεβαιότητας: PoG Ταυτότητα: It is interesting to explore connections of our approach with This is an appealing result since our framework unveils the pobabilistic underpinnings under stream weight based formalations And it provides a rigorous mechanism to select for each new measurement an uncertainty estimate (m_e, sigma_e) all involved IMPLICIT stream weights fully adaptively with respect to both class label c and mixture component m Ενεργό Βάρος Ροής:

21 EM-Εκπαίδευση με Αβέβαια Χαρακτηριστικά
Τα δεδομένα εκπαίδευσης μπορούν επίσης να είναι αβέβαια C X Κρυφή Συμβατική άποψη Φανερή C X Y Will change the formulas for the standard case Κρυφή Η προσέγγισή μας Φανερή

22 Κρυφά Μοντέλα Markov (ΗΜΜ) & Αβεβαιότητα
Χρήση αντισταθμισμένων πιθανοτήτων στους αλγορίθμους Viterbi (αποκωδικοποίηση) και α-β (εκπαίδευση) Προσαρμογή στο χρόνο (επίπεδο frame) C1 X1 C2 X2 C3 X3 C4 X4 Κρυφές Συμβατική Άποψη Φανερές C1 X1 Y1 C2 X2 Y2 C3 X3 Y3 C4 X4 Y4 Although our discussion so far has mainly concentrated on GMMs, the ideas can be easily transferred to HMMs Κρυφές Η Προσέγγισή μας Φανερές

23 Ακουστικά Χαρακτηριστικά και Αβεβαιότητα
Mel Frequency Cepstral Coefficients (MFCCs): Pre-emphasis  STFT  | . |  Mel-scale  log( . )  DCT Καταπίεση θορύβου (e.g. SPLICE, ALGONQUIN) Μοντελοποίηση αλλοίωσης χαρακτηριστικών MFCC από θόρυβο (VTS) MFCC καθαρής φωνής MFCC θορύβου Εκτίμηση ακουστικών χαρακτηριστικών + αβεβαιότητας CHANGE & MERGE Αβεβαιότητα Deng, Droppo, Acero, IEEE Tr. SAP, 2005

24 Μοντελοποίηση Συγχρονισμού Οπτικής-Ακουστικής Πληροφορίας
C1 X1 C2 X2 C3 X3 Υ1 Υ2 Υ3 Multistream-ΗΜΜ με απόλυτο συγχρονισμό ανά κατάσταση Product-ΗΜΜ ελεγχόμενη ελευθερία συγχρονισμού ΗΜΜ με συγχρονισμό μόνο στα όρια της λέξης Εναλλακτική μοντελοποίηση της αλληλεπίδρασης καναλιών: Asynchronous-HMM, Coupled-HMM, Dynamic Bayesian Networks, … Τεχνικές για συγχρονισμό στο επίπεδο του σήματος

25 Ποσοτική αξιολόγηση στη βάση CUAVE

26 Αναγν. Ομιλίας από Ήχο και Εικόνα: Πειράματα
Χρήση της βάσης CUAVE: 36 αγγλόφωνοι ομιλητές (30 εκπαίδευση, 6 έλεγχος) 5 ακολουθίες από 10 συνεχόμενα ψηφία ανά ομιλητή Σύνολο εκπαίδευσης: ψηφία (30x5x10) Σύνολο ελέγχου: 300 ψηφία (6x5x10) Διεπικύρωση για βελτίωση της στατιστικής εγκυρότητας αποτελεσμάτων Ταξινόμηση μεμονωμένων ψηφίων με μεταβλητό θόρυβο Προσθήκη θορύβου τύπου “babble” - βάση NOISEX Μοντέλα HMMs λέξης (αριστερά-δεξιά τοπολογία, 8 καταστάσεις, 1 γκαουσιανή/κατάσταση, διαγώνιοι πίνακες συμμεταβλητότητας) Χρήση μηχανής αναγνώρισης HTK (επαυξημένης με υλοποίηση μοντέλου σύμμειξης με αντιστάθμιση αβεβαιότητας)

27 Παράδειγμα Αναγνώρισης από Ήχο και Εικόνα
classificationResults_audiovisual_babble5_MFCC_D_A_Z.res_WithVars The sequence of computations for the Uncertainty Ellipses has as follows: Fitting of the AAM gives the estimated shape/texture parameters q + their uncertainty, modeled as gaussian: $\mu_q$ and $\Sigma_q$, respectively. 2. Let's consider the subset of AAM shape parameters p only, which is gaussian with mean $\mu_p$ and variance $\Sigma_p$. Since the coordinates of each landmark are given as a linear combination of eigenshapes as $s = s_0 + \sum_i p_i s_i$, these can be described as a 2D gaussian if we describe each landmark independently; it is precisely the principal axes of this gaussian that we plot for each landmark separately. AV A

28 Αναγνώριση μόνο από ήχο ή εικόνα
Ικανοποιητική απόδοση με χαμηλοδιάστατο διάνυσμα οπτικών χαρακτηριστικών ΕΜΟ

29 Συνδυασμένη οπτική/ακουστική αναγνώριση
Μέση απόλυτη βελτίωση χάρη στην οπτική πληροφορία AV-W-UC vs. A-UC 28.7 %

30 Σχετική μείωση ποσοστού λάθους χάρη στην αντιστάθμιση αβεβαιότητας
Δίχως βάρη AV-UC vs. AV Με βάρη AV-W-UC vs. AV-W Μέση σχετική μείωση ποσοστού λάθους χάρη στην αντιστάθμιση αβεβαιότητας 20 %

31 Μοντελοποίηση συγχρονισμού με Product-HMM
Μέση απόλυτη βελτίωση χάρη στη μοντελοποίηση με Product-HMM vs. Multistream-HMM 1.2 %

32 Αναγνώριση Ομιλίας από Ήχο και Εικόνα
Ήχος one two three four five six Σύνοψη: Εξαγωγή οπτικών χαρακτηριστικών από το πρόσωπο ομιλητή Σύμμειξη οπτικής και ακουστικής πληροφορίας Μοντελοποίηση χαλαρού συγχρονισμού ακουστικού & οπτικού καναλιού Χρηματοδότηση: Ευρωπαϊκά έργα MUSCLE (NoE) & HIWIRE (STREP)

33 Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού
Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού A. Katsamanis, G. Papandreou, and P. Maragos, Face Active Appearance Modeling and Speech Acoustic Information to Recover Articulation, IEEE Transactions on Audio, Speech and Language Processing, vol. 17, no. 3, pp , Mar A. Katsamanis, G. Papandreou, and P. Maragos, “Face Active Appearance Modeling and Speech Acoustic Information to Recover Articulation”, IEEE Trans. ASLP, 2009

34 Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού
Εικόνα Γεωμετρία φωνητικής οδού Ακουστική Κύρια σημεία: Ανάκτηση γεωμετρίας φωνητικής οδού: αντίστροφο πρόβλημα Χρήση μόνο ακουστικής πληροφορίας ανεπαρκής (αμφισημία) Εμφανείς αρθρωτές: χείλη, δόντια, άκρο της γλώσσας Μη γραμμική απεικόνιση σε γεωμετρικά χαρακτηριστικά

35 Βάση με μετρήσεις άρθρωσης MOCHA
Συλλέχθηκε από CSTR, Univ. Edinburgh Δύο υποκείμενα (Βρετανοί, 1 άνδρας/1 γυναίκα), 460 προτάσεις TIMIT ο καθένας Μετρήσεις άρθρωσης (2-Δ συντεταγμένες 9 ηλεκτροδίων ΕΜΑ) Βίντεο με το πρόσωπο της ομιλήτριας 30 λεπτά αξιοποιήσιμων δεδομένων Πρώτη εργασία που αξιοποιεί το βίντεο

36 Μετρήσεις στο πρόσωπο με ΕΜΟ

37 Οπτική-Ακουστική Αντιστροφή Ομιλίας
phoneme 37

38 Γραμμική απεικόνιση χαρακτηριστικών σε μετρήσεις άρθρωσης
Παρατηρήσεις y, παράμετροι άρθρωσης x Μοντέλο: prior μέτρηση Γραμμική εκτίμηση άρθρωσης: Yehia, Rubin & Vatikiotis-Bateson, Speech Comm., 1998

39 Εκτίμηση Παραμέτρων Γραμμικού Μοντέλου με CCA
Εύρεση διευθύνσεων μέγιστης συμμεταβλητότητας Βέλτιστη γραμμική απεικόνιση εκφρασμένη στη CCA βάση: Εκτίμηση από λίγα δεδομένα: απεικ. μειωμένης τάξης

40 Εκτίμηση μειωμένης τάξης: λίγα δεδομένα εκπαίδευσης
40

41 Τμηματικά Γραμμικό Μοντέλο
Viterbi Προσέγγιση μη γραμμικής απεικόνισης με τμηματικά γραμμικό μοντέλο Μοντελοποίηση δυναμικής με Markov αλυσίδα στις κρυφές καταστάσεις -> ΗΜΜ Hiroya & Honda, IEEE TSAP 2004

42 Μοντέλο ΗΜΜ: Επίπεδα Συγκερασμού Οπτικής/Ακουστικής Πληροφορίας
Πρόβλεψη δεδομένης της κρυφής κατάστασης: Επιλογή ενεργού μοντέλου. Εναλλακτικά σενάρια: Συγχρονισμένα HMM / MS-HMM: Κοινή κρυφή μεταβλητή Ασύγχρονο (όψιμο) μοντέλο: Ξεχωριστή αποκωδικοποίηση/ κανάλι. Καταστάσεις που αντιστοιχούν σε: Visemes (οπτικό κανάλι) Φωνήματα (ακουστικό κανάλι)

43 Αξιολόγηση Επίδοσης Αντιστροφής
Πειράματα στη βάση MOCHA Ποσοτικά κριτήρια Ποιοτική αξιολόγηση

44 Αντιστροφή μόνο από ακουστική ή οπτική πληροφορία

45 Οπτική-Ακουστική Αντιστροφή (πρώιμη σύμμειξη)

46 Σύγκριση επιπέδων σύμμειξης (πρώιμο/μέσο/όψιμο)

47 Viseme Classes for Inversion

48 Ποιοτικά στοιχεία: Σφάλμα ανά αρθρωτή

49 Ποιοτικά στοιχεία: Σφάλμα ανά φώνημα

50 Παράδειγμα Αντιστροφής

51 Επεκτάσεις: Διακοπτόμενο Γραμ. Δυναμικό Μοντέλο
51 Katsamanis et al. EUSIPCO 2008

52 Προοπτική / Συνεχιζόμενη έρευνα στο CVSP
Χρήση Αντιστροφής για Σύνθεση Φωνής με Αεροακουστικά Μοντέλα (Ν. Κατσαμάνης) Αξιοποίηση πολυτροπικών δεδομένων: X-rays, υπέρηχοι (Τ. Ρούσσος και Ν. Κατσαμάνης) Audiovisual Speech Inversion Articulatory Parameter Extraction Articulatory Speech Synthesis Articulatory Model Training

53 Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού
Εικόνα Γεωμετρία φωνητικής οδού Ακουστική Σύνοψη: Ανάκτηση γεωμετρίας φωνητικής οδού: αντίστροφο πρόβλημα Χρήση μόνο ακουστικής πληροφορίας ανεπαρκής (αμφισημία) Εμφανείς αρθρωτές: χείλη, δόντια, άκρο της γλώσσας Μη γραμμική απεικόνιση σε γεωμετρικά χαρακτηριστικά Χρηματοδότηση: Ευρωπαϊκό έργο ASPI (FET) & ΠΕΝΕΔ (ΓΓΕΤ)

54 οπτική προβολή ακουστική προβολή

55 Ευχαριστώ! Περαιτέρω πληροφορίες: http://cvsp.cs.ntua.gr
οπτική προβολή ακουστική προβολή Ευχαριστώ! Περαιτέρω πληροφορίες:


Κατέβασμα ppt "Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google