ΝΙΚΟΣ ΦΑΚΩΤΑΚΗΣ Καθηγητής ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ ΝΙΚΟΣ ΦΑΚΩΤΑΚΗΣ Καθηγητής Προεπεξεργασία Σήματος Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
ΠΕΡΙΕΧΟΜΕΝΑ Μηχανισμός παραγωγής & Αντίληψης Ομιλίας Προεπεξεργασία Σήματος Ομιλίας Παραμετροποίηση Σήματος Ομιλίας Ταξινόμηση Προτύπων Συστήματα Αναγνώρισης Διαλογικά Συστήματα Τεχνικές κωδικοποίησης Πεδίο χρόνου Χρήση φάσματος (πεδίο συχνότητας) Χρήση ανάλυσης-σύνθεσης (πεδίο συχνότητας) Γραμμικής Πρόβλεψης Σύνθεση Ομιλίας (TTS) Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Συστήματα Αναγνώρισης ΔΟΜΗ ΣΥΣΤΗΜΑΤΟΣ ΑΝΑΓΝΩΡΙΣΗΣ Συστήματα Αναγνώρισης ΔΟΜΗ ΣΥΣΤΗΜΑΤΟΣ ΑΝΑΓΝΩΡΙΣΗΣ ΒΑΘΜΙΔΑ 2 ΕΚΠΑΙΔΕΥΣΗ ΕΞΑΓΩΓΗ ΠΑΡΑΜΕΤΡΩΝ ΔΕΔΟΜΕΝΑ ΑΝΑΦΟΡΑΣ ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΒΑΘΜΙΔΑ 1 ΑΝΑΓΝΩΡΙΣΗ (ΤΑΞΙΝΟΜΗΣΗ) Τεχνολογία Ομιλίας Νίκος Φακωτάκης 3 ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ 3
Σύστημα Αναγνώρισης ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ Σύστημα Αναγνώρισης ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ Αναλογική Επεξεργασία Μικρόφωνο, Προενίσχυση, Κατωδιαβατό φίλτρο, A/D: Αναλογική /Ψηφιακή Μετατροπή Ψηφιακή Προεπεξεργασία Πλαισιοποίηση, Προέμφαση, Παράθυρο. Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ Αναλογική Επεξεργασία Μικρόφωνο: Μετατροπή ακουστικό σε ηλεκτρικό, Πηγή μεγάλης παραμόρφωσης (θορύβου). Προενίσχυση: Ενίσχυση του αναλογικού σήματος, Τεχνολογία Ομιλίας Νίκος Φακωτάκης 5 ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ 5
ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ Αναλογική Επεξεργασία Κατωδιαβατό φίλτρο: Περιορισμός φάσματος σε 0–fcut Hz, Φάσμα ομιλίας μέσου άρρενα, (Φ.Κ. ~17 cm): 3–4 Formants (0,2–3,2 kHz), 4-5 Formants (0,2-5,0 kHz). Φάσμα ομιλίας Μικρότερων Φ.Κ. (παιδιά, γυναίκες), 3–4 Formants (0,2–3,6 kHz). -6 -4 -2 2 4 6 8 10 ω |Η(ω)| Α. Ιδανικό κατωδιαβατό φίλτρου. Β. Διάγραμμα στοιχειώδους Low Pass φίλτρου Τεχνολογία Ομιλίας Νίκος Φακωτάκης 6 ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ 6
ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ Αναλογική Επεξεργασία A/D: Αναλογική /Ψηφιακή Μετατροπή Συχνότητα δειγματοληψίας fs Hz (= 2fcut Hz) Παραμόρφωση Φασματικής Αναδίπλωσης (Aliasing)* Δειγματοληψία: του x(t) στα διαστήματα Τ(=1/ fs), δημιουργείται το διακριτό σήμα s(nT). Με κανονικοποιημένα διαστήματα (Τ=1): s(n) = s (nT) = x(T) το Διακριτό σήμα μετασχηματισμένο κατά z (=exp(jθ)) Κβαντοποίηση, (Αντιστοίχιση δειγμάτων σε διακριτές τιμές) * Θεώρημα δειγματοληψίας Nyquist Τεχνολογία Ομιλίας Νίκος Φακωτάκης 7 ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ 7
Προεπεξεργασία: Δειγματοληψία (Sampling) Ανά χρονικό διάστημα t, παίρνουμε ένα δείγμα. Χρειαζόμαστε τουλάχιστον δύο δείγματα ανά κύκλο (Hz) Συχνότητας δειγματοληψίας, διπλάσια της μέγιστης συχνότητας του σήματος. Ανθρώπινη Ομιλία < 10,000 Hz, Δειγματοληψία min fs=20K
Προεπεξεργασία: Κβαντισμός (Quantization) Αντιστοίχιση των Αναλογιών τιμών σε πεπερασμένες Ψηφιακές τιμές (A/D): 8-bit (-128 to 127), 16-bit (-32768 to 32767) (16 bit PCM) 8 bit mu-law;
ΑΝΑΛΟΓΙΚΗ/ΨΗΦΙΑΚΗ ΜΕΤΑΤΡΟΠΗ ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ ΚΑΤΩΔΙΑΒΑΤΟ ΦΙΛΤΡΟ ΑΝΑΛΟΓΙΚΗ/ΨΗΦΙΑΚΗ ΜΕΤΑΤΡΟΠΗ ΠΡΟΕΝΙΣΧΥΤΗΣ SL(t) S(t) Fcut S(n); n = 1,... ΠΑΡΑΘΥΡΟ HAMMING ΠΡΟΕΜΦΑΣΗ ΠΛΑΙΣΙΟΠΟΙΗΣΗ -1 1 - μ z S ‘w(n) S ’(n) S(n);n=1,T T Τεχνολογία Ομιλίας Νίκος Φακωτάκης 10 ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ 10
Πλαισιοποίηση Ομιλίας, ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ Ψηφιακή Προεπεξεργασία Πλαισιοποίηση Ομιλίας, Πλαίσια διάρκειας Ν (100-300) δειγμάτων, fs >> ρυθμού άρθρωσης (πχ. 10,000 δείγματα/sec, -> ~10 φθόγγοι) Τα Πλαίσια θεωρούνται χρονικά αμετάβλητα, σαν να περιέχουν ήχο με σταθερές ιδιότητες. Ικανοποιητικό μήκος πλαισίου, 10-30msec, -> Ν (100-300) δειγμάτων, Τεχνολογία Ομιλίας Νίκος Φακωτάκης 11 ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ 11
ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ Ψηφιακή Προεπεξεργασία Ρυθμός μετακίνησης πλαισίων: Μετακίνηση με επικάλυψη Σταθερού βήματος Μεταβλητού βήματος Μήκος βήματος: Μεταξύ 10 - 20msec. Παράδειγμα: 8,000 δείγματα/sec 20ms βήμα (160 δείγματα) 30ms παράθυρο (240 δείγματα) Επεξεργασία 240 δείγματα σε 20ms Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ… Ψηφιακή Προεπεξεργασία Πλαισιοποίηση: Πλαίσια μικρής διάρκειας, Προέμφαση: Ενίσχυση στις Υψηλές, Παράθυρο: Φίλτρο Ορθογωνίου Παραθύρου. Ανίχνευσης των άκρων ομιλίας Τεχνολογία Ομιλίας Νίκος Φακωτάκης 13 ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ 13
Προέμφαση ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ Ψηφιακή Προεπεξεργασία Εξουδετέρωση της επίδρασης του πόλου της γλωττίδας. Δύο (2) πόλοι της γλωττίδας, G(z)=1/(1-e-cTz-1)², cT<<1 1ος απλοποιείται από το Μηδενικό της Ακτινοβολίας των χειλιών, R(z)=1-z-1 2ος, εξασθενεί τη συνάρτηση μεταφοράς του ΦΚ, με κλίση 6dB/οκτάβα. Αντιμετωπίζεται με την Προέμφαση. Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
….Προέμφαση, ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ Ψηφιακή Προεπεξεργασία Επιτυγχάνεται με τη διέλευση του σήματος από ένα φίλτρο ενός μηδενικού, της μορφής Στο χρόνο, η Προέμφαση πραγματοποιείται από τη σχέση μ, κλίση του φάσματος: (άηχοι, μ<<1, ηχηροί μ=1) μ = R(1)/R(0) R(0), ενέργεια του πλαισίου, R(1), 1ος συντελεστής αυτοσυσχέτισης. Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Προεπεξεργασία: Προ-Έμφασης (Pre-Emphasis) Ενίσχυση της ενέργειας στις υψηλές συχνότητες Το Φάσμα στα ηχηρά πλαίσια έχουν περισσότερη ενέργεια στις χαμηλής συχνότητες από ότι στις υψηλές Ονομάζεται φασματική κλίση (spectral tilt), και αποδίδεται στην παρουσία του φίλτρου της γλωττίδας (glottal pulse)
Προεπεξεργασία: Προ-Έμφασης (Pre-Emphasis) Πριν και μετά την προ-Έμφαση Φάσμα τμήματος από το φωνήεν [aa]
….Προέμφαση εξομαλυσμένου ηχηρού πλαισίου /u/ ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ Ψηφιακή Προεπεξεργασία ….Προέμφαση εξομαλυσμένου ηχηρού πλαισίου /u/ Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Προεπεξεργασία: Παράθυρο (Windowing) Βραχύχρονη Ανάλυση Η αρχή της βραχύχρονης ανάλυσης στηρίζεται στη διαπίστωση: Τα χαρακτηριστικά της ανθρώπινης ομιλίας μεταβάλλονται σχετικά αργά στον χρόνο. Ο ρυθμός μεταβολής της κυματομορφής του σήματος ομιλίας είναι πολύ μεγαλύτερος του ρυθμού άρθρωσης ενός ομιλητή. Μικρά τμήματα ομιλίας απομονώνονται και υφίστανται επεξεργασία σαν να περιέχουν ήχο με σταθερές ιδιότητες.
Προεπεξεργασία: Παράθυρο (Windowing) Βραχύχρονη Ανάλυση Αυτά τα μικρά τμήματα ομιλίας (Ν δειγμάτων) θα αναφέρονται ως πλαίσια ομιλίας. Πλαίσια (Frame) Μήκος Πλαισίου: τυπικά, 10-25ms Για fs = 10.000 δείγματα/sec-> Ν (100-250) δειγμάτων, Μετακίνηση Πλαισίου (επικαλυπτόμενα): τυπικά, 5-10ms, Για fs = 10.000 δείγματα/sec-> Β(50-100) δίγματα, βήμα μετατόπισης πλαισίων
Προεπεξεργασία: Παράθυρο (Windowing)
Προεπεξεργασία: Παράθυρο (Windowing) Τετραγωνικό Παράθυρο: Hamming Παράθυρο:
Προεπεξεργασία: Παράθυρο στο Χρόνο
Προεπεξεργασία: Παράθυρο στη Συχνότητα Προεπεξεργασία: Παράθυρο στη Συχνότητα
Φίλτρο Παραθύρου ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ Ψηφιακή Προεπεξεργασία Ορθογώνιο παράθυρο, Τα πλαίσια ομιλίας Ορθογώνιου παραθύρου, …δηλαδή, s"(n) = s'(n)w(n) Αποτέλεσμα: Παραμόρφωση σήματος εξόδου, Συνέλιξη μεταξύ τετραγωνικού παλμού και σήματος, Μηδενικά στον FFT, Εξαφανίζει τον δεύτερο και τρίτο Formant. Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ Ψηφιακή Προεπεξεργασία ….Φίλτρο“Παραθύρο” Συναρτήσεις παραθύρου: Bartlett, Hanning, Hamming, Welch, Cosine Bell, Blackman, Blackman-Harris,.. Η συνηθέστερη Hamming, Η χρονική Περίοδος: από -Ν/2 μέχρι +Ν/2, Ν το μήκος παραθύρου. Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ Ψηφιακή Προεπεξεργασία ….Παράθυρο, Hamming, Hanning Απλότητα, Ευκρινή παρουσίαση των συντονισμών n, αριθμός του συγκεκριμένου δείγματος Ν, ο συνολικός αριθμός των δειγμάτων, α, καθορίζει το είδος "παραθύρου": α = 1.00, για "παράθυρο" Ορθογώνιο, α = 0.54, για "παράθυρο" Hamming, α = 0.50, για "παράθυρο" Hanning. Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ Ψηφιακή Προεπεξεργασία ….Φίλτρο Παραθύρου Hamming Τεχνολογία Ομιλίας Νίκος Φακωτάκης 28 ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ 28
Επίδραση παραθύρων σε ηχηρό πλαίσιο ομιλίας ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ Ψηφιακή Προεπεξεργασία Επίδραση παραθύρων σε ηχηρό πλαίσιο ομιλίας Νίκος Φακωτάκης Τεχνολογία Ομιλίας
Ψηφιακή Προεπεξεργασία ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ… Ψηφιακή Προεπεξεργασία Ηχηρό πλαίσιο ομιλίας με παράθυρο: α) Ορθογώνιο, β) Hamming, γ) Hanning. Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Ψηφιακή Προεπεξεργασία ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ… Ψηφιακή Προεπεξεργασία Ανίχνευσης των άκρων ομιλίας Αλγόριθμοι με παραμέτρους αναγνώρισης ομιλίας. Ικανοποιητική αξιοπιστία, Υπολογιστικά χρονοβόροι. Αλγόριθμοι απλών παραμέτρων, π.χ. ενέργεια, μηδενικές διελεύσεις, ταχεία απόκριση, περιορισμένη αξιοπιστία. μεγάλο πλήθος ευρετικών κατωφλιών. Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ