Επεξεργασία Ομιλίας & Ήχου Ενότητα # 5: Παραμετροποίηση Ομιλίας Ιωάννης Καρύδης Τμήμα Πληροφορικής
Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς.
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.
Εισαγωγικά Παραμετροποίηση ομιλίας : πως μπορούμε να κρατήσουμε από ένα σήμα ομιλίας μόνο τις παραμέτρους που το εκφράζουν Υψηλός πλεονασμός πληροφορίας ψηφιοποιημένων δεδομένων σήματος εξαγωγή κατάλληλων παραμέτρων μόνο αναγκαία πληροφορία για συγκεκριμένη χρήση αποτέλεσμα: ουσιαστική συμπίεση όγκου δεδομένων και εύκολη χρήση Απαιτήσεις παραμέτρων μοντελοποίησης: Υψηλή αξιοπιστία αναγνώρισης Μικρός απαιτούμενος υπολογιστικός χρόνος για τον προσδιορισμό τους Μικρή πληροφοριακή ροή
Εξαγωγή παραμέτρων Σκοπός βαθμίδας εξαγωγής παραμέτρων Προσδιορισμός κατάλληλου παραμετρικού διανύσματος σήματος ομιλίας εισόδου Απόρριψη σημάτων από διάφορες διαταραχές του αναλογικού τμήματος έλλειψη ομιλίας παρουσία υψηλής στάθμης θορύβου κορεσμό του ψηφιοποιητή χαμηλή στάθμη έντασης ομιλίας Υπάρχει πολύ μεγάλο πλήθος παραμέτρων (συστήματα αναγνώρισης) Για την δημιουργία του εμπνευστήκαν από μοντέλα προσομοίωσης μηχανισμών παραγωγής ομιλίας προσομοίωσης των μηχανισμών αντίληψης ομιλίας. Συνήθεις παράμετροι: συχνότητες - τα εύρη ζώνης των συντονισμών θεμελιώδης συχνότητα της φωνής (ύψος φωνής) πλάτος της θεμελιώδους συχνότητας (ένταση φωνής) μέση ενέργεια, κ.α.
Περιορισμοί μετασχηματισμού ομιλίας Βαθμίδα εξαγωγής παραμέτρων προσδιορίζεται το πρότυπο διάνυσμα του ομιλητή ή του φωνήματος = δημιουργία μοντέλου σήματος ομιλίας θεωρούμε το σύνολο των επεξεργασιών της βαθμίδας ως συνάρτηση μετασχηματισμού σήματος ομιλίας από πεδίο χρόνου στο διανυσματικό χώρο των παραμέτρων αναγνώρισης Η συνάρτηση μετασχηματισμού πρέπει να ικανοποιεί: Μικρή παραμόρφωση σήματος ομιλίας από αναλογικά στοιχεία της βαθμίδας Ελαχιστοποίηση της επίδρασης του περιβάλλοντος θορύβου Ακριβής εντοπισμός των χρονικών στιγμών έναρξης και τέλους της ομιλίας Απομόνωση πληροφοριακού του περιεχομένου με χρήση αξιόπιστου μοντέλου προσομοίωσης Τελικός στόχος: προσδιορισμός ευδιάκριτων διανυσμάτων
H μεταβλητότητα του σήματος ομιλίας Το ηχητικό σήμα της ομιλίας μεταβάλλεται με το χρόνο Η διέγερση του φωνητικού καναλιού εναλλάσσεται από ηχηρή σε άηχη Το μέγιστο πλάτος του ηχητικού σήματος μεταβάλλεται ανάλογα με το φώνημα Το ύψος της φωνής μεταβάλλεται ανάλογα με το φώνημα Περίοδοι «ησυχίας» εισέρχονται στο σήμα ομιλίας κατά τις οποίες ο θόρυβος κυριαρχεί
Παραμετροποίηση του σήματος ομιλίας Σκοπός μας είναι αξιόπιστα να εξάγουμε τις παραμέτρους που χαρακτηρίζουν το σήμα της ομιλίας Το ύψος της φωνής Τους συντονισμούς Που αρχίζει και που τελειώνει κάθε λέξη Ενέργεια φωνής
Βραχύχρονη ανάλυση Βραχύχρονη ανάλυση H ομιλία μεταβάλλεται πολύ αργά κατά την διάρκεια των δειγμάτων που λαμβάνουμε (5-10 φωνήματα/δευτερόλεπτο) Κατά την βραχύχρονη ανάλυση (short-time processing) επιλέγουμε και απομονώνουμε μικρά τμήματα ομιλίας Ν δειγμάτων (πλαίσια ομιλίας) Διάρκεια 20-30ms στα 8KHz Επικαλυπτόμενα (για ανάλυση ομιλίας) Μη επικαλυπτόμενα (για κωδικοποίηση ομιλίας) Τα δείγματα αυτά τα επεξεργαζόμαστε σαν να περιέχουν ήχο με σταθερές ιδιότητες H διαδικασία της βραχύχρονης ανάλυσης μας δίνει μια άλλη αναπαράσταση της ομιλίας που και αυτή μεταβάλλεται με το χρόνο Βραχύχρονη ανάλυση Σήμα ομιλίας x(n) Αναπαράσταση ομιλίας f(m)
Βραχύχρονη ανάλυση H βραχύχρονη ανάλυση μπορεί να γίνει στο χρόνο ή στη συχνότητα Χαρακτηριστικά του σήματος ομιλίας που μπορούμε να υπολογίσουμε στο χρόνο Ενέργεια (energy) Πλάτος (amplitude) Διαφορά πλάτους (amplitude difference) Ρυθμός μηδενισμού (zero-crossing rate) Αυτοσυσχέτιση (auto-correlation)
Βραχύχρονη ανάλυση Όλα τα μεγέθη είναι τώρα συναρτήσεις του χρόνου! Ενέργεια (energy) Πλάτος (amplitude) Διαφορά πλάτους (amplitude difference) Ρυθμός μηδενισμού (zero-crossing rate) Αυτοσυσχέτιση (auto-correlation) Όλα τα μεγέθη είναι τώρα συναρτήσεις του χρόνου!
Βραχύχρονη ανάλυση: Ανίχνευση ομιλίας Το σήμα ομιλίας περιέχει περιόδους «ησυχίας» και περιόδους ομιλίας (φωνήματα). Πως μπορώ να απομονώσω τα διαστήματα ομιλίας;
Βραχύχρονη ανάλυση: Ανίχνευση ομιλίας Ένας τρόπος να το επιτύχω αυτό είναι τα υπολογίσω την βραχύχρονη ενέργεια του σήματος ομιλίας.
Βραχύχρονη ανάλυση : Ανίχνευση Ύψους Μπορώ να υπολογίσω το ύψος της φωνής με την χρήση του τελεστή αυτοσυσχέτισης Rn(k) Περιοδικές κορυφές X(n) k
Ανάλυση ομιλίας στις συχνότητες Ένα σήμα ομιλίας αναλύεται στο χώρο των συχνοτήτων κυρίως με 2 μεθόδους Βραχύχρονος μετασχηματισμός Fourier Ανάλυση Cepstral
Μετασχηματισμός Fourier Κάθε σήμα μπορεί να αναπαρασταθεί σαν γραμμικός συνδυασμός ημιτονοειδών σημάτων (ημίτονα και συνημίτονα)
Διακριτός Μετασχηματισμός Fourier O διακριτός μετασχηματισμός Fourier (Discrete Fourier Transform) μετασχηματίζει ένα διακριτό σήμα x(n) (όπως το ψηφιακό σήμα ομιλίας) σε ένα άθροισμα ημιτόνων και συνημίτονων O DFT υπολογίζεται γρήγορα με την χρήση του αλγορίθμου Fast Fourier Transform (FFT)
Μετασχηματισμός Fourier και ομιλία O μετασχηματισμός Fourier δεν είναι κατάλληλος για την επεξεργασία ενός σήματος ομιλίας Είναι ιδανικός για στατικά ή περιοδικά σήματα Η ομιλία είναι μη στατικό σήμα της οποίας τα χαρακτηριστικά μεταβάλλονται με το χρόνο (χρονικά μεταβαλλόμενο σύστημα παραγωγής φωνής) Δεν μας δίνει πληροφορία για το πώς αλλάζει το συχνοτικό περιεχόμενο του σήματος στο χρόνο
Μετασχηματισμός Fourier και ομιλία y=cos(10x) + cos(30x) + cos(80x) Fourier y=cos(10x) y=cos(30x) y=cos(80x) Fourier
Βραχύχρονος Μετασχηματισμός Fourier Μια λύση τα παραπάνω προβλήματα παρέχει ο Βραχύχρονος Μετασχηματισμός Fourier (Short-time Fourier Transform) Χρησιμοποιούμε πλαίσια καθορισμένου μήκους κατά τον υπολογισμό του μετασχηματισμού Θεωρούμε ότι τα πλαίσια περιέχουν ομιλία με σταθερά χαρακτηριστικά Μετασχηματισμός Fourier Βραχύχρονος Μετασχηματισμός Fourier Χρόνος Συχνότητα παράθυρο
Βραχύχρονος Μετασχηματισμός Fourier παράθυρο
Βραχύχρονος Μετασχηματισμός Fourier χρησιμοποιεί παράθυρο σταθερού μήκους Σταθερή ανάλυση στο χρόνο και στην συχνότητα Μικρό παράθυρο μας δίνει την δυνατότητα να βρίσκουμε την θέση μιας αλλαγής στο σήμα καλύτερα Μεγάλο παράθυρο μας δίνει την δυνατότητα να βρίσκουμε την συχνότητα μιας αλλαγής στο σήμα καλύτερα Δεν μπορούμε να τα κάνουμε και τα δυο μαζί! (αρχή αβεβαιότητας Heisenberg) Μέγεθος παραθύρου Fourier Μέγεθος παραθύρου Fourier
Παράθυρα Hamming Blackman Barlett Kaiser
O ρόλος σχήματος του παράθυρου
Βραχύχρονος Μετασχηματισμός Fourier παράθυρο
Φασματογράφημα Η ένταση της απόχρωσης της εγγραφής πάνω στην ταινία εκφράζει την αντίστοιχη ένταση σε κάθε συχνότητα (φίλτρο)
Φασματογράφημα Βραχύχρονος Μετασχηματισμός Fourier συχνότητα χρόνος
Ανάλυση Cepstral x(n) = h(n)*e(n) To φωνητικό κανάλι είναι ένα χρονικά μεταβαλλόμενο σύστημα h(n) που μετασχηματίζει μια είσοδο e(n) (παλμοί αέρα) σε σήμα ομιλίας x(n). x(n) = h(n)*e(n)
Ανάλυση Cepstral Χ(ω) = Η(ω) Ε(ω) Θα ήταν χρήσιμο αν μπορούσαμε να διαχωρίσουμε την πηγή e(n) από το φίλτρο h(n). Το χώρο των συχνοτήτων η συνέλιξη γίνεται γινόμενο: Χ(ω) = Η(ω) Ε(ω)
log|Χ(ω)| =log|Η(ω)| + log|Ε(ω)| Ανάλυση Cepstral Θα ήταν χρήσιμο αν μπορούσαμε να διαχωρίσουμε την πηγή e(n) από το φίλτρο h(n). Το χώρο των συχνοτήτων η συνέλιξη γίνεται γινόμενο: Χ(ω) = Η(ω) Ε(ω) Ισχύει ότι log|Χ(ω)| =log|Η(ω)| + log|Ε(ω)| Μπορούμε να θεωρήσουμε ότι το log|Ε(ω)| που οφείλεται στην διέγερση του φωνητικού συστήματος έχει υψηλό συχνοτικό περιεχόμενο Επίσης για το log|H(ω)|, που περιγράφει το φωνητικό κανάλι (το οποίο μεταβάλλεται αργά), ότι εκφράζεται από χαμηλές συχνότητες
Ανάλυση Cepstral Σήμα ομιλίας DFT log|.| IDFT Cepstrum Ας αναλογιστούμε πάλι το χαρακτηριστικό του μετασχηματισμού Fourier: Διαχωρίζει ένα σήμα εισόδου στις συχνότητες που το αποτελούν. Συνεπώς αν θεωρήσω ότι το log|Χ(ω)| είναι ένα σήμα εισόδου που αποτελείται από ένα σήμα με χαμηλές συχνότητες (log|Η(ω)|) και ένα σήμα με υψηλές συχνότητες (log|Ε(ω)|) τότε μπορώ εφαρμόζοντας τον μετασχηματισμό Fourier σε αυτό το σήμα να το διαχωρίσω στα συστατικά του. Το αποτέλεσμα του μετασχηματισμού αυτού είναι το cepstrum αναγραμματισμός του spectrum DFT log|.| IDFT Σήμα ομιλίας Cepstrum
Ανάλυση Cepstral Απόκριση του φωνητικού καναλιού Διέγερση του φωνητικού καναλιού χρόνος
Ερωτήσεις;
Τέλος Ενότητας