Επεξεργασία Ομιλίας & Ήχου Ενότητα # 6: Linear Predictive Coding Ιωάννης Καρύδης Τμήμα Πληροφορικής
Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3
Linear Predictive Coding Τι είναι η πρόγνωση (prediction); x(n)x(n-1)x(n-2) … Παρελθόν ? Με βάση τις προηγούμενες τιμές μιας συνάρτησης, μπορούμε να υπολογίσουμε την τιμή της στη θέση n; Εισάγεται η έννοια της αβεβαιότητας στην πρόβλεψη μιας μελλοντικής τιμής της συνάρτησης.
Πρόγνωση Η πρόγνωση μελλοντικών τιμών με βάση τις υπάρχουσες (γνωστές) τιμές χρησιμοποιείται ευρέως: Μετεωρολογία Χρηματιστήριο Κωδικοποίηση/συμπίεση σήματος (εικόνα/ήχος/δεδομένα) για μετάδοση Στην βιολογία για πρόβλεψη εξέλιξης πληθυσμών
Γραμμική Πρόγνωση Η γραμμική πρόγνωση (linear prediction) είναι μια απλή μέθοδος πρόβλεψης μελλοντικών τιμών με βάση έναν γραμμικό συνδυασμό των υπαρχουσών τιμών x(n)x(n-1)x(n-2) … Πρόβλεψη της τιμής x(n) ? K προηγούμενες τιμές Συντελεστές γραμμικής πρόγνωσης (linear prediction coefficients) Λάθος στην πρόβλεψη x(n-3) x(n-Κ) …
Γραμμική Πρόγνωση Υπολογίζοντας τους συντελεστές γραμμικής πρόβλεψης α κ, μπορώ να ανασυνθέσω το αρχικό μου σήμα (speech synthesis) Μπορώ να υπολογίσω τα α κ σε ένα πλαίσιο ομιλίας χρησιμοποιώντας αυτοσυσχέτιση Όταν υπολογίσω τα α κ μπορώ να υπολογίσω και το σφάλμα e(n) Γνωρίζοντας τα α κ και το λάθος πρόγνωσης e(n) μπορώ να ανασυνθέσω το αρχικό σήμα ομιλίας Συντελεστές γραμμικής πρόγνωσης (linear prediction coefficients)
Γραμμική Πρόγνωση Το λάθος της πρόβλεψης έχει κατά πολύ μικρότερο (από το αρχικό σήμα) εύρος τιμών Μπορώ να κωδικοποιήσω και να μεταδώσω το λάθος αντί του αρχικού σήματος (μικρότερο bandwidth)
Μοντέλο παραγωγής ομιλίας Για την μελέτη του συστήματος παραγωγής ομιλίας χρησιμοποιούμε ένα απλοποιημένο μοντέλο
Μοντέλο παραγωγής ομιλίας Το μοντέλο παραγωγής ήχων ομιλίας μπορεί να θεωρηθεί ως ένα γραμμικό χρονικά μεταβαλλόμενο σύστημα
Μοντέλο παραγωγής ομιλίας
Κωδικοποίηση Γραμμικής Πρόγνωση (LPC) Η κωδικοποίηση γραμμικής πρόγνωσης (linear predicting coding) αναλύει το σήμα ομιλίας υπολογίζοντας και αφαιρώντας την επίδραση των formants Αυτό που μένει είναι η αρχική διέγερση με τη θεμελιώδη συχνότητα (pitch) Τα formants και η αρχική διέγερση μπορούν να μεταδοθούν ξεχωριστά Μέσω αντίστροφης διαδικασίας μπορεί να γίνει ανασύνθεση της φωνής στο δέκτη Γιατί να κάνουμε όλη αυτή τη διαδικασία;
Μοντέλο παραγωγής ομιλίαςFormants Συχνότητα, ένταση
Ανίχνευση παραμέτρων ομιλίας Ύψος φωνής Συχνότητα θεμελιώδους ταλάντωσης των φωνητικών χορδών Παράμετρος εξαρτημένη από το ομιλητή Παρουσιάζει μεγάλη ανοχή στο θόρυβο Είναι δυνατόν να μιμηθεί κάποιος το ύψος κάποιας φωνής Αλλάζει ανάλογα με την συγκινησιακή κατάσταση και τυχόν αναπνευστικές ασθένειες του ομιλητή Το ύψος φωνής μπορεί να υπολογιστεί είτε με Αυτοσυσχέτιση (autocorrelation), στο χρόνο Ανάλυση cepstral, στην συχνότητα
Ανίχνευση παραμέτρων ομιλίας Συχνότητες συντονισμού (formants) Εκφράζουν το φωνητικό κανάλι Παράμετροι εξαρτημένοι από το ομιλητή Παρουσιάζουν μεγάλη ανοχή στο θόρυβο σε ασθένειες του αναπνευστικού συστήματος και στην μίμηση. Είναι δύσκολο να τις εξάγουμε από ένα σήμα ομιλίας (ιδιαίτερα συντονισμούς υψηλότερης τάξης) Οι συχνότητες συντονισμού μπορούν να υπολογιστούν με Γραμμική πρόγνωση, στο χρόνο Ανάλυση cepstral, στην συχνότητα
Ερωτήσεις;
Τέλος Ενότητας