ΝΙΚΟΣ ΦΑΚΩΤΑΚΗΣ Καθηγητής ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ ΝΙΚΟΣ ΦΑΚΩΤΑΚΗΣ Καθηγητής Παραμετροποίηση Σήματος Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
ΔΟΜΗ ΣΥΣΤΗΜΑΤΟΣ ΑΝΑΓΝΩΡΙΣΗΣ ΒΑΘΜΙΔΑ 2 ΕΚΠΑΙΔΕΥΣΗ ΕΞΑΓΩΓΗ ΠΑΡΑΜΕΤΡΩΝ ΔΕΔΟΜΕΝΑ ΑΝΑΦΟΡΑΣ ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΒΑΘΜΙΔΑ 1 ΑΝΑΓΝΩΡΙΣΗ (ΤΑΞΙΝΟΜΗΣΗ) Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
ΠΕΡΙΕΧΟΜΕΝΑ Παραμετροποίηση Σήματος Ομιλίας Εισαγωγή Προεπεξεργασία Παράμετροι Σήματος Ομιλίας Ενέργεια, Περίγραμμα Ενέργειας, Ρυθμός Μηδενικών Περασμάτων (Zero Crossings) Αυτοσυσχέτησης, Συντελεστές Γραμμικής Πρόγνωσης (LPC) Φασματογράφημα Συντελεστές CEPSTRAL, Συχνοτήτες Συντονισμού Στοματικής Κοιλότητας (Formants) Θεμελιώδης Συχνότητα (F0) MFCC, Delta, Delta-Delta. Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Εισαγωγή Τα ψηφιοποιημένα δεδομένα έχουν Υψηλό πλεονασμό σε πληροφορία. Συμπίεση του όγκου των δεδομένων. Εξαγωγή κατάλληλων παραμέτρων, που περιέχουν την αναγκαία πληροφορία, για τη συγκεκριμένη χρήση. Απόρριψη προβληματικών ή χωρίς πληροφορία σημάτων: έλλειψη ομιλίας (σιγή), υψηλή στάθμη θορύβου, κορεσμό του ψηφιοποιητή, χαμηλή στάθμη έντασης ομιλίας.
Εισαγωγή Οι παράμετροι πρέπει να έχουν τα χαρακτηριστικά: Να υπολογίζονται εύκολα (Υπολογιστικός χρόνος), Να εμφανίζονται συχνά και φυσικά στην ομιλία Να μη μεταβάλλονται στον χρόνο Να είναι Εύρωστες: Επίδρασης περιβάλλοντος, Να μην επηρεάζονται από την υγεία των ομιλητών
Εισαγωγή Απώτερος στόχος της βαθμίδας παραμετροποίησης Ο προσδιορισμός προτύπων. Παραμετρικά διανύσματα, τα οποία είναι καλά διαχωρίσιμα στις κατηγορίες που εκφράζουν (φωνήματα, ομιλητές, κ.λ.π.).
Προεπεξεργασία: Δειγματοληψία (Sampling) Ανά χρονικό διάστημα t, παίρνουμε ένα δείγμα. Χρειαζόμαστε τουλάχιστον δύο δείγματα ανά κύκλο (Hz) Συχνότητας δειγματοληψίας, διπλάσια της μέγιστης συχνότητας του σήματος. Ανθρώπινη Ομιλία < 10,000 Hz, Δειγματοληψία min fs=20K
Προεπεξεργασία: Κβαντισμός (Quantization) Αντιστοίχιση των Αναλογιών τιμών σε πεπερασμένες Ψηφιακές τιμές (A/D): 8-bit (-128 to 127), 16-bit (-32768 to 32767) (16 bit PCM) 8 bit mu-law;
Προεπεξεργασία: Παράθυρο (Windowing) Βραχύχρονη Ανάλυση Η αρχή της βραχύχρονης ανάλυσης στηρίζεται στη διαπίστωση: Τα χαρακτηριστικά της ανθρώπινης ομιλίας μεταβάλλονται σχετικά αργά στον χρόνο. Ο ρυθμός μεταβολής της κυματομορφής του σήματος ομιλίας είναι πολύ μεγαλύτερος του ρυθμού άρθρωσης ενός ομιλητή. Μικρά τμήματα ομιλίας απομονώνονται και υφίστανται επεξεργασία σαν να περιέχουν ήχο με σταθερές ιδιότητες.
Προεπεξεργασία: Παράθυρο (Windowing) Βραχύχρονη Ανάλυση Αυτά τα μικρά τμήματα ομιλίας (Ν δειγμάτων) θα αναφέρονται ως πλαίσια ομιλίας. Πλαίσια (Frame) Μήκος Πλαισίου: τυπικά, 10-25ms Για fs = 10.000 δείγματα/sec-> Ν (100-250) δειγμάτων, Μετακίνηση Πλαισίου (επικαλυπτόμενα): τυπικά, 5-10ms, Για fs = 10.000 δείγματα/sec-> Β(50-100) δίγματα, βήμα μετατόπισης πλαισίων
Προεπεξεργασία: Παράθυρο (Windowing)
Προεπεξεργασία: Παράθυρο (Windowing) Τετραγωνικό Παράθυρο: Hamming Παράθυρο:
Προεπεξεργασία: Παράθυρο στο Χρόνο
Προεπεξεργασία: Παράθυρο στη Συχνότητα Προεπεξεργασία: Παράθυρο στη Συχνότητα
Προεπεξεργασία: Προ-Έμφασης (Pre-Emphasis) Ενίσχυση της ενέργειας στις υψηλές συχνότητες Το Φάσμα στα ηχηρά πλαίσια έχουν περισσότερη ενέργεια στις χαμηλής συχνότητες από ότι στις υψηλές Ονομάζεται φασματική κλίση (spectral tilt), και αποδίδεται στην παρουσία του φίλτρου της γλωττίδας (glottal pulse)
Προεπεξεργασία: Προ-Έμφασης (Pre-Emphasis) Πριν και μετά την προ-Έμφαση Φάσμα τμήματος από το φωνήεν [aa]
Παράμετροι Σήματος Ομιλίας Παράμετροι Σήματος Ομιλίας Πολλοί αλγόριθμοι για την εξαγωγή τους: Στο Χρόνο Ενέργεια, Περίγραμμα Ενέργειας, Ρυθμός Μηδενικών Περασμάτων (Zero Crossings) Αυτοσυσχέτιση (Autocorrelation) Συντελεστές Γραμμικής Πρόγνωσης (LPC) Στη Συχνότητα Τράπεζα φίλτρων (Φασματογράφημα) Συχνοτήτες Συντονισμού Στοματικής Κοιλότητας (Formants) Θεμελιώδης Συχνότητα (F0) Συντελεστές CEPSTRAL, Mel Frequency Cepstral Coefficients algorithm: MFCC MFCC, Delta, Delta-Delta. ΧΡΗΣΗ ΓΡΑΜΜΙΚΟΥ ΜΟΝΤΕΛΟΥ ΠΟΛΩΝ FANT ΠΑΡΑΓΩΓΗ ΣΥΝΤΕΛΕΣΤΩΝ ΓΡΑΜΜΙΚΗΣ ΠΡΟΓΝΩΣΗΣ ΠΑΡΑΓΩΓΗ ΣΥΝΤΕΛΕΣΤΩΝ CEPSTRAL ΤΗΣ ΣΥΝΑΡΤΗΣΗΣ ΠΟΛΩΝ Α(Ζ) ΓΙΑΤΙ ΧΡΗΣΙΜΟΠΟΙΕΙΤΑΙ Η ΕΝΕΡΓΕΙΑ ΓΙΑΤΙ ΧΡΗΣΙΜΟΠΟΙΕΙΤΑΙ Η ΠΡΩΤΗ ΠΑΡΑΓΩΓΟΣ ΣΥΝΤΕΛΕΣΤΩΝ ΚΑΙ ΕΝΕΡΓΕΙΑΣ (ΠΕΡΙΓΡΑΦΗ ΜΕΤΑΒΑΤΙΚΩΝ ΦΑΙΝΟΜΕΝΩΝ) Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Παράμετροι Σήματος Ομιλίας: Περίγραμμα Ενέργειας (Energy Contour) Η ενέργεια στο k πλαίσιο, του περιγράμματος της ενέργειας: Ν = μήκος πλαισίου, Β = βήμα μετατόπισης ` Εκφράζει τα χαρακτηριστικά του ΦΚ. Μικρή Υπολογιστική Πολυπλοκότητα: Απλός Υπολογισμός στο Πεδίο του Χρόνου Καταλληλότητα παραμέτρων για: Διαχωρισμός ηχηρής – άηχης, Διαχωρισμός ομιλίας- σιωπής. Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Παράμετροι Σήματος Ομιλίας: Περίγραμμα Ενέργειας (Energy Contour) Waveform Energy HF Energy Spectral Flatness Stop-Detection SVM TargetOutput
Παράμετροι Σήματος Ομιλίας: Ρυθμός Μηδενικών Περασμάτων Παράμετροι Σήματος Ομιλίας: Ρυθμός Μηδενικών Περασμάτων Το πλήθος των μηδενικών περασμάτων (Zero Crossings) του σήματος, στη διάρκεια ενός πλαισίου. Μικρή Υπολογιστική Πολυπλοκότητα: Απλός Υπολογισμός στο Πεδίο του Χρόνου Καταλληλότητα παραμέτρων: Διαχωρισμό ηχηρής - άηχης ομιλίας Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Παράμετροι Σήματος Ομιλίας: Αυτοσυσχέτιση (Autocorrelation) Μετρά την ομοιότητα του σήματος σε σχέση με μια χρονική καθυστέρηση του ιδίου R[0] is the energy Εκφράζει τα χαρακτηριστικά του ΦΚ. Μικρή Υπολογιστική Πολυπλοκότητα: Απλός Υπολογισμός στο Πεδίο του Χρόνου Καταλληλότητα παραμέτρων για: Διαχωρισμός ηχηρής – άηχης, Διαχωρισμός ομιλίας- σιωπής.
Κωδικοποίηση Γραμμικής Πρόγνωσης Linear Predictive Coding (LPC)
Παράμετροι Σήματος Ομιλίας: Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC) Παράμετροι Σήματος Ομιλίας: Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC) Μια πολύ ισχυρή μέθοδος ανάλυσης ομιλίας Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC). Η μέθοδος αυτή είναι ευρέως χρησιμοποιούμενη γιατί: είναι γρήγορη και απλή, στη συμπίεση σήματος ομιλίας αποτελεσματικό τρόπο υπολογισμού των βασικών παραμέτρων σημάτων ομιλίας. F0 Formants
Παράμετροι Σήματος Ομιλίας: Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC) Παράμετροι Σήματος Ομιλίας: Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC) Η συνάρτηση μεταφοράς μπορεί να είναι: μόνο πόλων (all pole) ή πόλων και μηδενικών (poles and zeros) Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Παράμετροι Σήματος Ομιλίας: Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC) Παράμετροι Σήματος Ομιλίας: Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC) Μια καλή προσέγγιση: Η συνάρτηση μεταφοράς του γραμμικού συστήματος παραγωγής ομιλίας να δοθεί σαν φίλτρο μόνο πόλων με καθορισμένο αριθμό πόλων, όπου: Α(z), το μόνο μηδενικά ανάστροφο φίλτρο που παριστάνει το μοντέλο παραγωγής σήματος ομιλίας εξομαλυμένο από τον ερεθισμό Ε(z). Οι παράμετροι {αk } για k=1,2,...p, που ορίζουν το ανάστροφο φίλτρο ονομάζονται συντελεστές γραμμικής πρόγνωσης (LPC) Οι πόλοι της συνάρτησης μεταφοράς καλούνται formants
Παράμετροι Σήματος Ομιλίας: Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC) Παράμετροι Σήματος Ομιλίας: Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC) Περιβάλλουσα φάσματος = 1/(πολυώνυμο Α), α1, α2,..,αΜ, οι συντελεστές γραμμικής πρόγνωσης Το Πρόβλημα καθορισμού των συχνοτήτων συντονισμού ανάγεται σε καθορισμό του πολυωνύμου Α από την κυματομορφή ομιλίας. Πυρήνας της LPC διαδικασίας είναι: o καθορισμός των συντελεστών {αk } για k=1,2,...Μ, Το πρόβλημα ανάγεται σε επίλυση του πολυωνύμου για Α=0. Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Παράμετροι Σήματος Ομιλίας: Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC) Παράμετροι Σήματος Ομιλίας: Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC) Το αντίστροφο φίλτρο A(z) ορίζεται ως εξής Παίρνοντας τον αντίστροφο μετασχηματισμό Ζ έχουμε
Παράμετροι Σήματος Ομιλίας: Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC) Παράμετροι Σήματος Ομιλίας: Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC) Το σήμα x(n), αναπαριστάτε σαν γραμμικό συνδυασμό p προηγούμενων δειγμάτων, κάθε δείγμα πολλαπλασιάζεται επί βάρος αk , (συντελεστές LPC) και στο άθροισμα προστίθεται το Σφάλμα e(n): (Σφάλμα = πραγματικό δείγμα- εκτιμώμενο δείγμα)
Παράμετροι Σήματος Ομιλίας: Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC) Παράμετροι Σήματος Ομιλίας: Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC) Η LPC παίρνει το όνομα της από το γεγονός ότι προβλέπει το τρέχων δείγμα σαν ένα γραμμικό συνδυασμό των προηγούμενων p δειγμάτων Το λάθος πρόβλεψης, είναι:
Παράμετροι Σήματος Ομιλίας: Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC) Παράμετροι Σήματος Ομιλίας: Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC) Ορίζουμε το λάθος πρόβλεψης (σφάλμα ελαχίστων τετραγώνων) ως: Δοθέντος του xm[n], υπολογίζουμε τους αντίστοιχους LPC συντελεστές που ελαχιστοποιούν το λάθος πρόβλεψης Em.
Τράπεζα φίλτρων (Φασματογράφημα)
Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων Δύο τρόποι βραχύχρονης φασματικής ανάλυσης, Τράπεζα φίλτρων (φασματογράφημα) Ψηφιακή Τράπεζα Φίλτρων Βραχύχρονος Μετασχηματισμός Fourier STFT Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Παράμετροι Σήματος Ομιλίας: Φασματογράφημα Παράμετροι Σήματος Ομιλίας: Φασματογράφημα Τράπεζα Φίλτρων είναι η ακολουθία από ζωνοδιαβατά φίλτρα που χωρίζουν το σήμα εισόδου σε τμήματα, κάθε ένα από τα οποία φέρει μια μοναδική συχνότητα από το αρχικό σήματα Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Παράμετροι Σήματος Ομιλίας: Φασματογράφημα Παράμετροι Σήματος Ομιλίας: Φασματογράφημα AS DEVELOPED AT BELL LABORATORIES (1945) DIGITAL VERSION
Παράμετροι Σήματος Ομιλίας: Φασματογράφημα Παράμετροι Σήματος Ομιλίας: Φασματογράφημα
This is a speech spectrogram Παράμετροι Σήματος Ομιλίας: Φασματογράφημα This is a speech spectrogram
Παράμετροι Σήματος Ομιλίας: Φασματογράφημα Παράμετροι Σήματος Ομιλίας: Φασματογράφημα Τρισδιάστατη απεικόνιση: Χρόνος-Συχνότητα-Ενέργεια Υψηλός πλεονασμός σε πληροφορία: Περιορισμένη άμεση χρησιμοποίηση: Μελετούνται δύο έννοιες της συχνότητας: Η θεμελιώδης συχνότητα, Fo, Οι συχνότητες συντονισμού, Fn. Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Παράμετροι Σήματος Ομιλίας: Φασματογράφημα Παράμετροι Σήματος Ομιλίας: Φασματογράφημα Ο Φασματογράφημα παρέχει δύο ειδών αναλύσεις: Ευρείας ζώνης (broad-band): Μικρό παράθυρο h(n), της τάξης του pitch, Δεν φαίνονται οι αρμονικές του ύψους φωνής. Προσέγγιση της περιβάλλουσας του φάσματος, (Συνάρτησης μεταφοράς του ΦΚ). Στενής ζώνης (narrow-band): Μεγάλο παράθυρο, h(n), της τάξης αρκετών περιόδων pitch, Φαίνονται οι αρμονικές του ύψους φωνής. Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Παράμετροι Σήματος Ομιλίας: Φασματογράφημα Παράμετροι Σήματος Ομιλίας: Φασματογράφημα Στενής Ζώνης (επάνω) – Ευρείας Ζώνης (κάτω)
Παράμετροι Σήματος Ομιλίας: Φασματογράφημα Παράμετροι Σήματος Ομιλίας: Φασματογράφημα Φασματογραφήματα Στενής και Ευρείας ζώνης Ευρείας Ζ. Στενής Ζ. Ποιότητα Ανάλυσης Χρόνο Καλή Άσχημη Συχνότητα Εμφανείς αρμονικές Pitch Όχι Ναι Formants Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων Δύο τρόποι βραχύχρονης φασματικής ανάλυσης, Τράπεζα φίλτρων Βραχύχρονος Μετασχηματισμός Fourier STFT Ομοιόμορφα κατανεμημένη Τράπεζα Φίλτρων s(n), σήμα ομιλίας, h(n), παραθύρου ολισθαίνει στο χρόνο. Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων Ταχύς Μετασχηματισμός Fourier (FFT) Ένας από τους εύκολους τρόπους υπολογισμού μιας τράπεζας φίλτρων μη ομοιόμορφα κατανεμημένης, Πολυπλοκότητα N*log(N). Input: Πλαίσια ομιλίας (Windowed signal) x[n]…x[m] Output: Ν διακριτές περιοχές συχνότητας. Για κάθε μια ένας μιγαδικός αριθμός X[k] που αντιπροσωπεύει, το συστατικό της συχνότητας (frequency component) στο αρχικό σήμα. Κατά κανόνα επιλέγετε, N=512 or 1024 Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων Αναπαράσταση του STFT Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων
Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων
Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων: Κλίμακα -Mel Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων: Κλίμακα -Mel Το εύρος ζώνης που μπορούμε να ακούσουμε είναι περίπου από 20 έως 20,000 Hz. Η Ανθρώπινη Ακοή δεν είναι το ίδιο ευαίσθητη σε όλες τις περιοχές της συχνότητας: η ανθρώπινη αντίληψη στις συχνότητες είναι μη-γραμμική, Λιγότερα ευαίσθητη στις υψηλές συχνότητες, περίπου, >1000 Hz, Η αντίληψη στην ένταση (πλάτος) είναι μη-γραμμική.
Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων: Κλίμακα -Mel Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων: Κλίμακα -Mel Το ανθρώπινο αυτί είναι ένας μη γραμμικός δέκτης: ενισχύει κάποια χαρακτηριστικά και υποβιβάζει άλλα. Το κρίσιμο εύρος ζώνης γύρω από μια κεντρική συχνότητα είναι το εύρος στο οποίο όλες οι συχνότητες ηχούν το ίδιο. Ένα ‘mel’ ορίζεται ως η μονάδα μέτρησης του αντιλαμβανόμενου pitch ή συχνότητας ενός τόνου. Αντιστοιχία μεταξύ πραγματικής κλίμακας συχνοτήτων f(Hz) και αντιλαμβανόμενης κλίμακας συχνοτήτων Mel(f) είναι:
Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων: Κλίμακα -Mel
Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων: Κλίμακα -Mel Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων: Κλίμακα -Mel Τράπεζα Φίλτρων Mel Διαχωρισμός σε μπάντες με βάση την κλίμακα των “καταληπτών από το αυτί” συχνοτήτων.
Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων: Κλίμακα -Mel Παράμετροι Σήματος Ομιλίας: Ψηφιακές Τράπεζες Φίλτρων: Κλίμακα -Mel Τράπεζα Φίλτρων Mel Σχηματισμός ζωνοδιαβατών φίλτρων τοποθετημένων σε γραμμική αναλογία σύμφωνα με τη mel κλίμακα. Ομοιόμορφα διαστήματα μέχρι 1 kHz Λογαριθμική κλίμακα πάνω από 1 kHz
Cepstral Ανάλυση
Cepstral Ανάλυση Cepstrum analysis: Ο αντίστροφος μετασχηματισμός Φουριέ (IFT) του λογαρίθμου του Φάσματος του σήματος. Αναπαριστά την συχνότητα των συχνοτήτων Το όνομα "cepstrum" προκύπτει από την αναστροφή των τεσσάρων πρώτων γραμμάτων του "spectrum". Νίκος Φακωτάκης Τεχνολογία Ομιλίας
Cepstral Ανάλυση Τμήμα μήκους L δειγμάτων, του δειγματοληπτούμενου σήματος ομιλίας, μπορεί να θεωρηθεί σαν η συνέλιξη της: h[n], κρουστική απόκριση του φωνητικού καναλιού και p[n], περιοδική πηγή διέγερσης (για ηχηρή ομιλία) ή τυχαίος θόρυβος (για άηχη ομιλία).
Cepstral Ανάλυση Στη συχνότητα η συνέλιξη γίνετε γινόμενο. το πλάτος των αρμονικών της διέγερσης, P(f), πολλαπλασιάζεται με την τιμή της συνάρτησης μεταφοράς του ΦΚ, H(f), και το γινόμενο είναι το φάσμα του εκπεμπόμενου ήχου
Cepstral Ανάλυση Αν εκφράσουμε την παραπάνω σχέση λογαριθμικά: διέγερση και συνάρτηση μεταφοράς προστίθενται H στάθμη του φάσματος του ήχου σε μία συχνότητα f είναι, το άθροισμα της στάθμης της διέγερσης σε αυτήν τη συχνότητα και της συνάρτησης μεταφοράς, σε decibels.
Η κυματομορφή ομιλίας
Cepstral Ανάλυση Η σπουδαιότητα της μεθόδου cepstrum: παρέχει έναν τρόπο διαχωρισμού των περιοδικών συνιστωσών (F0 και αρμονικών) από τις μη περιοδικές συνιστώσες (χαρακτηριστικά του ΦΚ).
Θεμελιώδης Συχνότητα (F0) Εξαγωγή με Cepstrum φάσμα λογαρίθμου ενός ηχηρού ήχου: φάσμα λογαρίθμου της κρουστικής απόκρισης του ΦΚ: Η αργά μεταβαλλόμενη (διακεκομμένη γραμμή) φάσμα λογαρίθμου της φωνητικής πηγής: ο κυματισμός (ripples). Ο κυματισμός αυτός αντιστοιχεί στις αρμονικές της F0.
Θεμελιώδης Συχνότητα (F0) Εξαγωγή με Cepstrum Το πρόβλημα: Πώς θα πάρουμε πληροφορία για τη F0 από αυτό το φάσμα, Η λύση: Να προσεγγίσουμε το φάσμα λογαρίθμου σαν να ήταν μία συνήθης κυματομορφή στο πεδίο του χρόνου. Επομένως, το πρόβλημα ισοδυναμεί τώρα με το διαχωρισμό δύο ημιτονοειδών κυμάτων που έχουν διαφορετικές συχνότητες και πλάτη και είναι υπερτεθειμένα στο πεδίο του χρόνου. Έτσι, παίρνοντας το μετασχηματισμό Fourier του κύματος θα προκύψουν δύο ξεχωριστά φάσματα στο πεδίο της συχνότητας,
Θεμελιώδης Συχνότητα (F0) Εξαγωγή με Cepstrum
Cepstral Ανάλυση Ανάκτηση του h[n] με ένα ομομορφικό φίλτρο όπου D είναι ο cepstrum τελεστής. Το σήμα διέγερσης e[n] μπορεί να ληφθεί παρόμοια με ομομορφικό φίλτρο της μορφής
Θεμελιώδης Συχνότητα (F0)
Θεμελιώδης Συχνότητα (F0) η αντίστοιχη περίοδος (T0), ονομάζεται διεθνώς (pitch). αναφέρεται και ως "ύψος φωνής". Ύψος {ήχου, τόνου, νότας, φωνής, ...} μεγάλο ύψος: {φωνή με μεγάλο ύψος: οξεία (λεπτή/ψιλή/διαπεραστική) φωνή > οξύφωνος - φωνή με εξαιρετικά μεγάλο ύψος > υψίφωνος)} μικρό ύψος: {φωνή με μικρό ύψος: βαρεία φωνή > βαρύτονος - με πολύ μικρό ύψος (ή, προς την αντίθετη κατεύθυνση, μεγάλο «βάθος») > βαθειά φωνή > βαθύφωνος}
Θεμελιώδης Συχνότητα (F0) Κατάλληλη παράμετρος για: Αναγνώρισης Ομιλητή. Αναγνώριση Φύλου Αναγνώριση Ηλικίας Αναγνώρισης Ομιλίας, για τονικές γλώσσες (Ιαπωνικά, Κινεζικά). Σε βάρος της: Ευαισθησία στη μίμηση, με συνειδητή προσπάθεια μπορεί ένας ομιλητής να προσαρμόσει το ύψος φωνής του με άλλο ομιλητή. Ευαισθησία σε αναπνευστικές ασθένειες, η επίδραση του κρυολογήματος στο ύψος φωνής είναι σημαντική. Ευαισθησία σε συγκινησιακές καταστάσεις, Μεταβλητότητα στο πέρασμα του χρόνου. Νίκος Φακωτάκης Τεχνολογία Ομιλίας ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ
Θεμελιώδης Συχνότητα (F0) Μέσες τιμές θεμελιώδους συχνότητας: Ανδρική φωνή (βαθιά), ~ 90Ηz,, Γυναικεία φωνή, ~ 250Ηz, Παιδική φωνή, ~ 300Ηz .
Θεμελιώδης Συχνότητα (F0) Η εκτίμηση του ύψους φωνής στο πεδίο του χρόνου: Μετράται κατ‘ ευθείαν η περίοδος της κυματομορφής του σήματος ομιλίας και αποτελεί μία καλή προσέγγιση της τιμής του pitch. Ένα πρόβλημα σε αυτήν την προσέγγιση είναι ότι οι κορυφές που συνδέονταν με την περιοδικότητα της φωνητικής πηγής του λάρυγγα, δεν διακρίνονται από τις κορυφές που οφείλονταν στους συντονισμούς της γλωττίδας.
Θεμελιώδης Συχνότητα (F0) Η εκτίμηση του ύψους φωνής στο πεδίο της συχνότητας: Μέτρηση των αποστάσεων μεταξύ των συνιστωσών του φάσματος, έγκυρη μέτρηση της F0. Αλγόριθμος βασισμένος στο cepstrum, μεγάλη ακρίβεια την F0,
Θεμελιώδης Συχνότητα (F0) Εξαγωγή με Cepstrum
Θεμελιώδης Συχνότητα (F0) Εξαγωγή με Cepstrum φάσμα λογαρίθμου ενός ηχηρού ήχου: φάσμα λογαρίθμου της κρουστικής απόκρισης του ΦΚ: φάσμα λογαρίθμου της φωνητικής πηγής Κυματισμός (ripples), Ο κυματισμός αυτός αντιστοιχεί στις αρμονικές της F0.
Θεμελιώδης Συχνότητα (F0) Εξαγωγή με Cepstrum Από τον μετασχηματισμό Fourier του κύματος θα προκύψουν δύο ξεχωριστά φάσματα στο πεδίο της συχνότητας,
Θεμελιώδης Συχνότητα (F0) Εξαγωγή με Cepstrum
Συντονισμοί φωνητικού καναλιού, Formants
Συντονισμοί φωνητικού καναλιού, Formants Οι πόλοι της συνάρτησης μεταφοράς του μοντέλου του μηχανισμού παραγωγής ομιλίας Κάθε συντονισμός αποτελείται από: τη συχνότητα, το εύρος ζώνης και το πλάτος συντονισμού.
Συντονισμοί φωνητικού καναλιού Formants Οι τιμές των συντονισμών εξαρτώνται από το σχήμα και τις διαστάσεις της φωνητικής οδού. Με την αλλαγή των θέσεων των φωνητικών οργάνων (γλώσσα, χείλη, σιαγώνα) αλλάζουν οι φασματικές ιδιότητες των ήχων και φυσικά οι τιμές των συντονισμών. Πρώτη συχνότητα συντονισμού, από 200-900 Hz, Δεύτερη συχνότητα συντονισμού, από 550-2.700 Hz, Τρίτη συχνότητα συντονισμού, από 1.100-2.900 Hz. Τα εύρη ζώνης των συντονισμών δεν είναι πολύ κρίσιμα για τη φωνητική ποιότητα ενός ήχου.
Συντονισμοί φωνητικού καναλιού Formants Πλεονεκτήματα των παραμέτρων: μεγάλη αντίσταση στη μίμηση, υψηλή ανοχή στον θόρυβο, επηρεάζονται ελάχιστα από ασθένειες του αναπνευστικού συστήματος, μένουν σχετικά αμετάβλητες στο χρόνο. Μειονεκτήματα: Αρκετά δύσκολη η εξαγωγή τους, με συνέπεια την αυξημένη πιθανότητα λανθασμένης εκτίμησης , Επίδραση της ρινικής κοιλότητας στους Fn, (εμφανίζονται στο φάσμα εκτός των πόλων και μηδενικά). Μεγάλος βαθμός επικάλυψης μεταξύ των Fn,
Εξαγωγή Συχνοτήτων συντονισμού Συνάρτηση μεταφοράς του ΦΚ: Η περιβάλλουσα των αρμονικών της συνάρτησης της διέγερσης, που φαίνεται σαν θόρυβος, αποτελεί τη. Συντονισμοί (Fn) του ΦΚ: Τα μέγιστα της περιβάλλουσας.
Εξαγωγή Συχνοτήτων συντονισμού Στάδια για την εξαγωγή των Fn : η εξομάλυνση του φάσματος απ’ τον θόρυβο της διέγερσης, η επιλογή των συντονισμών από τα ακατέργαστα δεδομένα.
Εξαγωγή Συχνοτήτων συντονισμού Από τις επικρατέστερες μεθόδους αυτόματης εξαγωγής των συχνοτήτων είναι αυτές που βασίζονται στην: Ομομορφική Αποσυνέλιξη (Cepstrum) Γραμμική Πρόγνωση (LPC)
Εξαγωγή συχνοτήτων συντονισμού: Μέθοδος Cepstrum Άρα, η μέθοδος cepstrum είναι κατάλληλη τόσο για την απόκτηση των συχνοτήτων συντονισμού Fn όσο και για την εύρεση της θεμελιώδους συχνότητας F0 της φωνής.
Εξαγωγή συχνοτήτων συντονισμού: Μέθοδος Cepstrum τα χαρακτηριστικά της πηγής, στην υψηλότερη περιοχή του, παραμερίζονται (φιλτράρονται) εφαρμόζεται μετασχηματισμός Fourier στη συνιστώσα του ΦΚ, η οποία βρίσκεται στη χαμηλότερη περιοχή, και παίρνουμε το αργά μεταβαλλόμενου φάσματος λογαρίθμου των χαρακτηριστικών συντονισμού του ΦΚ, οι κορυφές του αντιστοιχούν στις συχνότητες συντονισμού.
Εξαγωγή συχνοτήτων συντονισμού: Μέθοδος Cepstrum
Εξαγωγή συχνοτήτων συντονισμού: Μέθοδος LPC Ανίχνευση κορυφών FFT Κ ( j ) Ακατέργαστοι συντονισμοί Προ- επεξεργασία Α(z) {αi} Επίλυση ριζών Τεχνολογία Ομιλίας Νίκος Φακωτάκης
Εξαγωγή συχνοτήτων συντονισμού Μέθοδος LPC Μέθοδος Επίλυσης ριζών Υπολογισμός των συντελεστών LPC: {αi}, 1<i<p Υπολογισμός των ρίζων, της p-τάξης πολυωνύμου (Μερικές πραγματικές, οι υπόλοιπες συζυγείς Μιγαδικές) F= (Fs/2π) τοξ εφ{Im(z)/Re(z)}, B=-(Fs/π) ln|z|, Νίκος Φακωτάκης Τεχνολογία Ομιλίας
Εξαγωγή συχνοτήτων συντονισμού Μέθοδος LPC Μέθοδος FFT, Ανίχνευση κορυφών DFT του Ανάστροφου φίλτρου Είσοδοι Έξοδοι Η ένταση Νίκος Φακωτάκης Τεχνολογία Ομιλίας
Mel Frequency Cepstrum Coefficients, MFCC
Mel-Frequency Cepstral Coefficient (MFCC) Η διαφορά Mel cepstrum από πραγματικό cepstrum: χρησιμοποιείται μια μη γραμμική κλίμακα συχνοτήτων, που προσεγγίζει τη συμπεριφορά του συστήματος ακοής.
Γιατί οι MFCC είναι γνωστοί Η πλέον διαδομένη φασματικής αναπαράστασης για ASR, Αναπαριστά την συχνότητα των συχνοτήτων, Υπολογίζονται με αξιοπιστία, Εμπεριέχει την αντίληψη της συχνότητας της κλίμακας Mel, Διαχωρίζει την πηγή από το φίλτρο, decorrelates the features.
Mel-Frequency Cepstral Coefficient (MFCC) Input speech Framing and windowing Fast Fourier transform Absolute value Mel scaled-filter bank Log Feature vectors Discrete cosine transform
Mel-Frequency Cepstral Coefficient (MFCC) FFT Spectrum Glottal pulse Vocal tract
Mel-Frequency Cepstral Coefficient (MFCC) Spectrum Mel spectrum mel(f)= 2595*log10(1+f/700)
Mel-Frequency Cepstral Coefficient (MFCC) spectrum MFCC Coeff. DCT of the logarithm of the magnitude spectrum, the glottal pulse and the impulse response can be separated.
Mel-Frequency Cepstral Coefficient (MFCC)
MFCC: Pre-emphasis Πριν και μετά την προ-Έμφαση Φάσμα τμήματος από το φωνήεν [aa]
MFCC: Windowing
MFCC: Windowing
MFCC: DFT (FFT)
MFCC: DFT (FFT) Discrete Fourier Transform (DFT) Input: Output: Πλαίσια ομιλίας (Windowed signal) x[n]…x[m] Output: Ν διακριτές περιοχές συχνότητας. Για κάθε μια ένας μιγαδικός αριθμός X[k] που αντιπροσωπεύει, το μέγεθος και τη φάση του συστατικού της συχνότητας (frequency component) στο αρχικό σήμα. Κλασικοί αλγόριθμοι για τον υπολογισμό του DFT: Ταχύς Μετασχηματισμός Φουριέ (FFT) με πολυπλοκότητα N*log(N) Κατά κανόνα επιλέγετε, N=512 or 1024
MFCC: DFT (FFT) Πλαίσιο Ομιλίας 24 ms (Hamming-windowed) Το Φάσμα, όπως υπολογίστηκε από τον DFT (+smoothing)
MFCC: Mel filter-bank
MFCC: Mel filter-bank Η Ανθρώπινη Ακοή δεν είναι το ίδιο ευαίσθητη σε όλες τις περιοχές της συχνότητας η ανθρώπινη αντίληψη στις συχνότητες είναι μη-γραμμική: Λιγότερα ευαίσθητη στις υψηλές συχνότητες, περίπου, >1000 Hz
MFCC: Mel filter-bank Τράπεζα Φίλτρων Mel Ομοιόμορφα διαστήματα μέχρι 1 kHz Λογαριθμική κλίμακα πάνω από 1 kHz
MFCC: Mel filter-bank Εφαρμογή της τράπεζα φίλτρων- Mel, στο φάσμα: Κάθε έξοδος φίλτρου είναι το άθροισμα των φιλτραρισμένων συστατικών του
MFCC: Log energy
MFCC: Log energy Υπολογισμός του λογαρίθμου των τετραγώνων του πλάτους της εξόδου της τράπεζας φίλτρου- Mel
MFCC: Log energy Γιατί Λογάριθμο της ενέργειας (log energy)? Λογάριθμος συμπιέζει δυναμικά το εύρος των τιμών: Η αντίληψη των ανθρώπων στην ένταση σήματος είναι λογαριθμική περισσότερο ευαίσθητοι σε μικρές αλλαγές στις μικρές εντάσεις παρά μεγάλες εντάσεις.
MFCC: IDFT
MFCC: IDFT Διαχωρισμός πηγής (source) και φίλτρο (filter) IDFT(DCT) decorrelates the features Πηγή: αρμονικές λόγο ταλαντώσεων των φωνητικών χορδών. F0 Δεν περιέχει πληροφορίες για το φώνημα Φίλτρο: Το στόμα ως ενισχυτής, μερικές από τις αρμονικές ενισχύονται περισσότερο από κάποιες άλλες. Το φίλτρο είναι αυτό για το οποίο νοιαζόμαστε. Εκφράζει την ακριβή θέση των μέσων άρθρωσης στο ΦΚ
MFCC Το Φάσμα του λογαρίθμου του Φάσματος The spectrum of the log of the spectrum Spectrum Log spectrum Spectrum of log spectrum
MFCC
MFCC Παίρνουμε τους πρώτους 12 cepstral coefficients, Δεν χρησιμοποιούμε περισσότερους διότι περιέχουν πληροφορίες της πηγής (F0 spike), που είναι ανεπιθύμητες
MFCC: Derivatives
MFCC: Derivatives Οι συντελεστές cepstral δεν εμπεριέχουν ενέργεια Έτσι, προσθέτουμε την παράμετρο ενέργειας Γνωρίζουμε ότι το σήμα ομιλίας δεν είναι σταθερό (μεταβάλετε) και θέλουμε να προσθέσουμε της μεταβολές αυτές σε χαρακτηριστικά (the slopes), Αποκαλούμε αυτά τα χαρακτηριστικά delta προσθέτουμε double-delta χαρακτηριστικά επιτάχυνσης (acceleration features)
MFCC: Delta και double-delta Παράγωγος: Για την εξασφάλιση Χρονικής πληροφορίας
MFCC: Typical features Window size: 25ms Window shift: 10ms Pre-emphasis coefficient: 0.97 MFCC: 12 MFCC (mel frequency cepstral coefficients) 1 energy feature 12 delta MFCC features 12 double-delta MFCC features 1 delta energy feature 1 double-delta energy feature Total 39-dimensional features