Επεξεργασία Ομιλίας & Ήχου Ενότητα # 9: Σύνθεση Ομιλίας Ιωάννης Καρύδης Τμήμα Πληροφορικής
Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3
Σύνθεση ομιλίας Σύνθεση ομιλίας ονομάζουμε την μετατροπή κειμένου σε σήμα ομιλίας Ποια η διαφορά ενός συστήματος σύνθεσης ομιλίας από ένα cd-player; Το σύστημα σύνθεσης ομιλίας παράγει αλγοριθμικά ένα καινούργιο σήμα ομιλίας, ενώ το cd-player αναπαράγει ένα αποθηκευμένο σήμα ομιλίας.
Σύνθεση ομιλίας Εφαρμογές σύνθεσης ομιλίας Διεπαφή ανθρώπου-υπολογιστή Άνθρωποι με προβλήματα ομιλίας Άνθρωποι με προβλήματα όρασης Τηλεπικοινωνίες (ανάγνωση μηνυμάτων, πληροφορίες καταλόγου, πληροφορίες μέσω τηλεφώνου, νέα κλπ) Ψυχαγωγία (videogames)
Σύνθεση ομιλίας Πρωτοπόροι σύνθεσης ομιλίας Wolfgang von Kempelen, «Speaking machine» (1791) Joseph Faber, «Euphonia» (1846) Homer Dudley, «VODER» (1939)
Είδη συστημάτων σύνθεσης ομιλίας Ανάλογα με την μονάδα που χρησιμοποιεί (λέξη ή φώνημα) τα συστήματα σύνθεσης ομιλίας κατατάσσονται σε 2 κατηγορίες Voice response : χρησιμοποιούν ως μονάδα ολόκληρες λέξεις – Περιορισμένο κείμενο εισόδου – Μεγάλο αποθηκευτικό χώρο – Χρήσιμο για συστήματα με περιορισμένο λεξιλόγιο και δομή πχ ανακοινώσεις σε αεροδρόμια, τρένα Text to speech (TTS) : χρησιμοποιούν μικρότερες μονάδες (φωνήματα, συλλαβές) για την σύνθεση – Μικρές απαιτήσεις σε μνήμη – Απεριόριστο λεξιλόγιο – Υπάρχει η δυσκολία συνένωσης των μονάδες για την παραγωγή συνεχούς ροής λόγου
Σύστημα Text-to-speech Γενικό μοντέλο text-to-speech συστήματος
Χαρακτηριστικά ποιότητας Η ποιότητα της ενός ΤΤS συστήματος εξαρτάται από δύο παράγοντες Φυσικότητα του λόγου : η συνθετική φωνή να είναι το ίδιο εύκολο να ακουστεί όσο και η φυσική φωνή, όταν ακούγονται υπό τις ίδιες συνθήκες Καταληπτότητα του λόγου : το να μπορώ να κατανοήσω το περιεχόμενο της συνθετικής ομιλίας
Τεχνικές TTS Οι τεχνικές σύνθεσης ομιλίας χωρίζονται σε δύο κατηγορίες System models : επιχειρούν να μοντελοποιήσουν το ανθρώπινο σύστημα παραγωγής ομιλίας. – Αρθρωτική σύνθεση (articulatory synthesis), η οποία επιχειρεί να μοντελοποιήσει άμεσα το ανθρώπινο σύστημα παραγωγής ομιλίας – Πολύπλοκη μέθοδος
Τεχνικές TTS Οι τεχνικές σύνθεσης ομιλίας χωρίζονται σε δύο κατηγορίες Signal models : επιχειρούν να μοντελοποιήσουν μόνο το παραγόμενο σήμα ομιλίας. – Formant σύνθεση, η οποία μοντελοποιεί τη συνάρτηση μεταφοράς του φωνητικού καναλιού. – Σύνθεση με συνένωση (concatenative synthesis), η οποία χρησιμοποιεί προηχογραφημένα τμήματα ομιλίας διαφόρων μεγεθών, τα οποία συνενώνει στο πεδίο του χρόνου – Συχνότερα χρησιμοποιούμενες μέθοδοι σύνθεσης ομιλίας
Τεχνικές TTS : Αρθρωτική σύνθεση Άρθρωση (articulation) είναι η διαδικασία με την οποία τροποποιείται η μορφολογία του φωνητικού καναλιού για να παράγει τους ξεχωριστούς ήχους ομιλίας. Για την κατασκευή του αρθρωτικού μοντέλου χρησιμοποιούμε δεδομένα από ακτίνες-Χ ή μαγνητικές τομογραφίες Η μέθοδος βρίσκεται σε ερευνητικό στάδιο ακόμα, είναι πολλά υποσχόμενη
Τεχνικές TTS : Formant σύνθεση H formant σύνθεση χρησιμοποιεί ένα σύνολο κανόνων (rule-based), οι οποίοι ελέγχουν ένα γραμμικό μοντέλο παραγωγής ομιλίας (source-filter model) H πηγή διέγερσης είναι απολύτως ανεξάρτητη από την μορφή του φωνητικού καναλιού. Το φίλτρο του φωνητικού καναλιού καθορίζεται από τις παραμέτρους ελέγχου, (πχ συχνότητες και εύρη ζώνης των formants) Η πηγή διέγερσης μοντελοποιείται με μια περιοδική ακολουθία για ηχηρή ομιλία και από ψευδοτυχαίο θόρυβο για άηχη ομιλία. Παράγει ομιλία καταληπτή αλλά όχι φυσική Χαμηλές απαιτήσεων σε μνήμη και υπολογιστική ισχύ.
Τεχνικές TTS : σύνθεση με συνένωση Παραγωγή ομιλίας με συνένωση προηχογραφημένων μονάδων ομιλίας Εύκολος τρόπος παραγωγής με μεγάλη καταληπτότητα και φυσικότητα Περιορίζεται σε ένα «ομιλητή» Μεγάλη απαίτηση σε μνήμη για την αποθήκευση των μονάδων ομιλίας Πρόβλημα ασυνέχειας στα σημεία συνένωσης των μονάδων Περισσότερο χρησιμοποιούμενη μέθοδος σήμερα
Τεχνικές TTS : σύνθεση με συνένωση Το πρόβλημα της επιλογής μονάδας ομιλίας Μεγάλες μονάδες (πχ λεξεις, συλλαβές) περισσότερο φυσική και καταληπτή ομιλία Μεγάλες απαιτήσεις μνήμης/περιορισμένο λεξιλόγιο Μικρές μονάδες (πχ φωνήματα) Λιγότερο φυσική ομιλία/πρόβλημα συνένωσης Μικρότερες απαιτήσεις μνήμης/μεγάλο λεξιλόγιο
Τεχνικές TTS : σύνθεση με συνένωση Η βάση δεδομένων με τις ακουστικές μονάδες κατασκευάζεται σε 3 φάσεις επιλογή προσεκτικά οι ηχογραφημένων φράσεων έτσι ώστε να συμπεριλαμβάνονται όλα τα φωνήματα Ακολουθεί διαδικασία του segmentation, δηλαδή ο καθορισμός των ορίων των φωνημάτων Επιλογή των πιο κατάλληλων μονάδων
Τέλος
Ύλη εξετάσεων Οι διαφάνειες του μαθήματος (όλες) Βιβλίο «Τεχνολογία Ομιλίας» του Καθηγητή Ν.Φακωτάκη – Κεφάλαιο 1: μόνο 1.3.1, 1.3.2, – Κεφάλαιο 2: Όλο – Κεφάλαιο 3: Όλο – Κεφάλαιο 4: Όλο εκτός 4.5, 4.6, 4.7 – Κεφάλαιο 5: Όχι – Κεφάλαιο 6: Όλο εκτός 6.2, 6.3, 6.4 – Κεφάλαιο 7: Όλο
Παράδειγμα ερώτησης Εξηγήστε γιατί ο μετασχηματισμός Fourier δεν είναι ο πλέον κατάλληλος για την ανάλυση ενός σήματος ομιλίας Ο μετασχηματισμός Fourier είναι κατάλληλος για στατικά ή περιοδικά σήματα. Η ομιλία είναι μη στατικό σήμα του οποίου τα χαρακτηριστικά μεταβάλλονται με το χρόνο (το σύστημα παραγωγής φωνής είναι ένα χρονικά μεταβαλλόμενο σύστημα). Σε αυτή την περίπτωση ο μετασχηματισμός δεν μας δίνει πληροφορία για το πώς αλλάζει το συχνοτικό περιεχόμενο του σήματος στο χρόνο.
Παράδειγμα ερώτησης Περιγράψτε της συχνότητες συντονισμού του φωνητικού καναλιού (formants) ως παραμέτρους ομιλίας και αναφέρατε μεθόδους εξαγωγής Τα formants αποτελούν τις συχνότητες συντονισμού των διαφόρων διαμερισμάτων του φωνητικού καναλιού. Είναι παράμετροι εξαρτημένοι από το ομιλητή και παρουσιάζουν μεγάλη ανοχή στο θόρυβο σε ασθένειες του αναπνευστικού συστήματος και στην μίμηση. Είναι δύσκολο να τις εξάγουμε από ένα σήμα ομιλίας, ιδιαίτερα συντονισμούς υψηλότερης τάξης. Μπορούμε να τις ανιχνεύσουμε με την μέθοδο της Γραμμικής Πρόγνωσης στο πεδίο του χρόνου και με ανάλυση Cepstral στο πεδίο των συχνοτήτων.
Ερωτήσεις;
Τέλος Ενότητας