Επεξεργασία Ομιλίας & Ήχου Ενότητα # 9: Σύνθεση Ομιλίας Ιωάννης Καρύδης Τμήμα Πληροφορικής.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Οδηγίες δημιουργίας προσβάσιμων εγγράφων με χρήση LaTex
Advertisements

Διδακτική Πληροφορικής
Ενότητα: Αυτόματος Έλεγχος Συστημάτων Κίνησης
Υδραυλικά & Πνευματικά ΣΑΕ
Ηλεκτρικές Μηχανές ΙΙ Εργαστήριο
Ψηφιακή Επεξεργασία Εικόνας Ενότητα 8 : Πρότυπο συμπίεσης JPEG2000 Ιωάννης Έλληνας Τμήμα Η/ΥΣ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού.
Ανθρωπολογία του Θεάτρου Ενότητα 4 η : Βασικές αρχές της Τέχνης του Ηθοποιού Γιώργος Σαμπατακάκης, M.Phil. (Καίμπρητζ) – Ph.D. (Λονδίνο) Τμήμα Θεατρικών.
Επεξεργασία Ομιλίας & Ήχου Ενότητα # 6: Linear Predictive Coding Ιωάννης Καρύδης Τμήμα Πληροφορικής.
Διοίκηση Τεχνολογίας Εργασία: «Εργαλειακή Προσέγγιση Τεχνολογίας» Πρόγραμμα:MBA Part-Time.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Εκπαιδευτικά Προγράμματα με Χρήση Η/Υ ΙΙ Θέμα «παιγνίδια» (website address) Διδάσκουσα: Καθηγήτρια Τζένη.
Συστήματα Αυτομάτου Ελέγχου Ι Ενότητα #4: Μαθηματική εξομοίωση συστημάτων στο επίπεδο της συχνότητας – Μετασχηματισμός Laplace και εφαρμογές σε ηλεκτρικά.
Τμήμα Τεχνολόγων Γεωπόνων Τίτλος Μαθήματος: ΚΑΛΛΩΠΙΣΤΙΚΑ ΔΕΝΤΡΑ ΚΑΙ ΘΑΜΝΟΙ Ενότητα 12: Οδηγίες δημιουργίας φυτολογίου Γρηγόριος Βάρρας Αν. Καθηγητής Άρτα,
Συστήματα Αυτομάτου Ελέγχου ΙΙ
Ανοιχτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ηπείρου
Φωνολογική Ανάπτυξη και Διαταραχές
Ψηφιακή Επεξεργασία Εικόνας
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΛΗΡΟΦΟΡΙΚΗ Ι Ενότητα # 10: Εισαγωγή στο Ms Powerpoint Τμήμα Ιστορίας
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Χρονικός Προγραμματισμός Έργων (Εργαστήριο)
ΕνΟτητα # 6: Ms Word IΙΙ CLAUDIA BOETTCHER ΤμΗμα ΙστορΙαΣ
ΠΑΡΟΥΣΙΑΣΕΙΣ ΜΑΘΗΜΑΤΟΣ ΠΙΘΑΝΟΤΗΤΕΣ(9)
Ενότητα # 8: ΡΕΑΛΙΣΜΟΣ Αιλιάνα Μαρτίνη Τμήμα Ιστορίας
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Ανοιχτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ηπείρου
ΦΡΟΝΤΙΣΤΗΡΙΟ: ΘΕΡΜΙΚΕΣ ΤΑΣΕΙΣ
Στοιχεία Μηχανών ΙΙ Ενότητα 4: Πλανητικοί Μηχανισμοί Δρ Α. Δ. Τσολάκης
ΕνΟτητα # 9: Ms Word VI CLAUDIA BOETTCHER ΤμΗμα ΙστορΙαΣ
ΜΗΧΑΝΙΚΗ ΤΩΝ ΥΛΙΚΩΝ ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΕΠΤΟΤΟΙΧΑ
Διαχείριση Κινδύνου Ενότητα 7: Παρακολούθηση Κινδύνων.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Διαχείριση Κινδύνου Ενότητα 3: Σχέδιο Διαχείρισης Κινδύνου.
Επιχειρησιακές Επικοινωνίες
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΡΟΥΣΙΑΣΕΙΣ ΜΑΘΗΜΑΤΟΣ ΠΙΘΑΝΟΤΗΤΕΣ(3)
Συστήματα Αυτομάτου Ελέγχου II
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΜΗΧΑΝΙΚΗ ΤΩΝ ΥΛΙΚΩΝ ΦΡΟΝΤΙΣΤΗΡΙΟ: ΔΙΚΤΥΩΜΑΤΑ
Επεξεργασία Ομιλίας & Ήχου
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Ηλεκτρικές Μηχανές ΙΙ Ενότητα 5: Κανονικοποιημένες Καμπύλες
Ενότητα # 2: Αιλιάνα Μαρτίνη Τμήμα Ιστορίας
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Επιχειρησιακές Επικοινωνίες
ΠΑΡΟΥΣΙΑΣΕΙΣ ΜΑΘΗΜΑΤΟΣ ΠΙΘΑΝΟΤΗΤΕΣ(7)
ΠΑΡΟΥΣΙΑΣΕΙΣ ΜΑΘΗΜΑΤΟΣ ΠΙΘΑΝΟΤΗΤΕΣ(4)
Επιχειρηματικότητα Ενότητα # 7: Επίλογος. Σύνοψη
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΕνΟτητα # 8: Ms Word V CLAUDIA BOETTCHER ΤμΗμα ΙστορΙαΣ
ΠΑΡΟΥΣΙΑΣΕΙΣ ΜΑΘΗΜΑΤΟΣ ΠΙΘΑΝΟΤΗΤΕΣ(5)
ΠΑΡΟΥΣΙΑΣΕΙΣ ΜΑΘΗΜΑΤΟΣ ΠΙΘΑΝΟΤΗΤΕΣ(10)
ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Ενότητα # 3: (1) Αιλιάνα Μαρτίνη Τμήμα Ιστορίας
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Ενότητα # 0: Εισαγωγικά διάφορα Ιωάννης Καρύδης Τμήμα Πληροφορικής
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Μεταγράφημα παρουσίασης:

Επεξεργασία Ομιλίας & Ήχου Ενότητα # 9: Σύνθεση Ομιλίας Ιωάννης Καρύδης Τμήμα Πληροφορικής

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3

Σύνθεση ομιλίας Σύνθεση ομιλίας ονομάζουμε την μετατροπή κειμένου σε σήμα ομιλίας Ποια η διαφορά ενός συστήματος σύνθεσης ομιλίας από ένα cd-player; Το σύστημα σύνθεσης ομιλίας παράγει αλγοριθμικά ένα καινούργιο σήμα ομιλίας, ενώ το cd-player αναπαράγει ένα αποθηκευμένο σήμα ομιλίας.

Σύνθεση ομιλίας Εφαρμογές σύνθεσης ομιλίας Διεπαφή ανθρώπου-υπολογιστή Άνθρωποι με προβλήματα ομιλίας Άνθρωποι με προβλήματα όρασης Τηλεπικοινωνίες (ανάγνωση μηνυμάτων, πληροφορίες καταλόγου, πληροφορίες μέσω τηλεφώνου, νέα κλπ) Ψυχαγωγία (videogames)

Σύνθεση ομιλίας Πρωτοπόροι σύνθεσης ομιλίας Wolfgang von Kempelen, «Speaking machine» (1791) Joseph Faber, «Euphonia» (1846) Homer Dudley, «VODER» (1939)

Είδη συστημάτων σύνθεσης ομιλίας Ανάλογα με την μονάδα που χρησιμοποιεί (λέξη ή φώνημα) τα συστήματα σύνθεσης ομιλίας κατατάσσονται σε 2 κατηγορίες Voice response : χρησιμοποιούν ως μονάδα ολόκληρες λέξεις – Περιορισμένο κείμενο εισόδου – Μεγάλο αποθηκευτικό χώρο – Χρήσιμο για συστήματα με περιορισμένο λεξιλόγιο και δομή πχ ανακοινώσεις σε αεροδρόμια, τρένα Text to speech (TTS) : χρησιμοποιούν μικρότερες μονάδες (φωνήματα, συλλαβές) για την σύνθεση – Μικρές απαιτήσεις σε μνήμη – Απεριόριστο λεξιλόγιο – Υπάρχει η δυσκολία συνένωσης των μονάδες για την παραγωγή συνεχούς ροής λόγου

Σύστημα Text-to-speech Γενικό μοντέλο text-to-speech συστήματος

Χαρακτηριστικά ποιότητας Η ποιότητα της ενός ΤΤS συστήματος εξαρτάται από δύο παράγοντες Φυσικότητα του λόγου : η συνθετική φωνή να είναι το ίδιο εύκολο να ακουστεί όσο και η φυσική φωνή, όταν ακούγονται υπό τις ίδιες συνθήκες Καταληπτότητα του λόγου : το να μπορώ να κατανοήσω το περιεχόμενο της συνθετικής ομιλίας

Τεχνικές TTS Οι τεχνικές σύνθεσης ομιλίας χωρίζονται σε δύο κατηγορίες System models : επιχειρούν να μοντελοποιήσουν το ανθρώπινο σύστημα παραγωγής ομιλίας. – Αρθρωτική σύνθεση (articulatory synthesis), η οποία επιχειρεί να μοντελοποιήσει άμεσα το ανθρώπινο σύστημα παραγωγής ομιλίας – Πολύπλοκη μέθοδος

Τεχνικές TTS Οι τεχνικές σύνθεσης ομιλίας χωρίζονται σε δύο κατηγορίες Signal models : επιχειρούν να μοντελοποιήσουν μόνο το παραγόμενο σήμα ομιλίας. – Formant σύνθεση, η οποία μοντελοποιεί τη συνάρτηση μεταφοράς του φωνητικού καναλιού. – Σύνθεση με συνένωση (concatenative synthesis), η οποία χρησιμοποιεί προηχογραφημένα τμήματα ομιλίας διαφόρων μεγεθών, τα οποία συνενώνει στο πεδίο του χρόνου – Συχνότερα χρησιμοποιούμενες μέθοδοι σύνθεσης ομιλίας

Τεχνικές TTS : Αρθρωτική σύνθεση Άρθρωση (articulation) είναι η διαδικασία με την οποία τροποποιείται η μορφολογία του φωνητικού καναλιού για να παράγει τους ξεχωριστούς ήχους ομιλίας. Για την κατασκευή του αρθρωτικού μοντέλου χρησιμοποιούμε δεδομένα από ακτίνες-Χ ή μαγνητικές τομογραφίες Η μέθοδος βρίσκεται σε ερευνητικό στάδιο ακόμα, είναι πολλά υποσχόμενη

Τεχνικές TTS : Formant σύνθεση H formant σύνθεση χρησιμοποιεί ένα σύνολο κανόνων (rule-based), οι οποίοι ελέγχουν ένα γραμμικό μοντέλο παραγωγής ομιλίας (source-filter model) H πηγή διέγερσης είναι απολύτως ανεξάρτητη από την μορφή του φωνητικού καναλιού. Το φίλτρο του φωνητικού καναλιού καθορίζεται από τις παραμέτρους ελέγχου, (πχ συχνότητες και εύρη ζώνης των formants) Η πηγή διέγερσης μοντελοποιείται με μια περιοδική ακολουθία για ηχηρή ομιλία και από ψευδοτυχαίο θόρυβο για άηχη ομιλία. Παράγει ομιλία καταληπτή αλλά όχι φυσική Χαμηλές απαιτήσεων σε μνήμη και υπολογιστική ισχύ.

Τεχνικές TTS : σύνθεση με συνένωση Παραγωγή ομιλίας με συνένωση προηχογραφημένων μονάδων ομιλίας Εύκολος τρόπος παραγωγής με μεγάλη καταληπτότητα και φυσικότητα Περιορίζεται σε ένα «ομιλητή» Μεγάλη απαίτηση σε μνήμη για την αποθήκευση των μονάδων ομιλίας Πρόβλημα ασυνέχειας στα σημεία συνένωσης των μονάδων Περισσότερο χρησιμοποιούμενη μέθοδος σήμερα

Τεχνικές TTS : σύνθεση με συνένωση Το πρόβλημα της επιλογής μονάδας ομιλίας Μεγάλες μονάδες (πχ λεξεις, συλλαβές) περισσότερο φυσική και καταληπτή ομιλία Μεγάλες απαιτήσεις μνήμης/περιορισμένο λεξιλόγιο Μικρές μονάδες (πχ φωνήματα) Λιγότερο φυσική ομιλία/πρόβλημα συνένωσης Μικρότερες απαιτήσεις μνήμης/μεγάλο λεξιλόγιο

Τεχνικές TTS : σύνθεση με συνένωση Η βάση δεδομένων με τις ακουστικές μονάδες κατασκευάζεται σε 3 φάσεις επιλογή προσεκτικά οι ηχογραφημένων φράσεων έτσι ώστε να συμπεριλαμβάνονται όλα τα φωνήματα Ακολουθεί διαδικασία του segmentation, δηλαδή ο καθορισμός των ορίων των φωνημάτων Επιλογή των πιο κατάλληλων μονάδων

Τέλος

Ύλη εξετάσεων Οι διαφάνειες του μαθήματος (όλες) Βιβλίο «Τεχνολογία Ομιλίας» του Καθηγητή Ν.Φακωτάκη – Κεφάλαιο 1: μόνο 1.3.1, 1.3.2, – Κεφάλαιο 2: Όλο – Κεφάλαιο 3: Όλο – Κεφάλαιο 4: Όλο εκτός 4.5, 4.6, 4.7 – Κεφάλαιο 5: Όχι – Κεφάλαιο 6: Όλο εκτός 6.2, 6.3, 6.4 – Κεφάλαιο 7: Όλο

Παράδειγμα ερώτησης Εξηγήστε γιατί ο μετασχηματισμός Fourier δεν είναι ο πλέον κατάλληλος για την ανάλυση ενός σήματος ομιλίας Ο μετασχηματισμός Fourier είναι κατάλληλος για στατικά ή περιοδικά σήματα. Η ομιλία είναι μη στατικό σήμα του οποίου τα χαρακτηριστικά μεταβάλλονται με το χρόνο (το σύστημα παραγωγής φωνής είναι ένα χρονικά μεταβαλλόμενο σύστημα). Σε αυτή την περίπτωση ο μετασχηματισμός δεν μας δίνει πληροφορία για το πώς αλλάζει το συχνοτικό περιεχόμενο του σήματος στο χρόνο.

Παράδειγμα ερώτησης Περιγράψτε της συχνότητες συντονισμού του φωνητικού καναλιού (formants) ως παραμέτρους ομιλίας και αναφέρατε μεθόδους εξαγωγής Τα formants αποτελούν τις συχνότητες συντονισμού των διαφόρων διαμερισμάτων του φωνητικού καναλιού. Είναι παράμετροι εξαρτημένοι από το ομιλητή και παρουσιάζουν μεγάλη ανοχή στο θόρυβο σε ασθένειες του αναπνευστικού συστήματος και στην μίμηση. Είναι δύσκολο να τις εξάγουμε από ένα σήμα ομιλίας, ιδιαίτερα συντονισμούς υψηλότερης τάξης. Μπορούμε να τις ανιχνεύσουμε με την μέθοδο της Γραμμικής Πρόγνωσης στο πεδίο του χρόνου και με ανάλυση Cepstral στο πεδίο των συχνοτήτων.

Ερωτήσεις;

Τέλος Ενότητας