Επεξεργασία Ομιλίας & Ήχου Ενότητα # 3: Παραγωγή ομιλίας Ιωάννης Καρύδης Τμήμα Πληροφορικής
Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3
Τι θα δούμε σήμερα Παραγωγή ομιλίας Μοντελοποίηση του συστήματος παραγωγής ομιλίας
Ο ανθρώπινος λόγος Η ανθρώπινη ομιλία μελετάται από 2 κατευθύνσεις Γλωσσολογία (linguistics) : μελετά γλωσσικούς κανόνες και που χρησιμοποιούνται στην επικοινωνία Φωνητική (phonetics) : μελετά τις βασικές δομές λόγου (ήχων) που χρησιμοποιούνται κατά την ομιλία, την περιγραφή και την ταξινόμηση τους Στην επεξεργασία ομιλίας θα ασχοληθούμε με τον δεύτερο κλάδο
Ο ανθρώπινος λόγος Βασικά βήματα παραγωγής λόγου Σχηματισμός ιδέας που θέλουμε να επικοινωνήσουμε Μετατροπή της ιδέας σε γλωσσική δομή χρησιμοποιώντας σχετικές λέξεις και φράσεις Ταξινόμηση των λέξεων βάση γραμματικών κανόνων που καθορίζονται από την χρησιμοποιούμενη γλώσσα Προσθήκη χαρακτηριστικών όπως συχνότητα, ένταση Ο εγκέφαλος παράγει μια σειρά από εντολές που μετακινούν το φωνητικό σύστημα που με την σειρά του παράγει τα ηχητικά (ακουστικά) κύματα Το ηχητικό κύμα μεταφέρεται ξανά στο ακουστικό σύστημα του ομιλητή και μετατρέπεται σε νευρολογικά σήματα που αξιοποιούνται στην σωστή παραγωγή ομιλίας (ανάδραση)
Παραγωγή ομιλίας Το σύστημα παραγωγής φωνής Κατά την παραγωγή φωνής ενεργοποιούνται μέρη του πεπτικού και του αναπνευστικού συστήματος Οι φωνητικές χορδές που βρίσκονται στον λάρυγγα, δονούνται σε μία σταθερή συχνότητα από τον αέρα που βγαίνει από τα πνευμόνια Ήχοι επίσης παράγονται από το στροβίλισμα του αέρα σε ένα από τα διάφορα μέρη κατά μήκος της φωνητικής οδού
Παραγωγή ομιλίας Οι φωνητικές χορδές ταλαντεύονται με τον αέρα που βγαίνει από τους πνεύμονες Κατά την παραγωγή ομιλίας ο άνθρωπος «σφίγγει» ή «χαλαρώνει» τις χορδές, αυξάνοντας ή ελαττώνοντας την συχνότητα του ήχου αντίστοιχα Νέα τάση ονομασίας: φωνητικές χορδές -> φωνητικές πτυχές (α) εισπνοή (β) βαθιά εισπνοή (γ) φώνηση (δ) ψίθυρος The Mucosal Wave.wmv Change in Pitch.wmv
Παραγωγή ομιλίας Ο αέρας που φεύγει από τις φωνητικές χορδές περνά μέσα από την στοματική κοιλότητα και μεταβάλλεται από την γλώσσα, τα δόντια και τα χείλια Περνά μέσα από την ρινική κοιλότητα (και παράγει ρινικούς ήχους)
Μοντέλο παραγωγής ομιλίας Για την μελέτη του συστήματος παραγωγής ομιλίας χρησιμοποιούμε ένα απλοποιημένο μοντέλο
Μοντέλο παραγωγής ομιλίας Για την μελέτη του συστήματος παραγωγής ομιλίας χρησιμοποιούμε ένα απλοποιημένο μοντέλο Τρείς κύριοι παράγοντες θεωρούνται στο μοντέλο : η διέγερση (ταλάντωση της γλωττίδας) η μετάδοση (μορφολογία της στοματικής και της φαρυγγικής κοιλότητας) η επίδραση των χειλιών
Μοντέλο παραγωγής ομιλίας
Κατηγορίες ήχων ομιλίας Το μοντέλο θεωρεί 3 κατηγορίες ήχων ομιλίας Ηχηροί ήχοι (voiced sounds) : –Παράγονται από διέγερση του φωνητικού καναλιού με περιοδικούς παλμούς αέρα. –Η συχνότητα του ήχου εξαρτάται από την μορφολογία του φωνητικού καναλιού αλλά και την ένταση των φωνητικών χορδών. –Κυρίως τα φωνήεντα Τυρβώδεις ήχοι (fricative sounds) –Ήχοι που παράγονται δημιουργώντας μια στένωση σε κάποιο σημείο του φωνητικού καναλιού (πχ στα δόντια) –Μερικά σύμφωνα (πχ το σίγμα) Εκρηκτικοί ήχοι (plosive sounds) –Παράγονται από ξαφνική αποδέσμευση του αέρα σε κάποιο κλειστό σημείο του φωνητικού καναλιού (πχ στα χείλια) –Μερικά σύμφωνα (πχ ‘πι’)
Κατηγορίες ήχων ομιλίας Τυρβώδεις ήχοι (fricative sounds) –FricativesSHZ.wma Εκρηκτικοί ήχοι (plosive sounds) ΑρχικήΜέσηΤελική /p/patternapplechip /b/backcabinclub /t/tinbittentent /d/dogbiddenbid /k/kingbickerkick /g/gunbiggerbig
Μοντέλο παραγωγής ομιλίας Το μοντέλο παραγωγής ήχων ομιλίας μπορεί να θεωρηθεί ως ένα γραμμικό σύστημα Το σύστημα είναι χρονικά μεταβαλλόμενο (γιατί;) Γιατί η απόκριση του εξαρτάται από το σχήμα του φωνητικού καναλιού, το οποίο μεταβάλλεται με το χρόνο για κάθε ήχο που παράγουμε Μπορούμε όμως να θεωρήσουμε ότι παραμένει το ίδιο για περίπου 10msec
Αντίληψη ήχων Η ομιλία φεύγοντας από το ομιλητή έχει μορφή ακουστικών κυμάτων με διάφορες συχνότητες και πλάτη. Η ακολουθία κυμάτων φτάνει το αυτί του ακροατή και το διεγείρει μεταφέροντας στον εγκέφαλο το δομικό στοιχείο ομιλίας που περιέχει.
Αντίληψη ήχων Η φυσική ποιότητα “συχνότητα” αντιστοιχεί στην αίσθηση του ύψους ήχου (pitch) το “πλάτος” στην αίσθηση της έντασης (intensity) το “φάσμα” στην αίσθηση της χροιάς (timbre) To πλάτος (ένταση) ενός ηχητικού σήματος το μετράμε σε decibel (dΒ) Η άνθρωπος «αντιλαμβάνεται» τον ήχο με λογαριθμική κλίμακα (δηλαδή ένα ήχος 10 φορές εντονότερος από κάποιο άλλο στην πραγματικότητα θα ακουστεί σαν 2 φορές πιο έντονος) To decibel επιτρέπει τη συμπίεση κλίμακας φυσικών μετρήσεων και βασίζεται στους λογαρίθμους
Περιοχές ακουστότητας Το ανθρώπινο μπορεί να αντιληφθεί ήχους από ένα συγκεκριμένο εύρος συχνοτήτων 16Hz-18KHz (περίπου) Έχει μεγαλύτερη ευαισθησία στο εύρος 1000Ηz Hz (περίπου το εύρος συχνοτήτων της ανθρώπινης ομιλίας)
Αντίληψη ήχων: decibel
Υποκειμενικότητα στην αντίληψη ήχου Οι τρεις παράμετροι που επιτρέπουν σε οποιοδήποτε ακουστικό φαινόμενο να χαρακτηριστεί είναι η ένταση (intensity), η συχνότητα (frequency), και ο χρόνος (time). Η αίσθηση της έντασης του ήχου στον άνθρωπο εξαρτάται από την συχνότητα του ήχου –Παράδειγμα στα 1,000Ηz ο άνθρωπος μπορεί να ξεχωρίσει μεταξύ ήχους 60dB και 60,3dB, δηλαδή μπορεί να διακρίνει ήχους με διαφορά στην ένταση 0,3dB (διαφορικό κατώφλι ακουστότητας) –Όσο απομακρύνεται κανείς από τα 1,000Ηz προς υψηλότερες ή χαμηλότερες συχνότητες, τόσο μεγαλύτερο γίνεται το διαφορικό κατώφλι ακουστότητας Μια «μόλις διακριτή διαφορά» (just noticeable difference - jnd), είναι η ελάχιστη διακριτή διαφορά μεταξύ μιας αρχικής και μιας δεύτερης τιμής ερεθισμού μιας αίσθησης. Είναι επίσης γνωστή και ως «difference limen» ή «differential threshold».
Υποκειμενικότητα στην αντίληψη ήχου Μπορούμε ακόμα να μετρήσουμε το διαφορικό κατώφλι ύψους ήχου (differential threshold of pitch), δηλαδή τα όρια μέσα στα οποία κάποιος δεν μπορεί να διακρίνει μία διαφορά μεταξύ δυο ήχων διαφορετικής συχνότητας –Όσο απομακρυνόμαστε από μεσαίες τιμές συχνοτήτων και εντάσεων, τόσο μεγαλύτερο γίνεται το διαφορικό κατώφλι ύψους ήχου.
Άρθρωση ήχων Άρθρωση (articulation) είναι η διαδικασία με την οποία τροποποιείται η μορφολογία του φωνητικού καναλιού για να παράγει τους ξεχωριστούς ήχους ομιλίας. –Φωνήεντα : το εξερχόμενο κύμα αέρα περνάει ελεύθερα μέσα από το φωνητικό κανάλι και ο ήχος που δημιουργείται από την ταλάντωση των φωνητικών χορδών διαμορφώνεται από τις κοιλότητες αντήχησης –Σύμφωνα : παράγονται με πολλούς διαφορετικούς τρόπους
Άρθρωση ήχων
Ακουστικές ιδιότητες ομιλίας Όταν οι φωνητικές χορδές ταλαντώνονται από το εξερχόμενο κύμα αέρα έχουν μία συγκεκριμένη συχνότητα ταλάντωσης, η οποία είναι μεταξύ Ηz περίπου Το φάσμα της ταλάντωσης των φωνητικών χορδών παρουσιάζει μία σειρά συνιστωσών συχνοτήτων, οι οποίες ονομάζονται αρμονικές και κάθε μία από αυτές είναι ακέραιο πολλαπλάσιο της χαμηλότερης συνιστώσας συχνότητας. –Η τελευταία ονομάζεται θεμελιώδης συχνότητα και είναι η συχνότητα ταλάντωσης των φωνητικών χορδών.
Ακουστικές ιδιότητες ομιλίας Το σύνθετο περιοδικό κύμα που προέκυψε από την ταλάντωση των φωνητικών χορδών, διαμορφώνεται από τους χώρους αντήχησης του φωνητικού καναλιού. –Μία ιδιότητα των χώρων αυτών είναι η διαφορετική τους απόκριση σε ταλαντώσεις –Ενισχύουν το πλάτος εκείνων των συχνοτήτων που έχουν την ίδια ή γειτονική τιμή με τη φυσική τους συχνότητα ή συχνότητες, ενώ οι υπόλοιπες συχνότητες αποδυναμώνονται –Οι φυσικές συχνότητες του φωνητικού καναλιού ονομάζονται συντονισμοί ή διεθνώς formants
Ακουστικές ιδιότητες ομιλίας Φωνήεν Formant f 1 Formant f 2 u320 Hz800 Hz o500 Hz1000 Hz ɑ700 Hz1150 Hz a1000 Hz1400 Hz ø500 Hz1500 Hz y320 Hz1650 Hz æ700 Hz1800 Hz e500 Hz2300 Hz i320 Hz2500 Hz
Ακουστικές ιδιότητες ομιλίας
Φωνήματα Φώνημα (phoneme) είναι μία στοιχειώδης ποσότητα, η οποία αναπαριστά μία ομάδα ήχων που είναι φωνητικά, όχι όμως και λειτουργικά, διαφορετικοί –Η νεοελληνική γλώσσα παρουσιάζει τριάντα φωνήματα, στα οποία περιλαμβάνονται πέντε φωνήεντα, δεκαοχτώ σύμφωνα και επτά αλλόφωνα κάποιων συγκεκριμένων φωνημάτων Τα φωνήματα φωνηέντων της ελληνικής γλώσσας είναι τα /a/, /ο/, /ε/, /u/, /i/ και μπορεί να είναι τονισμένα ή μη Η παραγωγή των φωνηέντων χαρακτηρίζεται από ηχηρή διέγερση του φωνητικού καναλιού, με αποτέλεσμα η ακουστική ενέργεια να είναι περιοδική και όχι θορυβώδους μορφής.
Φωνήματα Τα σύμφωνα απαιτούν γενικά πιο γρήγορες κινήσεις των μέσων άρθρωσης και μεγαλύτερη στένωση του φωνητικού καναλιού, με συνέπεια τα ακουστικά τους χαρακτηριστικά να είναι περισσότερα και πιο σύνθετα Εκρηκτικά Σύμφωνα (Stops) : ανάλογα με τον τόπο άρθρωσής τους, δηλαδή το σημείο στο οποίο το φωνητικό κανάλι είναι φραγμένο, διακρίνονται σε: χειλικά (labial) (/p/,/b/), οδοντικά (dental) (/t/, /d/), και λαρυγγικά (velar) (/k/, /g/) Τυρβώδη Σύμφωνα (Fricatives) : ανάλογα με τον τόπο άρθρωσής τους διακρίνονται σε: συριστικά ή διπλοδοντικά ή alveolar (/s/, /z/), χειλοοδοντικά (labio-dental), (/f/, /v/), οδοντικά, που είναι τα φωνήματα /θ/, /δ/, και λαρυγγικά(/χ/, /γ/) Ένρινα Σύμφωνα (Nasals) : τα σύμφωνα /m/, το οποίο είναι χειλικό, και /n/, το οποίο είναι alveolar. Τα ένρινα σύμφωνα είναι ηχηρά
Φωνήματα Άλλες κατηγορίες σύμφωνων αποτελούν τα Ημιφωνήεντα (Glides) : Ημιφωνήεντα ή υγρά χαρακτηρίζονται τα σύμφωνα /l/ και /r/, τα οποία είναι alveolar (συμβάλλουν τα oύλα στην παραγωγή) Μη τυρβώδη Σύμφωνα (Affricates) : κατηγορία συμφώνων τα οποία συνδυάζουν τις ιδιότητες των εκρηκτικών και των τυρβωδών (/ts/ και /dz/)
Ερωτήσεις;
Τέλος Ενότητας