Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
ΔημοσίευσεΚαλλίστη Αργυριάδης Τροποποιήθηκε πριν 8 χρόνια
1
Επεξεργασία Ομιλίας & Ήχου Ενότητα # 4: Προεπεξεργασία Ομιλίας Παραμετροποίηση Ομιλίας Ιωάννης Καρύδης Τμήμα Πληροφορικής
2
Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2
3
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3
4
Τι θα δούμε σήμερα Πως μετατρέπουμε την ομιλία από ακουστικό σήμα σε ψηφιακό Εισαγωγή στην παραμετροποίηση ομιλίας : πως μπορούμε να κρατήσουμε από ένα σήμα ομιλίας μόνο τις παραμέτρους που το εκφράζουν
5
Επανάληψη παραγωγής ομιλίας
6
Παραγωγή ομιλίας
7
Μοντέλο παραγωγής ομιλίας
8
Ακουστικές ιδιότητες ομιλίας Όταν οι φωνητικές χορδές ταλαντώνονται από το εξερχόμενο κύμα αέρα έχουν μία συγκεκριμένη συχνότητα ταλάντωσης, η οποία είναι μεταξύ 60- 350Ηz περίπου Το φάσμα της ταλάντωσης των φωνητικών χορδών παρουσιάζει μία σειρά συνιστωσών συχνοτήτων, οι οποίες ονομάζονται αρμονικές και κάθε μία από αυτές είναι ακέραιο πολλαπλάσιο της χαμηλότερης συνιστώσας συχνότητας. – Η τελευταία ονομάζεται θεμελιώδης συχνότητα F0 και είναι η συχνότητα ταλάντωσης των φωνητικών χορδών.
9
Ακουστικές ιδιότητες ομιλίας Το σύνθετο περιοδικό κύμα που προέκυψε από την ταλάντωση των φωνητικών χορδών, διαμορφώνεται από τους χώρους αντήχησης του φωνητικού καναλιού. – Μία ιδιότητα των χώρων αυτών είναι η διαφορετική τους απόκριση σε ταλαντώσεις – Ενισχύουν το πλάτος εκείνων των συχνοτήτων που έχουν την ίδια ή γειτονική τιμή με τη φυσική τους συχνότητα ή συχνότητες, ενώ οι υπόλοιπες συχνότητες αποδυναμώνονται – Οι φυσικές συχνότητες του φωνητικού καναλιού ονομάζονται συντονισμοί ή διεθνώς formants
10
Ακουστικές ιδιότητες ομιλίας Φωνήεν Formant f 1 Formant f 2 u320 Hz800 Hz o500 Hz1000 Hz ɑ700 Hz1150 Hz a1000 Hz1400 Hz ø500 Hz1500 Hz y320 Hz1650 Hz æ700 Hz1800 Hz e500 Hz2300 Hz i320 Hz2500 Hz
11
Ακουστικές ιδιότητες ομιλίας
13
Φωνήματα Φώνημα (phoneme) είναι μία στοιχειώδης ποσότητα, η οποία αναπαριστά μία ομάδα ήχων που είναι φωνητικά, όχι όμως και λειτουργικά, διαφορετικοί – Η νεοελληνική γλώσσα παρουσιάζει τριάντα φωνήματα, στα οποία περιλαμβάνονται πέντε φωνήεντα, δεκαοχτώ σύμφωνα και επτά αλλόφωνα κάποιων συγκεκριμένων φωνημάτων
14
Τέλος επανάληψης
15
Διαδικασία παραγωγής ψηφιακού σήματος Παραγωγή ακουστικού σήματος Μετατροπή ακουστικού σήματος σε ηλεκτρικό σήμα (αναλογικό) Μετατροπή αναλογικού σήματος σε ψηφιακό Ψηφιακή επεξεργασία σήματος
16
Διαδικασία παραγωγής ψηφιακού σήματος 1 f Ενίσχυση σήματος Φιλτράρισμα σήματος Ψηφιοποίηση σήματος Πλαισιοποίηση σήματος Στην πραγματικότητα η διαδικασία δειγματοληψίας της ανθρώπινης φωνής είναι λίγο πιο πολύπλοκη
17
Διαδικασία παραγωγής ψηφιακού σήματος Η ψηφιοποίηση της ομιλίας περιλαμβάνει τα εξής βήματα: μετατροπή του ακουστικού σήματος σε ηλεκτρικό ενίσχυση της στάθμης του ηλεκτρικού σήματος που προέρχεται από το μικρόφωνο διέλευση του ακουστικού σήματος από κατωπερατό φίλτρο για αποκοπή των υψηλών συχνοτήτων μετατροπή του αναλογικού σήματος σε ψηφιακό χωρισμός του ψηφιακού σήματος ομιλίας σε χρονικά πλαίσια μικρής χρονικής διάρκειας (πλαισιοποίηση) 1 f
18
Μικρόφωνο συσκευή που παρεμβάλλει την μεγαλύτερη στάθμη παραμορφώσεων Επιλογή μικροφώνου – με τέτοιο τρόπο, ώστε να ελαχιστοποιηθούν αστάθμητοι παράγοντες που προκαλούν αλλοιώσεις στην ποιότητα του σήματος ομιλίας Σημαντικός παράγοντας – η μεταβαλλόμενη συμπεριφορά των ομιλητών η οποία είναι συνάρτηση της εξοικείωσης των ομιλητών με το σύστημα, και το περιβάλλον λειτουργίας Έστω – εξοικείωση χρήστη με το σύστημα και περιβάλλον ηχογραφήσεων χαμηλής στάθμης θορύβου τότε κατάλληλο = χαμηλής ευαισθησίας (close talking) και μέσης κατευθυντικότητας. πλεονεκτήματα – μεγάλη απόσβεση αντηχήσεων και θορύβων από μέση και μεγάλη απόσταση – Τοποθέτηση σε σταθερή απόσταση από στόμα ομιλητή και ικανοποιητική απόσβεση του θορύβου της εκπνοής στα όρια απόστασης που έχει θέσει ο κατασκευαστής μειονέκτημα – μη καλή τοποθέτηση -> αύξηση ισχύς της εκπνοής και των ήχων της κίνησης των χειλιών, θόρυβοι οι οποίοι λαμβάνουν χώρα κατά την προφορά των λέξεων
19
Ενισχυτής Χρησιμοποιείται για – ενισχύει το χαμηλής ισχύος μικροφωνικό ρεύμα σε μια στάθμη στην οποία ελαχιστοποιείται η παραμόρφωση που προσθέτει ο ηλεκτρονικός θόρυβος των κυκλωμάτων στις βαθμίδες αναλογικής επεξεργασίας που ακολουθούν. Οι περισσότεροι καλής ποιότητας γραμμικοί προενισχυτές του εμπορίου μπορούν να χρησιμοποιηθούν για την ενίσχυση του μικροφωνικού ρεύματος, επειδή παρουσιάζουν συνήθως πολύ μικρή παραμόρφωση στις ακουστικές συχνότητες.
20
Κατωπερατό φίλτρο Το φάσμα ενός άνδρα ομιλητή περιέχει 3-4 συντονισμούς (formants) στα 200-3,200 Hz και 4-5 συντονισμούς στα 200-5000Hz Στις γυναίκες και στα παιδιά το εύρος 200-3,600 Hz περιέχει 3 συντονισμούς Το μεγαλύτερο ποσοστό της ακουστικής πληροφορίας περιέχεται στους 3 πρώτους συντονισμούς Οπότε συχνότητες μέχρι 4KHz περιμένουμε να περιέχουν αρκετή πληροφορία για την επεξεργασία ομιλίας. Το κατωπερατό φίλτρο αφήνει όλες τις συχνότητες κάτω από 4KHz να περάσουν και σταματά κάθε συχνότητα πάνω από 4ΚΗz – Περιορισμός της επιρροής του θορύβου – Περιορισμός της αναδίπλωσης (aliasing) λόγω δειγματοληψίας
21
Ψηφιοποίηση σήματος Εφόσον το φάσμα συχνοτήτων 0-4ΚHz περιέχει το μεγαλύτερο μέρος της ακουστικής πληροφορίας, σύμφωνα με το θεώρημα του Nyquist θα πρέπει να πραγματοποιήσουμε δειγματοληψία με συχνότητα f s =8ΚHz Στην συνέχεια θα πρέπει να κβαντίσουμε τα δείγματα ώστε να μπορούν να αναπαρασταθούν από τον υπολογιστή (8bit, 16bit, 32bit) Τις περισσότερες φορές χρησιμοποιούνται 12bit για τον κβαντισμό σαν ένας καλός συνδυασμός διακριτότητας και χαμηλού κόστους
22
Βραχύχρονη ανάλυση Χρησιμοποιώντας συχνότητα δειγματοληψίας f s =10ΚHz λαμβάνουμε για ένα δευτερόλεπτο ομιλίας 10,000 δείγματα Το δευτερόλεπτο αυτό περιέχει το πολύ 10 φθόγγους Συμπέρασμα: η ομιλία μεταβάλλεται πολύ αργά κατά την διάρκεια των δειγμάτων που λαμβάνουμε Κατά την βραχύχρονη ανάλυση επιλέγουμε και απομονώνουμε μικρά τμήματα ομιλίας Ν δειγμάτων (πλαίσια ομιλίας) Τα δείγματα αυτά τα επεξεργαζόμαστε σαν να περιέχουν ήχο με σταθερές ιδιότητες
23
Βραχύχρονη ανάλυση Οι ηχηροί ήχοι φτάνουν σε διάρκεια τα 80ms Οι άηχοι ήχοι δεν ξεπερνούν τα 10ms Δεχόμαστε ως διάρκεια πλαισίου τα 10-30ms Αν επιλέξουμε ως διάρκεια τα 25.6ms έχουμε N=256 δείγματα ανά πλαίσιο για συχνότητα δειγματοληψίας 10KHz Ο ρυθμός μετακίνησης των πλαισίων εξαρτάται από την ανάλυση που θέλουμε να πραγματοποιήσουμε – Ανάλυση συνέχειας : αναλύουμε ομοιόμορφα όλο το σήμα με μετακίνηση σταθερού βήματος (εμπειρικά, 5-12ms) – Ανάλυση σημείων : αναλύουμε μεμονωμένα χαρακτηριστικά της ομιλίας με μετακίνηση μεταβλητού βήματος
24
Βραχύχρονη ανάλυση Μη επικαλυπτόμενα πλαίσια
25
Βραχύχρονη ανάλυση Επικαλυπτόμενα πλαίσια
26
Βραχύχρονη ανάλυση
27
Παραμετροποίηση σήματος ομιλίας
28
Γιατί παραμετροποίηση; Υπάρχει πλεονασμός πληροφορίας στο ψηφιοποιημένο σήμα ομιλίας Σκοπός μας είναι να καταφέρουμε (κάπως) να εξάγουμε από το μεγάλο αυτό πλήθος πληροφορίας ένα (αρκετά) μικρότερο διάνυσμα που να περιέχει την αναγκαία πληροφορία, για την συγκεκριμένη εφαρμογή X[n] = {What have you got there?}
29
Παράμετροι ομιλίας Διαφορές μεταξύ ομιλητών Κάθε ομιλητής έχει διαφορετικό σύστημα παραγωγής φωνής (μήκος φωνητικού καναλιού, χορδές κλπ) Ένας ακροατής μπορεί να ξεχωρίσει ότι μια ίδια φράση έχει ειπωθεί από διαφορετικούς ομιλητές Η φωνή μεταφέρει εκτός από φωνήματα και πληροφορίες για φύλο, ηλικία, διάθεση, διάλεκτο Δεν υπάρχουν γνωστά χαρακτηριστικά ομιλίας που είναι εξακριβωμένο ότι μεταφέρουν κατ‘ αποκλειστικότητα πληροφορίες διάκρισης ομιλητών
30
Διάκριση μεταξύ ομιλητών Οι επιθυμητές ιδιότητες που πρέπει να συγκεντρώνουν ιδανικές παράμετροι είναι: να εμφανίζονται συχνά στην ομιλία, να είναι εύκολη η εκτίμησή τους, να μη μεταβάλλονται στο χρόνο, να μη επηρεάζονται από ζητήματα υγείας, να είναι αμετάβλητες σε αλλαγή περιβάλλοντος, να μην είναι επιδεκτικές σε μίμηση, να διακρίνονται από ομιλητή σε ομιλητή.
31
Διάκριση μεταξύ ομιλητών Τα χαρακτηριστικά διάκρισης ομιλητή με βάση τις ιδιότητες αυτές μπορούν να ομαδοποιηθούν σε δύο κατηγορίες χαρακτηριστικά υψηλής στάθμης (διάλεκτος, γλωσσικό μήνυμα, ύφος ομιλίας, επίπεδο ομιλίας, έκφραση κ.α.) χαρακτηριστικά χαμηλής στάθμης (θεμελιώδης συχνότητα, οι συντονισμοί, κ.α.) Τα χαρακτηριστικά υψηλής στάθμης αποτελούν τη βάση της ακουστικής αναγνώρισης του ομιλητή Ο αυτόματος εντοπισμός και εξαγωγή τους παρουσιάζει μεγάλες δυσκολίες Προς το παρόν βασιζόμαστε περισσότερο σε χαρακτηριστικά χαμηλής στάθμης
32
Διάκριση μεταξύ ομιλητών Οι περισσότερο χρησιμοποιούμενες παράμετροι αναγνώρισης ομιλητή είναι Η ενέργεια (ένταση φωνής) Η θεμελιώδης συχνότητα (ύψος φωνής) Το φασματογράφημα Οι συντονισμοί
33
Φασματογράφημα Το φασματογράφημα ομιλίας υπολογίζει το πλάτος του σήματος ομιλίας γύρω από ένα στενό εύρος πολλαπλών συχνοτήτων αντίστοιχο εύρος κάθε φίλτρου τυπώνεται σε μια περιστρεφόμενη ταινία
34
Φασματογράφημα Η ένταση της απόχρωσης της εγγραφής πάνω στην ταινία εκφράζει την αντίστοιχη ένταση από κάθε φίλτρο
35
Φασματογράφημα χρόνος συχνότητα
36
Φασματογράφημα
37
Το φασματογράφημα χρησιμοποιείται ως φωνητικό «αποτύπωμα» Τα φασματογραφήματα διαφορετικών επαναλήψεων του ίδιου κειμένου από τον ίδιο ομιλητή έχουν περισσότερα κοινά από αυτά που προέρχονται από διαφορετικούς ομιλητές Έχει το μειονέκτημα ότι παρουσιάζει ευαισθησία στον θόρυβο κι απαιτεί μεγάλη μνήμη για την αποθήκευση του φασματογράμματος Βρίσκει περιορισμένη εφαρμογή σήμερα σαν παραμετρικό διάνυσμα
38
Ερωτήσεις;
39
Τέλος Ενότητας
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.