Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ Ν ΙΚΟΣ Φ ΑΚΩΤΑΚΗΣ, Καθηγητής Εισαγωγή.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ Ν ΙΚΟΣ Φ ΑΚΩΤΑΚΗΣ, Καθηγητής Εισαγωγή."— Μεταγράφημα παρουσίασης:

1

2 ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ Ν ΙΚΟΣ Φ ΑΚΩΤΑΚΗΣ, Καθηγητής Εισαγωγή

3 HAL 9000 from Kubrick’s film 2001: A Space Odyssey 2001 A Space Odessey graphics & sounds courtesy of

4 ΠΕΡΙΕΧΟΜΕΝΑ Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης3  Πολυεπιστημονική Συμβολή (Multidisciplinary)  Τι Είναι η Τεχνολογία Ομιλίας  Ιστορική Ανασκόπηση  1950s s  State of the Art  Commercial Activity  Εφαρμογές  Εταιρείες  Προϊόντα  Ανοιχτά Ερευνητικά Θέματα (Research Topics)  Current Status  R&D Προγράμματα (Projects)

5 Πολυεπιστημονική Συμβολή (Multidisciplinary)  Speech Processing Disciplines  Επεξεργασία Σήματος (Signal Processing):  Spectral analysis., Coding,  Speech Modeling  Φυσική (Acoustics): Human Hearing studies.  Αναγνώριση Προτύπων : Data clustering.  Θεωρία Πληροφοριών και Τηλεπικοινωνιών :  statistical models, Viterbi algorithms, Transmission, etc.  Γλωσσολογία :  Phonetics, Phonology, language Structure, Meaning,  Computer Science:  A.I.: Search Algorithms, Logic, Heuristics, Machine Learning  Αλγόριθμοι, γλώσσες προγραμματισμού (c, c++ language).

6 What is speech technology? Τι Είναι η Τεχνολογία Ομιλίας

7  Αναγνώριση Ομιλίας (ASR)  Κατανόηση Ομιλίας (SU)  Αναγνώριση Ομιλητή (Identity of the speaker)  Σύνθεση Ομιλίας (TTS)  Κωδικοποίηση Ομιλίας (Compression of Speech)  Δυσλεξία και Προβλήματα Ακοής (Auditory problems)  Άλλα συστήματα Αναγνώρισης  Πολυτροπική Αλληλεπίδραση  Διαλογικά Συστήματα

8 Τι είναι η Τεχνολογία Ομιλίας Αναγνώριση Ομιλίας ( Α SR)  Αναγνώριση ομιλίας ( Ομιλία → Κείμενο ) (Speech–to- Text ή Automatic Speech Recognition - ASR)  Μετατροπή ενός ακουστικού σήματος X σε μία ακολουθία λέξεων W, ανεξάρτητα από ομιλητή και περιβάλλον.  Input: Speech  Output: Text ( Τελική έξοδος ή Είσοδος σε μονάδα επεξεργασίας Φυσικής Γλώσσας ( Κατανόηση Ομιλίας )  Το πιο Σημαντικό Αντικείμενο του χώρου της Τ. Ο.

9 8 Τι Περιλαμβάνει η Τεχνολογία Ομιλίας Είδη Συστημάτων Α SR (1/3)  Τρόπος Ομιλίας (Mode of speaking)  Διακριτών Λέξεων (Isolated words),  Κάθε λέξη υποθέτετε ότι περιβάλετε από σιγή,  “this...is...isolated...word...recognition”  Connected-Word Recognition  Ακολουθία λέξεων που υπακούουν σε μια συγκεκριμένη Γραμματική,  e.g., telephone numbers  Word Spotting  Εντοπισμός λέξεων που περιβάλλονται από λέξεις  “ Παρακαλώ τον κύριο Παπαγεωργίου ”  Συνεχούς Ομιλίας (Continuous speech)  Αδιάκοπτη συνεχή ομιλία  Τυχαίας Ομιλίας (Spontaneous speech)  Disfluencies ( δισταγμοί ("huh", "uh","well"), ελλιπείς προτάσεις, νέες λέξεις.

10 9 Τι Περιλαμβάνει η Τεχνολογία Ομιλίας Είδη Συστημάτων Α SR (2/3)  Μέγεθος Λεξιλογίου (Vocabulary)  Μικρού Λεξιλογίου (<50 λέξεις )  Μεσαίου Λεξιλογίου (<1000 λέξεις )  Μεγάλου Λεξιλογίου < λέξεις )  Πολύ Μεγάλου Λεξιλογίου (> λέξεις )  Πλήθος Ομιλητών (Speaker set)  Εξαρτημένα Ομιλητή (Speaker Dependent)  Προσαρμοζόμενα Ομιλητή (Adaptive)  Ανεξάρτητα Ομιλητή (Independent)  Ταυτόχρονη Ομιλία από πολλούς Ομιλητές (Multi-speaker)

11 10 Τι Περιλαμβάνει η Τεχνολογία Ομιλίας Είδη Συστημάτων Α SR (3/3)  Περιβάλλον Θορύβου (Environment)  Ανηχοϊκός Θάλαμος (noise free)  Περιβάλλον Γραφείου (office)  Τηλεφωνικού Δικτύου (telephone)  Βιομηχανικό Περιβάλλον (high noise)  Βασική Μονάδα Αναγνώρισης  Φώνημα  Τμήματα Λέξεων  Λέξεις  Τεχνική Ταξινόμησης  Συστήματα Σύγκρισης Προτύπων  Πιθανοτικά Συστήματα (HMM)  Συστήματα Νευρωνικών Δικτύων (ANN)

12 Τι Περιλαμβάνει η Τεχνολογία Ομιλίας Αξιοπιστία Α SR: (Lippmann, 1997) Corpus Speech Type Lex. Size WER (%) * HER(%) ** Digit Strings (phone) spontaneous Resource Management read ATIS (Air Travel Information Systems) spontaneous Wall Street Journal read ~20K Broadcast News mixed ~64K Switchboard (phone) conversation ~25K Meetings conversation ~25K *WER=Word Error Rate **HER=Word Error Rate Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης11

13 Τι είναι η Τεχνολογία Ομιλίας Γιατί η ASR είναι δύσκολη ?  Αστάθεια στους Ομιλητών (Speaker variability):  Φυσικές Διαφορές : Ανατομία, Ηλικία,..  Κοινωνικό - γλωσσολογικές παράγοντες : Διάλεκτος, Προφορά,…  Συναισθηματική Κατάσταση :  Stress, Emotion, Περιβάλλον (Lombard effect),..  Τρόπος Ομιλίας : (Read versus spontaneous speech):  Ανάγνωση, Συνεχή ομιλία, Τυχαίας Ομιλίας..  Αποκλίσεις στη χρήση της Γλώσσας  Syntax, semantics, discourse,...  Μέγεθος Λεξικού, * Lombard effect: change when speaks in a noisy environment

14 Τι είναι η Τεχνολογία Ομιλίας Γιατί η ASR είναι δύσκολη ?  Word Boundaries: Τα όρια των λέξεων δεν είναι ξεκάθαρα  Speaking Rate: Συνάρθρωση όχι συγκεκριμένη  Προβλήματα στην πηγή και στο Κανάλι μετάδοσης :  Μικρόφωνα ( Close-mic, throat-mic, microphone array..),  Band-limited,  Telephone channel, etc.  Περιβάλλον  background noise, Αντήχηση (reverberation)  “Cocktail party” effect.  Διαφορές Μεταξύ Δεδομένων Εκπαίδευσης και Έλεγχου  Head-mounted vs. desktop mic:

15 14 Τι είναι η Τεχνολογία Ομιλίας Γιατί η ASR είναι δύσκολη ? Why Speech Recognition is so Difficult m I n & m b & r i s e v & n th r E n I n z E r o t ü s e v & n f O r MY NUMBER IS SEVEN THREE NINE ZERO TWO SEVEN FOUR NP VP (user:Roberto (attribute:telephone-num value: ))

16 Τι είναι η Τεχνολογία Ομιλίας Πως δουλεύει ένα ASR

17 Τι είναι η Τεχνολογία Ομιλίας Δομή Συστήματος ASR  Acoustic Model: μοντελοποίηση των Φωνημάτων ( γνώσεις σε ακουστική και φωνητική )  Lexicon: πως σχηματίζονται οι λέξεις από τα συστατικά τους  Language Model: Ποιες λέξεις πιθανά περιλαμβάνονται σε ποια πρόταση

18 Τι είναι η Τεχνολογία Ομιλίας Κατανόηση Ομιλίας (Speech Understanding)

19  Κατανόηση Ομιλίας (human speech)  Ακουστικό σήμα με ομιλία (Audio) => Νόημα ή Δράση  Input : Speech  Output : Meaning  Βαθμίδες που περιλαμβάνει :  Αναγνώριση Ομιλίας,  Μορφολογική Ανάλυση,  Συντακτική Ανάλυση,  Σημασιολογική Ανάλυση,  Πραγματολογική Ανάλυση.

20 19 Τι είναι η Τεχνολογία Ομιλίας Σύνθεση Ομιλίας (Speech Synthesis)

21  Σύνθεση ομιλίας ( Κείμενο → Ομιλία ) (Text-To-Speech, -TTS)  Input: Text (a string of words)  Output: Speech (a wavefile)  Τεχνικές :  στο πεδίο του χρόνου (PSOLA, LPC-Vocoders, κ. α.)  στο πεδίο της συχνότητας (Formants) 20 Τι είναι η Τεχνολογία Ομιλίας Σύνθεση Ομιλίας (TTS)

22 Τι είναι η Τεχνολογία Ομιλίας Σύνθεση Ομιλίας (TTS): Βαθμίδες Επεξεργασία Φυσικής Γλώσσας Ψηφιακή Επεξεργασία Σήματος Λεπτομερή Φωνητική μεταγραφή Προσωδία Φωνημάτων Μορφοσυντακτική Ανάλυση Letter-to-Sound Δημιουργία Προσωδίας Μαθηματικά Μοντέλα Αλγόριθμοι Υπολογισμοί ΚείμενοΟμιλία TTS συνθέτης  Επεξεργασία Φυσικής Γλώσσας ( ΕΦΓ ):  Ανάδειξη της προσωδιακής πληροφορίας  Μετατροπής Κειμένου σε Φωνητική Μορφή, (G2P):  Text => symbolic speech representation  Ψηφιακή Επεξεργασία Σήματος ( Σύνθεσης ),  Symbolic speech representation => speech

23  Παραγωγή Ομιλίας  Text-To-Speech (TTS)  Μεγάλη Ευελιξία σε εφαρμογές  Προμαγνητοφωνημένα Μηνύματα  Αύξηση της καταληπτότητας  Μείωση της ευελιξίας και της γενικότητας της εφαρμογής  Υβριδικά Συστήματα  Προμαγνητοφωμημένα όπου μπορούν να προβλεφτούν  TTS όπου η πρόβλεψη είναι αδύνατη ( π. χ. Ονοματεπώνυμα ) 22 Τι είναι η Τεχνολογία Ομιλίας Σύνθεση Ομιλίας (TTS)

24 Τι είναι η Τεχνολογία Ομιλίας Αναγνώριση Ομιλητή (Speaker Recognition)

25  Αναγνώριση Ομιλητή  Αφορά Βιομετρική Ταυτοποίηση Χρήστη (Biometrics)  NIST 2007, Forensic 2009

26 Τι είναι η Τεχνολογία Ομιλίας Αναγνώριση Ομιλητή (Speaker Recognition)  Τύποι Αυτόματης αναγνώρισης ομιλητή  Εξακρίβωση Ομιλητή (Identification)  Αναγνώριση της Ταυτότητας ενός ατόμου,  κλειστού συνόλου  ανοικτού συνόλου  Speech => person identity  Επιβεβαίωση Ομιλητή (Verification)  Επιβεβαίωση της Ταυτότητας ενός ατόμου,  Δυαδική Απόφαση (Speech + claimed identity => Boolean)

27 Τι είναι η Τεχνολογία Ομιλίας Αναγνώριση Ομιλητή : Προβλήματα  Αστάθεια στους Ομιλητών (Speaker variability):  Εντός Ομιλητή (Intra-speaker variability)  Συναισθηματική Κατάσταση  Stress, Emotion, Περιβάλλον (Lombard effect)  Μεταξύ Ομιλητών διακύμανση (Inter-speaker variability)  Φυσικές Διαφορές : Ανατομία, Ηλικία,..  Κοινωνικό - γλωσσολογικές παράγοντες : Διάλεκτος, Προφορά,…

28 27  Ανάλογα με το κείμενο  Αναγνώριση Εξαρτημένη Κειμένου (Text Depended)  Αναγνώριση Ανεξάρτητη Κειμένου (Text Independed)  Πλήθος Ομιλητών (Speaker set)  Διάκριση Περιβάλλοντος (Environment)  Καθαρό Περιβάλλον  Περιβάλλον Θορύβου  Αξιοπιστία  75%-99% Τι είναι η Τεχνολογία Ομιλίας Αναγνώριση Ομιλητή : Διάκριση Συστημάτων

29 Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης28 Επιβεβαίωση Ομιλητή (Verification) Τι είναι η Τεχνολογία Ομιλίας Αναγνώριση Ομιλητή : Speaker Verification

30 Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης29 Εξακρίβωσης Ομιλητή (Identification) Τι είναι η Τεχνολογία Ομιλίας Αναγνώριση Ομιλητή : Speaker Identification

31 Τι είναι η Τεχνολογία Ομιλίας Κωδικοποίηση Ομιλίας (Speech Coding)

32  Συμπίεση Δεδομένων Ομιλίας (Speech Compression)  Συμπίεση του όγκου των δεδομένων (encoding),  Μείωση του αναγκαίου χώρου αποθήκευσης δεδομένων  64 κ bits/sec -> 6.4kbits/sec, 3.2kbits/sec, ή και >1kbits/sec  Μείωση του εύρους ζώνης για την αποστολή δεδομένων  δορυφορικές επικοινωνίες,  κινητή τηλεφωνία  Αξιοπιστία  Μειώνοντας το bit rate ελαττώνεται η καταληπτότητα και η ποιότητα της αναπαραγόμενης ομιλίας στον δέκτη

33 Τι είναι η Τεχνολογία Ομιλίας Προβλήματα Ακοής - Ομιλίας (Dyslexia & Auditory)

34  Μελέτη Προβλημάτων σε Ομιλία και Ακοή  Ανικανότητα σε ομιλία (e.g., Steven Hawking)  Προβλήματα Ακοής ή Κώφωσης  Προβλήματα σε όραση  Screen readers  Ανάπτυξη βελτιωμένων υποκατάστατων Ακοής  Εμφυτεύματα Κοχλία (Cochlear Implant)

35 Τι Είναι η Τεχνολογία Ομιλίας Άλλα συστήματα

36  Αναγνώριση Γλώσσας (language)  Αναγνώριση Φύλου  Αναγνώριση Διαλέκτου (dialect)  Αναγνώριση Συναισθημάτων (emotion)  Αναγνώριση Ηλικίας

37 Τι είναι η Τεχνολογία Ομιλίας Πολυτροπική Αλληλεπίδραση 36

38 Τι είναι η Τεχνολογία Ομιλίας Πολυτροπική Αλληλεπίδραση (Multimodal Interaction)  Πληκτρολόγιο, Ποντίκι, Επαφή (touch), Γραφίδα (pen),  Ομιλία (Speech), μαζί με  Γλώσσα Σώματος (Head and Body movements)  Χειρονομίες (Manual gestures)  Νεύμα (Gaze)  Ανάγνωση Χειλιών (Lip reading ) 37

39 Τι είναι η Τεχνολογία Ομιλίας Διαλογικά Συστήματα (Spoken Dialog Systems) 38  Human-Human Interaction  Human-Machine Interaction

40 Τι είναι η Τεχνολογία Ομιλίας Διαλογικά Συστήματα : Human-Human Interaction  Αυτόματη Μετάφραση (Speech-to-Speech Translation) π. χ. νους υγιής εν σώματι υγιεί (a healthy mind in a healthy body) 39

41 Τι είναι η Τεχνολογία Ομιλίας Διαλογικά Συστήματα : Human-Machine Interaction  Αλληλεπίδραση Ανθρώπου Μηχανής (HMI) .

42 Τι Είναι η Τεχνολογία Ομιλίας Διαλογικά Συστήματα : Human-Machine Interaction Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης41  Ολοκλήρωση των επιμέρους τομέων της ΓΤ  Αναγνώριση Γλώσσας (Language recognition)  Επιβεβαίωση Ομιλητή (Verification)  Αναγνώριση Ομιλίας (Speech–to- Text)  Κατανόηση Ομιλίας (speech => meaning or action)  Γέννηση φυσικής γλώσσας (NLG) (meaning =>speech)  Παραγωγή Ομιλίας (Text–to- Speech)  Βαθμίδες  ελεγκτή διαλόγου  κεντρικού ελεγκτή  σύνδεσης με τηλεφωνικό δίκτυο ή mic

43 Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης42 Σημασιολογικός Αναλυτής Χρήστης PBX ΧΕΙΡΙΣΤΗΣ Ενεργοποίηση Λεξικών Αποτέλεσμα Αναγνώρισης Dialogue Expectation Σημασιολογική Αναπαράσταση Εξοδος Ομιλίας Είσοδος Ομιλίας Ελεγκτής Διαλόγου Αναγνώριση Ομιλίας Κεντρικός Ελεγχος Διεπαφή Γραμμής Χρήστης Γεννήτρια Φυσ. Γλώσσας Δημιουργία Ομιλίας Τι Είναι η Τεχνολογία Ομιλίας Human-Machine Interaction : Δομή

44 43  Τρείς ουσιώδεις τρόποι Αλληλεπίδρασης : 1. Πρωτοβουλίας συστήματος (Direct dialog):  Ο χρήστης οφείλει να απαντά στις ερωτήσεις του συστήματος με ακρίβεια. 2. Μικτής πρωτοβουλίας (Mixed initiative dialog):  … παρόμοια, αλλά έχει ένα σχετικό βαθμό ελευθερίας. 3. Πρωτοβουλίας Χρήστη (Natural dialog):  Μεγάλη ελευθερία στο τρόπο που θα αποκριθεί ο χρήστης.  Όσο μεγαλύτερη ελευθερία απολαμβάνει ο χρήστης στην αλληλεπίδραση με το σύστημα, τόσο μεγαλύτερη η πολυπλοκότητα του συστήματος για την ολοκλήρωση του ( και όχι γραμμικά ). Τι είναι η Τεχνολογία Ομιλίας Διαλογικά Συστήματα : Τρόποι Αλληλεπίδρασης

45 44 Σύστημα :  “ Καλώς ήρθατε στην Τράπεζα Ελλάδος, υπηρεσία εξυπηρέτηση πελατών. Παρακαλώ πείτε μου το όνομα σας.” Χρήστης :  “ Νικόλαος Χατζηγεωργίου ” Σύστημα :  “ Παρακαλώ πείτε μου τον αριθμό λογαριασμού σας.” Χρήστης :  “ ” Σύστημα :  “ Θα θέλατε να κάνετε μεταφορά χρημάτων ή να δείτε το υπόλοιπό σας ?” Χρήστης :  “ Μεταφορά.”, κλπ … Τι είναι η Τεχνολογία Ομιλίας Διαλογικά Συστήματα : Direct dialog

46 45 Σύστημα :  “ Καλώς ήρθατε στην Τράπεζα Ελλάδος, υπηρεσία εξυπηρέτηση πελατών. Παρακαλώ πείτε μου το όνομα σας. Παρακαλώ πείτε μου το όνομα σας.” Χρήστης :  “ Ονομάζομαι Χατζηγεωργίου Νικόλαος και ο Τραπεζικός μου λογαριασμός είναι : ” Σύστημα :  “ Θα θέλατε να κάνετε μεταφορά χρημάτων ή να δείτε το υπόλοιπό σας ?” Χρήστης :  “ Πες μου σε παρακαλώ πρώτα το υπόλοιπο και μετά θα κάνω μεταφορά χρημάτων.”, κλπ. Τι είναι η Τεχνολογία Ομιλίας Διαλογικά Συστήματα : Mixed initiative dialog

47 46 Σύστημα :  “ Καλώς ήρθατε στην Τράπεζα Ελλάδος, Παρακαλώ πως μπορώ να σας βοηθήσω ?” Χρήστης :  “ Ονομάζομαι Χατζηγεωργίου Νικόλαος με Τραπεζικό λογαριασμό : , και θα δω το υπόλοιπό μου ” Σύστημα :  “ Το Υπόλοιπο σας, κύριε Χατζηγεωργίου, είναι : Ευρώ. Μπορώ να σας εξυπηρετήσω σε κάτι άλλο ?” Χρήστης : “ Ναι,…. Τι είναι η Τεχνολογία Ομιλίας Διαλογικά Συστήματα : Natural dialog

48 Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης47 Ιστορική Ανασκόπηση 1900’s ’s

49 History: foundational insights 1900s-1950s  Automaton :  Markov 1911  Turing 1936  Human speech processing  Fletcher at Bell Labs (1920’s)  Probabilistic/Information-theoretic models  Shannon (1948), link between automata and Markov models  1920’s Radio Rex  Celluloid dog with iron base held within house by electromagnet against force of spring  Current to magnet flowed through bridge which was sensitive to energy at 500 Hz  500 Hz energy caused bridge to vibrate, interrupting current, making dog spring forward  The sound “e” (ARPAbet [eh]) in Rex has 500 Hz component  1929 Channel vocoder (Dudley)

50 Radio Rex First known attempt at speech recognition A toy from 1922 Worked by analyzing the signal strength at 500Hz

51 Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης50  1952 Bell Labs  Single-speaker Isolated digit recognizer  Measured energy from two bands (formants)  2% error rate for single speaker, isolated digits  UCL, 1959  Speaker Dependent, Phone recogniser  ( 4 vowels and 9 consonants)  MIT, 1959  Speaker Independent 10 vowels recognition Ιστορική Ανασκόπηση 1950’s

52 51 Ιστορική Ανασκόπηση 1950’s: Automatic Digit Recognition (AUDREY-1952Bell Labs)

53 4/25/  Επεξεργασία Ομιλίας με Ψηφιακό Υπολογιστή  Bell Labs  Linear Predictive Coding  (Atal, et. al., 1967)  HMMs, σε πολύ πρώιμο στάδιο  (Leonard Baum at IDA, Princeton in the late 1960s)  FFT – Ταχύς Μετασχηματισμός Φουριέ (Cooley and Tukey 1965) Ιστορική Ανασκόπηση 1960’s

54 53 Ιστορική Ανασκόπηση 1960’s : Speech Processing and Digital Computers  AD/DA converters and digital computers start appearing in the labs James Flanagan Bell Laboratories

55 Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης54  Viterbi Algorithm (1973)  Hidden Markov Model (HMM) 1974  Jim Baker (CMU) 1974  Jelinek et.al. (IBM) 1976  Linear Predictive Coding (1975)  Dynamic Time Warping Ιστορική Ανασκόπηση 1970’s: Αλγόριθμοι - Τεχνικές

56 55 The Brute Force of the Engineering Approach TEMPLATE (WORD 7) UNKNOWN WORD T.K. Vyntsyuk (1968) H.Sakoe, S.Chiba (1970) Isolated Words Speaker Dependent Connected Words Speaker Independent Sub-Word Units Ιστορική Ανασκόπηση 70’s: Dynamic Time Warping

57  A DARPA* project ( )  Hearsay-II: * DARPA=Defense Advanced Research Projects Agency, is an agency of the USA Department of Defense responsible for the development of new technologies for use by the militaryagencyUSA Department of Defense Ιστορική Ανασκόπηση 70’s: Projects Πρώτες Αξιόλογες Επενδύσεις

58 57  ARPA SUR : Speech Understanding Project ( )  The shift from isolated to connected word recognition  Spoken Understanding Research program  Ambitious, well-funded project ($15M Funding)  Goal:  1000-word vocabulary, connected speech, constrained grammar,  multi-speaker, 90% understanding rate, real time,  Outcomes: 4 Systems built:  SDC (24%)  BBN’s HWIM (44%)  CMU’s Hearsay II (74%)  CMU’s HARPY (95% -- but 80 times real time!) Raj Reddy -- CMU Ιστορική Ανασκόπηση 1970’s: Projects Πρώτες Αξιόλογες Επενδύσεις

59 Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης58  Features Developed and Standardized  Mel-Cepstrum (Davis & Mermelstein, 1980)  PLP (Hermansky)  Delta-Cepstrum (Furui)  Αλγόριθμοι (Techniques began to converge)  HMM becomes mainstream, (Rabiner, et.al.1985)  Neural Networks.  Η Στατιστική Προσέγγιση  Από ταυτοποίηση προτύπων (template) σε statistical approaches Ιστορική Ανασκόπηση 1980’s:

60 Ιστορική Ανασκόπηση 1980’s : Η Στατιστική Προσέγγιση  Statistical “Engineering Approach”  Τα συστήματα χρησιμοποιούν Πιθανοτικά Μοντέλα βγαλμένες από δεδομένα :  Ακουστικά Μοντέλα από μεγάλο πλήθος παραδειγμάτων ομιλίας  Μοντέλα Γλώσσας (language models) από μεγάλο πλήθος σωμάτων κειμένων (text corpora).  Εστίαση σε πραγματική Γλώσσα (actual language) και κάτω από πραγματικές συνθήκες (robustness). 59

61 60  Based on work on HMMs done by Leonard Baum at IDA, Princeton in the late 1960s  Purely statistical approach pursued by Fred Jelinek and Jim Baker, IBM, T.J. Watson Research,  Foundations of modern speech recognition engines Fred Jelinek S1S1 S2S2 S3S3 a 11 a 12 a 22 a 23 a 33 Acoustic HMMs Word Tri-grams  No Data Like More Data  Whenever I fire a linguist, our system performance improves Jim Baker Ιστορική Ανασκόπηση 1980’s: Η Στατιστική Προσέγγιση

62 61 Ιστορική Ανασκόπηση 1980’s: Η Στατιστική Προσέγγιση  Statistical approach becomes ubiquitous ( πανταχού παρών )  L. Rabiner, “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”, IEEE, Vol. 77, No. 2, 2/1989.

63 Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης62  Μεγάλες Βάσεις Δεδομένων Ομιλίας  TIMIT  Wall Street Journal  Common Evaluation Paradigm and Metrics  NIST and LDC Involvement  Αυτόματη Μετάφραση (Focus on MT in Europe)  EUROTRA (Europe),  Rosetta (Philips, Netherlands)  Επενδύσεις on ASR  Large vocabulary, continuous ASR  Japan, USA, EU (EPRIT,)  2nd DARPA Project (1988) Ιστορική Ανασκόπηση 1980’s: Μεγάλες Επενδύσεις

64 Ιστορική Ανασκόπηση 1990’s : Πρώτη Γενιά εμπορικών προϊόντων  Τεχνικές  “ Ραφινάρισμα ” στην προσέγγιση HMM  Noise Robustness  Decision Tree State Clustering  Speaker Adaptation  Larger tasks, higher complexity, more training data  Continuous speech, using ANN and HMM  Spontaneous Speech  R&D Projects  LRE, LE, HLT  VERBMOBIL, VERBMOBIL-II, 63

65 Ιστορική Ανασκόπηση 1990’s: Μεγάλες Βάσεις Δεδομένων  ASR Μεθοδολογίες απαιτούν Πολλά Δεδομένα :  “There is no data like more data”  Που οδηγεί στο :  Προγράμματα δημιουργίας δεδομένων (Data creation projects)  Κέντρα διανομής Δεδομένων (Set-up of data distribution centers)  Προγράμματα δημιουργίας standards for data 64

66 Ιστορική Ανασκόπηση 1990’s: Μεγάλες Βάσεις Δεδομένων  Προγράμματα δημιουργίας δεδομένων (Projects)  Lexicon projects  Multilex, Genelex, Acquilex, ParoleGenelexAcquilexParole  WordNet, EuroWordNet WordNetEuroWordNet  SpeechDat projects SpeechDat projects  SpeechDat,  SpeechDat-Car,  SpeechDat-East, SPEECON, Orientel  Κέντρα διανομής Δεδομένων  LDC (1993) LDC  ELRA (1995) ELRA  Standards:  TEI for text corpo ra, CES, XCES TEI CESXCES  Eagles, ISLE for grammatical properties EaglesISLE 65

67 Ιστορική Ανασκόπηση 2000’s: Προϊόντα και Υπηρεσίες  Διαλογικά Συστήματα  DARPA EARS Program (2001-)  EARS (Effective, Affordable, Reusable Speech-to-Text)  Γλώσσες : English, Arabic, Mandarin.  Εφαρμογές :  Broadcast News System,  Conversational Telephone System,  Προϊόντα, Υπηρεσίες Apple:  iPhone Apps (Dragon Dictate (for SMS, ), Jibbigo)  Προϊόντα, Υπηρεσίες στην Google:  Μετάφραση (Translation),  Αναζήτηση με ομιλία,  Ανοιχτές πλατφόρμες για κινητά (Android) 66

68 State of the Art

69 State of the Art: Τι Δουλεύει καλά Σήμερα  Τα καλύτερα ερευνητικά Συστήματα :  Human-human speech: ~13-20% Word Error Rate (WER)  Human-machine speech: ~3-5% WER  Υψηλής αξιοπιστίας Συστήματα ASR,  Μεγάλου λεξιλογίου (~20,000-60,000 words or more…)  Συνεχούς Ομιλίας,  Ανεξάρτητα ομιλητή ( Συνεργάσιμοι Ομιλητές ),  Περιορισμένου Θορύβου ( Φιλικό Περιβάλλον ),  Μέτριου Λεξιλογίου,  Τυχαία Ομιλία  Μέσω τηλεφώνου  Το λάθος αναγνώρισης :  Τυχαίας Ομιλίας διπλάσιο ομιλίας από ανάγνωση.

70 State of the Art: Τι Δουλεύει καλά Σήμερα  Διαλογικά Συστήματα :  Εξαρτημένα εφαρμογής  Καλά Προσαρμοσμένα σε εφαρμογές δίνουν καλά αποτελέσματα.

71 Automatic Speech Recognition

72 State of the Art: Α SR: Αξιοπιστία (Lippmann, 1997) Corpus Speech Type Lex. Size WER (%) * HER(%) ** Digit Strings (phone) spontaneous Resource Management read ATIS (Air Travel Information Systems) spontaneous Wall Street Journal read ~20K Broadcast News mixed ~64K Switchboard (phone) conversation ~25K Meetings conversation ~25K *WER=Word Error Rate **HER=Word Error Rate Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης71

73 Commercial Activity 72

74 Commercial Activity Διαλογικά Συστήματα : Telephone Transactions  Τηλε - Τραπεζικά Συστήματα (banking),  Πληροφορίες :  Λογιαριασμών  Δανείων,  Πληροφορίες Χρηματιστηρίου, Συνάλλαγμα, Μετοχές, Επενδύσεις  Μεταφορά χρημάτων  Εμπόριο - Αγορά  Τηλε - παραγγελίες  Πληροφορίες :  Για νέα προϊόντα  Για αποστολή προϊόντων  Τεχνικές πληροφορίες για προϊόντα 73

75  Ταξιδιωτικές Υπηρεσίες  Πληροφορίες  δρομολογίων, καιρικών συνθηκών  Τουριστικές  Κρατήσεις :  Θέσεων  Δωματίων  Ενοικιάσεις Αυτοκινήτων  Συστήματα Τηλεφωνικής Εξυπηρέτησης  Δρομολόγηση κλήσης ( εταιρείες και οργανισμούς )  Αυτόματη Εξυπηρέτηση Κλήσης (11888)  Πληροφορίες τηλεφωνικού καταλόγου 74 Commercial Activity Spoken Dialog Systems: Telephone Transactions

76  Διασκέδαση - MEDIA  Πληροφορίες και Ενημέρωση  για Θέατρα, κινηματογράφους  για γεγονότα και προϊόντα  Αρχαιολογικοί χώροι – Μουσεία  Πωλήσεις εισιτηρίων :  Θεάτρων, κινηματογράφων  Δημοσκοπήσεις - Έρευνα Αγοράς  Αυτόματη συγκέντρωση στοιχείων καταναλωτών 75 Commercial Activity Spoken Dialog Systems : Telephone Transactions

77 Commercial Activity Ενσωματωμένα Συστήματα (Embedded Applications)  Σε Αυτοκίνητο (in-car applications),  Hands-free (in car), Eyes-free (in car)  voice activated dialing, navigation (voice destination entry)  Access Project  Mobile phone/PDA applications  multimodal output e.g. for navigation  Use: speech-in  Directions: speech-out  Speech enabled web interface  (SMS) dictation coming soon 76

78 Commercial Activity Applying Speech Synthesis (TTS)  Σύνθεση Ομιλίας (Speech Synthesis)  A real industry ( Μερικοί λένε ότι το πρόβλημα έχει λυθεί )  Φωνητική Εξοδος προγραμμάτων  Αυτόματοι τηλεφωνητές  Αυτόματα Συστήματα Παροχής Πληροφοριών  Games  Reading tutors

79 Commercial Activity Applying Speaker Recognition  Βιομετρική Ταυτοποίηση Χρήστη (Bio Metrics)  Security applications  Access control  Πρόσβαση σε χώρους υψηλής ασφάλειας,  Πρόσβαση σε προσωπικά δεδομένα, ( π. χ. τραπεζικές κινήσεις )  Voice password, (verification)  Speaker identification (1of N)  Δικανικές Εφαρμογές ( Καταπολέμηση εγκλήματος )

80 Commercial Activity Applying Speech Technology  Εφαρμογές Γραφείου (Office Applications)  Υπαγόρευση κειμένου (Dictation),  medical, legal (Dragon, Philips, L&H)  Speech to Speech Translation  Αυτόματη Μετάφραση (Translation)  Metal, Systra,  Διασκέδαση (Entertainment Technology)  Singing Voices (Synthesis)  Voice Conversion  Κινηματογράφο :  Artificial Characters  Avatar, Talking Heads  Υποτιτλισμός 79

81 Commercial Activity Applying Speech Technology  Μαθησιακά και Ιατρικά Προβλήματα  Προβλήματα σε Ανάγνωση / Ομιλία, Ομιλία και Ακοή  Ανικανότητα σε ομιλία (e.g., Steven Hawking)  Προβλήματα Ακοής ή Κώφωσης (Hearing-impaired or deaf)  Προβλήματα σε όραση (Screen readers)  Limited mobility  Ανάπτυξη βελτιωμένων υποκατάστατων Ακοής  Εμφυτεύματα Κοχλία (Cochlear Implant)  Εκπαίδευση  Βελτίωση στη Ανάγνωση  Εκμάθηση 2 ης Γλώσσας  Accent reduction

82 Commercial Activity Applying Speech Technology  Communication ( Κωδικοποίηση Ομιλίας ),  Δορυφορικές Επικοινωνίες (INMARSAT-M κλπ )  Κινητή Τηλεφωνία  Συμπίεση και Αποθήκευση Δεδομένων

83 Commercial Activity Applying Speech Technology  Command and Control  Έξυπνο σπίτι  Συστήματα ελέγχου μηχανισμών με φωνητικές εντολές  Φωνητικές εντολές στον θάλαμο ελέγχου αεροπλάνων  Wearables

84 Commercial Activity Companies in Speech Technology  many companies active in Speech technology  IBM, Microsoft, Siemens, Nokia, Philips, Motorola, Matra, Google, Scansoft, Nortel, Nortel, Acapela, SVOX,  Phillips, Dragon, Kurzweil, L&H, SpeechWorks, Nuance, Babel, Loquendo, Rhetorical, Vocalis, Telisma,...  many companies in Language technology  IBM, Microsoft, INSO, Novell,...  GMS, Apptek, Globalink, Lernout & Hauspie,  Systran, LANT (Xplanation),... 83

85 Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης84 Commercial Activity Companies in Speech Technology

86 Commercial Activity What are the leading products?  ASR  Microsoft Speech Recognition  IBM ViaVoice 9  (Linux, Windows, MacOS)  Dragon Naturally Speaking 10  (Windows)  Speak Q

87 Commercial Activity What are the leading products?  Dictation  Voice Recorder with Dragon Software Naturally-Speaking/dp/B004M8SU0I/ref=sr_1_2?s=electronics&ie=UTF8&qid= &sr=1-2 Naturally-Speaking/dp/B004M8SU0I/ref=sr_1_2?s=electronics&ie=UTF8&qid= &sr=1-2  Dragon Dictate for iPhone/iPad  Dragon Remote Microphone microphone/id ?mt=8 microphone/id ?mt=8

88 Commercial Activity What are the leading products?  Telephone transactions  AT&T,  Nuance, VST, etc.  TTS  Dragon NaturalySpeaking (Windows)  Microsoft’s Speech Engine (Windows)  BaBear (Linux, Windows, MacOS)  SpeechWorks (Linux, Sparc & x86 Solaris, Tru64, Unixware, Windows )  Non-commercial  OpenMind Speech (Linux), XVoice (Linux)  CVoiceControl/kVOiceControl (Linux)  GVoice (Linux)

89 Ερευνητικά Θέματα (Research Topics) 88

90 Ερευνητικά Θέματα (Research Topics)  Συνδυασμός με άλλα μέσα (modalities)  Πολύ Μεγάλου Λεξιλογίου, χωρίς περιορισμούς.  Co-articulation:  Δύο ( ή περισσότεροι ) ομιλητές ταυτόχρονα, (Cocktail party” effect).  Robustness against noise and other speakers  Περιβάλλον Αυτοκινήτου, in public places (PDAs, mobile phones)  Speaker independence (Speaker Variation)  Αποκλίσεις σε Διάλεκτο,  Non-native speakers  Τυχαίας Ομιλίας (Spontaneous speech)  Disfluencies ("huh", "uh", "erm","well", και ανολοκλήρωτες φράσεις ),  Νέες λέξεις (out-of-vocabulary words) 89

91 Ερευνητικά Θέματα (Research Topics)  Η Επικοινωνία Ανθρώπου - Μηχανής  με φυσική ομιλία (user driven)  Πολυγλωσσική Τηλε - ενημέρωση και Τηλε - εξυπηρέτηση  Αυτόματη Πολυγλωσσική Μετάφραση (Multiple Languages)  Από Κείμενο σε Κείμενο (Text-to-Text)  Από Ομιλία σε Ομιλία ( Speech–to-Speech Translation) 90

92 Ερευνητικά Θέματα (Research Topics)  Σύνθεση Ομιλίας  Quality (Humanizing the machine's voice)  Προφορά (Speaker Accent)  Prosody,  Συναισθητική ομιλία  Εξόρυξη πληροφορίας από δεδομένα Ομιλίας (Audiomining)  Radio/TV-broadcasts,  parliamentary sessions,  Speech summarization  Αυτόματη Πρακτικογράφηση  Meetings & Lectures 91

93 Ερευνητικά Θέματα (Research Topics)  Πανταχού Παρών Υπολογιστές (Ubiquitous)  Wearable Computers  Speech Understanding anytime-anywhere  “Mobile” and “On-the-Move”  Κινηματογράφος :  Αυτόματος Υποτιτλισμός  Αυτόματη Μετάφραση  Human Computer Interaction (HCI)  Εικονικοί Πράκτορες (Avatar, Talking Heads)  Χειρισμός και Προγραμματισμός υπολογιστών με φυσική ομιλία

94 Η Τεχνολογία Ομιλίας το 2013:  Συναρπαστική Περιοχή !  Πολλές Εμπορικές Δραστηριότητες, και Επεκτάσεις.  Μεγάλη Ερευνητική Κοινότητα.  Πολλά ενδιαφέροντα Θέματα μένουν ανοιχτά για έρευνα. 93

95 Projects Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης94  >35 Ευρωπαϊκών Ερευνητικών Προγραμμάτων  >1,000 διεθνών δημοσιεύσεων  >20 Διδακτορικές Διατριβές

96 Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης95  Voice Portal ΗΜ&ΤΥ  Call Router ΗΜ&ΤΥ

97 Voice Portal ΗΜ&ΤΥ: Καρτέλα Φοιτητή 96 Πανεπιστήμιο Πατρών, Τμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών, Εργαστήριο Ενσύρματης Τηλεπικοινωνίας Υπηρεσίες για όλους τους χρήστες ( Φοιτητές) – Εγγραφή Φοιτητών – Πληροφορίες – για Υπηρεσίες – φοιτητική εστία, – μετακίνηση φοιτητών – για σχολής-τμήματος – Ωρολόγιο πρόγραμμα – Πρόγραμμα εξετάσεων Υπηρεσίες για εξουσιοδοτημένους χρήστες – Διαχείριση καρτέλας φοιτητή μέσω τηλεφώνου Βαθμός συγκεκριμένου μαθήματος Βαθμοί τελευταίας εξεταστικής Βαθμοί εξαμήνου Έκδοση Πιστοποιητικών

98 Voice Portal ΗΜ&ΤΥ: Call Router ΗΜ&ΤΥ 97 Πανεπιστήμιο Πατρών, Τμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών, Εργαστήριο Ενσύρματης Τηλεπικοινωνίας Δρομολόγηση Εσωτερικών και Εξωτερικών κλήσεων, 24/7, – Ελάφρυνση γραμματειακού φόρτου

99 Inspire Project 98 Πανεπιστήμιο Πατρών, Εργαστήριο Ενσύρματης Τηλεπικοινωνίας

100 Inspire Project  Χειρισμός Οικιακών συσκευών με φυσική ομιλία  (INfotainment management with SPeech Interaction via Remote-microphones and tElephone interfaces)  Χειρισμός με φυσική ομιλία :  Οικιακών συσκευών ( τηλεόραση, ραδιόφωνο κτλ )  Έξυπνων συσκευών ( πόρτα, περσίδες κτλ )  Πρόσβαση σε πληροφορίες,  Ώρες προβολής ταινίας  Πρόγραμμα τηλεόρασης, κτλ.  Δυνατότητα απομακρυσμένης πρόσβασης ( τηλέφωνο ) 99 Πανεπιστήμιο Πατρών, Εργαστήριο Ενσύρματης Τηλεπικοινωνίας

101 Inspire Project 100 Πανεπιστήμιο Πατρών,

102 Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης101 Play Μ ancer Project

103  Ανάπτυξη Πλατφόρμας Σοβαρών Παιγνίων και Εφαρμογές για Ασθενείς  (Serious games platform for health applications on pain rehabilitation and mental health)  Ανάπτυξη πλατφόρμας που δέχεται πολυαισθητήριες εισόδους  Μικρόφωνο  Κάμερα  Βιοσήματα  Ανιχνευτές κίνησης  Ανάπτυξη σοβαρών παιγνίων για ασθενείς με :  Κινητικά προβλήματα  Νοητικές διαταραχές  Προβλήματα εθισμού σε τυχερά παιχνίδια Διατροφικές διαταραχές 102

104 PlayMancer Project 103 Πανεπιστήμιο Πατρών, ΤΗΜ&ΤΥ, Εργαστήριο Ενσύρματης Τηλεπικοινωνίας (8’:47”)

105 MoveOn Project 104 Πανεπιστήμιο Πατρών,

106 MoveOn Project  Πολυτροπική, Πολυαισθητήρια πρόσβαση σε πληροφορίες για Μοτοσικλετιστές  (Multi-modal and multi-sensor zero-distraction interaction interface for two wheel vehicles ONthe move)  Πολυαισθητήρια πρόσβαση σε πληροφορίες  Ανάπτυξη διεπαφής ομιλίας για μοτοσικλετιστές  Χειρισμός κάμερας  Επικοινωνία μέσω ασυρμάτου  Εύρεση πινακίδας  Αποφυγή απόσπασης της προσοχής 105 Πανεπιστήμιο Πατρών,

107 MoveOn Project 106 Πανεπιστήμιο Πατρών, (4’:37”)

108 Prometheus Project 107 Πανεπιστήμιο Πατρών,

109 Prometheus Project  Πρόβλεψη και Κατανόηση Ανθρώπινης συμπεριφοράς μέσω ετερογενών αισθητήρων  (Prediction & interpretation of human behavior using probabilistic structures and heterogeneous sensors)  Μείξη πληροφοριών από πολλούς αισθητήρες  Μικρόφωνο ( συστοιχίες )  Κάμερα, Θερμοκάμερα κ. α.  Μοντελοποίηση Ανθρώπινης Συμπεριφοράς  Εντοπισμό, Παρακολούθηση, Αναγνώριση και Πρόβλεψη συμπεριφοράς ανθρώπων σε ανοιχτούς ή κλειστούς χώρους 108 Πανεπιστήμιο Πατρών,

110 Prometheus Project 109 Πανεπιστήμιο Πατρών

111 Ομάδα Τεχνητής Νοημοσύνης-Αναγνώρισης Προτύπων  Μοντελοποίηση Ανθρώπινης Συμπεριφοράς (1’:40”)  Εντοπισμό, Παρακολούθηση, Αναγνώριση και Πρόβλεψη συμπεριφοράς ανθρώπων σε ανοιχτούς ή κλειστούς χώρους Prometheus Project

112 AmiBio Project 111 Πανεπιστήμιο Πατρών,

113 AmiBio Project  Αυτόματη Ακουστική Παρακολούθηση και Καταγραφή της Βιοποικιλότητας  (Automatic acoustic monitoring and inventorying of biodiversity)  Σχεδίαση & Κατασκευή Αυτόνομων Σταθμών Πολλαπλών Αισθητήρων,  Εγκατάσταση σε διάφορες τοποθεσίες του δάσους, Περιοχή Υμηττού.  Συγκέντρωση και Μετάδοση καταγραφές ήχων κλπ, σε ΚΣ.  Αυτόματη Ανάλυση των δεδομένα, Με Σκοπό Καταγραφή και Παρακολούθηση της Δραστηριότητας της Βιοποικιλότητας 112 Πανεπιστήμιο Πατρών,

114 AmiBio Project: Αποτελέσματα :  Εκτίμηση του Αριθμού των Ειδών και της Πυκνότητας τους, από την ακουστική δραστηριότητα τους,  Πτηνά, Θηλαστικά, Αμφίβια, Έντομα  Καταγραφή Επίπεδα Μόλυνσης, Καταστροφής Βιοτόπου,  Παρακολούθηση της Παρουσίας / Απουσίας ειδών  Σπάνιων ειδών ή ειδών υπό Εξαφάνιση,  Παρακολούθηση πουλιών που Μεταναστεύουν  κατά τη διάρκεια της νύχτας,  Εκτίμηση της υγείας ορισμένων ειδών,  24/7 Παρακολούθηση  Ενημέρωση καταστάσεων κινδύνου ή κρίσεων :  Φυσικές καταστροφές ( καταιγίδες, πυρκαγιές, κτλ.),  Καταστροφικές Ανθρώπινες Δραστηριότητες ( μη - τυπικά ηχητικά γεγονότα : πυροβολισμοί, κοπή δέντρων, motocross κτλ. 113 Πανεπιστήμιο Πατρών,

115 AmiBio Project 114 Πανεπιστήμιο Πατρών, Τμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών, Εργαστήριο Ενσύρματης Τηλεπικοινωνίας (2’:35”)


Κατέβασμα ppt "ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ Ν ΙΚΟΣ Φ ΑΚΩΤΑΚΗΣ, Καθηγητής Εισαγωγή."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google