ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ Ν ΙΚΟΣ Φ ΑΚΩΤΑΚΗΣ, Καθηγητής Εισαγωγή.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
The Smart House Project
Advertisements

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία
Galaxy platform : υψηλή τεχνολογία  Ανάπτυξη σε.Νet 4.0 / 3.5 της Microsoft  Αξιοποίηση των εργαλείων.Net 4.0 / 3.5  WPF για σύγχρονο περιβάλλον εργασίας.
E-Phone. Microsoft Office Communicator και e-phone Επικοινωνία μέσω Video, ανταλλαγή δεδομένων και Instant Messaging μέσω Contact Management Διαχείριση.
Νέες τεχνολογίες επεξεργασίας της πληροφορίας στη δημόσια διοίκηση1 Τεχνολογίες για ΑΜΕΑ Καθολική πρόσβαση Αθανάσιος Πρωτόπαπας Ινστιτούτο Επεξεργασίας.
‘’MULTI-ΔΙΑΣΤΑΣΕΙΣ’’ ΤΩΝ MULTIMEDIA
ΚΕΙΜΕΝΟ  Ο πρώτος τρόπος απεικόνισης πληροφορίας (και βασικός ως σήμερα).  Αδυναμία πρώτων υπολογιστών να χειριστούν άλλη μορφή πληροφορίας.  Πρόβλημα.
Παρουσίαση PocketBiz Field Service Κωνσταντίνος Τζαβάρας Sales Manager.
Εισαγωγή στην Τεχνολογία Επικοινωνιών
ΟΙ “ MULTI-ΔΙΑΣΤΑΣΕΙΣ” ΤΩΝ MULTIMEDIA
Με τα μάτια ενός Ρομπότ... Η εφαρμογή της ρομποτικής τεχνολογίας ως νέος τρόπος πρόσβασης σε πολιτιστικούς χώρους Γιώργος Καμαρινός, Αδαμαντία Κολιού.
ΠΑΡΑΔΟΣΕΙΣ ΜΑΘΗΜΑΤΟΣ «ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ» ΚΕΦ.2 ΜΑΡΤΙΟΣ 2005.
ΤΑΞΙΝΟΜΗΣΗ ΕΦΑΡΜΟΓΩΝ  Ένας Χρήστης  CBT – Computer Based Training  POI – Points Of Information  POS – Points Of Sales  Πολλοί Χρήστες  People-to-People.
Πανεπιστήμιο Αιγαίου Σχολή Επιστημών της Διοίκησης Τμήμα Μηχανικών Οικονομίας & Διοίκησης Computer applications in the modern enterprise Γ. Κούζας, PhD.
1 “ Η Καινοτομία στα συστήματα παραγωγής.” Γενικός Γραμματέας Περιφέρειας Κεντρικής Μακεδονίας, Καθηγητής Γιώργος Τσιότρας.
ΑΛΛΑΓΕΣ ΣΤΗΝ ΕΠΙΚΟΙΝΩΝΙΑ
Κέντρο Ηλεκτρονικών Υπολογιστών Πανεπιστήμιο Κύπρου 12 Φεβρουαρίου 2003 Παρουσίαση Προηγμένων Υπηρεσιών Διαδικτύου.
ΠΜΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Κατεύθυνση ΤΕΔΑ Τεχνολογίες Διαχείρισης Ασφάλειας Security Management Engineering Τμήμα Πληροφορικής ΠΑΝΕΠΙΣΤΗΜΙΟ.
ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΩΝ.
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
MUltilingual Subtitling of multimediA content
Σχεδιασμός ηλεκτρονικών υπηρεσιών μεγάλης κλίμακας και πολυπλοκότητας 24/10/2002.
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Αναγνώριση Προτύπων.
Τι είναι Ανάλυση Τι είναι Συστήματα Πληροφορικής
Ευρωπαϊκό Πρόγραμμα MultiVersum Προγραμματισμός Επιμόρφωσης u Σε τι στοχεύει η επιμόρφωση; u Περιγραφή και αναλυτικό πρόγραμμα u Πρόσκληση προς επιμορφωτές.
Π. Μαυρογένης Εφαρμογές πληροφορικής τεχνολογίας που καλύπτουν ένα ευρύ τομέα επιχειρησιακών αναγκών του ξενοδοχείου ΣΤΟΧΟΙ Ο μαθητής να: Ονομάζει τις.
Τα πολυμέσα είναι ο κλάδος της πληροφορικής τεχνολογίας που ασχολείται με τον συνδυασμό ψηφιακών δεδομένων πολλαπλών μορφών, δηλ. κειμένου, γραφικών εικόνας,
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Δίκτυα Ι Βπ - 2ο ΕΠΑΛ ΝΕΑΣ ΣΜΥΡΝΗΣ 2011.
Δίκτυα Υπολογιστών Ι Δρ. Ηλίας Σαράφης.
VoiceXML Presentation. Τί είναι η VXML -Υποσύνολο της XML. -Markup Language, ό,τι κάνει η html για οπτική περιγραφή, κάνει η vxml για φωνητική περιγραφή.
ΕΚΕΦΕ «Δημόκριτος» Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Κοινωνία της Πληροφορίας & Τεχνητή Νοημοσύνη Δρ. Κωνσταντίνος Δ. Σπυρόπουλος Δντής Έρευνας.
VoiceXML Presentation. Τί είναι η VXML -Υποσύνολο της XML. -Markup Language, ό,τι κάνει η html για οπτική περιγραφή, κάνει η vxml για φωνητική περιγραφή.
ΝΕΕΣ ΤΕΧΝΟΛΟΛΟΓΙΕΣ ΚΑΙ ΥΠΗΡΕΣΙΕΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΤΡΑΠΕΖΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΕΧΝΟΛΟΓΙΕΣ ΣΤΟ ΤΡΑΠΕΖΙΚΟ ΧΩΡΟ ΑΠΌ ΤΙΣ ΑΡΧΕΣ ΤΟΥ ΑΙΩΝΑ ΕΩΣ ΤΙΣ ΜΕΡΕΣ ΜΑΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ.
ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Α ΡΙΣΤΟΤΕΛΕΙΟ Π ΑΝΕΠΙΣΤΗΜΙΟ Θ ΕΣΣΑΛΟΝΙΚΗΣ Κατεύθυνση Ψηφιακών μέσων
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 – 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 – 2013 Μάθημα 1 ο : Εισαγωγή.
ΣΥΣΤΗΜΑΤΑ ΠΟΛΥΜΕΣΩΝ Εισηγητής: Δρ. Αθανάσιος Νικολαΐδης.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
EContent Στέλιος Πιπερίδης Εθνικός Εκπρόσωπος eContent
ΠΕΙΡΑΙΩΣ DIRECT SERVICES
ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Α ΡΙΣΤΟΤΕΛΕΙΟ Π ΑΝΕΠΙΣΤΗΜΙΟ Θ ΕΣΣΑΛΟΝΙΚΗΣ Κατεύθυνση Ψηφιακών μέσων
Εργασία στις Ψηφιακές Βιβλιοθήκες Υπό του φοιτητή Κωνσταντίνου Πατηνιώτη Υπό των Φοιτητριών Βάγια Τύρελη Σοφία Νανοπούλου.
Προηγμένες υπηρεσίες προς τους Πολίτες Σταύρος Αλεξάκης Public Sector Lead– Microsoft Hellas.
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
Channel Managment - ΗΥ Customer Relationship Management Concepts and Systems Θέμα: „ Channel Management“ Ομάδα εργασίας: Αμπατζίδης Κωνσταντίνος.
Χ. Καραγιαννίδης, ΠΘ-ΠΤΕΑΕφαρμογές ΤΠΕ στην ΕΕΑ Διάλεξη 1: Εισαγωγή1/27 11/2/2015 Διάλεξη 1 Εισαγωγή Εφαρμογές ΤΠΕ στην Εκπαίδευση & την Ειδική Αγωγή Χαράλαμπος.
Προώθηση / Επικοινωνία
ΥΠΗΡΕΣΙΕΣ LIVEMEDIA.
Επεξεργασία Ομιλίας & Ήχου Ενότητα # 9: Σύνθεση Ομιλίας Ιωάννης Καρύδης Τμήμα Πληροφορικής.
ΗΜΥ 100 Εισαγωγή στην Τεχνολογία Στυλιανή Πετρούδη ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ.
Υλοποίηση εφαρμογών σε προγραμματιστικά περιβάλλοντα Κεφάλαιο 7.
Θέματα Συστημάτων Πολυμέσων Ενότητα # 1: Εισαγωγή Διδάσκων: Γεώργιος K. Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών “Επιστήμη των Υπολογιστών”
Πληροφορική Μάθημα Κατεύθυνσης. Σκοπός Μαθήματος Οι μαθητές που θα ακολουθήσουν το μάθημα αυτό θα είναι ικανοί να λύνουν προβλήματα με αλγοριθμικό τρόπο,
Γενικά Άνοιξη 2012 Το μάθημα απευθύνεται σε φοιτητές που δεν ανήκουν στο Τμήμα Πληροφορικής (ΕΠΛ) Διαλέξεις: Τρίτη και Παρασκευή, 12:00 – 13:30, ΧΩΔ-02.
Ανάπτυξη ΣΥΑ.
ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ανδρέου Βασίλης.
T: Κύματα και Τηλεπικοινωνίες
Μαθήματα Τομέα Σ.Ε.Ρ. / Ροής Σ: (Σήματα, Ελεγχος και Ρομποτική)
Έξυπνα Κτήρια: Ενέργεια και Διαδίκτυο των Πραγμάτων
Επεξεργασία Ομιλίας & Ήχου
Εισαγωγή στη VHDL 5/8/2018 Εισαγωγή στη VHDL.
Μαθήματα Τομέα Σ.Ε.Ρ. / Ροής Σ: (Σήματα, Ελεγχος και Ρομποτική)
Δίκτυα Ι Βπ - 2ο ΕΠΑΛ ΝΕΑΣ ΣΜΥΡΝΗΣ 2011.
ΕΙΣΑΓΩΓΗ K06 Σήματα και Γραμμικά Συστήματα Οκτώβρης 2005
Προσφορά προς τα μέλη του Ιατρικού συλλόγου Πυργου
Εισαγωγή στα Προσαρμοστικά Συστήματα
Στα διάφορα επαγγέλματα
Οι Κατευθύνσεις στο τμήμα Μηχανικών Πληροφορικής
Μεταγράφημα παρουσίασης:

ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ Ν ΙΚΟΣ Φ ΑΚΩΤΑΚΗΣ, Καθηγητής Εισαγωγή

HAL 9000 from Kubrick’s film 2001: A Space Odyssey 2001 A Space Odessey graphics & sounds courtesy of

ΠΕΡΙΕΧΟΜΕΝΑ Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης3  Πολυεπιστημονική Συμβολή (Multidisciplinary)  Τι Είναι η Τεχνολογία Ομιλίας  Ιστορική Ανασκόπηση  1950s s  State of the Art  Commercial Activity  Εφαρμογές  Εταιρείες  Προϊόντα  Ανοιχτά Ερευνητικά Θέματα (Research Topics)  Current Status  R&D Προγράμματα (Projects)

Πολυεπιστημονική Συμβολή (Multidisciplinary)  Speech Processing Disciplines  Επεξεργασία Σήματος (Signal Processing):  Spectral analysis., Coding,  Speech Modeling  Φυσική (Acoustics): Human Hearing studies.  Αναγνώριση Προτύπων : Data clustering.  Θεωρία Πληροφοριών και Τηλεπικοινωνιών :  statistical models, Viterbi algorithms, Transmission, etc.  Γλωσσολογία :  Phonetics, Phonology, language Structure, Meaning,  Computer Science:  A.I.: Search Algorithms, Logic, Heuristics, Machine Learning  Αλγόριθμοι, γλώσσες προγραμματισμού (c, c++ language).

What is speech technology? Τι Είναι η Τεχνολογία Ομιλίας

 Αναγνώριση Ομιλίας (ASR)  Κατανόηση Ομιλίας (SU)  Αναγνώριση Ομιλητή (Identity of the speaker)  Σύνθεση Ομιλίας (TTS)  Κωδικοποίηση Ομιλίας (Compression of Speech)  Δυσλεξία και Προβλήματα Ακοής (Auditory problems)  Άλλα συστήματα Αναγνώρισης  Πολυτροπική Αλληλεπίδραση  Διαλογικά Συστήματα

Τι είναι η Τεχνολογία Ομιλίας Αναγνώριση Ομιλίας ( Α SR)  Αναγνώριση ομιλίας ( Ομιλία → Κείμενο ) (Speech–to- Text ή Automatic Speech Recognition - ASR)  Μετατροπή ενός ακουστικού σήματος X σε μία ακολουθία λέξεων W, ανεξάρτητα από ομιλητή και περιβάλλον.  Input: Speech  Output: Text ( Τελική έξοδος ή Είσοδος σε μονάδα επεξεργασίας Φυσικής Γλώσσας ( Κατανόηση Ομιλίας )  Το πιο Σημαντικό Αντικείμενο του χώρου της Τ. Ο.

8 Τι Περιλαμβάνει η Τεχνολογία Ομιλίας Είδη Συστημάτων Α SR (1/3)  Τρόπος Ομιλίας (Mode of speaking)  Διακριτών Λέξεων (Isolated words),  Κάθε λέξη υποθέτετε ότι περιβάλετε από σιγή,  “this...is...isolated...word...recognition”  Connected-Word Recognition  Ακολουθία λέξεων που υπακούουν σε μια συγκεκριμένη Γραμματική,  e.g., telephone numbers  Word Spotting  Εντοπισμός λέξεων που περιβάλλονται από λέξεις  “ Παρακαλώ τον κύριο Παπαγεωργίου ”  Συνεχούς Ομιλίας (Continuous speech)  Αδιάκοπτη συνεχή ομιλία  Τυχαίας Ομιλίας (Spontaneous speech)  Disfluencies ( δισταγμοί ("huh", "uh","well"), ελλιπείς προτάσεις, νέες λέξεις.

9 Τι Περιλαμβάνει η Τεχνολογία Ομιλίας Είδη Συστημάτων Α SR (2/3)  Μέγεθος Λεξιλογίου (Vocabulary)  Μικρού Λεξιλογίου (<50 λέξεις )  Μεσαίου Λεξιλογίου (<1000 λέξεις )  Μεγάλου Λεξιλογίου < λέξεις )  Πολύ Μεγάλου Λεξιλογίου (> λέξεις )  Πλήθος Ομιλητών (Speaker set)  Εξαρτημένα Ομιλητή (Speaker Dependent)  Προσαρμοζόμενα Ομιλητή (Adaptive)  Ανεξάρτητα Ομιλητή (Independent)  Ταυτόχρονη Ομιλία από πολλούς Ομιλητές (Multi-speaker)

10 Τι Περιλαμβάνει η Τεχνολογία Ομιλίας Είδη Συστημάτων Α SR (3/3)  Περιβάλλον Θορύβου (Environment)  Ανηχοϊκός Θάλαμος (noise free)  Περιβάλλον Γραφείου (office)  Τηλεφωνικού Δικτύου (telephone)  Βιομηχανικό Περιβάλλον (high noise)  Βασική Μονάδα Αναγνώρισης  Φώνημα  Τμήματα Λέξεων  Λέξεις  Τεχνική Ταξινόμησης  Συστήματα Σύγκρισης Προτύπων  Πιθανοτικά Συστήματα (HMM)  Συστήματα Νευρωνικών Δικτύων (ANN)

Τι Περιλαμβάνει η Τεχνολογία Ομιλίας Αξιοπιστία Α SR: (Lippmann, 1997) Corpus Speech Type Lex. Size WER (%) * HER(%) ** Digit Strings (phone) spontaneous Resource Management read ATIS (Air Travel Information Systems) spontaneous Wall Street Journal read ~20K Broadcast News mixed ~64K Switchboard (phone) conversation ~25K Meetings conversation ~25K *WER=Word Error Rate **HER=Word Error Rate Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης11

Τι είναι η Τεχνολογία Ομιλίας Γιατί η ASR είναι δύσκολη ?  Αστάθεια στους Ομιλητών (Speaker variability):  Φυσικές Διαφορές : Ανατομία, Ηλικία,..  Κοινωνικό - γλωσσολογικές παράγοντες : Διάλεκτος, Προφορά,…  Συναισθηματική Κατάσταση :  Stress, Emotion, Περιβάλλον (Lombard effect),..  Τρόπος Ομιλίας : (Read versus spontaneous speech):  Ανάγνωση, Συνεχή ομιλία, Τυχαίας Ομιλίας..  Αποκλίσεις στη χρήση της Γλώσσας  Syntax, semantics, discourse,...  Μέγεθος Λεξικού, * Lombard effect: change when speaks in a noisy environment

Τι είναι η Τεχνολογία Ομιλίας Γιατί η ASR είναι δύσκολη ?  Word Boundaries: Τα όρια των λέξεων δεν είναι ξεκάθαρα  Speaking Rate: Συνάρθρωση όχι συγκεκριμένη  Προβλήματα στην πηγή και στο Κανάλι μετάδοσης :  Μικρόφωνα ( Close-mic, throat-mic, microphone array..),  Band-limited,  Telephone channel, etc.  Περιβάλλον  background noise, Αντήχηση (reverberation)  “Cocktail party” effect.  Διαφορές Μεταξύ Δεδομένων Εκπαίδευσης και Έλεγχου  Head-mounted vs. desktop mic:

14 Τι είναι η Τεχνολογία Ομιλίας Γιατί η ASR είναι δύσκολη ? Why Speech Recognition is so Difficult m I n & m b & r i s e v & n th r E n I n z E r o t ü s e v & n f O r MY NUMBER IS SEVEN THREE NINE ZERO TWO SEVEN FOUR NP VP (user:Roberto (attribute:telephone-num value: ))

Τι είναι η Τεχνολογία Ομιλίας Πως δουλεύει ένα ASR

Τι είναι η Τεχνολογία Ομιλίας Δομή Συστήματος ASR  Acoustic Model: μοντελοποίηση των Φωνημάτων ( γνώσεις σε ακουστική και φωνητική )  Lexicon: πως σχηματίζονται οι λέξεις από τα συστατικά τους  Language Model: Ποιες λέξεις πιθανά περιλαμβάνονται σε ποια πρόταση

Τι είναι η Τεχνολογία Ομιλίας Κατανόηση Ομιλίας (Speech Understanding)

 Κατανόηση Ομιλίας (human speech)  Ακουστικό σήμα με ομιλία (Audio) => Νόημα ή Δράση  Input : Speech  Output : Meaning  Βαθμίδες που περιλαμβάνει :  Αναγνώριση Ομιλίας,  Μορφολογική Ανάλυση,  Συντακτική Ανάλυση,  Σημασιολογική Ανάλυση,  Πραγματολογική Ανάλυση.

19 Τι είναι η Τεχνολογία Ομιλίας Σύνθεση Ομιλίας (Speech Synthesis)

 Σύνθεση ομιλίας ( Κείμενο → Ομιλία ) (Text-To-Speech, -TTS)  Input: Text (a string of words)  Output: Speech (a wavefile)  Τεχνικές :  στο πεδίο του χρόνου (PSOLA, LPC-Vocoders, κ. α.)  στο πεδίο της συχνότητας (Formants) 20 Τι είναι η Τεχνολογία Ομιλίας Σύνθεση Ομιλίας (TTS)

Τι είναι η Τεχνολογία Ομιλίας Σύνθεση Ομιλίας (TTS): Βαθμίδες Επεξεργασία Φυσικής Γλώσσας Ψηφιακή Επεξεργασία Σήματος Λεπτομερή Φωνητική μεταγραφή Προσωδία Φωνημάτων Μορφοσυντακτική Ανάλυση Letter-to-Sound Δημιουργία Προσωδίας Μαθηματικά Μοντέλα Αλγόριθμοι Υπολογισμοί ΚείμενοΟμιλία TTS συνθέτης  Επεξεργασία Φυσικής Γλώσσας ( ΕΦΓ ):  Ανάδειξη της προσωδιακής πληροφορίας  Μετατροπής Κειμένου σε Φωνητική Μορφή, (G2P):  Text => symbolic speech representation  Ψηφιακή Επεξεργασία Σήματος ( Σύνθεσης ),  Symbolic speech representation => speech

 Παραγωγή Ομιλίας  Text-To-Speech (TTS)  Μεγάλη Ευελιξία σε εφαρμογές  Προμαγνητοφωνημένα Μηνύματα  Αύξηση της καταληπτότητας  Μείωση της ευελιξίας και της γενικότητας της εφαρμογής  Υβριδικά Συστήματα  Προμαγνητοφωμημένα όπου μπορούν να προβλεφτούν  TTS όπου η πρόβλεψη είναι αδύνατη ( π. χ. Ονοματεπώνυμα ) 22 Τι είναι η Τεχνολογία Ομιλίας Σύνθεση Ομιλίας (TTS)

Τι είναι η Τεχνολογία Ομιλίας Αναγνώριση Ομιλητή (Speaker Recognition)

 Αναγνώριση Ομιλητή  Αφορά Βιομετρική Ταυτοποίηση Χρήστη (Biometrics)  NIST 2007, Forensic 2009

Τι είναι η Τεχνολογία Ομιλίας Αναγνώριση Ομιλητή (Speaker Recognition)  Τύποι Αυτόματης αναγνώρισης ομιλητή  Εξακρίβωση Ομιλητή (Identification)  Αναγνώριση της Ταυτότητας ενός ατόμου,  κλειστού συνόλου  ανοικτού συνόλου  Speech => person identity  Επιβεβαίωση Ομιλητή (Verification)  Επιβεβαίωση της Ταυτότητας ενός ατόμου,  Δυαδική Απόφαση (Speech + claimed identity => Boolean)

Τι είναι η Τεχνολογία Ομιλίας Αναγνώριση Ομιλητή : Προβλήματα  Αστάθεια στους Ομιλητών (Speaker variability):  Εντός Ομιλητή (Intra-speaker variability)  Συναισθηματική Κατάσταση  Stress, Emotion, Περιβάλλον (Lombard effect)  Μεταξύ Ομιλητών διακύμανση (Inter-speaker variability)  Φυσικές Διαφορές : Ανατομία, Ηλικία,..  Κοινωνικό - γλωσσολογικές παράγοντες : Διάλεκτος, Προφορά,…

27  Ανάλογα με το κείμενο  Αναγνώριση Εξαρτημένη Κειμένου (Text Depended)  Αναγνώριση Ανεξάρτητη Κειμένου (Text Independed)  Πλήθος Ομιλητών (Speaker set)  Διάκριση Περιβάλλοντος (Environment)  Καθαρό Περιβάλλον  Περιβάλλον Θορύβου  Αξιοπιστία  75%-99% Τι είναι η Τεχνολογία Ομιλίας Αναγνώριση Ομιλητή : Διάκριση Συστημάτων

Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης28 Επιβεβαίωση Ομιλητή (Verification) Τι είναι η Τεχνολογία Ομιλίας Αναγνώριση Ομιλητή : Speaker Verification

Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης29 Εξακρίβωσης Ομιλητή (Identification) Τι είναι η Τεχνολογία Ομιλίας Αναγνώριση Ομιλητή : Speaker Identification

Τι είναι η Τεχνολογία Ομιλίας Κωδικοποίηση Ομιλίας (Speech Coding)

 Συμπίεση Δεδομένων Ομιλίας (Speech Compression)  Συμπίεση του όγκου των δεδομένων (encoding),  Μείωση του αναγκαίου χώρου αποθήκευσης δεδομένων  64 κ bits/sec -> 6.4kbits/sec, 3.2kbits/sec, ή και >1kbits/sec  Μείωση του εύρους ζώνης για την αποστολή δεδομένων  δορυφορικές επικοινωνίες,  κινητή τηλεφωνία  Αξιοπιστία  Μειώνοντας το bit rate ελαττώνεται η καταληπτότητα και η ποιότητα της αναπαραγόμενης ομιλίας στον δέκτη

Τι είναι η Τεχνολογία Ομιλίας Προβλήματα Ακοής - Ομιλίας (Dyslexia & Auditory)

 Μελέτη Προβλημάτων σε Ομιλία και Ακοή  Ανικανότητα σε ομιλία (e.g., Steven Hawking)  Προβλήματα Ακοής ή Κώφωσης  Προβλήματα σε όραση  Screen readers  Ανάπτυξη βελτιωμένων υποκατάστατων Ακοής  Εμφυτεύματα Κοχλία (Cochlear Implant)

Τι Είναι η Τεχνολογία Ομιλίας Άλλα συστήματα

 Αναγνώριση Γλώσσας (language)  Αναγνώριση Φύλου  Αναγνώριση Διαλέκτου (dialect)  Αναγνώριση Συναισθημάτων (emotion)  Αναγνώριση Ηλικίας

Τι είναι η Τεχνολογία Ομιλίας Πολυτροπική Αλληλεπίδραση 36

Τι είναι η Τεχνολογία Ομιλίας Πολυτροπική Αλληλεπίδραση (Multimodal Interaction)  Πληκτρολόγιο, Ποντίκι, Επαφή (touch), Γραφίδα (pen),  Ομιλία (Speech), μαζί με  Γλώσσα Σώματος (Head and Body movements)  Χειρονομίες (Manual gestures)  Νεύμα (Gaze)  Ανάγνωση Χειλιών (Lip reading ) 37

Τι είναι η Τεχνολογία Ομιλίας Διαλογικά Συστήματα (Spoken Dialog Systems) 38  Human-Human Interaction  Human-Machine Interaction

Τι είναι η Τεχνολογία Ομιλίας Διαλογικά Συστήματα : Human-Human Interaction  Αυτόματη Μετάφραση (Speech-to-Speech Translation) π. χ. νους υγιής εν σώματι υγιεί (a healthy mind in a healthy body) 39

Τι είναι η Τεχνολογία Ομιλίας Διαλογικά Συστήματα : Human-Machine Interaction  Αλληλεπίδραση Ανθρώπου Μηχανής (HMI) .

Τι Είναι η Τεχνολογία Ομιλίας Διαλογικά Συστήματα : Human-Machine Interaction Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης41  Ολοκλήρωση των επιμέρους τομέων της ΓΤ  Αναγνώριση Γλώσσας (Language recognition)  Επιβεβαίωση Ομιλητή (Verification)  Αναγνώριση Ομιλίας (Speech–to- Text)  Κατανόηση Ομιλίας (speech => meaning or action)  Γέννηση φυσικής γλώσσας (NLG) (meaning =>speech)  Παραγωγή Ομιλίας (Text–to- Speech)  Βαθμίδες  ελεγκτή διαλόγου  κεντρικού ελεγκτή  σύνδεσης με τηλεφωνικό δίκτυο ή mic

Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης42 Σημασιολογικός Αναλυτής Χρήστης PBX ΧΕΙΡΙΣΤΗΣ Ενεργοποίηση Λεξικών Αποτέλεσμα Αναγνώρισης Dialogue Expectation Σημασιολογική Αναπαράσταση Εξοδος Ομιλίας Είσοδος Ομιλίας Ελεγκτής Διαλόγου Αναγνώριση Ομιλίας Κεντρικός Ελεγχος Διεπαφή Γραμμής Χρήστης Γεννήτρια Φυσ. Γλώσσας Δημιουργία Ομιλίας Τι Είναι η Τεχνολογία Ομιλίας Human-Machine Interaction : Δομή

43  Τρείς ουσιώδεις τρόποι Αλληλεπίδρασης : 1. Πρωτοβουλίας συστήματος (Direct dialog):  Ο χρήστης οφείλει να απαντά στις ερωτήσεις του συστήματος με ακρίβεια. 2. Μικτής πρωτοβουλίας (Mixed initiative dialog):  … παρόμοια, αλλά έχει ένα σχετικό βαθμό ελευθερίας. 3. Πρωτοβουλίας Χρήστη (Natural dialog):  Μεγάλη ελευθερία στο τρόπο που θα αποκριθεί ο χρήστης.  Όσο μεγαλύτερη ελευθερία απολαμβάνει ο χρήστης στην αλληλεπίδραση με το σύστημα, τόσο μεγαλύτερη η πολυπλοκότητα του συστήματος για την ολοκλήρωση του ( και όχι γραμμικά ). Τι είναι η Τεχνολογία Ομιλίας Διαλογικά Συστήματα : Τρόποι Αλληλεπίδρασης

44 Σύστημα :  “ Καλώς ήρθατε στην Τράπεζα Ελλάδος, υπηρεσία εξυπηρέτηση πελατών. Παρακαλώ πείτε μου το όνομα σας.” Χρήστης :  “ Νικόλαος Χατζηγεωργίου ” Σύστημα :  “ Παρακαλώ πείτε μου τον αριθμό λογαριασμού σας.” Χρήστης :  “ ” Σύστημα :  “ Θα θέλατε να κάνετε μεταφορά χρημάτων ή να δείτε το υπόλοιπό σας ?” Χρήστης :  “ Μεταφορά.”, κλπ … Τι είναι η Τεχνολογία Ομιλίας Διαλογικά Συστήματα : Direct dialog

45 Σύστημα :  “ Καλώς ήρθατε στην Τράπεζα Ελλάδος, υπηρεσία εξυπηρέτηση πελατών. Παρακαλώ πείτε μου το όνομα σας. Παρακαλώ πείτε μου το όνομα σας.” Χρήστης :  “ Ονομάζομαι Χατζηγεωργίου Νικόλαος και ο Τραπεζικός μου λογαριασμός είναι : ” Σύστημα :  “ Θα θέλατε να κάνετε μεταφορά χρημάτων ή να δείτε το υπόλοιπό σας ?” Χρήστης :  “ Πες μου σε παρακαλώ πρώτα το υπόλοιπο και μετά θα κάνω μεταφορά χρημάτων.”, κλπ. Τι είναι η Τεχνολογία Ομιλίας Διαλογικά Συστήματα : Mixed initiative dialog

46 Σύστημα :  “ Καλώς ήρθατε στην Τράπεζα Ελλάδος, Παρακαλώ πως μπορώ να σας βοηθήσω ?” Χρήστης :  “ Ονομάζομαι Χατζηγεωργίου Νικόλαος με Τραπεζικό λογαριασμό : , και θα δω το υπόλοιπό μου ” Σύστημα :  “ Το Υπόλοιπο σας, κύριε Χατζηγεωργίου, είναι : Ευρώ. Μπορώ να σας εξυπηρετήσω σε κάτι άλλο ?” Χρήστης : “ Ναι,…. Τι είναι η Τεχνολογία Ομιλίας Διαλογικά Συστήματα : Natural dialog

Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης47 Ιστορική Ανασκόπηση 1900’s ’s

History: foundational insights 1900s-1950s  Automaton :  Markov 1911  Turing 1936  Human speech processing  Fletcher at Bell Labs (1920’s)  Probabilistic/Information-theoretic models  Shannon (1948), link between automata and Markov models  1920’s Radio Rex  Celluloid dog with iron base held within house by electromagnet against force of spring  Current to magnet flowed through bridge which was sensitive to energy at 500 Hz  500 Hz energy caused bridge to vibrate, interrupting current, making dog spring forward  The sound “e” (ARPAbet [eh]) in Rex has 500 Hz component  1929 Channel vocoder (Dudley)

Radio Rex First known attempt at speech recognition A toy from 1922 Worked by analyzing the signal strength at 500Hz

Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης50  1952 Bell Labs  Single-speaker Isolated digit recognizer  Measured energy from two bands (formants)  2% error rate for single speaker, isolated digits  UCL, 1959  Speaker Dependent, Phone recogniser  ( 4 vowels and 9 consonants)  MIT, 1959  Speaker Independent 10 vowels recognition Ιστορική Ανασκόπηση 1950’s

51 Ιστορική Ανασκόπηση 1950’s: Automatic Digit Recognition (AUDREY-1952Bell Labs)

4/25/  Επεξεργασία Ομιλίας με Ψηφιακό Υπολογιστή  Bell Labs  Linear Predictive Coding  (Atal, et. al., 1967)  HMMs, σε πολύ πρώιμο στάδιο  (Leonard Baum at IDA, Princeton in the late 1960s)  FFT – Ταχύς Μετασχηματισμός Φουριέ (Cooley and Tukey 1965) Ιστορική Ανασκόπηση 1960’s

53 Ιστορική Ανασκόπηση 1960’s : Speech Processing and Digital Computers  AD/DA converters and digital computers start appearing in the labs James Flanagan Bell Laboratories

Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης54  Viterbi Algorithm (1973)  Hidden Markov Model (HMM) 1974  Jim Baker (CMU) 1974  Jelinek et.al. (IBM) 1976  Linear Predictive Coding (1975)  Dynamic Time Warping Ιστορική Ανασκόπηση 1970’s: Αλγόριθμοι - Τεχνικές

55 The Brute Force of the Engineering Approach TEMPLATE (WORD 7) UNKNOWN WORD T.K. Vyntsyuk (1968) H.Sakoe, S.Chiba (1970) Isolated Words Speaker Dependent Connected Words Speaker Independent Sub-Word Units Ιστορική Ανασκόπηση 70’s: Dynamic Time Warping

 A DARPA* project ( )  Hearsay-II: * DARPA=Defense Advanced Research Projects Agency, is an agency of the USA Department of Defense responsible for the development of new technologies for use by the militaryagencyUSA Department of Defense Ιστορική Ανασκόπηση 70’s: Projects Πρώτες Αξιόλογες Επενδύσεις

57  ARPA SUR : Speech Understanding Project ( )  The shift from isolated to connected word recognition  Spoken Understanding Research program  Ambitious, well-funded project ($15M Funding)  Goal:  1000-word vocabulary, connected speech, constrained grammar,  multi-speaker, 90% understanding rate, real time,  Outcomes: 4 Systems built:  SDC (24%)  BBN’s HWIM (44%)  CMU’s Hearsay II (74%)  CMU’s HARPY (95% -- but 80 times real time!) Raj Reddy -- CMU Ιστορική Ανασκόπηση 1970’s: Projects Πρώτες Αξιόλογες Επενδύσεις

Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης58  Features Developed and Standardized  Mel-Cepstrum (Davis & Mermelstein, 1980)  PLP (Hermansky)  Delta-Cepstrum (Furui)  Αλγόριθμοι (Techniques began to converge)  HMM becomes mainstream, (Rabiner, et.al.1985)  Neural Networks.  Η Στατιστική Προσέγγιση  Από ταυτοποίηση προτύπων (template) σε statistical approaches Ιστορική Ανασκόπηση 1980’s:

Ιστορική Ανασκόπηση 1980’s : Η Στατιστική Προσέγγιση  Statistical “Engineering Approach”  Τα συστήματα χρησιμοποιούν Πιθανοτικά Μοντέλα βγαλμένες από δεδομένα :  Ακουστικά Μοντέλα από μεγάλο πλήθος παραδειγμάτων ομιλίας  Μοντέλα Γλώσσας (language models) από μεγάλο πλήθος σωμάτων κειμένων (text corpora).  Εστίαση σε πραγματική Γλώσσα (actual language) και κάτω από πραγματικές συνθήκες (robustness). 59

60  Based on work on HMMs done by Leonard Baum at IDA, Princeton in the late 1960s  Purely statistical approach pursued by Fred Jelinek and Jim Baker, IBM, T.J. Watson Research,  Foundations of modern speech recognition engines Fred Jelinek S1S1 S2S2 S3S3 a 11 a 12 a 22 a 23 a 33 Acoustic HMMs Word Tri-grams  No Data Like More Data  Whenever I fire a linguist, our system performance improves Jim Baker Ιστορική Ανασκόπηση 1980’s: Η Στατιστική Προσέγγιση

61 Ιστορική Ανασκόπηση 1980’s: Η Στατιστική Προσέγγιση  Statistical approach becomes ubiquitous ( πανταχού παρών )  L. Rabiner, “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”, IEEE, Vol. 77, No. 2, 2/1989.

Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης62  Μεγάλες Βάσεις Δεδομένων Ομιλίας  TIMIT  Wall Street Journal  Common Evaluation Paradigm and Metrics  NIST and LDC Involvement  Αυτόματη Μετάφραση (Focus on MT in Europe)  EUROTRA (Europe),  Rosetta (Philips, Netherlands)  Επενδύσεις on ASR  Large vocabulary, continuous ASR  Japan, USA, EU (EPRIT,)  2nd DARPA Project (1988) Ιστορική Ανασκόπηση 1980’s: Μεγάλες Επενδύσεις

Ιστορική Ανασκόπηση 1990’s : Πρώτη Γενιά εμπορικών προϊόντων  Τεχνικές  “ Ραφινάρισμα ” στην προσέγγιση HMM  Noise Robustness  Decision Tree State Clustering  Speaker Adaptation  Larger tasks, higher complexity, more training data  Continuous speech, using ANN and HMM  Spontaneous Speech  R&D Projects  LRE, LE, HLT  VERBMOBIL, VERBMOBIL-II, 63

Ιστορική Ανασκόπηση 1990’s: Μεγάλες Βάσεις Δεδομένων  ASR Μεθοδολογίες απαιτούν Πολλά Δεδομένα :  “There is no data like more data”  Που οδηγεί στο :  Προγράμματα δημιουργίας δεδομένων (Data creation projects)  Κέντρα διανομής Δεδομένων (Set-up of data distribution centers)  Προγράμματα δημιουργίας standards for data 64

Ιστορική Ανασκόπηση 1990’s: Μεγάλες Βάσεις Δεδομένων  Προγράμματα δημιουργίας δεδομένων (Projects)  Lexicon projects  Multilex, Genelex, Acquilex, ParoleGenelexAcquilexParole  WordNet, EuroWordNet WordNetEuroWordNet  SpeechDat projects SpeechDat projects  SpeechDat,  SpeechDat-Car,  SpeechDat-East, SPEECON, Orientel  Κέντρα διανομής Δεδομένων  LDC (1993) LDC  ELRA (1995) ELRA  Standards:  TEI for text corpo ra, CES, XCES TEI CESXCES  Eagles, ISLE for grammatical properties EaglesISLE 65

Ιστορική Ανασκόπηση 2000’s: Προϊόντα και Υπηρεσίες  Διαλογικά Συστήματα  DARPA EARS Program (2001-)  EARS (Effective, Affordable, Reusable Speech-to-Text)  Γλώσσες : English, Arabic, Mandarin.  Εφαρμογές :  Broadcast News System,  Conversational Telephone System,  Προϊόντα, Υπηρεσίες Apple:  iPhone Apps (Dragon Dictate (for SMS, ), Jibbigo)  Προϊόντα, Υπηρεσίες στην Google:  Μετάφραση (Translation),  Αναζήτηση με ομιλία,  Ανοιχτές πλατφόρμες για κινητά (Android) 66

State of the Art

State of the Art: Τι Δουλεύει καλά Σήμερα  Τα καλύτερα ερευνητικά Συστήματα :  Human-human speech: ~13-20% Word Error Rate (WER)  Human-machine speech: ~3-5% WER  Υψηλής αξιοπιστίας Συστήματα ASR,  Μεγάλου λεξιλογίου (~20,000-60,000 words or more…)  Συνεχούς Ομιλίας,  Ανεξάρτητα ομιλητή ( Συνεργάσιμοι Ομιλητές ),  Περιορισμένου Θορύβου ( Φιλικό Περιβάλλον ),  Μέτριου Λεξιλογίου,  Τυχαία Ομιλία  Μέσω τηλεφώνου  Το λάθος αναγνώρισης :  Τυχαίας Ομιλίας διπλάσιο ομιλίας από ανάγνωση.

State of the Art: Τι Δουλεύει καλά Σήμερα  Διαλογικά Συστήματα :  Εξαρτημένα εφαρμογής  Καλά Προσαρμοσμένα σε εφαρμογές δίνουν καλά αποτελέσματα.

Automatic Speech Recognition

State of the Art: Α SR: Αξιοπιστία (Lippmann, 1997) Corpus Speech Type Lex. Size WER (%) * HER(%) ** Digit Strings (phone) spontaneous Resource Management read ATIS (Air Travel Information Systems) spontaneous Wall Street Journal read ~20K Broadcast News mixed ~64K Switchboard (phone) conversation ~25K Meetings conversation ~25K *WER=Word Error Rate **HER=Word Error Rate Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης71

Commercial Activity 72

Commercial Activity Διαλογικά Συστήματα : Telephone Transactions  Τηλε - Τραπεζικά Συστήματα (banking),  Πληροφορίες :  Λογιαριασμών  Δανείων,  Πληροφορίες Χρηματιστηρίου, Συνάλλαγμα, Μετοχές, Επενδύσεις  Μεταφορά χρημάτων  Εμπόριο - Αγορά  Τηλε - παραγγελίες  Πληροφορίες :  Για νέα προϊόντα  Για αποστολή προϊόντων  Τεχνικές πληροφορίες για προϊόντα 73

 Ταξιδιωτικές Υπηρεσίες  Πληροφορίες  δρομολογίων, καιρικών συνθηκών  Τουριστικές  Κρατήσεις :  Θέσεων  Δωματίων  Ενοικιάσεις Αυτοκινήτων  Συστήματα Τηλεφωνικής Εξυπηρέτησης  Δρομολόγηση κλήσης ( εταιρείες και οργανισμούς )  Αυτόματη Εξυπηρέτηση Κλήσης (11888)  Πληροφορίες τηλεφωνικού καταλόγου 74 Commercial Activity Spoken Dialog Systems: Telephone Transactions

 Διασκέδαση - MEDIA  Πληροφορίες και Ενημέρωση  για Θέατρα, κινηματογράφους  για γεγονότα και προϊόντα  Αρχαιολογικοί χώροι – Μουσεία  Πωλήσεις εισιτηρίων :  Θεάτρων, κινηματογράφων  Δημοσκοπήσεις - Έρευνα Αγοράς  Αυτόματη συγκέντρωση στοιχείων καταναλωτών 75 Commercial Activity Spoken Dialog Systems : Telephone Transactions

Commercial Activity Ενσωματωμένα Συστήματα (Embedded Applications)  Σε Αυτοκίνητο (in-car applications),  Hands-free (in car), Eyes-free (in car)  voice activated dialing, navigation (voice destination entry)  Access Project  Mobile phone/PDA applications  multimodal output e.g. for navigation  Use: speech-in  Directions: speech-out  Speech enabled web interface  (SMS) dictation coming soon 76

Commercial Activity Applying Speech Synthesis (TTS)  Σύνθεση Ομιλίας (Speech Synthesis)  A real industry ( Μερικοί λένε ότι το πρόβλημα έχει λυθεί )  Φωνητική Εξοδος προγραμμάτων  Αυτόματοι τηλεφωνητές  Αυτόματα Συστήματα Παροχής Πληροφοριών  Games  Reading tutors

Commercial Activity Applying Speaker Recognition  Βιομετρική Ταυτοποίηση Χρήστη (Bio Metrics)  Security applications  Access control  Πρόσβαση σε χώρους υψηλής ασφάλειας,  Πρόσβαση σε προσωπικά δεδομένα, ( π. χ. τραπεζικές κινήσεις )  Voice password, (verification)  Speaker identification (1of N)  Δικανικές Εφαρμογές ( Καταπολέμηση εγκλήματος )

Commercial Activity Applying Speech Technology  Εφαρμογές Γραφείου (Office Applications)  Υπαγόρευση κειμένου (Dictation),  medical, legal (Dragon, Philips, L&H)  Speech to Speech Translation  Αυτόματη Μετάφραση (Translation)  Metal, Systra,  Διασκέδαση (Entertainment Technology)  Singing Voices (Synthesis)  Voice Conversion  Κινηματογράφο :  Artificial Characters  Avatar, Talking Heads  Υποτιτλισμός 79

Commercial Activity Applying Speech Technology  Μαθησιακά και Ιατρικά Προβλήματα  Προβλήματα σε Ανάγνωση / Ομιλία, Ομιλία και Ακοή  Ανικανότητα σε ομιλία (e.g., Steven Hawking)  Προβλήματα Ακοής ή Κώφωσης (Hearing-impaired or deaf)  Προβλήματα σε όραση (Screen readers)  Limited mobility  Ανάπτυξη βελτιωμένων υποκατάστατων Ακοής  Εμφυτεύματα Κοχλία (Cochlear Implant)  Εκπαίδευση  Βελτίωση στη Ανάγνωση  Εκμάθηση 2 ης Γλώσσας  Accent reduction

Commercial Activity Applying Speech Technology  Communication ( Κωδικοποίηση Ομιλίας ),  Δορυφορικές Επικοινωνίες (INMARSAT-M κλπ )  Κινητή Τηλεφωνία  Συμπίεση και Αποθήκευση Δεδομένων

Commercial Activity Applying Speech Technology  Command and Control  Έξυπνο σπίτι  Συστήματα ελέγχου μηχανισμών με φωνητικές εντολές  Φωνητικές εντολές στον θάλαμο ελέγχου αεροπλάνων  Wearables

Commercial Activity Companies in Speech Technology  many companies active in Speech technology  IBM, Microsoft, Siemens, Nokia, Philips, Motorola, Matra, Google, Scansoft, Nortel, Nortel, Acapela, SVOX,  Phillips, Dragon, Kurzweil, L&H, SpeechWorks, Nuance, Babel, Loquendo, Rhetorical, Vocalis, Telisma,...  many companies in Language technology  IBM, Microsoft, INSO, Novell,...  GMS, Apptek, Globalink, Lernout & Hauspie,  Systran, LANT (Xplanation),... 83

Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης84 Commercial Activity Companies in Speech Technology

Commercial Activity What are the leading products?  ASR  Microsoft Speech Recognition  IBM ViaVoice  (Linux, Windows, MacOS)  Dragon Naturally Speaking  (Windows)  Speak Q

Commercial Activity What are the leading products?  Dictation  Voice Recorder with Dragon Software Naturally-Speaking/dp/B004M8SU0I/ref=sr_1_2?s=electronics&ie=UTF8&qid= &sr=1-2 Naturally-Speaking/dp/B004M8SU0I/ref=sr_1_2?s=electronics&ie=UTF8&qid= &sr=1-2  Dragon Dictate for iPhone/iPad  Dragon Remote Microphone microphone/id ?mt=8 microphone/id ?mt=8

Commercial Activity What are the leading products?  Telephone transactions  AT&T,  Nuance, VST, etc.  TTS  Dragon NaturalySpeaking (Windows)  Microsoft’s Speech Engine (Windows)  BaBear (Linux, Windows, MacOS)  SpeechWorks (Linux, Sparc & x86 Solaris, Tru64, Unixware, Windows )  Non-commercial  OpenMind Speech (Linux), XVoice (Linux)  CVoiceControl/kVOiceControl (Linux)  GVoice (Linux)

Ερευνητικά Θέματα (Research Topics) 88

Ερευνητικά Θέματα (Research Topics)  Συνδυασμός με άλλα μέσα (modalities)  Πολύ Μεγάλου Λεξιλογίου, χωρίς περιορισμούς.  Co-articulation:  Δύο ( ή περισσότεροι ) ομιλητές ταυτόχρονα, (Cocktail party” effect).  Robustness against noise and other speakers  Περιβάλλον Αυτοκινήτου, in public places (PDAs, mobile phones)  Speaker independence (Speaker Variation)  Αποκλίσεις σε Διάλεκτο,  Non-native speakers  Τυχαίας Ομιλίας (Spontaneous speech)  Disfluencies ("huh", "uh", "erm","well", και ανολοκλήρωτες φράσεις ),  Νέες λέξεις (out-of-vocabulary words) 89

Ερευνητικά Θέματα (Research Topics)  Η Επικοινωνία Ανθρώπου - Μηχανής  με φυσική ομιλία (user driven)  Πολυγλωσσική Τηλε - ενημέρωση και Τηλε - εξυπηρέτηση  Αυτόματη Πολυγλωσσική Μετάφραση (Multiple Languages)  Από Κείμενο σε Κείμενο (Text-to-Text)  Από Ομιλία σε Ομιλία ( Speech–to-Speech Translation) 90

Ερευνητικά Θέματα (Research Topics)  Σύνθεση Ομιλίας  Quality (Humanizing the machine's voice)  Προφορά (Speaker Accent)  Prosody,  Συναισθητική ομιλία  Εξόρυξη πληροφορίας από δεδομένα Ομιλίας (Audiomining)  Radio/TV-broadcasts,  parliamentary sessions,  Speech summarization  Αυτόματη Πρακτικογράφηση  Meetings & Lectures 91

Ερευνητικά Θέματα (Research Topics)  Πανταχού Παρών Υπολογιστές (Ubiquitous)  Wearable Computers  Speech Understanding anytime-anywhere  “Mobile” and “On-the-Move”  Κινηματογράφος :  Αυτόματος Υποτιτλισμός  Αυτόματη Μετάφραση  Human Computer Interaction (HCI)  Εικονικοί Πράκτορες (Avatar, Talking Heads)  Χειρισμός και Προγραμματισμός υπολογιστών με φυσική ομιλία

Η Τεχνολογία Ομιλίας το 2013:  Συναρπαστική Περιοχή !  Πολλές Εμπορικές Δραστηριότητες, και Επεκτάσεις.  Μεγάλη Ερευνητική Κοινότητα.  Πολλά ενδιαφέροντα Θέματα μένουν ανοιχτά για έρευνα. 93

Projects Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης94  >35 Ευρωπαϊκών Ερευνητικών Προγραμμάτων  >1,000 διεθνών δημοσιεύσεων  >20 Διδακτορικές Διατριβές

Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης95  Voice Portal ΗΜ&ΤΥ  Call Router ΗΜ&ΤΥ

Voice Portal ΗΜ&ΤΥ: Καρτέλα Φοιτητή 96 Πανεπιστήμιο Πατρών, Τμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών, Εργαστήριο Ενσύρματης Τηλεπικοινωνίας Υπηρεσίες για όλους τους χρήστες ( Φοιτητές) – Εγγραφή Φοιτητών – Πληροφορίες – για Υπηρεσίες – φοιτητική εστία, – μετακίνηση φοιτητών – για σχολής-τμήματος – Ωρολόγιο πρόγραμμα – Πρόγραμμα εξετάσεων Υπηρεσίες για εξουσιοδοτημένους χρήστες – Διαχείριση καρτέλας φοιτητή μέσω τηλεφώνου Βαθμός συγκεκριμένου μαθήματος Βαθμοί τελευταίας εξεταστικής Βαθμοί εξαμήνου Έκδοση Πιστοποιητικών

Voice Portal ΗΜ&ΤΥ: Call Router ΗΜ&ΤΥ 97 Πανεπιστήμιο Πατρών, Τμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών, Εργαστήριο Ενσύρματης Τηλεπικοινωνίας Δρομολόγηση Εσωτερικών και Εξωτερικών κλήσεων, 24/7, – Ελάφρυνση γραμματειακού φόρτου

Inspire Project 98 Πανεπιστήμιο Πατρών, Εργαστήριο Ενσύρματης Τηλεπικοινωνίας

Inspire Project  Χειρισμός Οικιακών συσκευών με φυσική ομιλία  (INfotainment management with SPeech Interaction via Remote-microphones and tElephone interfaces)  Χειρισμός με φυσική ομιλία :  Οικιακών συσκευών ( τηλεόραση, ραδιόφωνο κτλ )  Έξυπνων συσκευών ( πόρτα, περσίδες κτλ )  Πρόσβαση σε πληροφορίες,  Ώρες προβολής ταινίας  Πρόγραμμα τηλεόρασης, κτλ.  Δυνατότητα απομακρυσμένης πρόσβασης ( τηλέφωνο ) 99 Πανεπιστήμιο Πατρών, Εργαστήριο Ενσύρματης Τηλεπικοινωνίας

Inspire Project 100 Πανεπιστήμιο Πατρών,

Τεχνολογία ΟμιλίαςΝίκος Φακωτάκης101 Play Μ ancer Project

 Ανάπτυξη Πλατφόρμας Σοβαρών Παιγνίων και Εφαρμογές για Ασθενείς  (Serious games platform for health applications on pain rehabilitation and mental health)  Ανάπτυξη πλατφόρμας που δέχεται πολυαισθητήριες εισόδους  Μικρόφωνο  Κάμερα  Βιοσήματα  Ανιχνευτές κίνησης  Ανάπτυξη σοβαρών παιγνίων για ασθενείς με :  Κινητικά προβλήματα  Νοητικές διαταραχές  Προβλήματα εθισμού σε τυχερά παιχνίδια Διατροφικές διαταραχές 102

PlayMancer Project 103 Πανεπιστήμιο Πατρών, ΤΗΜ&ΤΥ, Εργαστήριο Ενσύρματης Τηλεπικοινωνίας (8’:47”)

MoveOn Project 104 Πανεπιστήμιο Πατρών,

MoveOn Project  Πολυτροπική, Πολυαισθητήρια πρόσβαση σε πληροφορίες για Μοτοσικλετιστές  (Multi-modal and multi-sensor zero-distraction interaction interface for two wheel vehicles ONthe move)  Πολυαισθητήρια πρόσβαση σε πληροφορίες  Ανάπτυξη διεπαφής ομιλίας για μοτοσικλετιστές  Χειρισμός κάμερας  Επικοινωνία μέσω ασυρμάτου  Εύρεση πινακίδας  Αποφυγή απόσπασης της προσοχής 105 Πανεπιστήμιο Πατρών,

MoveOn Project 106 Πανεπιστήμιο Πατρών, (4’:37”)

Prometheus Project 107 Πανεπιστήμιο Πατρών,

Prometheus Project  Πρόβλεψη και Κατανόηση Ανθρώπινης συμπεριφοράς μέσω ετερογενών αισθητήρων  (Prediction & interpretation of human behavior using probabilistic structures and heterogeneous sensors)  Μείξη πληροφοριών από πολλούς αισθητήρες  Μικρόφωνο ( συστοιχίες )  Κάμερα, Θερμοκάμερα κ. α.  Μοντελοποίηση Ανθρώπινης Συμπεριφοράς  Εντοπισμό, Παρακολούθηση, Αναγνώριση και Πρόβλεψη συμπεριφοράς ανθρώπων σε ανοιχτούς ή κλειστούς χώρους 108 Πανεπιστήμιο Πατρών,

Prometheus Project 109 Πανεπιστήμιο Πατρών

Ομάδα Τεχνητής Νοημοσύνης-Αναγνώρισης Προτύπων  Μοντελοποίηση Ανθρώπινης Συμπεριφοράς (1’:40”)  Εντοπισμό, Παρακολούθηση, Αναγνώριση και Πρόβλεψη συμπεριφοράς ανθρώπων σε ανοιχτούς ή κλειστούς χώρους Prometheus Project

AmiBio Project 111 Πανεπιστήμιο Πατρών,

AmiBio Project  Αυτόματη Ακουστική Παρακολούθηση και Καταγραφή της Βιοποικιλότητας  (Automatic acoustic monitoring and inventorying of biodiversity)  Σχεδίαση & Κατασκευή Αυτόνομων Σταθμών Πολλαπλών Αισθητήρων,  Εγκατάσταση σε διάφορες τοποθεσίες του δάσους, Περιοχή Υμηττού.  Συγκέντρωση και Μετάδοση καταγραφές ήχων κλπ, σε ΚΣ.  Αυτόματη Ανάλυση των δεδομένα, Με Σκοπό Καταγραφή και Παρακολούθηση της Δραστηριότητας της Βιοποικιλότητας 112 Πανεπιστήμιο Πατρών,

AmiBio Project: Αποτελέσματα :  Εκτίμηση του Αριθμού των Ειδών και της Πυκνότητας τους, από την ακουστική δραστηριότητα τους,  Πτηνά, Θηλαστικά, Αμφίβια, Έντομα  Καταγραφή Επίπεδα Μόλυνσης, Καταστροφής Βιοτόπου,  Παρακολούθηση της Παρουσίας / Απουσίας ειδών  Σπάνιων ειδών ή ειδών υπό Εξαφάνιση,  Παρακολούθηση πουλιών που Μεταναστεύουν  κατά τη διάρκεια της νύχτας,  Εκτίμηση της υγείας ορισμένων ειδών,  24/7 Παρακολούθηση  Ενημέρωση καταστάσεων κινδύνου ή κρίσεων :  Φυσικές καταστροφές ( καταιγίδες, πυρκαγιές, κτλ.),  Καταστροφικές Ανθρώπινες Δραστηριότητες ( μη - τυπικά ηχητικά γεγονότα : πυροβολισμοί, κοπή δέντρων, motocross κτλ. 113 Πανεπιστήμιο Πατρών,

AmiBio Project 114 Πανεπιστήμιο Πατρών, Τμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών, Εργαστήριο Ενσύρματης Τηλεπικοινωνίας (2’:35”)