Συμπίεση και Μετάδοση Πολυμέσων

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Ψηφιακές και Αναλογικές Πηγές
Advertisements

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία
Συμπίεση και Μετάδοση Πολυμέσων
CD ΠΡΟΤΥΠΑ «Κόκκινο Βιβλίο»: Philips, Sony, 1980 Καθιέρωση CD-Audio
Ήχος.
Κεφάλαιο 11ο Δομικά στοιχεία εφαρμογής πολυμέσων
Εικόνα, Ήχος Δημήτρης Κόκκας Ε.Ε.ΔΙ.Π. Εργαστήριο Πληροφορικής Γ.Π.Α.
Υπολογιστής και Μουσική
Συμπίεση και Μετάδοση Πολυμέσων
Γυμνάσιο Νέας Κυδωνίας
Συμπίεση και Μετάδοση Πολυμέσων
ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΩΝ.
Σημειώσεις για την Α’ Λυκείου
ΒΑΣΙΚΕΣ ΑΣΚΗΣΕΙΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΟΣ
ΣΥΜΠΙΕΣΗ Τεράστιες ανάγκες σε αποθηκευτικό χώρο Παράδειγμα:
Συμπίεση και Μετάδοση Πολυμέσων
Αναλογικά και Ψηφιακά Σήματα και Αρχές Τηλεπικοινωνιών
ΜΕΡΟΣ Α : ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΚΑ ΘΕΜΑΤΑ ΕΝΟΤΗΤΑ Νο. 3 ΤΕΧΝΙΚΕΣ ΚΩΔΙΚΟΠΟΙΗΣΗΣ ΠΗΓΗΣ - Η ΠΕΡΙΠΤΩΣΗ ΤΗΣ ΦΩΝΗΣ ΚΙΝΗΤΑ ΔΙΚΤΥΑ ΕΠΙΚΟΙΝΩΝΙΩΝ.
Τμήμα Μηχανικών Η/Υ και Πληροφορικής
Συμπίεση Ήχου με βάση την Αντίληψη:
Αρχές και Πρότυπα Συμπίεσης
ΗΧΟΣ ΚΑΙ ΕΦΑΡΜΟΓΕΣ Ήχος σε δεύτερο πλάνο σε εφαρμογές πολυμέσων (εστίαση σε βίντεο) Επικέντρωση σε ψυχαγωγικές ή εκπαιδευτικές εφαρμογές (π.χ. Information.
Συμπίεση και Μετάδοση Πολυμέσων
ΤΕΧΝΟΛΟΓΙΑ ΕΠΙΚΟΙΝΩΝΙΩΝ 1 ο Λύκειο Ρόδου Δημήτρης Γεωργαλίδης.
Τεχνολογίες και Εφαρμογές Πολυμέσων
ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΗΧΟΥ
ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΗΧΟΥ
ΣΥΣΤΗΜΑΤΑ ΣΥΛΛΟΓΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΜΕΤΡΗΣΕΩΝ
Ψηφιακή Αναπαράσταση Σήματος:
Ψηφιακές Επικοινωνίες Video Δ. Καλογεράς. Περιεχόμενα του μαθήματος 1- Το περιβάλλον 2- Αντικείμενα του μαθήματος 3- Εργασίες 4- Βιβλιογραφία -Αναφορές.
Συμπίεση και Μετάδοση Πολυμέσων
Συμπίεση Ηχου.
Μορφοποίηση παλμων.
HY530 “ΨΗΦΙΑΚΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ”
ΒΕΣ 06: Προσαρμοστικά Συστήματα στις Τηλεπικοινωνίες © 2007 Nicolas Tsapatsoulis Θεωρία Στοχαστικών Σημάτων: Εκτίμηση φάσματος, Παραμετρικά μοντέλα ΒΕΣ.
3ο ΚΕΦΑΛΑΙΟ Ψηφιακές Συσκευές Επεξεργασίας Ήχου.
ΒΕΣ 04: Συμπίεση και Μετάδοση Πολυμέσων Ήχος και Πολυμέσα.
Επικοινωνίες δεδομένων
ΑΝΙΧΝΕΥΣΗ ΚΑΙ ΔΙΟΡΘΩΣΗ ΣΦΑΛΜΑΤΩΝ
ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Βασικές Έννοιες Ψηφιοποίηση Συνεχών Σημάτων
Πανεπιστήμιο Αιγαίου Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Χαρακτηριστικά του ψηφιακού ήχου.
3ο ΚΕΦΑΛΑΙΟ Ψηφιακές Συσκευές Επεξεργασίας Ήχου.
Δομικά στοιχεία πολυμέσων
Ο ήχος στη ψηφιακή εποχή.
Άνοιξη Συμπίεση Δεδομένων και Σημάτων Γιώργος Τζιρίτας Τμήμα Επιστήμης Υπολογιστών
Ανεξάρτητα από το θέμα που διαπραγματεύεται μια εφαρμογή πολυμέσων, συνήθως χρειάζεται λεκτική ανάπτυξη, ηχητική επένδυση και οπτική υποστήριξη. Τα κείμενα.
ΨηφιοποίησηΨηφιοποίηση Οι περισσότερες μεταβολές επηρεάζονται από τον Η/Υ. Τα συστήματα μετατρέπονται ώστε να μπορούν να συνδέονται με Υπολογιστές.
Εισαγωγή, Βασικές τεχνικές συμπίεσης ήχου (PCM, ADPCM)
ΒΕΣ 04: Συμπίεση και Μετάδοση Πολυμέσων © 2006 Nicolas Tsapatsoulis Συμπίεση δεδομένων: Εισαγωγή, Κατηγορίες τεχνικών συμπίεσης, Ανάλυση βασικών τεχνικών.
ΗΜΥ 007 – Τεχνολογία Πληροφορίας Διάλεξη 8 Ηχητική Πληροφορία 19 Φεβρουαρίου, 2004 Χρυσάνθη Πρέζα, D.Sc. Επισκέπτρια Επίκουρη Καθηγήτρια TΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ.
ΔΤΨΣ 150: Ψηφιακή Επεξεργασία Εικόνας © 2005 Nicolas Tsapatsoulis Συμπίεση Ψηφιακών Εικόνων: Συμπίεση με απώλειες – Πρότυπα Συμπίεσης Εικόνων Τμήμα Διδακτικής.
Β. ΧΡΙΣΤΟΦΙΛΑΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΗΛΕΚΤΡΟΝΙΚΗΣ-ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ & ΕΦΑΡΜΟΓΩN ΤΟΜΕΑΣ ΙV ΤΜΗΜΑ ΦΥΣΙΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ
Ήχος Ως Δομικό στοιχείο των Πολυμέσων. Ήχος  Διευκολύνει την παρακολούθηση μιας εφαρμογής Ακουστικής απόλαυσης Εντυπωσιασμός μέσω των ηχητικών εφέ 
ΗΜΥ 100 Εισαγωγή στην Τεχνολογία Στυλιανή Πετρούδη ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ.
Ενότητα 2 η Σήματα και Συστήματα. Σήματα Γενικά η πληροφορία αποτυπώνεται και μεταφέρεται με την βοήθεια των σημάτων. Ως σήμα ορίζουμε την οποιαδήποτε.
1 ο ΚΕΦΑΛΑΙΟ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ 1. εισαγωγή Η ανάπτυξη της ψηφιακής τεχνολογίας, των ψηφιακών συστημάτων και των υπολογιστών έδωσαν τα τελευταία χρόνια ώθηση.
Επεξεργασία Ομιλίας & Ήχου Ενότητα # 6: Linear Predictive Coding Ιωάννης Καρύδης Τμήμα Πληροφορικής.
ΚΙΝΗΤΕΣ & ΔΟΡΥΦΟΡΙΚΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ 4 Ο ΚΕΦΑΛΑΙΟ Π ΑΡΕΜΒΟΛΕΣ ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ 1.
3 ο ΚΕΦΑΛΑΙΟ ΨΗΦΙΑΚΗ ΔΙΑΜΟΡΦΩΣΗ 1. ASK Ψηφιακή διαμόρφωση πλάτους – Amplitude shift keying – Αποθήκευση πληροφορίας στο πλάτος Δυαδική ASK – On Off Modulation.
29/11/061 Ήχος Φυσικά χαρακτηριστικά του ήχου Αντίληψη του ήχου Ψηφιοποίηση ήχου MIDI Συμπίεση αρχείων ήχου Επεξεργασία ήχου Streaming Audio.
2 ο ΚΕΦΑΛΑΙΟ ΜΕΤΑΔΟΣΗ ΣΕ ΒΑΣΙΚΗ ΖΩΝΗ 1. Διασυμβολική Παρεμβολή (1/2) Intersymbol Interference - ISI 2.
Τεχνολογία Πολυμέσων Ενότητα # 10: Κωδικοποίηση ήχου
Τεχνολογία Πολυμέσων Ενότητα # 8: Αρχές κωδικοποίησης
ΝΙΚΟΣ ΦΑΚΩΤΑΚΗΣ Καθηγητής
ΕΝΟΤΗΤΑ 1 – Κεφάλαιο 3: Πολυμέσα
Βιομηχανικός έλεγχος στην εποχή των υπολογιστών
Τεχνική ανάλυση του οπτικοακουστικού μέσου
Απαιτήσεις Δικτύου για Ηχητικά και Video Σήματα
ΚΙΝΗΤΑ ΔΙΚΤΥΑ ΕΠΙΚΟΙΝΩΝΙΩΝ
Εισαγωγή στα Προσαρμοστικά Συστήματα
Μεταγράφημα παρουσίασης:

Συμπίεση και Μετάδοση Πολυμέσων ΒΕΣ 04: Συμπίεση και Μετάδοση Πολυμέσων Συμπίεση Ήχου

Περιεχόμενα Μέθοδοι συμπίεσης ηχητικών σημάτων DPCM Συμπίεση σημάτων ομιλίας Κωδικοποίηση με βάση την αντίληψη Χαρακτηριστικά και εφαρμογές Ψυχοακουστική (psychoacoustics) Συνοπτική εικόνα Το MPEG-1 Audio frame Bits Allocation

Βιβλιογραφία Καγιάφας [2000]: Κεφάλαιο 5, [link] Halsall [2001]: Chapter 4, pp. 173-190 Peter Noll, "MPEG Digital Audio Coding," IEEE Signal Processing Magazine, September 1997, pp. 59-81 Karlheinz Brandenburg, "MP3 and AAC explained," Proceedings of the AES 17th International Conference on High Quality Audio Coding, Florence, Italy, 1999. Davis Pan, "A Tutorial on MPEG/Audio Compression," IEEE Multimedia Vol. 2, No. 7, 1995, pp. 60-74.

Μέθοδοι συμπίεσης ηχητικών σημάτων DPCM Συμπίεση σημάτων ομιλίας LPC (Linear Predictive Coding) Αναγνώριση από το σήμα ομιλίας των χαρακτηριστικών: Pitch Duration (Διάρκεια) Ένταση και χρήση τους για τη σύνθεση ομιλίας στον δέκτη CELP (Code Excited Linear Prediction) Πιο εξελιγμένη μορφή από την LPC η οποία χρησιμοποιεί μια σειρά από μοντέλα για την προσομοίωση της φωνητικής οδού και επιτυγχάνει ποιότητα ομιλίας μορφής τηλεδιάσκεψης Το LPC και το CELP επιτυγχάνουν ρυθμούς μετάδοσης έως και 2.4 ή 4.8 Kbps αντίστοιχα Κωδικοποίηση με βάση την αντίληψη

Κωδικοποίηση με βάση την αντίληψη Υπάρχουν πολλοί αλγόριθμοι κωδικοποίησης με βάση την αντίληψη οι κυριότεροι από τους οποίους βασίζονται στο πρότυπο MPEG (Moving Picture Expert Groups) Είναι αλγόριθμοι συμπίεσης με απώλειες και βασίζονται στη λογική της μη μετάδοσης του τμήματος εκείνου ενός ηχητικού (ή οπτικού) σήματος το οποίο δεν μπορεί να γίνει αντιληπτό από τα ανθρώπινα αισθητήρια όργανα Για την συμπίεση ήχου λαμβάνονται τρία βασικά χαρακτηριστικά του ακουστικού συστήματος του ανθρώπου: Διακριτική ικανότητα αντίληψης συχνοτήτων από το αυτί (critical band) Φασματική κάλυψη (Spectral masking) Χρονική κάλυψη (Temporal masking)

Βασικό διάγραμμα κωδικοποίησης με βάση την αντίληψη Κωδικοποίηση με βάση την αντίληψη => Βασικό διάγραμμα κωδικοποίησης με βάση την αντίληψη

Χαρακτηριστικά και εφαρμογές Κωδικοποίηση με βάση την αντίληψη => Χαρακτηριστικά και εφαρμογές To MPEG-1 είναι πρότυπο κωδικοποίησης βίντεο και audio: Προβλεπόμενος ρυθμός μετάδοσης 1.5 Mbits/sec συνολικά, περίπου 1.2 Mbits/sec για βίντεο και 0.3 Mbits/sec για τον ήχο Υπενθυμίζεται ότι για ασυμπίεστο ήχο ποιότητας CD απαιτούνται 44,100 samples/sec * 16 bits/sample * 2 channels > 1.4 Mbits/sec. Άρα χρειάζεται συμπίεση της τάξης του 4.5 έως 5 προς 1. Με το MPEG-1 audio και λόγο συμπίεσης 6:1 (ρυθμός μετάδοσης 256 kbits/sec) και σε βέλτιστες συνθήκες ακρόασης ακόμη και έμπειροι ακροατές αδυνατούν να αναγνωρίσουν το συμπιεσμένο από τον ασυμπίεστο ήχο. Το MPEG audio υποστηρίζει συχνότητες δειγματοληψίας 32, 44.1 και 48 KHz. Υποστηρίζονται ένα ή δύο κανάλια σε τέσσερις δυνατούς συνδυασμούς: Μονοφωνικός ήχος (Monophonic - single audio channel) Δύο μονοφωνικά κανάλια (Dual-monophonic - two independent channels, e.g., English and French) Στερεοφωνικός ήχος (Stereo) Στερεοφωνικός ήχος με εκμετάλλευση του πλεονασμού της πληροφορίας ανάμεσα στα δύο κανάλια.

Ψυχοακουστική (psychoacoustics) Κωδικοποίηση με βάση την αντίληψη => Ψυχοακουστική (psychoacoustics) Εξέταση των δυνατοτήτων του ανθρώπινου ακουστικού συστήματος: Ακουστική ικανότητα σε σχέση με τη συχνότητα (threshold of hearing) Διακριτική ικανότητα αυτιού σε σχέση με τη συχνότητα (critical bands) Φασματική κάλυψη (spectral masking) Χρονική κάλυψη (temporal masking)

Ακουστική Ικανότητα σε σχέση με τη συχνότητα Κωδικοποίηση με βάση την αντίληψη => Ψυχοακουστική => Ακουστική Ικανότητα σε σχέση με τη συχνότητα

Ακουστική Ικανότητα σε σχέση με τη συχνότητα (λογαριθμική κλίμακα) Κωδικοποίηση με βάση την αντίληψη => Ψυχοακουστική => Ακουστική Ικανότητα σε σχέση με τη συχνότητα (λογαριθμική κλίμακα)

Διακριτική ικανότητα αυτιού σε σχέση με τη συχνότητα (Critical Bands) Κωδικοποίηση με βάση την αντίληψη => Ψυχοακουστική => Διακριτική ικανότητα αυτιού σε σχέση με τη συχνότητα (Critical Bands) Η ακουστική ικανότητα του αυτιού μπορεί να προσομοιωθεί με το άθροισμα μιας σειράς ζωνοπερατών φίλτρων με εύρος ζώνης: Περίπου 100 Hz για συχνότητες <500 Hz Κάθε περιοχή που αντιστοιχεί στο εύρος ζώνης ενός ζωνοπερατού φίλτρου ονομάζεται κρίσιμη περιοχή συχνοτήτων (critical band) Η διακριτική ικανότητα του αυτιού, σε σχέση με τις συχνότητες, εντός της κρίσιμης περιοχής συχνοτήτων είναι σχετικά περιορισμένη ενώ αντίθετα το αυτί μπορεί πολύ εύκολα να διακρίνει συχνότητες που ευρίσκονται σε διαφορετικά critical bands π.χ. μπορεί να διακρίνει τις συχνότητες 370 Hz και 430 Hz ανεξάρτητα την ισχύ που έχει καθεμία από αυτές (εφόσον φυσικά η ένταση τους ξεπερνά την ελάχιστη ακουστή τιμή) γιατί υπάγονται σε διαφορετικά critical bands (band # 4, band # 5) ενώ δεν μπορεί να διακρίνει τις συχνότητες 650 Hz και 740 Hz γιατί υπάγονται στο ίδιο critical bands (band # 7). Το φαινόμενο της φασματικής κάλυψης είναι ισχυρότερο εντός ενός critical band Σύμφωνα με τη σχέση bw = 25 +75·{1+1.4·(f/1000)2}0.69, για συχνότητες f > 500 Hz Η διακριτική ικανότητα του αυτιού σε σχέση με τις συχνότητες οδήγησε στη χρήση φίλτρων ανάλυσης σε ζώνες (subband filters) στο πλαίσιο της κωδικοποίησης με βάση την αντίληψη

Φασματική κάλυψη και Χρονική κάλυψη Κωδικοποίηση με βάση την αντίληψη => Ψυχοακουστική => Φασματική κάλυψη και Χρονική κάλυψη

MPEG-1 Audio Coder, Layer II - Συνοπτική Εικόνα Κωδικοποίηση με βάση την αντίληψη => MPEG-1 Audio Coder, Layer II - Συνοπτική Εικόνα Βήματα κωδικοποίησης με βάση την αντίληψη: Χρήση 36 x 32 δείγματα = 1152 (samples) Με δειγματοληψία 48000 samples /sec αυτό αντιστοιχεί σε διάρκεια 24 ms Ανάλυση κάθε ομάδας 1152 δειγμάτων σε 32 ζώνες συχνοτήτων (για δειγματοληψία στα 48 kHz κάθε ζώνη έχει εύρος 750 Hz). Υπολογισμός του μέγιστου συντελεστή (scalefactor) σε κάθε ζώνη συχνοτήτων (ομάδα 36 samples) Υπολογισμός της κάλυψης (φασματικής και χρονικής) για κάθε ζώνη συχνοτήτων (χρησιμοποιώντας το σύνολο των 36 x 32 = 1152 δείγματα με χρήση του FFT) Αν η ισχύς σε κάποια ζώνη συχνοτήτων είναι μικρότερη από το κατώφλι κάλυψης τότε αυτή η ζώνη συχνοτήτων δεν κωδικοποιείται (0 bits) Σε διαφορετική περίπτωση υπολογίζουμε τον αριθμό των bits που απαιτούνται για την κωδικοποίηση της έντασης του σήματος που υπερβαίνει το κατώφλι κάλυψης (1 bit προσθέτει 6.02 db σηματοθορυβικού λόγου) Μορφοποίηση του frame και μετάδοση

Κωδικοποίηση με βάση την αντίληψη => Συνοπτική Εικόνα (ΙΙ)

Ο κωδικοποιητής ήχου MPEG-1 (Layer I & II) Κωδικοποίηση με βάση την αντίληψη => Ο κωδικοποιητής ήχου MPEG-1 (Layer I & II)

Το MPEG-1 Audio frame Κωδικοποίηση με βάση την αντίληψη => Επικεφαλίδα (header) 32 bits CRC (Cyclic Redundancy Code) 0-16 bits, προαιρετικό για έλεγχο σφαλμάτων Bit allocation: Δηλώνει τον αριθμό των bits που χρησιμοποιούνται για την κωδικοποίηση των δειγμάτων σε κάθε μία από της 32 ζώνες. Κάθε δείγμα μπορεί να κωδικοποιηθεί σε 0-15 bits άρα χρειάζονται 4 bits για να μας δώσουν αυτή την πληροφορία Scale factors: Για τις ζώνες συχνοτήτων που δεν έχουν μηδενικό bit allocation η μέγιστη τιμή κάθε μιας από τις 32 ζωνες (στο σύνολο των 36 δειγμάτων) κωδικοποιείται με 6 bits. Δείγματα (Samples): κωδικοποίηση των 1152 (36 x 32) δειγμάτων με βάση των αριθμό των bits που υποδηλώνονται στο πεδίο bit allocation. Συμπληρωματικά δεδομένα (Ancillary data): προαιρετικά

Bit Allocation Κωδικοποίηση με βάση την αντίληψη => Κατώφλι φασματικής κάλυψης ανά ζώνη Ακουστική ικανότητα στις 32 ζώνες

Bit Allocation (ΙΙ) Κωδικοποίηση με βάση την αντίληψη => Ισχύ σήματος ανά ζώνη Συνολικό κατώφλι (masking threshold)

Bit Allocation (ΙΙΙ) Κωδικοποίηση με βάση την αντίληψη => Διαφορά ισχύος σήματος από κατώφλι κάλυψης (ανά ζώνη)

Bit Allocation (ΙV) Κωδικοποίηση με βάση την αντίληψη => Απαιτούμενα bits για κωδικοποίηση ανά ζώνη

Bit Allocation (V) Κωδικοποίηση με βάση την αντίληψη => Περιθώριο ασφαλείας (διαφορά μπλε από κόκκινο)

Υπολογισμός βαθμού συμπίεσης Κωδικοποίηση με βάση την αντίληψη => Υπολογισμός βαθμού συμπίεσης Στο παράδειγμα μας έχουμε 36 x 32 = 1152 δείγματα Σε ασυμπίεστη μορφή απαιτούνται 2304 bytes (16 bits / δείγμα) Με βάση τον αλγόριθμο που περιγράψαμε έχουμε: 32 bits επικεφαλίδα 128 bits για καθορισμό του bit allocation 8 x 6 = 48 bits για κωδικοποίηση των 8 μη μηδενικών scaling factors 25 x 36 = 900 bits για κωδικοποίηση των δειγμάτων (8 μη μηδενικές ομάδες δειγμάτων με αριθμό bits όπως υπολογίστηκε νωρίτερα) Σύνολο: 1108 bits => 139 bytes Συμπίεση περίπου 30:1 !

Ο κωδικοποιητής ήχου MPEG-1 (Layer III) Κωδικοποίηση με βάση την αντίληψη => Ο κωδικοποιητής ήχου MPEG-1 (Layer III)