Συμπίεση και Μετάδοση Πολυμέσων

Συμπίεση και Μετάδοση Πολυμέσων
ΒΕΣ 04: Συμπίεση και Μετάδοση Πολυμέσων Συμπίεση Ήχου

Περιεχόμενα Μέθοδοι συμπίεσης ηχητικών σημάτων
DPCM Συμπίεση σημάτων ομιλίας Κωδικοποίηση με βάση την αντίληψη Χαρακτηριστικά και εφαρμογές Ψυχοακουστική (psychoacoustics) Συνοπτική εικόνα Το MPEG-1 Audio frame Bits Allocation

Βιβλιογραφία Καγιάφας [2000]: Κεφάλαιο 5, [link]
Halsall [2001]: Chapter 4, pp Peter Noll, "MPEG Digital Audio Coding," IEEE Signal Processing Magazine, September 1997, pp Karlheinz Brandenburg, "MP3 and AAC explained," Proceedings of the AES 17th International Conference on High Quality Audio Coding, Florence, Italy, 1999. Davis Pan, "A Tutorial on MPEG/Audio Compression," IEEE Multimedia Vol. 2, No. 7, 1995, pp

Μέθοδοι συμπίεσης ηχητικών σημάτων
DPCM Συμπίεση σημάτων ομιλίας LPC (Linear Predictive Coding) Αναγνώριση από το σήμα ομιλίας των χαρακτηριστικών: Pitch Duration (Διάρκεια) Ένταση και χρήση τους για τη σύνθεση ομιλίας στον δέκτη CELP (Code Excited Linear Prediction) Πιο εξελιγμένη μορφή από την LPC η οποία χρησιμοποιεί μια σειρά από μοντέλα για την προσομοίωση της φωνητικής οδού και επιτυγχάνει ποιότητα ομιλίας μορφής τηλεδιάσκεψης Το LPC και το CELP επιτυγχάνουν ρυθμούς μετάδοσης έως και 2.4 ή 4.8 Kbps αντίστοιχα Κωδικοποίηση με βάση την αντίληψη

Κωδικοποίηση με βάση την αντίληψη
Υπάρχουν πολλοί αλγόριθμοι κωδικοποίησης με βάση την αντίληψη οι κυριότεροι από τους οποίους βασίζονται στο πρότυπο MPEG (Moving Picture Expert Groups) Είναι αλγόριθμοι συμπίεσης με απώλειες και βασίζονται στη λογική της μη μετάδοσης του τμήματος εκείνου ενός ηχητικού (ή οπτικού) σήματος το οποίο δεν μπορεί να γίνει αντιληπτό από τα ανθρώπινα αισθητήρια όργανα Για την συμπίεση ήχου λαμβάνονται τρία βασικά χαρακτηριστικά του ακουστικού συστήματος του ανθρώπου: Διακριτική ικανότητα αντίληψης συχνοτήτων από το αυτί (critical band) Φασματική κάλυψη (Spectral masking) Χρονική κάλυψη (Temporal masking)

Βασικό διάγραμμα κωδικοποίησης με βάση την αντίληψη
Κωδικοποίηση με βάση την αντίληψη => Βασικό διάγραμμα κωδικοποίησης με βάση την αντίληψη

Χαρακτηριστικά και εφαρμογές
Κωδικοποίηση με βάση την αντίληψη => Χαρακτηριστικά και εφαρμογές To MPEG-1 είναι πρότυπο κωδικοποίησης βίντεο και audio: Προβλεπόμενος ρυθμός μετάδοσης 1.5 Mbits/sec συνολικά, περίπου 1.2 Mbits/sec για βίντεο και 0.3 Mbits/sec για τον ήχο Υπενθυμίζεται ότι για ασυμπίεστο ήχο ποιότητας CD απαιτούνται 44,100 samples/sec * 16 bits/sample * 2 channels > 1.4 Mbits/sec. Άρα χρειάζεται συμπίεση της τάξης του 4.5 έως 5 προς 1. Με το MPEG-1 audio και λόγο συμπίεσης 6:1 (ρυθμός μετάδοσης 256 kbits/sec) και σε βέλτιστες συνθήκες ακρόασης ακόμη και έμπειροι ακροατές αδυνατούν να αναγνωρίσουν το συμπιεσμένο από τον ασυμπίεστο ήχο. Το MPEG audio υποστηρίζει συχνότητες δειγματοληψίας 32, 44.1 και 48 KHz. Υποστηρίζονται ένα ή δύο κανάλια σε τέσσερις δυνατούς συνδυασμούς: Μονοφωνικός ήχος (Monophonic - single audio channel) Δύο μονοφωνικά κανάλια (Dual-monophonic - two independent channels, e.g., English and French) Στερεοφωνικός ήχος (Stereo) Στερεοφωνικός ήχος με εκμετάλλευση του πλεονασμού της πληροφορίας ανάμεσα στα δύο κανάλια.

Ψυχοακουστική (psychoacoustics)
Κωδικοποίηση με βάση την αντίληψη => Ψυχοακουστική (psychoacoustics) Εξέταση των δυνατοτήτων του ανθρώπινου ακουστικού συστήματος: Ακουστική ικανότητα σε σχέση με τη συχνότητα (threshold of hearing) Διακριτική ικανότητα αυτιού σε σχέση με τη συχνότητα (critical bands) Φασματική κάλυψη (spectral masking) Χρονική κάλυψη (temporal masking)

Ακουστική Ικανότητα σε σχέση με τη συχνότητα
Κωδικοποίηση με βάση την αντίληψη => Ψυχοακουστική => Ακουστική Ικανότητα σε σχέση με τη συχνότητα

Ακουστική Ικανότητα σε σχέση με τη συχνότητα (λογαριθμική κλίμακα)
Κωδικοποίηση με βάση την αντίληψη => Ψυχοακουστική => Ακουστική Ικανότητα σε σχέση με τη συχνότητα (λογαριθμική κλίμακα)

Διακριτική ικανότητα αυτιού σε σχέση με τη συχνότητα (Critical Bands)
Κωδικοποίηση με βάση την αντίληψη => Ψυχοακουστική => Διακριτική ικανότητα αυτιού σε σχέση με τη συχνότητα (Critical Bands) Η ακουστική ικανότητα του αυτιού μπορεί να προσομοιωθεί με το άθροισμα μιας σειράς ζωνοπερατών φίλτρων με εύρος ζώνης: Περίπου 100 Hz για συχνότητες <500 Hz Κάθε περιοχή που αντιστοιχεί στο εύρος ζώνης ενός ζωνοπερατού φίλτρου ονομάζεται κρίσιμη περιοχή συχνοτήτων (critical band) Η διακριτική ικανότητα του αυτιού, σε σχέση με τις συχνότητες, εντός της κρίσιμης περιοχής συχνοτήτων είναι σχετικά περιορισμένη ενώ αντίθετα το αυτί μπορεί πολύ εύκολα να διακρίνει συχνότητες που ευρίσκονται σε διαφορετικά critical bands π.χ. μπορεί να διακρίνει τις συχνότητες 370 Hz και 430 Hz ανεξάρτητα την ισχύ που έχει καθεμία από αυτές (εφόσον φυσικά η ένταση τους ξεπερνά την ελάχιστη ακουστή τιμή) γιατί υπάγονται σε διαφορετικά critical bands (band # 4, band # 5) ενώ δεν μπορεί να διακρίνει τις συχνότητες 650 Hz και 740 Hz γιατί υπάγονται στο ίδιο critical bands (band # 7). Το φαινόμενο της φασματικής κάλυψης είναι ισχυρότερο εντός ενός critical band Σύμφωνα με τη σχέση bw = ·{1+1.4·(f/1000)2}0.69, για συχνότητες f > 500 Hz Η διακριτική ικανότητα του αυτιού σε σχέση με τις συχνότητες οδήγησε στη χρήση φίλτρων ανάλυσης σε ζώνες (subband filters) στο πλαίσιο της κωδικοποίησης με βάση την αντίληψη

Φασματική κάλυψη και Χρονική κάλυψη
Κωδικοποίηση με βάση την αντίληψη => Ψυχοακουστική => Φασματική κάλυψη και Χρονική κάλυψη

MPEG-1 Audio Coder, Layer II - Συνοπτική Εικόνα
Κωδικοποίηση με βάση την αντίληψη => MPEG-1 Audio Coder, Layer II - Συνοπτική Εικόνα Βήματα κωδικοποίησης με βάση την αντίληψη: Χρήση 36 x 32 δείγματα = 1152 (samples) Με δειγματοληψία samples /sec αυτό αντιστοιχεί σε διάρκεια 24 ms Ανάλυση κάθε ομάδας 1152 δειγμάτων σε 32 ζώνες συχνοτήτων (για δειγματοληψία στα 48 kHz κάθε ζώνη έχει εύρος 750 Hz). Υπολογισμός του μέγιστου συντελεστή (scalefactor) σε κάθε ζώνη συχνοτήτων (ομάδα 36 samples) Υπολογισμός της κάλυψης (φασματικής και χρονικής) για κάθε ζώνη συχνοτήτων (χρησιμοποιώντας το σύνολο των 36 x 32 = 1152 δείγματα με χρήση του FFT) Αν η ισχύς σε κάποια ζώνη συχνοτήτων είναι μικρότερη από το κατώφλι κάλυψης τότε αυτή η ζώνη συχνοτήτων δεν κωδικοποιείται (0 bits) Σε διαφορετική περίπτωση υπολογίζουμε τον αριθμό των bits που απαιτούνται για την κωδικοποίηση της έντασης του σήματος που υπερβαίνει το κατώφλι κάλυψης (1 bit προσθέτει 6.02 db σηματοθορυβικού λόγου) Μορφοποίηση του frame και μετάδοση

Κωδικοποίηση με βάση την αντίληψη =>
Συνοπτική Εικόνα (ΙΙ)

Ο κωδικοποιητής ήχου MPEG-1 (Layer I & II)
Κωδικοποίηση με βάση την αντίληψη => Ο κωδικοποιητής ήχου MPEG-1 (Layer I & II)

Το MPEG-1 Audio frame Κωδικοποίηση με βάση την αντίληψη =>
Επικεφαλίδα (header) 32 bits CRC (Cyclic Redundancy Code) 0-16 bits, προαιρετικό για έλεγχο σφαλμάτων Bit allocation: Δηλώνει τον αριθμό των bits που χρησιμοποιούνται για την κωδικοποίηση των δειγμάτων σε κάθε μία από της 32 ζώνες. Κάθε δείγμα μπορεί να κωδικοποιηθεί σε 0-15 bits άρα χρειάζονται 4 bits για να μας δώσουν αυτή την πληροφορία Scale factors: Για τις ζώνες συχνοτήτων που δεν έχουν μηδενικό bit allocation η μέγιστη τιμή κάθε μιας από τις 32 ζωνες (στο σύνολο των 36 δειγμάτων) κωδικοποιείται με 6 bits. Δείγματα (Samples): κωδικοποίηση των 1152 (36 x 32) δειγμάτων με βάση των αριθμό των bits που υποδηλώνονται στο πεδίο bit allocation. Συμπληρωματικά δεδομένα (Ancillary data): προαιρετικά

Bit Allocation Κωδικοποίηση με βάση την αντίληψη =>
Κατώφλι φασματικής κάλυψης ανά ζώνη Ακουστική ικανότητα στις 32 ζώνες

Bit Allocation (ΙΙ) Κωδικοποίηση με βάση την αντίληψη =>
Ισχύ σήματος ανά ζώνη Συνολικό κατώφλι (masking threshold)

Bit Allocation (ΙΙΙ) Κωδικοποίηση με βάση την αντίληψη =>
Διαφορά ισχύος σήματος από κατώφλι κάλυψης (ανά ζώνη)

Bit Allocation (ΙV) Κωδικοποίηση με βάση την αντίληψη =>
Απαιτούμενα bits για κωδικοποίηση ανά ζώνη

Bit Allocation (V) Κωδικοποίηση με βάση την αντίληψη =>
Περιθώριο ασφαλείας (διαφορά μπλε από κόκκινο)

Υπολογισμός βαθμού συμπίεσης
Κωδικοποίηση με βάση την αντίληψη => Υπολογισμός βαθμού συμπίεσης Στο παράδειγμα μας έχουμε 36 x 32 = 1152 δείγματα Σε ασυμπίεστη μορφή απαιτούνται 2304 bytes (16 bits / δείγμα) Με βάση τον αλγόριθμο που περιγράψαμε έχουμε: 32 bits επικεφαλίδα 128 bits για καθορισμό του bit allocation 8 x 6 = 48 bits για κωδικοποίηση των 8 μη μηδενικών scaling factors 25 x 36 = 900 bits για κωδικοποίηση των δειγμάτων (8 μη μηδενικές ομάδες δειγμάτων με αριθμό bits όπως υπολογίστηκε νωρίτερα) Σύνολο: 1108 bits => 139 bytes Συμπίεση περίπου 30:1 !

Ο κωδικοποιητής ήχου MPEG-1 (Layer III)
Κωδικοποίηση με βάση την αντίληψη => Ο κωδικοποιητής ήχου MPEG-1 (Layer III)

Συμπίεση και Μετάδοση Πολυμέσων

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "Συμπίεση και Μετάδοση Πολυμέσων"— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

Συμπίεση και Μετάδοση Πολυμέσων

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "Συμπίεση και Μετάδοση Πολυμέσων"— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια