MPEG-2

MPEG-2 – grupa standardów stratnej kompresji ruchomych obrazów i dźwięku zatwierdzona przez MPEG (ang. Moving Picture Experts Group) w 1994 roku. Od roku 1995 jest zatwierdzonym standardem ISO/IEC nr 13818.

Patenty na MPEG-2 zasadniczo wygasły w 2018 roku, a standardy przeszły do domeny publicznej.[1]

Charakterystyka

MPEG-2 jest standardem ogólnego kodowania ruchomych obrazów i związanych z nimi informacji audio. Format ten opisuje połączenie metod stratnej kompresji wideo i stratnej kompresji danych audio, które umożliwiają przesyłanie sygnału audio-wideo w telewizji cyfrowej oraz zapis na nośnikach danych (w szczególności optycznych jak DVD i Blu-ray, czy taśmowych jak DV). MPEG-2 jest szeroko stosowany jako format cyfrowych sygnałów telewizyjnych, które są transmitowane przez TV satelitarną, naziemną oraz kablową. Określa on także format filmów i innych programów, które są dystrybuowane na DVD i podobnych nośnikach danych. MPEG-2 powstał z powodu braków i niedociągnięć standardu MPEG-1.

Specyfikacja MPEG-2 opisuje:

  1. dwa kontenery multimedialne – MPEG-2 TS (ang. Transport Stream) dla transmisji i MPEG-2 PS (ang. Program Stream) dla zapisu na nośnikach
  2. metody cyfrowego zapisu obrazu ruchomego, przy czym standard zawiera ogólną listę algorytmów kompresji o różnym stopniu złożoności obliczeniowej
  3. metody cyfrowego zapisu dźwięku jedno-, dwu- lub wielokanałowego (5.1)

Wszystkie dekodery MPEG-2 są kompatybilne ze starszym standardem MPEG-1.

Historia

Prace nad MPEG-2 rozpoczęły się w roku 1990. Członkowie grupy MPEG uznali, że potrzebny jest standard pozwalający na uzyskanie wyraźnie wyższej jakości obrazu niż ta, którą oferował dostępny wtedy MPEG-1. Stary standard pozwalał na zapis z maksymalną przepływnością 1,5 Mbit/s dającą w efekcie jakość zbliżoną do systemu VHS i nie oferował metod zapisu obrazu z przeplotem. Dodatkowym ograniczeniem MPEG-1 było wsparcie dla maksymalnie dwukanałowego dźwięku. Wprowadzenie MPEG-2 pozwoliło na zaoferowanie dużo wyższej jakości obrazu dzięki wyższym przepływnościom oraz usprawnieniom w dziedzinie kompresji, takim jak zastosowanie DCT i mechanizmów kompensacji ruchu[2][3].

Podział na części

Część 1. – System – opisuje synchronizację i zwielokrotnienia obrazu i dźwięku.
Część 2. – Film – kodek kompresji dla sygnałów video (również jako ITU-T Rec. H.262).
Część 3. – Audio – kodek kompresji dla kodowania sygnałów audio.
Część 4. – Opisuje procedury testowania zgodności.
Część 5. – Opisuje systemy do symulacji oprogramowania.
Część 6. – Opisuje rozszerzenia dla DSM-CC (Digital Storage Media Command and Control).
Część 7. – Advanced Audio Coding (AAC).
Część 8. – Przedłużenie czasu rzeczywistego interfejsów.
Część 9. – Zgodność rozszerzeń dla DSM-CC.
Część 10. – Zarządzanie Własności Intelektualnej (IPMP)

Kompresja Video

Kamera HDTV generuje surowy strumień video z 149.299.200 bajtów na sekundę dla 24 fps wideo. Ten strumień musi być skompresowany, aby zmieścić obraz audio i wideo na nośnikach DVD. Kompresja wideo jest praktyczna, ponieważ dane na zdjęciach często są redukowane w czasie i przestrzeni. Na przykład w tle obrazu może być niebieskie niebo i to tło obrazu może się utrzymywać w wielu klatkach. Ponadto można usunąć niektóre dane z klatki wideo bez zauważalnego pogorszenia jakości obrazu, mieszcząc się w dość wąskim zakresie czułości ludzkiego oka.

Kamery używane w transmisji telewizyjnej generują 25 zdjęć na sekundę (w Europie) lub 29,97 zdjęcia sekundę (w Ameryce Północnej). Telewizja cyfrowa wymaga, aby obrazy audio i wideo mogły być przetwarzane przez sprzęt komputerowy. Każdy element obrazu (blok) jest reprezentowany przez jedną liczbę jasności i dwie liczby określające barwę. Tak więc każde cyfrowe zdjęcie jest początkowo reprezentowane przez trzy prostokątne tablice liczb.

Często stosowaną metodą zmniejszenia ilości danych jest rozdzielenie obrazu na dwa pola: górne pole z informacją o liniach nieparzystych i dolne pole z informacją o liniach parzystych. Po zdekodowaniu dwa pola wyświetlane są na przemian: jedno pole (nieparzyste) jest przekładane między wierszami drugiego pola (parzystego). Format ten nazywa się przeplatanym. Ludzkie oko nie rozpoznaje niektórych szczegółów barw, dlatego często część z nich się usuwa. Format barw 04:02:02 wskazuje, że połowa wartości barw została usunięta; format 04:02:00 wskazuje, że usunięto ich trzy czwarte. Format barw 04:04:04 wskazuje na to, że żadne z barw nie zostały usunięte. MPEG-2 pozwala na zastosowanie każdej z trzech opcji.

MPEG-2 określa, że klatki mogą być skompresowane w trzy rodzaje: klatki intra-frames (I-frame), klatki inter-frames (P-frame), oraz klatki bidirection (B-frame).

Klatki typu I są skompresowaną wersją jednej nieskompresowanej klatki (RAW). Korzystają z niezdolności oka do wykrycia określonych zmian w obrazie. W przeciwieństwie do klatek typu P i B, zawartość klatki typu I nie zależy od danych z poprzedzającej lub następującej klatki. Mówiąc w skrócie, surowe klatki dzieli się na bloki 8 × 8 pikseli. Dane z każdego bloku są przetwarzane przez transformację kosinusową. Wynikiem jest macierz o współczynniku 8 × 8.  Transformacja przekształca obraz bez zmieniania informacji w bloku, a oryginalny blok może być dokładnie odtworzony przy zastosowaniu odwrotnej transformacji kosinusowej. Zaletą tego rozwiązania jest to, że obraz może zostać uproszczony przez próbkowanie współczynników.

Zazwyczaj w standardzie MPEG-4 co 15 klatka to klatka typu I. Klatki P i B układają się w sposób IBBPBBPBBPBB (I) w celu utworzenia grupy obrazów (GOP), jednak standard układania się klatek jest elastyczny i może wyglądać inaczej.

Makrobloki

Klatki typu P stanowią lepszy sposób kompresji niż klatki typu I, ponieważ korzystają z danych z poprzednich klatek typu I lub P. Do generowania klatki P zrekonstruowany jest poprzedni punkt odniesienia. Obraz jest skompresowany w ten sposób, że jest dzielony na części: 16 × 16 pikseli, nazywanych makroblokami. Następnie dla każdego z tych makrobloków, konstruowany jest punkt odniesienia, tzn. poszukiwany jest makroblok, który jest najlepiej skompresowany. Offset jest zakodowany jako wektor ruchu. Przeważnie przesunięcie wynosi zero. Ale jeśli obraz jest w ruchu, offset może wynosić ok. 23 pikseli w prawo i 4 piksele w górę. Przyrównanie ze sobą dwóch makrobloków często nie jest idealne. Do skorygowania tego kodowanie pobiera różnicę między dwoma sąsiadującymi blokami makrobloków i następnie oblicza wartość współczynnika, który opisuje tę różnicę.

Przetwarzanie klatek typu B jest podobne do przetwarzania klatek typu P. Klatka typu B zazwyczaj bardziej kompresuje obraz niż klatka typu P. Klatki B nigdy nie są klatkami odniesienia.

Telewizja cyfrowa

MPEG-2 jest jednym z dwóch, oprócz MPEG-4, w praktyce używanych formatów telewizji cyfrowej w krajach, gdzie stosowany jest standard DVB. W krajach Ameryce Północnej stosowany z kolei jest standard ATSC A/53, w którym MPEG-2 w wariancie MP@ML używany jest do kodowania obrazu wideo[4].

HDV

Ścieżka wideo oraz opcjonalnie ścieżka dźwięku w zapisie standardu HDV (DV dla wysokiej rozdzielczości) jest kodowana w MPEG-2. Całość jest z kolei umieszczana w kontenerze MPEG-2 TS[5].

XDCAM

Urządzenia firmy Sony z rodziny XDCAM SD[6], XDCAM HD[7], XDCAM EX[8] oraz XDCAM HD422[9] zapisują ścieżki wideo zakodowane w MPEG-2.

Profile i poziomy

System MPEG-2 został zaprojektowany dla szerokiego spektrum zastosowań, od urządzeń mobilnych do telewizji HDTV i profesjonalnej obróbki materiałów wysokiej jakości. Dla wielu spośród tych zastosowań, obsługa pełnego standardu z jego wieloma mechanizmami kompresji byłaby niepotrzebna, lub wręcz niemożliwa. Jako rozwiązanie tego problemu, standard definiuje różne profile i poziomy, które oznaczają konkretne podzbiory metod kompresji oraz określone zakresy rozdzielczości i przepływności.

Konkretne urządzenia obsługujące standard MPEG-2 określają swoją zgodność ze standardem z dokładnością do profilu i poziomu. Przykładowo odtwarzacz HD-DVD może obsługiwać profil główny (ang. main profile) i poziom wysoki (ang. high level), co oznaczane jest zwyczajowo MP@HL. Najczęściej spotykanym zestawieniem jest MP@ML (profil główny, poziom główny).

Poniższe tabele przedstawiają główne cechy każdego z profili i poziomów.

Profile MPEG-2
SkrótNazwaTypy klatek obrazuKolorymetriaFormat obrazu
SPSimple profileI, P4:2:04:3 lub 16:9
MPMain profileI, P, B4:2:04:3 lub 16:9
SNRSNR Scalable profileI, P, B4:2:04:3 lub 16:9
SpatialSpatially Scalable profileI, P, B4:2:04:3 lub 16:9
HPHigh profileI, P, B4:2:2 lub 4:2:04:3 lub 16:9
Poziomy MPEG-2
SkrótNazwaKlatkaż (FPS)Maksymalna rozdzielczość poziomaMaksymalna rozdzielczość pionowaMaksymalna przepływność dla Main profile (Mbit/s)
LLLow Level23.976, 24, 25, 29.97, 303522884
MLMain Level23.976, 24, 25, 29.97, 3072057615
H-14High 144023.976, 24, 25, 29.97, 30, 50, 59.94, 601440115260
HLHigh Level23.976, 24, 25, 29.97, 30, 50, 59.94, 601920115280

Zobacz też


Przypisy

  1. OSNews.com, mobile.osnews.com [dostęp 2018-01-24] [zarchiwizowane z adresu 2017-12-26].
  2. Standard przetwarzania danych cyfrowych MPEG-2. [dostęp 2009-12-16]. [zarchiwizowane z tego adresu (2009-07-07)].
  3. P.N. Tudor: MPEG-2 VIDEO COMPRESSION (ang.). [dostęp 2009-12-16]. [zarchiwizowane z tego adresu (2006-09-02)].
  4. ATSC Published Standards (ang.). [dostęp 2010-05-26]. [zarchiwizowane z tego adresu (2010-05-27)].
  5. HDV Format Main Specification (ang.). [dostęp 2009-12-17]. [zarchiwizowane z tego adresu (2012-06-03)].
  6. Sony XDCAM SD family (ang.). [dostęp 2009-12-17].
  7. Sony XDCAM HD and HD422 family (ang.). [dostęp 2009-12-17].
  8. Sony XDCAM EX family (ang.). [dostęp 2009-12-17].
  9. Sony XDCAM HD422 family (ang.). [dostęp 2009-12-17].

Linki zewnętrzne