MP3
Rozszerzenia pliku | .mp3 |
---|---|
Typ MIME | audio/mpeg |
Producent | |
Data opracowania | 1993 |
Typ |
MP3 (ang. MPEG-1/MPEG-2 Audio Layer 3) – algorytm kompresji stratnej dźwięku zapisanego w postaci sygnału cyfrowego. Popularnie zwany formatem MP3 lub standardem MP3. Jest zdefiniowany przez Internet Engineering Task Force (IETF) w dokumencie RFC 5219 ↓. Ochrona patentowa formatu MP3 we wspólnocie wygasła w 2012, w kwietniu 2017 wygasł ostatni patent chroniący MP3 w Stanach Zjednoczonych. Częściową ochronę zapewniały dwa patenty, które wygasły w 2017[1]. W związku z tym zakończono wydawanie licencji[2].
Informacje ogólne
Standardy MPEG-1 i MPEG-2 są przeznaczone do kompresji ruchomych obrazów oraz towarzyszącego im dźwięku. W ich realizacji wykorzystano algorytm zmodyfikowanej dyskretnej transformacji cosinusowej. Standardy te oferują możliwość kompresji strumienia danych reprezentującego dźwięk na trzy sposoby, tzw. warstwy (ang. layer): Layer 1, Layer 2 i Layer 3. Sposób „Layer 3”, charakteryzujący się najwyższym stopniem kompresji i dobrą jakością dźwięku, został następnie wykorzystany do zapisu (utrwalania) dźwięku cyfrowego jako format lub standard MP3.
Standard MP3 ujrzał światło dzienne w grudniu 1991 roku, przede wszystkim w ramach działań prowadzonych przez niemieckie stowarzyszenie naukowo-badawcze występujące pod nazwą Stowarzyszenie Fraunhofer[3] (Fraunhofer IIS)[4].
Pliki zawierające dane w tym formacie otrzymują zwyczajowo rozszerzenie „mp3”.
Opis działania
Dźwięk może zostać zapisany na wiele sposobów (np. mechaniczny, elektromechaniczny, optyczny, cyfrowy). Jednym z nich jest zamiana fal dźwiękowych w proporcjonalne zmiany napięcia lub natężenia prądu elektrycznego. Uzyskany w ten sposób sygnał analogowy dźwięku może zostać przekształcony do postaci sygnału cyfrowego. Przekształcenia dokonuje się za pomocą przetwornika analogowo-cyfrowego. Podczas konwersji sygnału analogowego na cyfrowy należy pamiętać o częstotliwości Nyquista, która jest równa połowie częstotliwości próbkowania. Oznacza to, że dla częstotliwości próbkowania 44,1 kHz częstotliwość Nyquista to 22,05 kHz (44,1:2=22,05). Jest ona najwyższą częstotliwością dźwięku możliwą do zapisania przy częstotliwości próbkowania 44,1 kHz. W celu wykonania zapisu w postaci cyfrowej, dźwięk w postaci sygnału analogowego jest przepuszczany przez filtr dolnoprzepustowy o odcięciu w granicach 20-22kHz (ograniczenie pasma), a następnie próbkowany z częstotliwością 44,1 kHz i rozdzielczością 16 bitów. Wytwarza to strumień danych o przepływności ok. 1,5 Mb/s dla sygnału stereofonicznego i jest to zapis dźwięku w nieskompresowanym formacie (zob. np. PCM, WAV, AIFF, CD-Audio). Aby zmniejszyć ilość danych należałoby zmniejszyć częstotliwość próbkowania i/lub rozdzielczość, ale to może powodować zbyt dużą różnicę w porównaniu do oryginalnego sygnału, nieakceptowalną dla słuchacza. Wykorzystuje się więc specyficzne właściwości ludzkiego słuchu i dlatego w standardzie MP3 używane są modele psychoakustyczne w celu osiągnięcia pożądanego stopnia kompresji stratnej. Polega to na usunięciu tych informacji z dźwięku, które są niezauważalne lub mało istotne dla słuchu człowieka. Z modeli psychoakustycznych wynika, że człowiek najlepiej słyszy dźwięki z przedziału około 2–4 kHz (mowa). Im częstotliwość dźwięku bardziej odbiega od tego pasma, tym słyszalność jest słabsza (zob. granice słyszalności). Zatem jeżeli fala akustyczna, wraz z szumem kwantyzacji, będzie cichsza od dolnej granicy słyszalności, to nie będzie on słyszalny. Z tego wynika, że skrajne częstotliwości mogą zostać zapisane z mniejszą dokładnością, przy mniejszej rozdzielczości bitowej, a nawet częściowo usunięte. Ze wspomnianego modelu słuchu człowieka wynika również zjawisko maskowania – w uproszczeniu dźwięki głośniejsze zagłuszają cichsze. W pobliżu głośnych dźwięków (tzn. podobna częstotliwość tuż przed i tuż po wystąpieniu tego dźwięku) również można zmniejszyć liczbę bitów, ponieważ szum kwantyzacji nie będzie słyszalny. Człowiek słyszy dźwięki o częstotliwości do 20 kHz, jednak często w praktyce elektroakustycznej granicę tę określa się na poziomie 16 kHz. Uwzględniono to w standardzie MP3, stosując filtr dolnoprzepustowy, dzięki czemu dźwięki o częstotliwości powyżej 16 kHz są w większości usuwane.
W pierwszym etapie konwersji na format MP3, wejściowy sygnał cyfrowy, pobrany np. z pliku w formacie WAV, o szerokości pasma 20 Hz – 20 kHz, jest dzielony na 576, odpowiednio węższych pasm częstotliwościowych, za pomocą cyfrowych filtrów w procesie cyfrowego przetwarzania sygnałów. W rezultacie otrzymuje się 576 odrębnych sygnałów. Pasmo każdego z nich jest 576 razy węższe od wejściowej szerokości pasma, zatem do próbkowania można użyć odpowiednio niższej częstotliwości.
Kodek MP3 analizuje poszczególne pasma i na podstawie modelu psychoakustycznego określa z jaką dokładnością należy zakodować każde z nich i czy jest potrzeba uwzględnienia danego pasma. W ten sposób znacznie ograniczono ilość bitów potrzebnych do zakodowania, a szum kwantyzacji, mimo że znacznie większy niż w oryginale, jest tak ukształtowany, że jest niesłyszalny. Ponadto, powstałe dane zapisuje się w postaci zmiennoprzecinkowej, co dodatkowo zmniejsza ich rozmiar.
Tak przygotowane dane łączy się, dodając dane sterujące umożliwiające odkodowanie dźwięku, na końcu poddaje się je kompresji bezstratnej i powstaje plik dźwiękowy w formacie MP3.
Często okazuje się, że użytkownik kodeka, wymuszając jego stałą przepływność, nie zapewnia warunków dla odpowiednio wiernego (dokładnego) zakodowania cyfrowego sygnału dźwiękowego. Dlatego, jeśli po kompresji okaże się, że rozmiar danych przekracza założenia, zmniejsza się liczbę bitów, w których koduje się pasma. Stąd najlepsze efekty jakościowe dają kompresory działające ze zmienną przepływnością, oszczędzając miejsce na dane, a zwiększając przepływność wtedy, gdy to jest konieczne dla zachowania jakości (percepcyjnej zgodności skompresowanego dźwięku z oryginałem). Jakość dźwięku ponadto zależy od zastosowanego modelu psychoakustycznego oraz od słuchacza. Jeśli jego słuch będzie odbiegał od modelu psychoakustycznego używanego w kodeku, jakość dźwięku może zostać przez niego oceniona jako różniąca się od oryginału. W celu zbadania percepcji jakości skompresowanego dźwięku stosuje się metodę badawczą określaną jako podwójnie ślepa próba.
Przepływność danych
Pierwotnie, do kompresji (kodowania) MP3 stosowano stałą przepływność (CBR), czyli do zapisu każdej ramki używano tej samej liczby bitów. W miarę rozwoju oprogramowania kodującego udostępniony został tryb przepływności zmiennej (VBR), charakteryzujący się zmiennością w wybranym przedziale czasu podczas kompresji i nastawiony na utrzymywanie stałej jakości dźwięku. Istnieje również tryb przepływności dostępnej (ABR), który jest połączeniem obu poprzednich trybów. W tym przypadku wykonywana jest kompresja podobnie jak w trybie VBR i ograniczanie średniego strumienia danych do określonej na początku wartości.
Stałe przepływności dostępne w standardzie MP3, to: 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 i 320 kbps.
Dźwięk wielokanałowy
Kodowany dźwięk może posiadać postać zarówno jednokanałową (tryb mono), jak i dwukanałową (stereo). Istnieje też format MP3 Surround przeznaczony do zapisu dźwięku wielokanałowego 5.1, zgodny z wcześniejszym standardem MP3.
Stereo
Podstawowe tryby pracy kodeka MP3 dla sygnału stereo:
- dual channel – zapis jako dwa odrębne kanały monofoniczne;
- stereo (stereo mode 0) – każda ramka zapisywana jest algorytmem left/right stereo;
- joint stereo (stereo mode 1) – dla każdej ramki wybierany jest najlepszy algorytm kompresji.
Algorytmy kompresji kodeka MP3 dla sygnału stereo:
- left/right stereo (simple stereo, independent channel) – kanał prawy i lewy jest kodowany niezależnie, może jednak zmieniać się liczba bitów przeznaczonych na każdy z kanałów. Korzystny dla ramek danych, w których oba kanały różnią się w dużym stopniu;
- middle/side stereo – sygnał stereo kodowany jest w postaci pary wartości oznaczających sumę (L+R) oraz różnicę (L-R) kanałów. Korzystny dla ramek, w których oba kanały przyjmują podobne wartości;
- intensity stereo – w którym sygnał stereo dla niektórych (głównie wysokich) częstotliwości kodowany jest monofonicznie, wartość uzupełniona jest o wektor określający kierunek, z którego dochodzi dźwięk. W praktyce stosowany tylko przy niskiej przepływności, poniżej 80 kbps. Niektóre programy kodujące, jak np. LAME, nie posiadają tej opcji.
MP3 Surround
MP3 Surround to rozszerzenie formatu MP3 pozwalające na zapis dźwięku wielokanałowego 5.1. Zapisywane są dwa kanały tak jak w zwykłym MP3, a informacja potrzebna do wygenerowania dodatkowych kanałów jest zapisana w tagach MP3. Dzięki temu pliki w formacie MP3 Surround można odtwarzać jako zwykłe stereo w odtwarzaczach MP3.
mp3HD
Format mp3HD, wprowadzony przez firmę Thomson, umożliwia bezstratną kompresję audio, zachowując zgodność ze standardem MP3. Przepływność strumieni audio zapisanych w mp3HD zawiera się w granicach 500-900 kb/s. Aby słuchać muzyki zapisanej w tym formacie należy użyć odpowiedniego programu[5].
MP3 jako domyślny format w serwisach muzycznych
Format mp3 jest wciąż wykorzystywany jako domyślny lub jedyny w niektórych serwisach z muzyką. Np. we „Free Music Archive”, czy „Music Screen” (np. dział „Free Symphony Music”) gdzie muzyka jest możliwa do ściągnięcia w tym formacie bezpłatnie do prywatnego, nie komercyjnego użytkowania. W tym drugim na własny użytek można ściągnąć muzykę w mp3, natomiast by mieć dostęp do nieskompresowanego pliku dźwiękowego i prawa wykorzystania komercyjnego, trzeba zapłacić[6][7].
Przypisy
- ↑ To już koniec formatu MP3?, nt.interia.pl [dostęp 2017-11-25] (pol.).
- ↑ mp3, www.iis.fraunhofer.de [dostęp 2017-11-25] (ang.).
- ↑ Mary Bellis: Historia MP3. Stowarzyszenie Fraunhofer i MP3 (ang.). inventors.about.com.
- ↑ Historia standardu mp3 (The History of mp3) (ang.). mp3licensing.com.
- ↑ Wypróbuj mp3HD (ang.). all4mp3.com.
- ↑ Free Music Archive, freemusicarchive.org [dostęp 2018-09-05] .
- ↑ Royalty free symphony, orchestral and classical music, www.musicscreen.org [dostęp 2018-05-09] (ang.).
Linki zewnętrzne
- R. Finlayson , A More Loss-Tolerant RTP Payload Format for MP3 Audio, RFC 5219, IETF, luty 2008, DOI: 10.17487/RFC5219, ISSN 2070-1721, OCLC 943595667 (ang.).
- Karlheinz Brandenburg i tajemnicza historia MP3 (ang.)