Наследники MP3

Звуковые файлы формата VQF

Популярность и широкое распространение технологий МРЗ вызвали бурный рост числа разработок в области сжатия звука. Стали появляться новые стандарты и форматы хранения звука, которые в будущем, возможно, придут на смену существующим. В последующих разделах кратко остановимся на современных достижениях в этой области.

Наряду с широко известным на сегодняшний день форматом МРЗ сравнительно недавно появился формат VQF, имеющий более высокую степень сжатия и качество воспроизведения.

Формат VQF основывается на технологии TwinVQ (Transform-domain Weightel Interleave Vector Quantization — векторное квантование с трансформными доменами и взвешенным чередованием), разработанной в Японии в лаборатории NTT Human Interface Laboratories (http://www.hil.ntt.co.jp/top/index_e.html). Патент на использование этого формата принадлежит фирме NTT, однако основное программное обеспечение для работы с этим форматом предлагает фирма Yamaha. Компания Yamaha предлагает, пожалуй лучшее программное обеспечение для создания и воспроизведения файлов формата VQF под маркой SoundVQ (http://www.yamaha.co.jp/english/xg/SoundVQ/). При установке плейера одновременно инсталлируются подключаемые модули для воспроизведения файлов VQF в браузеры Netscape и Explorer.

Существует также и программное обеспечение от компании разработчика технологии TwinVQ (http://music.jpn.net/software-e.html).

Этот формат по использованию идей сжатия весьма похож на МРЗ. Приведем их сравнительные характеристики.

VQF-файлы примерно на 30—35% меньше, чем МРЗ, при одинаковом качестве звука. Потоку 128 Кбит/с у файлов МРЗ соответствует поток 80 Кбит/с у файлов VQF. У этих достоинств есть и обратная сторона. При декодировании загрузка процессора также примерно на 30% выше, чем при декодировании МРЗ. Это определяет повышенные требования к компьютеру, на котором планируется проигрывать такие файлы. Для качественного воспроизведения минимальным требованием является процессор Pentium-90, peкомендуется Pentium-200 MMX. Для кодирования минимальным требованием является компьютер с процессором Pentium-66. Высокая степень сжатия требует значительных временных затрат на кодирование файлов в формате VQF. Так, кодирование 4 минут музыки на Pentium-200 MMX занимает примерно 20 минут процессорного времени. Это значительно больше, чем при кодировании файлов МРЗ.

Тесты показывают превосходство VQF по всем параметрам на нижних частотах и гораздо меньшее искажение формы сигнала с большим динамическим диапазоном (реальная музыка). Однако по завалу верхних частот звукового спектра VQF на 2—3 дБ уступает МРЗ на частотах выше 15 кГц. Это легко компенсируется настройкой эквалайзера плейера, что объективно ставит VQF на ступень выше по качеству звука по сравнению с МРЗ, но субъективное восприятие различных композиций формата VQF дало старт затяжной полемике между приверженцами хорошо проверенного старого (МР3) и новинок (формата VQF и формата ААС, о котором пойдет речь далее). Узкопрофессиональные споры не мешают сделать широкой интернетовской общественности выбор в пользу нового формата. Наиболее распространенное мнение сейчас можно сформулировать примерно так:

"Если и есть какие-то различия, то нужно быть профессиональным музыкантом, чтобы их заметить".

На текущий момент в сети Интернет можно найти довольно много музыкальных произведений в формате VQF, однако их количество и степень популярности значительно уступают МРЗ. Также значительно меньше существует программ-плейеров и кодеров.

Для проигрывания файлов можно рекомендовать программу K-Jofol. Появились также подключаемые модули для Winamp, проигрывающие файлы VQF. Этот модуль использует декодер компании Yamaha).

Программа K-Jofol версии 0.51 занимает 1,4 Мб (как раз одна дискетка). Позволяет воспроизводить файлы форматов VQF, ААС, МРЗ и др.

Звуковые файлы формата ААС

Формат аудиосжатия MPEG-2 AAC (MPEG-2 Advanced Audio Coding - расширенное аудио кодирование) был разработан в стенах института Fraunhofer, при активном участии компаний AT&T, Sony, NEC и Dolby в начале 1998 года.

Этот формат изначально позиционировался разработчиками как преемник MP3, так как обладал по сравнению с последним рядом несомненных достоинств. Как и в MP3 в основе алгоритма AAC лежит психоакустическая модель кодирования, то есть при сжатии какая-то часть звукового спектра удаляется. При этом алгоритм AAC содержит большое количество усовершенствований, направленных именно на улучшение качества выходного аудиосигнала. В MPEG-2 AAC используются другие алгоритмы преобразований, улучшенные обработчики шумов и новый банк фильтров. Из специальных возможностей можно назвать, так называемые "водяные знаки" (watermarks) - информацию об авторских правах, которую AAC позволяет хранить в теле аудиокомпозиции, причем удалить эту информацию не разрушив целостность аудиоданных невозможно.
При этом MPEG-2 AAC обладает высочайшим качеством звучания и очень хорошей степенью компрессии аудиокомпозиций. Так, например, аудиокомпозиция в формате AAC с bitrate 96 kbs обеспечивает качество звучания, аналогичное потоку MPEG-1 Layer III bitrate128 kbs. При сравнении же файлов AAC с bitrate 128 kbs, качество звучания ощутимо превосходит MPEG-1 Layer III с такой же степенью сжатия.

И вполне возможно этот формат заменил бы устаревающий MP3 если бы не одно но...

Сразу же после окончания работ над MPEG-2 AAC некоторые из компаний соучредителей забрали причитающиеся им исходные коды стандарта и на их базе создали собственные форматы, коммерческие и не совместимые друг с другом. Вот таким образом и появилась та мешанина несовместимых форматов, которые называют "семейство форматов аудиосжатия AAC".

На данный момент существуют четыре разновидности формата AAC:

Homeboy AAC
AT&T a2bAAC
Liquifler Pro AAC
Astrid/Quartex AAC

По всем объективным параметрам последние две модификации AAC превосходят как МРЗ, так и VQF.

Все четыре разновидности несовместимы между собой и используют свои собственные программы кодирования и воспроизведения.

Далее мы кратко их охарактеризуем.

HomeboyAAC

Это первая версия AAC, кодер для которой стал общедоступен. Ее можно охарактеризовать одним словом — отвратительно. Крайне корявые и медленные кодеры в сочетании с отчетливо слышимыми искажениями сыграли свою роль в отталкивании широких масс от этого формата. Единственными его плюсами является достижение качества МРЗ 128 Кбит/с на более низких битрейтах и наличие приятного и быстрого плейера BitAAC. Сейчас этот формат уже практически не используется и даже ссылки на программное обеспечение для него почти исчезли со страниц Интернета. Следует иметь в виду, что большинство программ, распространяемых через Интернет под видом кодеров AAC, являются кодерами именно этого формата. Во времена появления и развития этой ветви AAC уже существовал формат VQF.

AT&T а2ЬААС

Известная компания AT&T не могла остаться в стороне от технологий новых систем сжатия аудиоданных. При фирме было создано специальное подразделение, занимающееся созданием программ и раскруткой нового формата, который получил название а2Ь. Строго говоря, этот формат практически полностью следует тем же самым принципам компрессии, что и предыдущий. Однако фирмой были предприняты значительные усилия по повышению качества звучания (в результате чего снизилась степень сжатия) и внесению новых элементов в формат. Составной частью формата а2Ь стала возможность включения изображения исполнителя и текста песни внутрь аудиофайла. Также была разработана технология получения самовоспроизводящихся песен (исходную композицию можно преобразовать в .ехе-файл, включающий в себя все необходимые для воспроизведения, что увеличивало файл всего примерно на 170 Кб). Для файлов этого формата существует удобный и бесплатный плейер с поддержкой многих дополнительных возможностей. Однако, несмотря на мощнейшую рекламную компанию и на очевидные достоинства формата, он не нашел широкого применения по одной простой причине — отсутствию общедоступного кодера! Мало того, эта уважаемая фирма пыталась запатентовать и запретить к использованию все составные части формата. К счастью, это у нее не вышло, — патент был получен только на собственные нововведения. Сейчас уже рекламный пыл немного угас и со своего сайта компания предлагает приобрести уже готовые файлы или бесплатно скачать несколько композиций.

Формат по степени сжатия превосходит МРЗ, но на 15—20% уступает VQF, PAC, Astrid/Quartex AAC и Liquifier Pro AAC.

Качество звучания а2Ь 96 Кбит/с сравнимо с качеством МРЗ 128 Кбит/с и VQF 96 Кбит/с, но уступает Liquifier Pro AAC 96, Astrid/Quartex AAC 96 и PAC96.

Дополнительную информацию можно получить в Интернете по адресу http://www.a2bmusic.com/.

Liquifier Pro AAC

Естественно компания AT&T не могла остаться одинокой на рынке борьбы за первенство в области высококачественной компрессии звука. Через некоторое время фирма Liquid Audio нанесла если не сокрушительный, то очень опасный удар по честолюбивым замыслам остальных. Предложенная ей версия формата AAC наиболее четко следовала всем техническим тонкостям и в результате появилась лучшая на сегодняшний день система сжатия звука. Она по степени сжатия и качеству звучания превосходит все существующие в данный момент момент форматы. И хотя превосходство по сжатию над VQF и Astrid/Quartex AAC незначительное — минимальный битрейт, заслуживающий внимания, все те же 96 Кбит/с, звук превосходит все ожидания!

К сожалению, политика компании Liquid Audio на данный момент слабо отличается от политики AT&T — есть отличный плейер, но нет общедоступного кодера (существовала демо-версия, но она работала только в он-лайне и через несколько дней неожиданно самоуничтожалась, а все закодированные ей файлы становились неработоспособными).

Подводя итоги, заметим, что этот формат по всем параметрам превосходит все остальные и объективно является лучшим. Среди самых последних новостей отметим появление звуковых файлов в этом формате (они имеют расширение LQT), причем для их воспроизведения можно воспользоваться плейером компании Liquid Audio или же установить plugin для программы Winamp (in_lqt.dll), который на самом деле пользуется все тем же, несколько исправленным плейером, перенаправляя звук в программу Winamp.

Дополнительную информацию можно получить в Интернете по адресу http://www.liquidaudio.com/.

Astrid/Quartex AAC

В октябре 1998 г. в "спор гигантов" вступило частное лицо. Никому не известный и скромный программист создал, на основе изданных фирмой NTT в мае исходников МР4, свою собственную систему компрессии! Им был предложено протестировать кодер, для чего он был выложен в Интернете п адресу http://www.geocities.com/ResearchTriangIe/Facility/2141/.

Уже через несколько дней после выхода новой версии популярного плейера K-Jofol, для которого автор формата Astrid/Quartex ААС написал декодирующий модуль, появились восторженные отклики. Кодер, обладающий непритязательным интерфейсом командной строки, по сжатию и качеству звучания превосходил кодировщики от AT&T ААС и YAMAHA VQF. При этом качество звука практически не уступало хваленому Liquifier Pro ААС. Почти одновременно появились графические интерфейсы (front-end) для нового кодировщика и масса хвалебных отзывов в разных источниках. При всех видимых недостатках сегодняшней версии 0.2 (поддержка только WAV 44 кГц/16 бит РСМ и степени сжатия только 64, 96 и 128 Кбит/с), она уже широко применяется (есть целые ftp-сайты с музыкой в этом формате) и все с нетерпением ждут новых версий.

По степени сжатия и качеству звучания формат превосходит все остальные кроме Liquifier Pro ААС, и является объективно лучшим среди тех, что имеют общедоступные кодеры и доступные для распространения в Интернете звуковые файлы. По сравнению с МРЗ обеспечивается аналогичное качество при потоке на 30% меньше. Качество Astrid ААС 96 Кбит/с много лучше качества VQF/96 Кбит/с. Возможно также потоковое воспроизведение.

Звуковые файлы формата РАС

Несколько особняком от остальных систем кодирования стоит формат РАС (Perceptive Audio Coding). Впервые эта аббревиатура появилась в стенах лаборатории Bell Labs/Lucent Technologies (кстати, там же впервые появилось сокращение ААС) в самом конце 1997 года. Через некоторое время стали появляться очень интересные сообщения от других фирм-разработчиков, которые не могли не заинтриговать интересующегося человека.

Так было заявлено о следующих возможностях:

достижении качества МРЗ 128 Кбит/с в формате РАС с битрейтом 64 Кбит/с;
поддержка потокового воспроизведения через Интернет;
прямое преобразование из Audio-CD в РАС без промежуточных огромных WAV-файлов на диске;
кодирование в реальном времени на Pentium-166 (даже не ММХ);
зашита от свободного распространения РАС-файлов по Интернету и на CD-R;
широкие возможности упорядочения готовых РАС-файлов (плей-листы, каталоги, описания и т. д.).

В середине лета 1998 г. известная фирма Celestial Technologies выпустила первую программу для кодирования и воспроизведения звука в формате РАС — "Audio Library 1.0". Хотя программа бесплатно работает только 15 дней и позволяет в одном каталоге хранить не более 5-ти композиций, уже можно сделать кое-какие выводы. Первое, что бросается в глаза, это отсутствие, как таковых, файлов в формате РАС. Во время своей работы программа создает базу данных, состоящую из 8 файлов с расширением TPS, в отдельном каталоге, причем для воспроизведения необходимы минимум 7 из них (GREGLANG.TPS можно выкинуть). Увеличение количества композиций не меняет количества файлов — при добавленной песни в базу просто увеличивается размер файла SONGDATA.TPS.

И во всем остальном программа удивляет. Хотя пока на битрейте 64 Кбит/с звук уступает МРЗ 128 Кбит/с, качество звучания РАС 128 Кбит/с поражает воображение. При этом кодер обеспечивает обещанную скорость кодирования.

Новую информацию можно получить по адресу http://www.celestialtech.com/.

Ogg Vorbis

Ogg Vorbis, вышел в свет в июне 2000. Этот формат является частью проекта Ogg Squish по созданию полностью открытой системы мультимедиа. Иными словами, и сам проект, и Ogg Vorbis в частности являются открытыми и свободными для распространения, а также разработки на его основе нового программного обеспечения. В FAQ от разработчика (группа Xiphophorus) написано, что Ogg Vorbis является алгоритмом, принципиально схожим с известными MPEG-1 Layer II, MPEG-2 AAC, VQF и проч., однако использует оригинальный математический алгоритм и собственную психоакустическую модель, что освобождает его от необходимости выплачивать какие-то лицензионные сборы и производить иные выплаты сторонним фирмам-изготовителям аудио форматов.

Алгоритм Ogg Vorbis рассчитан на сжатие данных на всех возможных битрейтах без ограничений, то есть от 8 Kbps до 512 Kbps, а также на кодирование с переменным битрейтом (VBR). Алгоритм предусматривает хранение внутри файлов подробных комментариев об исполнителе и названии композиции, а также графической информации. В алгоритме предусматривается также возможность кодирования нескольких каналов аудио (более двух, теоретически до 255), возможность редактирования содержимого файлов, а также так называемый "масштабируемый битрейт" - возможность изменения битрейта потока без необходимости декодирования. Поддерживается потоковое воспроизведение (streaming).

Для хранения данных используется собственный универсальный формат bitstream Ogg Squish, рассчитанный на хранение любой информации мультимедиа системы Ogg Squish (идея реализация универсального формата bitstream Ogg Squish аналогична идее ASF от Microsoft).

Windows Media Audio

Алгоритм (кодек) Windows Media Audio (WMA) от Microsoft. Алгоритм WMA, также как и все рассмотренные ранее, позволяет потоковое воспроизведение (stream playback). Качество WMA (если говорить о WMA 7.0 и 8.0) при скорости потока 64 Кбит/c практически не уступает качеству MPEG-1 Layer III 96-128 Кбит/с, а при 96 Кбит/с может превосходить MPEG-2 AAC 128 Кбит/с ("может"- не значит "всегда", то бишь, речь идет о субъективно воспринимаемом качестве звучания).

Для хранения потока в формате WMA используется универсальный потоковый файловый формат .ASF (Advanced Audio Streaming), пришедший на замену .WAV. Вообще говоря, .ASF - это универсальный формат для хранения аудио и видео информации, сжатой с помощью самых разнообразных кодеков. .ASF имеет также и свою несколько сокращенную разновидность .WMA. Файлы .WMA предназначены исключительно для хранения аудио данных. Говоря о WMA как о кодеке, следует сказать, что в последнее время он становится все более популярным, так как Microsoft встроила его в Windows'2000 и Windows'2001, превратив его таким образом в стандарт.

На сегодняшний день существует несколько версий WMA: v1, v2, v7 и v8. V7 отличается от младших собратьев поддержкой битрейтов до 192 Kbps (в отличие от 164 Kbps в V1 и V2), несколько худшим качеством кодирования и иной структурой данных. Версия 8 отличается от всех предыдущих явно переработанной психоакустической моделью кодека, за счет чего качество кодирования сильно возросло. Так, при 64 Kbps WMA v8.0 на не сильно требовательных к качеству композициях (поп-музыка, например) почти не отличим от MP3 при 128 Kbps, хотя, опять же, все зависит от конкретной композиции и аппаратуры, на которой осуществляется прослушивание.

Изначально, обсуждаемый кодек разрабатывался фирмой Voxware и имел название Voxware Audio Codec. Впоследствии компания забросила его доработку остановившись на v4.0, но кодек не остался гнить и был полностью куплен фирмой Microsoft. Программисты сильно доработали этот кодек, а фирма Microsoft переименовала кодек в Windows Media Audio, не забыв позаботиться о том, чтобы он был бесплатным.

Mp3Pro

Кодек MP3 Pro анонсирован в июле 2001 года компанией Coding Technologies вместе с Tomson Mulimedia и институтом Fraunhofer. Формат MP3Pro является продолжением, или, точнее, развитием старого MP3. MP3Pro является совместимым с MP3 назад (полностью) и вперед (частично). То есть файлы, закодированные с помощью MP3Pro, можно воспроизводить в обычных проигрывателях, однако качество звучания при этом заметно хуже, чем при воспроизведении в специальном проигрывателе. Это связано с тем, что файлы MP3Pro имеют два потока аудио, в то время как обычные проигрыватели распознают в них только один поток, то есть обычный MPEG-1 Layer 3.

В MP3Pro использована новая технология - SBR (Spectral Band Replication).Эта технология предназначена для передачи верхнего частотного диапазона. Идея технологии и предпосылки таковы. Дело в том, что технологии использования психоакустических моделей имеют один общий недостаток: все они работают качественно до битрейта 128 Kbps. На более низких битрейтах начинаются различные проблемы: либо для передачи аудио необходимо обрезать частотный диапазон, либо кодирование приводит к появлению различных артефактов. Этот ключевой момент показывает, что использования психоакустической модели мало при работе с битрейтами ниже 128 Kbps. Новая технология SBR дополняет использование психоакустических моделей. Идея следующая: передается (кодируется) чуть более узкий диапазон частот чем обычно (то есть с обрезанными "верхами"), а верхние частоты воссоздаются (восстанавливаются) уже самим декодером на основе информации о более низких частотных составляющих. Таким образом, технология SBR применяется фактически не столько на стадии сжатия, сколько на стадии декодирования. Загадочный второй "параллельный" поток данных, о котором говорилось выше, как раз и есть та минимальная необходимая информация, которая используется при воспроизведении для восстановления верхних частот. Пока достоверно не известно, какую точно информацию несет этот поток, однако проведенные исследования показывают, что эта информация - есть усредненная мощность сигнала в верхнем (обрезанном) диапазоне частот. Точнее не одна усредненная мощность для всего диапазона вырезанных частот, а информация о средней мощности в нескольких полосах частот верхнего диапазона.

Качество звучания MP3Pro можно назвать субъективно очень хорошим даже на битрейте 64 Кбит/с, другими словами, субъективно несложные композиции при таком битрейте воспринимаются не хуже чем MP3 128 Кбит/с. Однако необходимо учитывать тот факт, что такое звучание достигается искусственным путем, и что слышимый сигнал представляет собой уже не столько оригинал, сколько синтезированную копию оригинала, что заставляет задуматься меломанов, обладателей высококачественной аудио аппаратуры, а также просто ценителей качественного оригинального звучания.

Сайт создателя формата: http://www.codingtechnologies.com

При создании данной страницы использовались
материалы из статьи Александра Радзишевского

Сайт управляется системой uCoz