Студентам > Рефераты > Звуковые карты и Компрессия звука
Звуковые карты и Компрессия звукаСтраница: 11/12
На данный момент существует
огромное количество источников звука, поддерживающих Dolby Pro Logic. А как
насчет Dolby Digital? На что еще можно записывать Dolby Digital кроме лазерных
дисков?
У Dolby Digital есть одна прекрасная вещь - большая
гибкость кодирования. Dolby Digital технически допускает огромное разнообразие
форматов, а некоторые из них появятся в самое ближнее время:
Телевидение высокой четкости (HDTV). Эта новейшая система одной из первых выбрала Dolby
Digital своей основной звуковой подсистемой. Выбор был сделан "Grand
Alliance" - организацией устанавливающей все стандарты для систем HDTV в
США.
Спутниковое телевидение - Direct Broadcast Satellite
(DBS) уже сегодня активно
использует такие преимущества системы Dolby Digital как высокое качество и
простота передачи. К примеру, служба "DMX for Business" использует
Dolby Digital для передачи 120 музыкальных стерео каналов, и все они передаются
с одного передатчика. PrimeStar планирует в ближайшее время добавить Dolby
Digital к свой службе телевизионной спутниковой передачи.
Кабельное телевидение внедряет системы с Dolby Digital из-за соображений
эффективности и для того чтобы быть готовым к стандартам будущих систем
телевидения высокой четкости.
В формат Digital Video Disc (DVD) уже входит Dolby
Digital.
Остальные форматы, такие как цифровые видеокассеты -
Digital Video Cassette (DVC), и цифровая аудио передача - Digital Audio
Broadcast (DAB), являются первыми в списке на внедрение уникальной комбинации
качественного звука, эффективной передачи всего спектра сигнала и
многоканальных возможностей технологии Dolby Digital.
Буквы "AC" в Dolby AC-3, расшифровываются
как Audio Coding - кодирование звука. На цифровое кодирование звука часто
ссылаются как на "perceptual coding" (кодирование основанное на
ощущениях). Проще говоря, это такое кодирование, которое пытается обнаружить и
затем удалить ту звуковую информацию, которую мы все равно не может услышать,
но сохраняет то, что мы можем услышать. Его назначение уместить как можно
больше полезной информации в доступном спектре. Рассмотрим аналогию:
Предположим, что вам необходимо доставить 4000 человек
(полезная информация) из одного места в другое в течении часа. По шоссе может
проехать только 1000 машин в час. Если разместить все 4000 человек в 1000
автомобилей, то можно избавиться от лишней информации (оставим 3000 машин
дома). Это высокоэффективная доставка, и именно для этого предназначена система
Dolby Digital.
Одна из причин, почему качество звука на компакт диске
так высоко в том, что он содержит огромный объем данных: 16-ти разрядные семплы
выбираются 44100 раз в секунду отдельно для каждого канала. Это соответствует
потоку в 1411200 бит в секунду. Компакт диск представляет собой настолько
большое хранилище информации, что позволяет записать до 74 минут музыки на один
диск. Но что делать, если надо записать 2 часа 20-ти разрядного сигнала и ко
всему прочему там должно быть шесть каналов? На сегодняшний день такой большой
поток данных непрактичен ни для хранения, ни для передачи.
Кодер Dolby Digital является первым кодером
разработанным специально для многоканального звука. Уникальный опыт Dolby
Laboratories по устранению аудио шума является критическим для снижения потока
данных, потому что чем меньше бит используется для описания аудио сигнала, тем
больше шум.
Шумоподавление Dolby работает путем уменьшения уровня
шума в отсутствии аудио сигнала, а также позволяя более сильному полезному
аудио сигналу перекрывать или "маскировать" шум. Но это позволяет
замаскировывать только шум, близкий по частотам к полезному сигналу. Поэтому
Dolby Digital разбивает звуковой спектр для каждого канала на узкие полоски
разного размера, оптимизированные с расчетом на частотную избирательность
человеческого слуха. Это позволяет очень точно отфильтровывать шум оцифровки
так, чтобы он оказался очень близко по частоте к частоте кодируемого сигнала.
Аудио сигнал эффективно заглушает шум, делая его неслышным для уха. Там где
отсутствие сигнала не позволяет маскировать шум оцифровки, Dolby Digital
прикладывает максимум усилий чтобы его уменьшить. Можно сказать, что Dolby
Digital это очень эффективная система шумоподавления, и в результате качество
звука субъективно очень близко к оригиналу.
Dolby Digital использует технологию "shared
bitpool" ("разделяемых битов"), и также модель маскирования
человеческого слуха, чтобы достичь наибольшей эффективности передаваемых
данных. Разряды неравномерно распределяются между множеством узких полосок
частоты, причем в каждом конкретном случае по-разному, в зависимости от спектра
и динамической структуры кодируемого сигнала. Применяя модель слухового
маскирования, кодер предоставляет оптимальное количество разрядов для аудио
сигнала в каждой полосе. Дополнительно происходит перераспределение разрядов
между разными каналами в соответствии с моделью, по которой более насыщенный
частотами канал потребует больше данных для передачи, чем другие, слабо
заполненные, а также учитывается, что сильный сигнал в одном канале может
маскировать появляющийся шум в других каналах. В результате Dolby Digital может
использовать пропорционально больше передаваемых данных для кодирования звука,
выдавая более качественный сигнал и позволяя кодировать несколько звуковых
каналов в более низкоскоростные потоки данных чем требует даже один канал на
компакт диске.
ТЕХНИЧЕСКИЕ
ДАННЫЕ
Кодер Dolby Digital способен
обработать входной сигнал с, по крайней мере, 20-ти разрядным динамическим
цифровым сигналом с диапазоном частот от 20 до 20000 Гц ±0.5 дБ (-3 дБ на 3 и
20300 Гц). Низкочастотный канал покрывает диапазон от 20 до 120 Гц ±0.5 дБ (-3
дБ на 3 и 121 Гц). Поддерживаются частота дискретизации в 32, 44.1 и 48 кГц.
Ширина выходного потока данных может варьироваться от минимума в 32 кбит/сек
для одного монофонического канала, до максимума в 640 кбит/сек, удовлетворяя
всему возможному диапазону требований. Типичными являются скорости в 384
кбит/сек для "5.1" канального Dolby Digital потребительского формата,
и 192 кбит/сек для двух канальной передачи звука.
Комментарии
к переводу:
Некоторые термины не
поддаются однозначному переводу, так как им нет однозначно соответствующих по
смыслу слов в русском языке в употребляемом контексте, а именно
"Surround" (окружающий, обтекающий, объемный) и "Perceptual
Coding" (имеется в виду кодирование, основанное на психоакустической
модели слуха человека, имитационная модель).
Под термином лазерный диск
понимается "большой" лазерный диск (Laser Disc), не путайте его с
"маленькими" компакт дисками (CD). В настоящее время они вытисняются
получающими все большее распространение, более современными, дешевыми и
удобными DVD дисками.
Компандеры Dolby, несомненно
сыграли роль реактивного двигателя, вынесшего на рынок компакт-кассету и
заманившего в кинотеатры зрителя, уже начавшего привыкать к вездесущему
телевидению. Работая "зеркально" при записи-воспроизведении, они
теоретически должны обеспечивать идентичность (за исключением шумов) сигнала на
входе и выходе устройства, что к сожалению, не соответствует действительности.
Причина – в наличии на передаточной характеристике точек излома, служащих
именно для более эффективного шумоподавления. Без них обеспечить эффективное
шумопонижение заложенным в Dolby принципом "скользящей полосы" было
бы весьма затруднительно.
Как следствие, оснащенные
этими устройствами магнитофоны должны иметь коэффициент передачи сигнала
запись-воспроизведение точно равным единице и, что более важно, точки перегиба
экспандера и компрессора должны совпадать. Добиться этого можно, но…в дело
вступают износ головок, разные характеристики магнитной ленты и ее старение… В
общем, все это напоминает тщательно отлаженный ламповый High-End усилитель,
который уже через год теряет оптимальность настройки именно в силу старения
самих ламп.
Правда, идея
сжатия-расширения звукового сигнала нашла замечательное воплощение в уникальном,
но малоизвестном в бытовой технике компандере dbx, который, в отличие от Dolby,
имеет линейную передаточную характеристику и обладает полной независимостью АЧХ
и ФЧХ от уровня обрабатываемого сигнала. А ведь именно они отвечают за
локализацию в пространстве источников звука! Да и степень подавления шумов (до
– 40 dB, тогда как у Dolby C, к примеру, –20dB) несравненно выше, также как и
способность шумопонижения на средних и низких частотах. Именно невозможность
совместить подавление шумов и четкую объемность звука толкнула Dolby
Laboratories к созданию Dolby Stereo с аж четырьмя каналами и прочих Dolby
Surround. Ну а идея оснастить ими кинотеатры вообще оказалась золотой жилой –
во-первых, много места и, во-вторых, уровень фоновых шумов зала достаточен для
маскировки нехватки динамического диапазона (повышать громкость звука ведь тоже
можно только до болевого порога!).
Ну а последующие поколения
Dolby – цифровые- реализованы весьма толково и чего-либо добавить к сказанному
автором статьи просто не имею возможности. Именно этим системам самое место в
кино- и дома – театрах!
Почему
звуковые карты не воспроизводят AC-3 звук в играх?
AC-3 звук в настоящее время
не используется (и даже не предназначался) для интерактивного 3D звука.
Типичный процесс создания
многоканального звука следующий:
Сначала производится запись
многоканального звука, который может иметь много индивидуальных дорожек --
инструменты, голоса, звуковые эффекты и т.д. Дорожек этих может быть 24, 36, 48
или гораздо больше, особенно если это звуковое сопровождение фильма. Затем
многоканальная запись микшируется ("mixed down", микширование с
сокращением числа каналов) на специальной аппаратуре в музыкальной или кино
студии инженерами по смешиванию звуков. Во время микширования для каждой звуковой
дорожки контролируется, уровень громкости, расположение источника звука,
баланс, эффекты и т.д с целью получения требуемого результата.
В случае со стерео звуком,
результатом такого микширования являются два канала: левый и правый.
Микширование с целью получения многоканального surround звука (multi-channel
surround) представляет собой просто использования большего числа выходных
каналов. В обоих случае, каждый канал состоит из сигналов, которые
предназначены для направления в отдельные колонки при прослушивании
пользователем. Каждый из этих сигналов представляет собой результат сложного
микширования исходных источников, состоящих из многих звуковых дорожек.
Далее, происходит процесс
кодирования каналов, полученных после микширования (например, 6 каналов для
формата "5.1" Dolby Digital/AC-3) и в результате получается один
цифровой поток (bitstream). Процесс кодирования содержит много интенсивных
вычислений, в то время как процесс декодирования (все еще не прогулка по парку)
требует гораздо меньшего количества ресурсов для выполнения.
Теперь цифровой поток
поступает к пользователю, на DVD диске, в виде MPEG файла или в каком-то
другом.
Когда вы начинаете
проигрывание, декодер обрабатывает цифровой поток в режиме реального времени,
разделяя его на индивидуальные каналы и передавая их для воспроизведения на
шести акустических колонках. (Или, декодер может делать еще и простой ремикс,
т.е. новое микширование, для создания лишь нескольких выходных каналов. Если у
вас имеется меньше чем шесть колонок, например, если у вас всего две колонки,
тогда канал сабвуфера (низкочастотный) и центральный (диалогов) добавляются
одновременно к обоим выходным каналам. Задний левый канал добавляется к левому
выходному каналу, задний правый к правому выходному каналу. 3D звуковой процесс
может быть использован для "имитации" наличия реально отсутствующих
акустических колонок.)
Звуковое содержание
"законсервировано". Где бы инженер по микшированию не решил поместить
звук, там вы его и услышите. Точка. В такой же мере, что бы инженер ни сделал
по отношению к уровню громкости, балансу или любому студийному эффекту, вы
услышите это. Точка. Точно как с CD, он всегда один и тот же, каждый раз, когда
вы его проигрываете. В игре, единственный случай, когда вы можете использовать
законсервированное содержание, это окружающий звук, т.е. создающий атмосферу
игры, музыка, видео клипы и т.д., потому что они не могут быть сделаны так, что
бы реагировать на ваши действия, за исключением их запуска и остановки, что
естественно.
В случае с интерактивным 3D
звуком микширование не производится заранее в студии и не может быть там
осуществлено. Микширование происходит в режиме реального времени, в момент,
когда вы играете в игру. Отдельные звуки ("дорожки") извлекаются с
диска и имеют собственный уровень громкости, расположение в пространстве,
тональность и т.д., при этом выбор звука зависит от того, в каком направлении
вы сдвинули мышку или джойстик. В сущности, в игру встроен собственный
робот-инженер по микшированию.
Итак, если вы хотите использовать
при игре внешнюю систему проигрывания Dolby Digital звука (что теоретически
возможно), вам понадобится звуковая карта, имеющая возможность производить в
режиме реального времени не только многоканальное микширование, но и
кодирование на лету в цифровой поток. Эта звуковая карта должна ОЧЕНЬ БЫСТРО
СЧИТАТЬ, потому что любая заметная задержка между, скажем, нажатием кнопки
выстрела и появлением звука вылетающей ракеты, сделает играбельность
удручающей.
Итак, предположим, вы можете
сделать все это. Тогда вам нужно будет послать кодированный сигнал на
расстояние в три фута от вашей карты до декодера, который должен будет снова
разделить цифровой поток на множество каналов. Если такой декодер есть на
карте, отлично, но это будет по-настоящему глупо, потому что тогда нет никакого
смысла осуществлять кодирование в начале.
Как было бы хорошо иметь
такую карту, которая могла бы кодировать на лету, правда единственно, что она
сможет обеспечить, это удобная возможность управления внешней системой,
воспроизводящей окружающий слушателя звук (surround system). Однако стоимость
DSP с требуемой для этого вычислительной мощностью взвинтит цену нашей
теоретической звуковой карты до уровня стратосферы. Это не является
достоинством. Может быть, когда-нибудь это станет реальностью, но не
задерживайте свое дыхание.
По иронии, работающий
"на лету" Dolby Pro Logic кодировщик очень прост, потому что он
основан на очень простой концепции.
В заключение, заметим, что некоторые разработчики игр
используют формат звука AC-3 нестандартным образом для интерактивных звуков,
однако, все равно процесс кодирования на лету не применяется. Они просто
используют преимущества высокой степени сжатия/высокого качества цифрового
формата для упаковки своих звуков на диске.
VQF
Термин VQF происходит от
расширения (extension) имени файла содержащего звук сжатый при помощи алгоритма
TwinVQ. Этот стандарт сжатия более эффективный и качественный MPeg Audio
Layer3. Декодирование (расжатие) занимает приблизительно столько же времени, а
иногда и меньше, как при МР3 компрессии. Чего нельзя же сказать о процессе
кодирования (преобразование WAV в VQF).
Производительность
TwinVQ
Алгоритм TwinVQ был
разработан для более мощных процессоров чем требовалось для MP3, однако это
сказалось только на сжатии данных в TwinVQ. Изготовление VQF файлов происходит
очень медленно (даже используя процессор P-II). Примерно в три раза медленнее
чем аналогичный процесс для Mpeg Audio Layer3 (используя MMX). Как утверждают
разработчики, для реально быстрого процесса сжатия необходим процессор P-II
450MHz XEON или G3-600 (хотя я лично обходился P-II 266MHz)!
Mpeg 3 (128Kbps)
|
Original (1411Kpbs)
|
TwinVQ (VQF) 96Kbps
|
|
|
|
Но нельзя сказать, что VQF
файл превосходит или уступает MP3 файлу, это просто различные файлы. Взглянув
на эти картинки Вы легко поймете это различие: когда Вы кодируете музыку в MP3,
процесс кодирования вносит искажения в звук и вырезается ряд частот. В отличие
от этого, когда Вы кодируете музыку в TwinVQ, мелкие незначительные детали
теряются и звук "сглаживается" (softened). Так при 96Kbps VQF файл
выглядит более близким к оригиналу чем при 128Kbps MP3, но он менее детален.
Две другие проблемы - это спатализация (Spatalisation) и пре-эхо.
Как же
это все работает?
TwinVQ использует метод
кодирования подобно MP3, AAC или Dolby AC-3. Хотя он и использует некоторые классические
средства использованные в MP3 (bitstream) или AAC (interframe backward
prediction) но кодирование музыки отличается в корне. В этом методе,
индивидуальные биты музыкальных данных непосредственно не кодируются, а
объединяются в сегменты (вектора). Эти вектора сравниваются со стандартными
образцами, которые подготовлены заранее. Выбирается стандартный вектор, который
обеспечивает ближайшее соответствие, и количество, связанное с этим образцом
передается как код сжатия. Данные упаковывается в длинный фреймовый режим или
короткий фреймовый режим (8 subframes) согласно константе bitrate для того,
чтобы повысить устойчивость к ошибке. Искажения сводятся к минимуму, так что
музыка и другие звуки успешно воспроизводятся с качеством очень близким к
оригиналу.
Следует заметить, что
технология аудиосжатия TwinVQ включена в стандарт MPEG-4.
Что
необходимо для TwinVQ?
|
Encoder (SoundVQ, VVStudio)
|
Player (Sound VQ, KJofol, VVS Player v.1.3.0)
|
OS
|
Windows 95/NT4.0
|
Windows 95/NT4.0
|
CPU
|
Pentium 66MHz или выше
|
· Pentium 90MHz или выше (для
режима 44KHz Stereo data)
· i486 66MHz или выше (для режима
22KHz Mono data)
|
Memory
|
16MB и выше
|
16MB и выше
|
Audio
|
16bit (stereo) PCM sound function (стандартный
SB)
|
16bit (stereo) PCM sound function
(стандартный SB)
|
|