МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РЕСПУБЛИКИ КАЗАХСТАН

Алматинский институт энергетики и связи

А.З.Айтмагамбетов, Г.Г.Сабдыкеева

ЦИФРОВОЕ ТЕЛЕРАДИОВЕЩАНИЕ

Учебное пособие

Алматы 2003

УДК

Цифровое телерадиовещание:

Учебное пособие/А.З.Айтмагамбетов, Г.Г. Сабдыкеева;

АИЭС. Алматы, 2003.- 80 с.

Учебное пособие содержит материалы по преобразованию, обработке, формированию, передаче и сжатию звуко- и видеоданных в системах цифрового телерадиовещания.

Рассмотрены современные цифровые стандарты, вопросы цифрового спутникового телерадиовещания.

Учебное пособие составлено в соответствии с новым образовательным стандартом.

Предназначено для студентов всех форм обучения специальностей 380540 – Радиосвязь, радиовещание и телевидение, 380340 – Радиотехника.

Табл. 11; Ил. 34; Библиогр.- 12 назв.

Рецензенты: канд.тех.наук, доц. В.Л.Гончаров, канд.тех.наук, Ахметов Ж.К.

Печатается по плану издания Министерства образования и науки Республики Казахстан на 2003 г.

ISBN 9965-494-88-6

ã Алматинский институт энергетики и связи, 2003 г.

Введение

В настоящее время можно выделить три направления развития систем телевизионного вещания (ТВ):

первое - интенсивный рост числа коллективных и индивидуальных установок спутникового телевизионного вещания;

второе - внедрение широкополосных интерактивных сетей кабельного телевидения в полосе 5-862 МГц, способных предоставить телезрителю до 100 и более ТВ программ;

третье - внедрение и развитие наземного ТВ при реализации систем MMDS, LMDS, MVDS (многоканальные микроволновые, локальные многоточечные системы распределения).

В каждом из этих трех направлений наметилась устойчивая тенденция к переходу на цифровые методы передачи. Успешно внедряются коллективные приемные установки, объединяющие все указанные выше виды каналов.

На базовых (головных) станциях таких установок имеются антенны для приема сигналов со спутников и от наземных ретрансляторов, головная станция через магистральную распределительную кабельную сеть доводит различные виды программ к пользователям. Подобные универсальные сети имеют широкое распространение в странах Западной Европы, Канаде, США, Японии и др. В нашей стране создаются кабельные сети с трансляцией до 50 телевизионных программ, позволяющие предоставить возможность заинтересованным абонентам обратный канал (так называемые системы интерактивного телевидения). При наличии обратных каналов по системе кабельного телевидения абоненту может быть предоставлен ряд дополнительных услуг: подключение к телефонной сети общего пользования и сетям передачи данных, доступ в Интернет, возможность проводить расчеты через банк, не выходя из дома делать покупки и многое др. Наряду с внедрением многоканальных, многоточечных систем распределения MMDS, LMDS, MVDS в наземном телевидении получают развитие принципиально новые системы DVB-T - цифровые системы наземного телевидения.

Переход к цифровым методам передачи телевизионных сигналов по спутниковым каналам можно считать свершившимся фактом.

Достижения в области микроэлектроники позволили крупным фирмам добиться значительного улучшения пользовательских свойств оборудования для непосредственного спутникового телерадиовещания и 2-3-кратного снижения цены индивидуальной установки.

Таким образом, прогресс в сжатии спектра телевизионных сигналов при устранении в них избыточности (например, стандарт MPEG и др.) и новейшие достижения в области микроэлектроники позволили сделать буквально революционный скачок в развитии телевизионных технологий.

На повестку дня стал вопрос о технической стандартизации и унификации узлов и блоков студийного и приемо-передающего оборудования для систем цифрового телевизионного вещания. Группой экспертов ряда стран Европы, США, Японии был разработан стандарт цифрового оборудования (DVB), применимый в спутниковых, кабельных и наземных системах телевизионного вещания. В 1994 г. стандарт был принят большинством стран и для спутниковых цифровых каналов на основе использования сигналов с квадратурной фазовой модуляцией (QPSK); для кабельных каналов на основе использования сигналов многопозиционной амплитудно-фазовой модуляции: 16-КАМ, 64-КАМ, 256-КАМ. Учитывая неоднородность каналов наземного телевидения из-за переотражений, наличия большого уровня помех и влияния осадков для таких каналов был принят более сложный метод модуляции - COFDM-кодированная передача на многих ортогональных несущих.

Рассмотрим основные преимущества цифровой технологии в телевидении перед аналоговой.

Цифровое телерадиовещание представляет собой информационную технологию XXI века, так как позволяет:

- перейти от множества телевизионных стандартов (на сегодня в эксплуатации имеется более 40, включая NTSC, PAL, SECAM) к единому цифровому;

- унифицировать передающую студийную и приемную аппаратуру;

- в абонентских терминалах (телевизорах) плавно перейти от приема аналоговых к цифровым, путем внедрения на первом этапе специальных приставок-декодеров, преобразующих цифровые сигналы в аналоговые;

- обеспечить передачу изображений повышенного качества, а также телевидения высокой четкости, многопрограммного и стереоскопического телевидения;

- реализовать интерактивную связь.

Выдвинутая Россией и поддержанная 11-й Исследовательской комиссией Международного союза электросвязи глобальная модель единой системы телерадиовещания нашла одобрение практически всех стран. Предполагается, что глобальная модель цифрового телевизионного вещания будет иметь гибкую цифровую архитектуру, позволяющую приспособиться не только к различным телевизионным стандартам, но и к системам телевидения высокой четкости и цифрового многопрограммного телевизионного вещания.

1 Цифровое телевизионное вещание в наземных радиоканалах

Переход к цифровым методам передачи обычно, связывают с резким улучшением качественных показателей видеоизображения. Это действительно справедливо для спутниковых и кабельных каналов, где аддитивные и мультипликативные помехи (наложенные от других источников), практически отсутствуют.

В наземных каналах телерадиовещания, особенно в крупных городах с многоэтажной застройкой мультипликативные помехи иногда резко ухудшают качество изображений, а в ряде случаев могут быть причиной образования, так называемых "мертвых" зон, где качественный прием передач местного телецентра, практически невозможен. Эти помехи особенно сильно мешают при приеме сигналов на слабонаправленные антенны, т.е. в тех случаях, когда прием ведется на переносные или подвижные телевизионные и радиовещательные терминалы.

При разработке стандарта на цифровое телевизионное вещание в наземных сетях высококвалифицированными специалистами ряда стран были проведены очень серьезные исследования по уменьшению влияния мультипликативных помех.

Системы многопрограммного цифрового ТВ вещания встраиваются в существующие частотные планы распределения телевизионных каналов, предусматривающие полосу пропускания 8 МГц для наземного и кабельного телевидения. В спутниковых ТВ системах для непосредственного приема со спутников выделена полоса 27 МГц, а для фиксированной спутниковой связи (ФСС) разрешены системы с полосой пропускания 30, 33, 36, 40, 46, 54 и 72 МГц. Российские системы на спутниках "Радуга", "Экспресс", "Горизонт", как правило, работают в полосе 36 МГц.

При выборе в системах цифрового телерадиовещания одинаковых или кратных полос пропускания для разных систем упрощается обмен телевизионными программами между наземными и спутниковыми вещательными службами. В самом деле при цифровом потоке ТВ программы 9 Мбит/с, по спутниковым системам можно пропустить 3-4 программы, по наземным - одну программу, а по кабельному при перекодировании в 16 КАМ и 64-КАМ - четыре-шесть программ высокого качества.

Результатом этих усилий явился в 1996 г. стандарт для каналов наземного телевидения ETS 300744 - Digital Broadcasting Systems for television, sound and data services. Framing structure, channal coding and modulation for digital terrestrial television, 1996 [2] или сокращенно стандарт DVB-T.

В этом стандарте предложен новый метод модуляции COFDM (Coded Orthogonal Frequency Division Multiplexing), который можно перевести на русский язык как метод многоканальной комбинированной амплитудно-фазовой модуляции на многих ортогональных несущих с применением помехоустойчивого кодирования.

Рассмотрим кратко основные особенности метода комбинированной амплитудно-фазовой модуляции на ортогональных несущих.

Применение комбинированной амплитудно-фазовой модуляции (16-КАМ, 64-КАМ, 256-КАМ) обусловлено необходимостью увеличения пропускной способности радиоканала по соотношению 2ⁿ, где цифра 2 означает дискретный канал для двоичного сигнала (посылка, пауза), a n - число двоичных каналов в системе связи. В системе 4-ФМ могут передаваться две независимых двоичных последовательности (2²), в системе 8-ФМ - три (2³) в системе 16-КАМ - четыре (2⁴) и т.д. Использование в системах с числом позиций более восьми комбинированной амплитудно-фазовой модуляции объясняется большей помехоустойчивостью этих сигналов по сравнению с многопозиционной фазовой модуляцией (16-ФМ, 64-ФМ и т.д.).

Таким образом, с увеличением n в соотношении 2n количество дискретных потоков, при одной и той же скорости передачи в заданной полосе канала, возрастает пропорционально числу n, где n - 0, 2, 3,..., 8. Число n = 8 соответствует системе КАМ-256, которая пока еще не нашла широкого практического применения. Ортогональность в предложенном методе модуляции позволяет исключить перекрытие спектров двух соседних несущих и тем самым свести к минимуму влияние двух соседних каналов. Условие ортогональности выполняется, если частотный разнос между несущими f_к и f_K₊₁ будет равен величине обратной длительности символа рабочего интервала Т_и, т.е. Df = f_к+1 – f_к = 1/Т_и.

Математически ортогональность определяется как интеграл от произведения спектров двух модулированных несущих за время Т_и, который равняется нулю.

Техническая реализация вышеописанного метода модуляции выражается в том, что в стандарте DVB-T предусмотрены две модификации, обозначаемые как 2К и 8К.

В модификации 2К используются 1705 несущих, а в 8К - 6817 несущих. При этом мультиплексированный суммарный поток видео-, аудиосигналов и данных делится на 1705 или 6817 параллельных потоков, в каждом из которых длительность символа увеличивается либо в 1705, либо в 6817 раз. Это позволяет часть длительности символа сообщения выделить на защитный интервал от эхосигналов. В обеих модификациях относительная длительность защитного интервала Dt/Т_и может принимать значения 1/4, 1/8, 1/16 и 1/32, т.е. защитный интервал может составлять от 3 до 25% длины рабочего интервала Т_и. Выбор длины защитного интервала определяется не только рельефом местности и характером застройки на обслуживаемой телецентром территории, но и удалением соседних передатчиков.

Физически очевидно, что чем длиннее рабочий интервал, тем больше защитный интервал и система в целом эффективнее защищена от эхо-сигналов.

Вместе с увеличением числа несущих усложняется декодер, требующий для системы 8К применения процессора с двоичной емкостью 2¹³ = 8192, а это влечет за собой и повышение стоимости абонентского телевизионного приемника. Поэтому модификация приемника 2К с процессором в декодере 2¹¹ = 2048 может оказаться доступной значительно большим слоям населения в том числе и со средним достатком. В таблице 1.1 приведены основные параметры системы с модуляцией COFDM [4].

Двум модификациям 8К и 2К соответствуют разные величины частотных разносов несущих в радиочастотном спектре COFDM; соответственно 1116 и 4464 Гц. Рабочая ширина полосы спектра радиоканала в обоих случаях будет одинаковой и равной 7,61 МГц. В полосе, отведенной для аналогового телевизионного радиоканала 8 МГц, разнос между соседними каналами системы цифрового телевидения составляет 0,39 МГц.

Таблица 1.1 – Основные параметры системы с модуляцией COFDM

Модификация	8К	2К
Длительность рабочего интервала, мкс	896	224
Число несущих в спектре группового сигнала	6817	1705
Частотный разнос несущих, Гц	1116	4464
Ширина радиоспектра группового сигнала, МГц	7,61	7,61
Относительная длительность защитного интервала	1/4, 1/8, 1/16, 1/32	1/4, 1/8, 1/16, 1/32
Длительность защитного интервала Dt, мкс	224, 112, 56, 28	56, 28, 14, 7
Длительность символа сообщения, мкс	1120, 1008, 952, 924	280, 252, 238, 231
Территориальный разнос между передатчиками в одночастотной сети, км	67; 34; 17; 8,4	17; 8,4; 4,2; 2

Таким образом, общая ширина спектра радиоканала цифрового телевидения в наземных системах телевещания полностью соответствует ширине полосы аналогового телевидения в стандарте с разложением в 625 строк (SECAM, PAL).

В последней строке таблицы 1.1 приведены данные территориального разноса телевизионных передатчиков в системах наземного цифрового ТВ 8К и 2К, взятые из [4] и рассчитанные для одночастотной сети вещания. Однако эти данные могут лишь подтвердить вывод о том, что система 8К с большим в 4 раза числом несущих будет эффективнее защищена по сравнению с системой 2К от мультипликативных помех, создаваемых наземными цифровыми передатчиками друг другу.

Реальные сети наземного телевизионного вещания особенно в крупных городах и густонаселенных регионах, как правило, многочастотные и поэтому расчет электромагнитной совместимости (ЭМС) передатчиков в такой сети является сложной многокритериальной задачей. В настоящее время существует методика расчета передающих сетей телерадиовещания, в которых применяются аналоговые методы модуляции [1].

Для сетей с цифровыми методами передачи пока подобной методики не существует. По-видимому, в ближайшие 5-10 лет в нашей стране будут работать как передатчики аналогового, так и цифрового телерадиовещания. Можно высказать лишь общие соображения, по вопросу электромагнитной совместимости этих двух систем. При цифровом телевидении значительно снижаются мощности передатчиков, а с учетом равномерности спектра цифровых сигналов с модуляцией CQFDM, помехи от них аналоговым сигналам будут незначительны. В то же время цифровые сигналы обладают высокой устойчивостью к помехам, создаваемым аналоговыми системами. Поэтому условия электромагнитной совместимости этих двух видов систем телевещания выполнить значительно легче, чем при координации сетей с аналоговыми методами передачи.

При выборе сложных видов модуляции 4-ФМ, 8-ФМ, 16-КАМ, 64-КАМ каждому положению вектора несущей I (синфазному) или Q (квадратурному) будет соответствовать заданной длины кодовая комбинация. В случае модуляции 4-ФМ кодовая комбинация состоит из двух бит, например 00, 01, 10, 11, при 16-КАМ - из четырех бит, а при 64-КАМ - из 6 бит. Эти комбинации принято называть манипуляционным кодом. Выбор манипуляционного кода диктуется, с одной стороны, необходимостью достижения максимальной помехоустойчивости соответствующих кодовых комбинаций и, с другой, возможно более простой технической реализацией модема.

Предложенный стандарт [2] обеспечивает при реализации модемов совместимость модемов COFDM, выпускаемых различными фирмами. При этом отдельные функциональные узлы оборудования наземных, спутниковых и кабельных цифровых систем ТВ вещания могут быть унифицированы, что позволит снизить стоимость и повысить надежность аппаратуры цифрового телевидения.

Для устойчивой работы приемного устройства в условиях помех и передачи сложных мультиплексированных потоков предусмотрены следующие синхронизирующие и управляющие сигналы:

- для фазовой подстройки несущих частот демодулятора;

- тактовой синхронизации демодулятора;

- для оценки состояния радиоканала;

- для управления демодулятором в случае изменения режимов модуляции 8К или 2К.

На системы синхронизации и управления приемным устройством выделяется в модификации 8К - 769, а в 2К - 193 опорных несущих частоты, которые по сравнению с информационными несущими передаются с повышенной на 2,5 дБ мощностью. Эти фиксированные несущие модулируются опорной псевдослучайной последовательностью.

Увеличение мощности достигается за счет перехода на бинарную фазовую манипуляцию (2-ФМ). Из общего числа 769 (8К) и 193 (2К) фиксированных несущих на автоматическую подстройку фазы опорного сигнала в демодуляторе и тактовую синхронизацию выделено 177 и 45 несущих. Сигналы управления демодулятором в режиме 8К передаются на 68 несущих, а в режиме 2К - на 17 несущих.

Оценка состояния канала осуществляется путем сканирования сквозной амплитудно-частотной характеристики радиотракта. С этой целью используется 524 (режим 8К) и 131 (режим 2К) рассредоточенных опорных несущих. Рассредоточенность несущих заключается в том, что частоты их смещаются при переходе от одного символа кадра к другому символу с заданным периодом.

Помехоустойчивость сжатого цифрового ТВ сигнала за счет удаления информационной избыточности заметно ниже даже по сравнению с аналоговым сигналом. Однако в настоящее время существуют весьма эффективные методы помехоустойчивого кодирования, которые и применяются достаточно успешно в системах цифрового телерадиовещания.

В рассматриваемых системах используется внутренняя кодовая защита модема с помощью сверточных кодов и внешняя защита с помощью кода Рида-Соломона (PC).

Декодер сверточного кода производит первый уровень защиты, уменьшая вероятность ошибки с 10^-1...10^-2 во входном потоке до значения не хуже 2.10^-4 на выходе. При внешнем кодировании каждый пакет длиной 188 байт общего транспортного потока преобразуется в новый пакет длиной 204 байта, что позволяет после такой процедуры исправлять восемь искаженных помехами байт. В литературе этот код называют укороченным кодом Рида-Соломона и обозначают PC (204, 188, 8). После декодирования, на вход декодера подается цифровой поток с коэффициентом ошибок не хуже 2.10^-4, вероятность ошибки снижается до 10^-10…10^-11.

Для устранения пакетных ошибок, превышающих 8 байт, применяется сверточное перемежение данных. Перемежение или перестановка двух соседних байт составляет 12 байт, т.е. в полтора раза превышает корректирующую способность кода по одиночным ошибкам, тем самым, позволяет обнаруживать и исправлять групповые ошибки, не превышающие 8 байт. Более подробное изложение принципов помехоустойчивого кодирования с помощью кода Рида-Соломона и сверточных кодов можно найти в [6].

Поясним основные этапы обработки сжатых цифровых телевизионных сигналов и цифрового потока данных в передающем и приемном устройствах наземного ТВ в модификации стандарта DVB-T. На рисунке 1.1 представлена структурная схемы преобразования данных и сигналов в передатчике DVB-T [7].

Аналоговые сигналы видео- и аудиоканалов поступают на вход своих кодеров (блоки 1-3), где преобразуются раздельно в сжатые цифровые сигналы стандарта MPEG-2. Далее три цифровых потока (видео, аудио и данных) поступают на блоки формирования программного потока MPEG-2 (4) и мультиплексора (5). К мультиплексору подводятся опорные и синхронизирующие сигналы, позволяющие разделить на приемной стороне цифровые потоки видео-, аудиосигналов и данных, а также выделить сигналы, передаваемые для оценки состояния радиоканала и об используемых режимах модуляции.

В мультиплексоре формируется транспортный поток путем разбиения программного потока на отдельные пакеты и ввода в каждый из них синхронизирующих сигналов. После мультиплексора в схему может быть введен блок расщепления потока данных. Расщепление транспортного потока, в случае необходимости, позволяет сформировать два потока с разным уровнем приоритета. Поток, обозначенный пунктиром, имеет низший приоритет (несколько меньшую помехоустойчивость), но вместе с тем обеспечивает повышенную скорость передачи данных. Поток высшего приоритета имеет повышенную степень кодовой защиты от помех. Таким способом реализуется возможность передачи телевизионных программ в двух вариантах. Программа низшего приоритета передается с повышенной четкостью (при хорошем прохождении сигналов качество изображения будет высоким). При плохом сигнале передается программа пониженной четкости, но с высшим приоритетом защиты, что позволяет обеспечить равноценное качество изображения. В случае изменения условий приема пользователь может переключать приемник с одного канала на другой, выбирая лучший.

1-3 - кодеры МРЕС-2 для сигналов видео, аудио и данных; 4 - формирователь программного потока MPEG-2; 5 - мультиплексор; 6 - блок расщепления потока данных, используемый при иерархической передаче; 7 - рандомизатор (скремблер); 8, 9 - внешние кодер и перемежители; 10, 11 - внутренние кодер и перемежители; 12 - формирователь модуляционных символов; 13 - модулятор; 14 - формирователь защитных интервалов;

15 - преобразователь частоты вверх; 16 - блок опорных сигналов

Рисунок 1.1 - Преобразование данных и ТВ-сигналов в передатчике DVB-Т

В блоке (7) производится рандомизация (скремблирование) цифрового потока, что позволяет улучшить условия электромагнитной совместимости с другими системами. В блоке внешнего кодирования (8) в соответствии с кодом Рида-Соломона в каждый пакет длиной 188 байтов вводится 16 проверочных байтов. При декодировании такого сигнала исправляется до 8 байтов из пакета 204 байта. Перемежение (перемешивание или иногда используют термин интерливинг - блок 9) производят изменением мест размещения байтов в защищенном от ошибок транспортном пакете. При этом в синхронизирующие байты перемежение не вводится, что позволяет на приемной стороне произвести обратное перемежение. Операция перемежения позволяет длинные пакетные ошибки разделить на отдельные части, распределив их по разным кодовым словам кода PC, которые далее обнаруживаются и исправляются схемой защиты от ошибок.

Внутреннее кодирование (блок 10) в системе DVB-T осуществляется с помощью сверточных кодов. При сверточном кодировании информация разделяется на блоки, содержащие несколько битов, к которым добавляются проверочные биты, образуя новые блоки называемые кадрами. В сверточном коде 1/2 на каждый информационный сигнал введен один проверочный символ, а в коде 7/8 на семь информационных символов вводится один проверочный. Естественно, что код 1/2 имеет более высокую степень защиты от ошибок, чем код 7/8, но при этом на выходе кодера скорость цифрового потока увеличивается вдвое, а в коде 7/8 всего лишь на 11 ,5%. В системе DVB-T перед формированием модуляционных символов производится внутреннее перемежение (блок 11) - процесс перемешивания данных, которые модулируют разные несущие. Формирование модуляционных символов и модуляция производятся в блоках (12, 13). Несмотря на то, что система DVB-T теоретически позволяет использовать метод модуляции из ряда QPSK (4-ФМ), 8-ФМ, 16-КАМ, 32-КАМ, 64-КАМ, но в реальном оборудовании (например, в аппаратуре фирмы Юник-Канада) применен метод модуляции 4-ФМ. При этом упрощается переход от спутниковых каналов, использующих сигналы с модуляцией 4-ФМ, к наземным и достигается высокое качество ТВ сигнала при пороговом отношении сигнал-помеха на входе приемника в пределах 5.. .6 дБ.

1 - преобразователь частоты вниз; 2- демодулятор COFDM; 3, 4 - обратные внутренние перемежители и декодер; 5-6 - обратные внешние перемежители и декодер; 7 - дескремблер;

8 - демультиплексор; 9-11 - декодеры сигналов видео, звука и данных;

12 - блок синхронизации и оценки характеристик канала и надежности данных

Рисунок 1.2 - Преобразование сигналов и данных в приемнике DVB-Т

В блоке 14 формируется защитный интервал передаваемого цифрового сигнала и далее (блок 15) преобразование на частоту радиосигнала. Структурная схема преобразования сигналов и данных в приемнике системы DVB-T приведена на рисунке 1.2. В соответствии со схемой очевидно, что в приемнике осуществляются обратные преобразования цифровых сигналов, а именно после преобразования частоты принятого радиосигнала на промежуточную (блок 1) - демодуляция (блок 2) - внешнее и внутреннее обратные перемежения и декодирование (блоки 3-6), дерандомизация (блок 7), демультиплексирование (8) и наконец в декодерах видео, звука и данных (блоки 9-11) выделяются аналоговые видео-, аудиосигналы и данные.

В любой системе наземного ТВ, в том числе и DVB-T, очень важным элементом системы являются антенные устройства.

Рекомендованный стандартом DVB-T [2] для наземных каналов телерадиовещания метод модуляции COFDM значительно сложнее, чем квадратурно-фазовая модуляция (4-ФМ), применяемая в спутниковых каналах. Однако при этом не исключается возможность использования в наземном цифровом телевидении модуляции 4-ФМ (QPSK).

В заключение отметим, что в США для наземного вещания выбран стандарт ATSC (Advanced Television Systems), отличающийся от DVB-T методом модуляции.

В ТВ системах, использующих стандарт ATSC, скомпрессированный цифровой поток видео- и аудиосигналов модулирует по амплитуде несущую, образуя 8- или 16-уровневые радиосигналы с подавленной нижней боковой полосой (8-VSB или 16-VSB - Vestigal Side Band). В кабельных и радиорелейных линиях связи рекомендуется использовать сигналы 16-VSB, а в наземном вещании 8-VSB. К настоящему времени в Европе пионером внедрения стандарта DVB-T является Англия, а на других континентах Австралия и Япония. Причиной такого медленного внедрения цифрового телевидения по системе DVB-T является относительная сложность и дороговизна абонентского терминала - цифрового телевизора пользователя.

Австралия в течение почти двух лет проводила всесторонние испытания цифрового телевидения в стандарте DVB-T, в результате которых остановила свой выбор на этом стандарте. Решающим критерием для такого выбора была доказанная на практике возможность приема сигналов стандартного телевидения (625 строк) на комнатную антенну или в движении. Япония также остановила свой выбор на стандарте DVB-T, несколько изменив его для условий своей страны.

2 Преобразование звуковых сигналов в цифровую форму

2.1 Двухканальный и многоканальный звуковой сигнал

Способность человеческого слуха воспринимать пространственное положение звуковых объектов — бинауральный эффект — долгое время не использовалась в телевизионном вещании, да и сейчас скорее является исключением, чем правилом. Лишь немногие страны ведут эфирное ТВ вещание со стереозвуковым сопровождением. Пионерами здесь оказались звуковое вещание и кинематограф. С появлением в УКВ диапазоне стереовещания с частотной модуляцией (ЧМ) и шумоподавлением звуковое вещание ощутимо приблизилось к пределу качества аналоговых систем. В кинематографе внедрение системы шумоподавления Dolby позволило сократить ширину оптической дорожки для записи звука на киноленте и разместить вместо одной дорожки две — появилась возможность записи двухканального стереозвука. Однако при наличии двух динамиков — правого и левого — стереоэффект ощущался только в небольшой центральной части зала, зрители же, сидящие ближе к одному из динамиков, слышали звук, преимущественно из этого динамика. Такой перекос затруднял восприятие диалогов, и было решено установить за экраном центральный динамик, на который подавался смикшированный сигнал, обеспечивавший «центральное» восприятие диалогов для всей аудитории.

Дальнейшие исследования показали, что два микрофона с кардиоидной диаграммой направленности, размещенные под углом 90°, дают значительно больше информации, чем необходимо для двухканального звука, и эта информация может быть использована путем размещения одного или двух динамиков позади слушателей. Еще один динамик размещался впереди и использовался для воспроизведения сверхнизких частот в полосе до 120 Гц (так называемый сабвуфер). Результирующий многоканальный сигнал обозначили 5.1 (5 полных каналов — центральный С, правый R и левый L передние, правый R_s и левый L_s задние, низкочастотный LFE с информационной емкостью примерно 0,1 полного). Иногда еще используется форма записи 3/2.

Для улучшения разделения каналов была разработана система Dolby Pro Logic, использовавшая для этой цели некоторые тонкие эффекты. В частности, учитывались особенности человеческого слуха, связанные с ухудшенным различением направления на два источника примерно равной интенсивности и с преобладанием направления на более мощный источник при неравной интенсивности. Удалось добиться разделения между каналами до 35 дБ.

При переходе к цифровому звуку все достижения в области многоканального звука сохраняются и получают дальнейшее развитие. Благодаря гибкости цифрового форматирования легко обеспечить иерархическую передачу, когда из одного и того же цифрового сигнала, содержащего все компоненты многоканального звука, декодеры разной сложности выделяют либо двухканальный стереосигнал, либо двухканальный сигнал Dolby Pro Logic с последующим разделением на матрице, либо полный многоканальный сигнал.

В применении к телевизионному вещанию, в отличие от кинематографа с его большим экраном, существует противоречие объемного звукового образа с небольшим ТВ изображением. Надо полагать, с появлением ТВ приемников с большим размером экрана и распространением домашних кинотеатров» это противоречие будет постепенно сглаживаться.

2.2 Цифровой сигнал AES/EBU

Отличия в аналого-цифровом преобразовании звуковых сигналов и видеосигналов связаны с особенностями человеческого слуха. Если видеосигнал занимает полосу частот до 4...6 МГц, то ухо воспринимает звуки в диапазоне 20 Гц...20 кГц, и частота дискретизации может быть значительно ниже, чем для видеосигнала. Практически применяются три номинала частоты: 32 кГц для бытовой аппаратуры с полосой воспроизводимых частот 30 Гц ... 15 кГц, 44,1 кГц для компакт-дисков (CD) и 48 кГц для профессиональной звуковой аппаратуры высокого качества с полосой 20 кГц и более. Значение 44,1 кГц сложилось исторически, когда для записи CD мастер-копий использовались видеомагнитофоны и требовалось, чтобы на строке укладывалось целое число отсчетов. Оказалось, что и для стандарта разложения 525 строк, и для стандарта 625 строк частота 44,1 кГц обеспечивает размещение ровно трех звуковых отсчетов на строке.

Особенностями слуха являются также огромный динамический диапазон слухового восприятия — более 100 дБ — и чувствительность к самым ничтожным нелинейным искажениям. Для обеспечения высококачественного (качества CD) воспроизведения разрядность квантования должна быть не менее 16 бит/отсчет, для профессиональной аппаратуры общепринятыми являются значения 18, 20 и даже 24 бита.

В 1992 г. Американское общество звукоинженеров (AES) стандартизовало двухканальный звуковой цифровой интерфейс, построенный на основе этих предпосылок (версия AES3). Позднее этот стандарт был принят Европейским союзом радиовещания ЕСР (англоязычная аббревиатура EBU) и под названием AES/EBU получил статус международного [2]. Он предполагает передачу с мультиплексированием по времени двух потоков звукоданных, соответствующих правому и левому каналам одного стереосигнала или двум независимым моноканалам. Один кадр данных содержит 2 субкадра, в каждом из которых передаются звукоданные одного канала: 20 битов одного отсчета, 4 бита данных для увеличения разрядности квантования, 4 бита вспомогательных незвуковых данных и 4-битовая преамбула для синхронизации. Скорость потока составляет 2-32-48-10³ =3,072 Мбит/с при частоте дискретизации 48 кГц и 2,048 Мбит/с при частоте 32 кГц. Кадры группируются в блоки по 192 кадра. Выделение блоков необходимо для организации сравнительно медленных потоков вспомогательных данных (по 1 биту в субкадре).

Устойчивое выделение тактовой частоты на приеме обеспечивается благодаря использованию бифазного канального кода, в котором каждая граница такта отмечается переходом и, кроме того, логическая «1» отмечается дополнительным переходом. Такая схема практически исключает постоянную составляющую и допускает инверсию сигнала данных. После кодирования

скорость данных в канале удваивается и достигает 6,144 Мбит/с.

Рисунок 2.1 – Синхронизация в интерфейсе AES/EBU

Синхронизация осуществляется посредством трех кодовых комбинаций X, Y, Z, передаваемых соответственно в начале отсчета левого канала, в начале отсчета правого канала и в начале блока. Эти преамбулы нарушают правила бифазного кода и потому легко обнаруживаются на приеме (рисунок 2.1). Электрические характеристики интерфейса частично совместимы с RS422. Дифференциальное напряжение на передаче должно быть в пределах 2... 7 В, фронты импульсов от 5 до 30 нс, фазовое дрожание не должно превышать 4 нс (0,025 тактового интервала). В профессиональных применениях всегда используется балансная линия в виде витой пары с трехконтактными соединителями XLR, использовавшимися еще в технике аналогового звука. Передача по специальному 110-омному кабелю возможна на 500 м без коррекции и до 1000 м с коррекцией, по обычному кабелю — на 70 м без коррекции и до 250 м с коррекцией. Раскрытие глазковой диаграммы на приеме должно быть не менее 0,25 тактового периода по ширине и 0,2 В по высоте. Недопустима эксплуатация интерфейса без оконечной нагрузки 100 Ом из-за значительного влияния отраженной волны. Не очень высокая экранирующая способность витой пары ставит под сомнение возможность передачи сигнала AES/EBU на большие расстояния как из-за влияния других сигналов, так и из-за помех от сигнала AES/EBU чувствительным радиоустройствам в диапазоне нескольких мегагерц. Недавно стандартизован коаксиальный вариант интерфейса AES/EBU. Он допускает передачу данных по высококачественному коаксиальному кабелю на расстояние до 1 км, при этом выходное напряжение передатчика должно составлять 1 ± 0,1 В на нагрузке 75 Ом. Характеристики, схожие с аналоговым видеосигналом (размах 1 В, полоса частот около 6 МГц), позволяют пропускать этот сигнал по имеющимся аналоговым студийным видеотрактам с их корректирующими усилителями и коммутаторами.

Некоторыми фирмами-производителями оборудования предложены собственные форматы цифрового звука, но они не приобрели статус международного стандарта и используются в основном в бытовой аппаратуре самих разработчиков. Наиболее известен формат SPDIF (Sony/Philips Digital Interface), разработанный для CD-плееров и использующий те же форматы звукоданных, но несколько иные электрические характеристики и другой формат незвуковых данных.

В документе IEC958 описано использование для бытовой аппаратуры небалансного звукового интерфейса с RCA соединителями, подключенными к обычному коаксиальному звуковому кабелю. Указывается, что можно перекрыть расстояние в десятки метров.

Серьезной и не до конца решенной проблемой цифрового звука является установка и поддержание диаграммы уровней при аналого-цифровом преобразовании. Поддерживать стабильный и одинаковый по всем каналам уровень звука необходимо, чтобы слушателю не приходилось постоянно регулировать громкость своего ТВ приемника при просмотре передачи или переключении с канала на канал. В аналоговом вещании это делается подачей тонального измерительного сигнала определенного уровня (чаще всего + 4 дБu = 1,23 В_эфф в профессиональном оборудовании и минус 10 дБu в бытовых устройствах, где дБu — децибелы относительно калибровочного напряжения 0,775 В, обеспечивающего мощность 1 мВт на номинальном сопротивлении 600 Ом) и последующей регулировкой уровня реального звукового сигнала таким образом, чтобы его «квазипиковое» значение равнялось значению напряжения измерительного сигнала на том же измерителе уровня. Под «квазипиковым» понимают пиковое значение с постоянной времени усреднения 5 мс, которое превышается «весьма редко». Если учесть, что «квазипиковое» значение сложного звукового сигнала на 10...14 дБ выше пикового значения синусоидального сигнала, это означает, что реальная субъективная громкость, которая определяется не пиковым, а средним уровнем сигнала, измеренным с постоянной времени 200 мс, на те же 10…14 дБ ниже громкости измерительного тона.

В цифровом вещании оператор лишен возможности подать звуковой сигнал на измеритель. Затруднены и оперативные регулировки его уровня, особенно для сигнала, встроенного в SDI. Единственной гарантией одинаковой громкости звука во всех каналах могла бы быть тождественность характеристик квантования (она определяется разрядностью квантования) и одинаковый запас по перегрузке, т.е. разница в децибелах между полным размером шкалы квантования и напряжением, соответствующим среднему уровню громкости (так называемым уровнем выравнивания). Запас нельзя делать слишком малым, иначе в моменты перегрузки наступит клипирование — обрезание пиков звукового сигнала, сопровождающееся нелинейными искажениями. Не следует и завышать запас, это связано с уменьшением динамического диапазона и ухудшением отношения сигнал-шум квантования.

К сожалению, относительно запаса по перегрузке у вещателей нет единого мнения, отсутствуют и общепризнанные стандарты на этот параметр. ЕСР в Рекомендации R.64-1992 установил запас равным 12 дБ для 16-битового квантования, позднее для 20-битового была рекомендована величина 18 дБ (R.68-1995). Однако в Германии пользуются значением 15 дБ, во Франции - 22 дБ. SMPTE в Рекомендации RP155 рекомендует запас в 20 дБ даже не над средним, а над квазипиковым уровнем звукового сигнала [2]. Компания NTL предлагает вернуться к значению 12 дБ и установить для уровня выравнивания определенные значения кодов, напрямую связанных

с кодами максимального уровня кодирования [2]. Пока же вещателям при ретрансляции программ от разных источников приходится вводить в каждом звуковом канале цифровые или даже аналоговые (с ЦАП и АЦП) устройства для начальной установки уровня сигнала.

2.3 Ввод звукоданных AES/EBU в сигнал последовательного стыка SDI

При описании интерфейса SDI уже упоминалось, что в промежутке между сигналами EAV и SAV могут передаваться дополнительные данные. Стандарт SMPTE-272M [2] описывает формат размещения звукоданных, расширенных данных и командной информации для встраивания (внедрения, имбеддирования) в цифровой поток до 8 стерео- или 16 моносигналов цифрового звука, предварительно преобразованного в формат AES/EBU. Видеосигнал с внедренным звуком очень удобен в больших аппаратных при значительном общем числе каналов, когда велика опасность при коммутациях «потерять» звук или нарушить его синхронность с видеосигналом. Стандарт поддерживает 10 режимов (уровней) функционирования, обозначаемых буквенными суффиксами от А до J и различающихся частотой дискретизации, точностью квантования, способом синхронизации. При внедрении в видеосигнал пары сигналов AES/EBU (четверки моносигналов) объединяют в группы. Сигналы каналов одной группы передают в одном пакете, снабженном идентификатором для определения его принадлежности к группе. Каждый субкадр звукового сигнала (кроме битов дополнительных данных) передается тремя 9-битовыми символами (10-й бит символа — инверсный к 9-му). При необходимости квантования на 24 бита дополнительные биты данных собираются в специальные пакеты расширенных данных, при этом в одно кодовое слово упаковываются дополнительные биты двух соседних каналов.

3 Сжатие звукоданных

3.1 Эффект маскирования и психоакустическая модель слуха

Из-за повышенной чувствительности уха к искажениям сжатие звуковых сигналов оказывается более сложной задачей, чем видеокомпрессия. В то же время некоторые психофизиологические особенности слухового восприятия позволяют даже при существенной компрессии (6:1 и более) обеспечить «прозрачный» канал, т.е. канал, звучание выходного сигнала которого субъективно неотличимо от звучания сигнала источника. Для понимания этих особенностей познакомимся вкратце с механизмом слухового восприятия. Известные из курса анатомии барабанная перепонка и стремечко преобразуют звуки в механические вибрации и передают их на находящийся в улитке внутреннего уха кортиев орган — протяженную мембрану между двумя камерами, заполненными жидкостью. Звуки разной высоты возмущают различные участки мембраны, имеющие разные резонансные частоты, и через нервные окончания эти возбуждения передаются в мозг. Частотный диапазон восприятия простирается от 20 Гц до примерно 20 кГц, область наибольшей чувствительности лежит между 1 кГц и 5 кГц. Как и во всякой системе с преобразованием из временной в частотную область, в слуховой системе имеется некоторая неопределенность в разделении двух событий: чем точнее известны характеристики сигнала во временной области, тем менее точно можно описать его спектральный состав, и наоборот. Несовершенное разделение по частоте приводит к тому, что ухо не в состоянии различить звуки с близкими частотами, этот эффект называется частотным маскированием. В результате длительных исследований удалось измерить ширину и расположение частотных полос, в пределах которых действует маскирование. Эти полосы получили название критических и в полосе слухового восприятия их насчитывается 25. В области низких слышимых частот ширина критической полосы менее 100 Гц, в районе 2 кГц она равна 300 Гц и возрастает до 4 кГц в области высших воспринимаемых частот.

Измеряется ширина критической полосы в Барках и рассчитывается по формуле

Кроме частотного (статического), имеет место и временное (динамическое) маскирование. Дело в том, что слабый сигнал, возникающий сразу после окончания сильного сигнала, остается в течение некоторого времени незамеченным. С другой стороны, даже предшествующий слабый сигнал становится незаметным за несколько миллисекунд до появления сильного сигнала. Эти явления называются «маскированием вперед» и «маскированием назад».

Использование эффекта маскирования позволяет существенно сократить объем звукоданных, сохраняя приемлемое качество звучания. Принцип здесь очень простой: «Если какая-то составляющая не слышна, то и передавать ее не надо». На практике это означает, что в области маскирования можно снизить число битов на отсчет до такой степени, чтобы шум квантования все еще оставался ниже порога маскирования. Таким образом, для работы звукового кодера необходимо знать пороги маскирования при различных комбинациях воздействующих сигналов. Вычислением этих порогов занимается важный узел в кодере — психоакустическая модель слуха (ПАМ). Она анализирует входной сигнал в последовательные отрезки времени и определяет для каждого блока отсчетов спектральные компоненты и соответствующие им области маскирования. Входной сигнал анализируется в частотной области, для этого блок отсчетов, взятых во времени, с помощью дискретного преобразования Фурье преобразуется в набор коэффициентов при компонентах частотного спектра сигнала. Разработчики кодеров компрессии имеют значительную свободу в построении модели, точность ее функционирования зависит от требуемой степени сжатия. При невысоком сжатии можно обойтись и без ПАМ, однако на высоких уровнях компрессии она играет важную роль.

3.2 Полосное кодирование и блок фильтров

Наилучшим методом кодирования звука, учитывающим эффект маскирования, оказывается полосное кодирование. Сущность его заключается в следующем. Группа отсчетов входного звукового сигнала, называемая кадром, поступает на блок фильтров (БФ), который содержит, как правило, 32 полосовых фильтра. Учитывая сказанное ранее о критических полосах и маскировании, хорошо бы иметь в блоке фильтров полосы пропускания, по возможности совпадающие с критическими. Однако практическая реализация цифрового блока фильтров с неравными полосами сложна и оправданна только в устройствах самого высокого класса. Обычно используется блок фильтров на основе квадратурно-зеркальных фильтров (КЗФ) с равными полосами пропускания, охватывающих с небольшим взаимным перекрытием всю полосу слышимых частот. Полоса пропускания фильтра равна p/32Т и центральные частоты полос равны (2k+1)p164T, где Т — период дискретизации, k = 0, 1, .... 31. При частоте дискретизации 48 кГц полоса пропускания секции фильтра составляет 750 Гц. Каждая секция фильтра позволяет проводить расщепление полосы пропускания на две равные части, не увеличивая при этом объем данных в каждой половине полосы, т.е. с одновременной понижающей дискретизацией. Расщепление на N = 2^m полос производится каскадным включением m секций, содержащих соответственно 1, 2, 4...2^m-1 фильтров. На выходе каждого фильтра оказывается та часть входного сигнала, которая попадает в полосу пропускания данного фильтра. Далее в каждой полосе с помощью ПАМ анализируется спектральный состав сигнала и оценивается, какую часть сигнала следует передавать без сокращений, а какая лежит ниже порога маскирования и может быть переквантована на меньшее число битов. Поскольку в реальных звуковых сигналах максимальная энергия обычно сосредоточена в нескольких частотных полосах, может оказаться, что сигналы в других полосах не содержат различимых звуков и могут вообще не передаваться. Наличие, например, сильного сигнала в одной полосе означает, что несколько вышележащих полос будут маскироваться и могут кодироваться меньшим числом битов. Для сохранения максимального динамического диапазона определяется максимальный отсчет в кадре и вычисляется масштабирующий множитель, который приводит этот отсчет к верхнему уровню квантования. Эта операция сродни аналоговому компандированию. На этот же множитель умножаются и все остальные отсчеты. Масштабирующий множитель передается к декодеру вместе с кодированными данными для коррекции коэффициента передачи последнего. После масштабирования производится оценка порога маскирования и осуществляется перераспределение общего числа битов между всеми полосами.

3.3 Квантование и распределение битов

Все вышеописанные операции не сокращали заметно объем данных, они были как бы подготовительным этапом к собственно сжатию звукоданных. Как и при компрессии цифровых видеосигналов, основное сжатие происходит в квантователе. Исходя из принятых ПАМ решений о переквантовании отсчетов в отдельных частотных полосах, квантователь изменяет шаг квантования таким образом, чтобы приблизить шум квантования в данной полосе к вычисленному порогу маскирования. При этом на отсчет может понадобиться вместо 16...20 всего 4 или 5 битов.

Принятие решения о передаваемых компонентах сигнала в каждой частотной полосе происходит независимо от других, и требуется некий «диспетчер», который выделил бы каждому из 32 полосных сигналов часть из общего ресурса битов, соответствующую значимости этого сигнала в общем ансамбле. Роль такого диспетчера выполняет устройство динамического распределения битов.

Возможны три стратегии распределения битов.

В системе с прямой адаптацией кодер производит все расчеты и посылает результаты декодеру. Преимущество данного способа в том, что алгоритм распределения битов может обновляться и изменяться, не затрагивая работы декодера. Однако для пересылки дополнительных данных декодеру расходуется заметная часть общего запаса битов.

Система с обратной адаптацией осуществляет одинаковые расчеты и в кодере, и в декодере, поэтому нет необходимости пересылать декодеру дополнительные данные.

Однако сложность и стоимость декодера значительно выше, чем в предыдущем варианте, и любое изменение алгоритма требует обновления или переделки декодера. Компромиссная система с прямой и обратной адаптацией разделяет функции расчета распределения битов между кодером и декодером таким образом, что кодер производит наиболее сложные вычисления и посылает декодеру только ключевые параметры, затрачивая на это относительно немного битов, декодер проводит лишь несложные вычисления. В такой системе кодер не может быть существенно изменен, но настройка некоторых параметров допустима. Обобщенная схема звукового кодера и декодера, выполняющих цифровое сжатие согласно описанному алгоритму с прямой адаптацией, приведена на рисунке 3.1а. Сигналы на выходе частотных полос объединяются в единый цифровой поток с помощью мультиплексора. В декодере процессы происходят в обратном порядке. Сигнал демультиплексируется, делением на масштабирующий множитель восстанавливаются исходные значения цифровых отсчетов в частотных полосах и поступают на объединяющий блок фильтров, который формирует на выходе поток звукоданных, адекватный входному с точки зрения психофизиологического восприятия звукового сигнала человеческим ухом.

Вариант схемы с обратной адаптацией показан на рисунке 3.1б.

а) с прямой адаптацией; б) с обратной адаптацией

Рисунок 3.1 – Обобщенная структурная схема звукового кодера и декодера

3.4 Усовершенствованные алгоритмы полосного кодирования

В предыдущих разделах описан базовый алгоритм цифрового сжатия звука с использованием многофазного блока фильтров. Он обеспечивает «прозрачный» звуковой канал при скорости потока не менее 384 кбит/с. Стремление к дальнейшему снижению скорости потока вызвало к жизни более сложные, но и более эффективные алгоритмы сжатия цифрового звука.

Серьезным недостатком базовой модели принято считать недостаточную разрешающую способность в частотной области. В области низших слышимых частот полоса анализа значительно превышает критическую полосу и точность расчета порога маскирования оказывается недостаточной. Предложено модифицировать БФ таким образом, чтобы наряду с разделением сигнала на частотные полосы и передискретизацией он осуществлял также ДКП групп отсчетов в каждой полосе. Например, при обработке блока из 18 отсчетов эквивалентная полоса анализа оказывается равной примерно 40 Гц. К недостаткам данной схемы относится низкое временное разрешение (как следствие высокого частотного разрешения), не позволяющее использовать алгоритм в кадрах, где имеются быстрые переходы уровня. Кодеры с гибридным БФ снабжаются обычно детектором переходов, который отключает ДКП в моменты быстрых изменений уровня звукового сигнала. Еще один эффективный алгоритм цифрового сжатия звука использует представление сигнала в форме с плавающей запятой. Полученный после ДКП набор коэффициентов переводится в экспоненциальную форму и представляется в виде двух наборов — характеристик и мантисс. Набор характеристик называется спектральной огибающей, он служит входным сигналом для ПАМ и передается по каналу с использованием эффективных методов кодирования. Мантиссы переквантовываются в квантователе с учетом результатов спектрального анализа в ПАМ и также передаются к декодеру в общем цифровом потоке.

4 Формирование цифрового потока по стандарту MPEG-2

4.1 Составные части стандарта MPEG-2

При разработке нового стандарта MPEG-2 с самого начала была поставлена задача обеспечить совместимость с MPEG-1, т.е. дать возможность декодеру MPEG-2 принимать цифровой поток MPEG-1. Когда говорят о совместимости двух систем, под совместимостью «вперед» (forward compatibility) понимают способность старой системы воспринимать сигналы новой системы, совместимость «назад», или обратная совместимость (backward compatibility), означает способность новой системы воспринимать сигналы старой. На подготовительном этапе в качестве основы для MPEG-2 тестировались 39 алгоритмов цифрового сжатия, в том числе и существенно отличные от MPEG-1, но предпочтение было отдано последнему, не в последнюю очередь благодаря удобству достижения совместимости.

MPEG-2 был принят как международный стандарт под номером ISO/IEC 13818 в 1996 г. и дополнен в 1997 г. [2]. Коротко его можно охарактеризовать как MPEG-1 со значительными улучшениями, включающими обработку чересстрочных изображений, набор уровней и профилей, масштабируемый синтаксис, системный уровень с программным и транспортным потоками, новые средства кодирования звука и ряд других. На самом деле MPEG-2 значительно сложнее своего предшественника. Достаточно сказать, что при равной скорости потока кодер MPEG-2 примерно на 50% сложнее кодера MPEG-1. Успех MPEG-2 в значительной мере определил и прекращение работ над стандартом MPEG-3, предназначавшимся для систем ТВЧ. Оказалось, что синтаксис MPEG-2 пригоден для высоких разрешений, больших скоростей и полных компонентных сигналов без прореживания, а потому может использоваться и для ТВЧ.

Стандарт MPEG-2 называется «Информационные технологии - Обобщенное кодирование движущихся изображений и сопровождающей звуковой информации» и содержит 9 частей, описывающих различные компоненты цифрового потока и средства поддержки.

13818-1 «Системы» описывает объединение одного или нескольких ЭП видео, звука и других данных в одно- или многопрограммный поток, пригодный для записи или передачи.

13818-2 «Видео» специфицирует средства компрессии видеоданных и процесс декодирования, необходимый для восстановления изображения.

13818-3 «Звук» представляет обратно совместимое расширение звукового стандарта MPEG-1.

13818-4 «Соответствие» и 13818-5 «Моделирование программного обеспечения» описывают процедуры испытаний на соответствие требованиям частей 1, 2, 3 и дают примеры реализации программного обеспечения.

13818-6 «DSM-CC» стандартизует набор протоколов по управлению цифровыми потоками MPEG-1 и MPEG-2.

13818-7 «ААС» специфицирует алгоритм кодирования многоканального звука ААС, не совместимый с MPEG-1.

13818-9 «Интерфейс реального времени для декодеров» описывает интерфейс реального времени для декодеров транспортного потока.

13818-10 «Соответствие для DSM-CC» рассматривает вопросы соответствия в применении к протоколу DSM-CC.

Часть 8 предназначалась для кодирования видео с разрешением 10 бит, но не вызвала практического интереса и была исключена.

4.2 Сжатие видеоданных

4.2.1 Особенности алгоритма обработки видеоданных

Наиболее существенное отличие алгоритма обработки видео в MPEG-2 от соответствующего алгоритма MPEG-1 - возможность обработки чересстрочных изображений. В MPEG-1 для кодирования таких изображений приходилось предварительно объединять два поля в один кадр и только после этого подавать сигнал на вход кодера. Однако при наличии движения эта процедура приводила к заметным искажениям. В MPEG-2 введена концепция полевого и кадрового кодирования. При полевом кодировании два поля одного кадра называются верхним и нижним и могут кодироваться раздельно как самостоятельные изображения, в этом случае каждое поле разбивается на непересекающиеся макроблоки 16 х 16 пикс. и к ним применяется ДКП. На изображении эти макроблоки занимают область высотой 32 строки. Кадровое кодирование предполагает построчное объединение двух полей в один кадр и обработку его как обычного изображения с прогрессивным разложением.

MPEG-2 определяет два типа ДКП для макроблоков: кадровое и полевое. Кадровое ДКП действует аналогично MPEG-1: блок отсчетов яркости 16 х 16 пикс. разбивается на 4 блока 8x8 пикс. в соответствии с их расположением. Полевое ДКП берет 8 строк из верхнего поля для верхних двух блоков и 8 строк из нижнего поля для нижних блоков, образуя верхнее и нижнее поля макроблока, как показано на рисунке 4.1; цветоразностные блоки предполагаются принадлежащими всегда к верхнему полю. Полевое ДКП более эффективно при существенном различии между полями, например, при наличии движения по вертикали. Кадровое ДКП позволяет лучше передать мелкие детали изображения. Заметим, что оба вида преобразования могут использоваться в одной видеопоследовательности. Кадры, кодируемые как два поля, всегда используют полевое ДКП, кадровое кодирование может использовать оба вида ДКП, переходя от одного к другому на уровне макроблока.

Рисунок 4.1 - Формирование полей макроблока при полевом ДКП

Обработка чересстрочных изображений вносит существенные отличия и в процесс предсказания. Кадровое предсказание, как и в MPEG-1, оценивает наилучшее сопряжение макроблоков 16 х 16 пикс. в текущем и опорном кадрах. Полевое предсказание ищет сопряжение для блока 16 х 16 пикс., взятого из текущего поля, в двух предыдущих полях и выбирает лучший результат. Как и при ДКП, полевое кодирование может использовать только полевое предсказание, у кадрового кодирования возможности шире - допускается применение кадрового предсказания или полевого, в последнем случае ищется сопряжение отдельно верхнего и нижнего полей макроблока в каждом из двух полей опорного кадра и выбирается лучший результат. Более высокую точность компенсации движения обеспечивает разбиение макроблока на два поля. При этом определяются два вектора перемещения для верхнего и нижнего полей макроблока размерностью 16 х 8 пикс. и передаются декодеру, который использует их для более точного восстановления изображения.

MPEG-2 ввел новый режим компенсации движения для эффективного устранения временной избыточности между полями, названный «Двухступенчатая компенсация с уточнением векторов» (Dual prime motion compensation). В данном режиме ищутся вектор перемещения для области изображения 16 х 8 пикс. из одного поля и дополнительный вектор приращения (принимающий значения минус 1, 0, 1 по осям х и у) для той же области, но в поле другой четности. В декодере вектор приращения используется для уточнения отсчетов предсказанного блока.

МPEG-2 допускает значительную гибкость и в формировании I-, Р-, В-кадров. Кодированный 1-видеокадр может состоять из I-кадра с прогрессивным разложением, или пары I-полей, или I-поля и предсказанного из него Р-поля. Аналогично Р-видеокадр может содержать Р-кадр, или два Р-поля, В-видео-кадр - В-кадр или пару В-полей.

Рисунок 4.2 – Альтернативное сканирование коэффициентов ДКП

при чересстрочном разложении

Для обработки чересстрочных изображений MPEG-2 предлагает альтернативный вариант сканирования коэффициентов ДКП, оптимизированный с точки зрения кодирования длин серий (рисунок 4.2).

Отметим еще несколько отличий в кодировании видеоданных.

а) PEG-2 в большинстве случаев использует в качестве сигнала источника компонентный сигнал «4:2:0», но расположение отсчетов в поле изображения несколько отличается от MPEG-1 (рисунок 4.3).

б) В MPEG-2 длина слайса не может быть более одной строки (напомним, что в MPEG-1 длина слайса не ограничивалась).

в) MPEG-1 допускает квантование постоянной составляющей ДКП только с разрядностью 8 бит, в MPEG-2 в некоторых случаях допускается 9- или 10-битовое квантование.

Подпись: (х - сигнал яркости; 0 - сигнал цветности)
Рисунок 4.3 - Расположение отсче-тов компонентного сигнала в поле кадра в стандарте MPEG-2 г) Для предотвращения потери макроблоков, кодированных с внутрикадровым предсказанием, применяется маскирование - подстановка вместо утерянного макроблока ближайшего, схожего по параметрам. Для этого в потоке передается управляющий код «пропущенного макроблока».

д) Предусмотрена передача информации режима панорамирования (pan&scan), указывающей декодеру, какую часть изображения форматом 16:9 отображать на экране с форматом 4:3. Информация посылается в каждый кадр и позволяет смещать изображение с точностью до 1/16 пикс.

4.2.2 Уровни и профили стандарта MPEG-2

MPEG-2 охватывает весьма широкий диапазон сложности кодирования и качества изображения - от простых I-кадров до сложных ГВК, от низкого разрешения до ТВЧ. В процессе разработки стало ясно, что построить декодер, удовлетворяющий одновременно всем требованиям стандарта, возможно, но неэкономично, так как он окажется весьма сложным и дорогим и в то же время будет обладать большой избыточностью по отношению к более простым приложениям. Разработчики стандарта разделили все средства и инструменты обработки видеосигналов на несколько Профилей (Profile), поддерживающих обратную совместимость и различающихся использованием тех или иных элементов синтаксиса. Как правило, каждый Профиль добавляет один или несколько инструментов к имеющимся у нижележащего Профиля.

Таблица 4.1 – Пределы изменения параметров цифрового потока для различных уровней Основного профиля MPEG-2

Уровень	Параметр	Ограничение
Высокий MP@HL	Число отсчетов на строку	1920
	Число строк на кадр	1152
	Частота кадров, Гц	60
	Частота отсчетов сигнала яркости, отсч/с	62668800
	Скорость потока, Мбит/с	80
	Размер буфера, бит	9781248
Высокий MP@H1440	Число отсчетов на строку	1440
	Число строк на кадр	1152
	Частота кадров, Гц	60
	Частота отсчетов сигнала яркости, отсч/с	47001600
	Скорость потока, Мбит/с	60
	Размер буфера, бит	7340032
Основной MP@ML	Число отсчетов на строку	720
	Число строк на кадр	576
	Частота кадров, Гц	30
	Частота отсчетов сигнала яркости, отсч/с	10368000
	Скорость потока, Мбит/с	15
	Размер буфера, бит	1835008
Низкий MP@LL	Число отсчетов на строку	352
	Число строк на кадр	288
	Частота кадров, Гц	30
	Частота отсчетов сигнала яркости, отсч/с	3041280
	Скорость потока, Мбит/с	4
	Размер буфера, бит	475136

На сегодняшний день в стандарте приняты пять основных и один дополнительный, профессиональный Профиль «4:2:2», введенный позднее. Внутри каждого Профиля выделены Уровни (Level), определяющие допустимые пределы изменения основных параметров цифрового потока. Таких Уровней четыре, и в таблице 4.1 приведены установленные для них пределы скорости потока и разрешающей способности. Уровень «Высокий-1440» был введен для планировавшейся европейской системы с разложением 1440 х 1152 пикс. и форматом кадра 4:3. Отметим, что в принятой Рекомендации ВТ.709 по ТВЧ форматам такой формат не предусмотрен. Не все Профили определены при всех Уровнях, допустимые сочетания указаны в таблице 4.2.

Таблица 4.2 – Уровни и профили стандарта MPEG-2

Уровни	Профили	Простой (Simple)	Основной (Main)	Масштабируемый по отношению сигнал-шум (SNR)	Пространственно масштабируемый (Spatial)	Высокий (High)	Профессиональный 4:2:2 (Professional 4:2:2)
	Типы кадров	I, P	I, P, B	I, P, B	I, P, B	I, P, B	I, P, B
	Дискретизация сигнала цветности	4:2:0	4:2:0	4:2:0	4:2:0	4:2:0 или 4:2:2	4:2:0 или 4:2:2
Высокий (High)	Число отсчетов на строку		1920			1920	1920
	Число строк на кадр		1152			1152	1152
	Частота кадров, Гц		60			60	60
	Скорость потока, Мбит/с		80			100	300
Высокий 1440 (High-1440)	Число отсчетов на строку		1440		1440	1440
	Число строк на кадр		1152		1152	1152
	Частота кадров, Гц		60		60	60
	Скорость потока, Мбит/с		60		60	80
Основной (Main)	Число отсчетов на строку	720	720	720		720	720
	Число строк на кадр	576	576	576		576	576
	Частота кадров, Гц	30	30	30		30	30
	Скорость потока, Мбит/с	15	15	15		20	50
Низкий (low)	Число отсчетов на строку		352	352
	Число строк на кадр		288	288
	Частота кадров, Гц		30	30
	Скорость потока, Мбит/с		4	4
Примечание - режим 4:2:2 P@HL введен предлагаемым стандартом SMPTE-308M

Затенением в таблице выделен режим «4:2:2P@HL», отсутствующий в стандарте MPEG-2 и предложенный позднее проектом стандарта SMPTE-308М [2] по инициативе вещательных компаний. Этот режим удобно использовать при производстве программ. Он допускает максимальную скорость потока 300 Мбит/с со следующими ограничениями: на скорости от 230 до 300 Мбит/с допускаются только I-кадры, на скорости от 175 до 230 Мбит/с - I-, IP-, IB-кадры, на меньших скоростях - ГВК любой конфигурации, не противоречащей стандарту MPEG-2. Декодеры, поддерживающие определенный Уровень определенного Профиля, должны работать также и при всех более низких Уровнях и Профилях.

В англоязычной литературе принято обозначать сочетания профиля и уровня первыми буквами, разделенными знаком @. Например, сочетание «Основной профиль - Основной уровень» записывается как MP@ML (Main Profile@Main Level). Режим MP@ML стал наиболее распространенным и широко употребительным, он обеспечивает полную разрешающую способность 720 х 576 пикс., предусмотренную Рекомендацией ВТ.601, и это сочетание признано наиболее подходящим для цифрового вещания. Максимальная скорость потока видеоданных 15 Мбит/с заведомо достаточна для достижения качества изображения, превышающего возможности аналоговых стандартов PAL, SECAM и NTSC. Масштабирование в Основном профиле не применяется.

Простой профиль (SP — Simple Profile), не поддерживающий двунаправленное предсказание и В-кадры, предназначался первоначально для массовых применений при обработке компьютерных изображений и в других приложениях, не требующих высокого качества изображения, однако стоимость микросхем, разработанных для Основного профиля, оказалась так низка, что разработка специальных изделий для Простого профиля была признана нецелесообразной. Он применяется лишь в простейших программных MPEG-кодерах.

Масштабируемые профили пока широко не используются, хотя в некоторых приложениях для них просматриваются возможные области применения. Масштабируемостью называют способность кодека (кодера и декодера) формировать и обрабатывать упорядоченный набор из нескольких цифровых потоков. Минимально необходимый набор потоков называется базовым слоем, каждый из остальных - улучшающим слоем. Базовый слой передает сигнал пониженного качества с более высоким отношением сигнал-шум, или сигнал с пониженным пространственным разрешением, который может приниматься декодером низкого профиля, а в улучшающих слоях передается дополнительная информация, используя которую, кодеры более высокого профиля восстанавливают улучшенное изображение. Синтаксис MPEG-2 поддерживает до двух слоев масштабирования. Принцип работы масштабирующего кодека показан на рисунке 4.4. В ходе разработки было признано нецелесообразным объединять все виды масштабирования в один Профиль, и разработали две схемы - с масштабированием отношения сигнал-шум и с пространственным масштабированием. В схеме, масштабирующей отношение сигнал-шум (SNR (Signal-to-Noise Ratio) Profile), в базовом слое передаются грубо квантованные коэффициенты ДКП. Они передаются с низкой скоростью, что несколько повышает шумы квантования, но улучшает помехоустойчивость. Улучшающий слой кодирует и передает разницу между неквантованными и грубо квантованными значениями коэффициентов, которую декодер SNR профиля использует для уточнения значений коэффициентов.

а) кодер; б) декодер

Рисунок 4.4 - Принцип работы масштабирующего кодера

Можно использовать этот подход и для изменения пространственного разложения, если в базовом слое передавать самые нижние М х N (M<8, N< 8) коэффициентов ДКП, а в улучшающем слое — остальные (64 — М х N). Профиль с пространственным масштабированием (Spatial Scalable Profile) был введен в стандарт для обеспечения доступа декодерам стандартной четкости к программам ТВЧ. Привязкой к ТВЧ объясняется довольно большая скорость цифрового потока, предусмотренная в этом Профиле. В базовом слое такой системы передается после прореживания информация, соответствующая стандартному разрешению, а в улучшающем слое — дополнительные отсчеты, отфильтрованные в базовом слое. Профиль «Высокий», предусматривающий все инструменты нижних профилей, в настоящее время пока не используется по нескольким причинам, в том числе, по-видимому, из-за отсутствия интегральных микросхем с достаточными ресурсами производительности.

Несколько особняком, вне иерархии, стоит профиль «Профессиональный 4:2:2», предназначенный для обеспечения совместимости с цифровым студийным оборудованием видеопроизводства. В этом формате работают, например, перевозимые комплекты цифровых систем сбора новостей, передающие сигнал через спутники для последующей записи и монтажа. Профиль «4:2:2» должен обеспечивать качество изображения, сравнимое с цифровой видеозаписью формата D1, и возможность многократного MPEG кодирования-декодирования сигнала. Его основными свойствами являются структура дискретизации «4:2:2» (в отличие от обычной в MPEG-2 «4:2:0»), увеличенное число строк - 608 в отличие от 576, и возможность работы с повышенными скоростями - до 50 Мбит/с вместо 15 Мбит/с, обеспечиваемых Основным профилем. Последнее требование связано с более короткими группами видеокадров, используемыми при видеомонтаже. Предложенный недавно Высокий уровень этого профиля позволит расширить область использования MPEG-2 при подготовке ТВЧ программ.

Для профессиональных применений очень важна способность оборудования разных производителей работать совместно (по-английски это свойство называется interoperability, в русском языке наиболее близка «совместная работоспособность»). Хотя MPEG-2 должен обеспечивать полную совместимость во всех режимах работы, организация Pro-MPEG Forum, занимающаяся внедрением стандартов MPEG, предложила [2] использовать в профессиональных системах для стыков аппаратуры ограниченное число режимов, в которых заведомо должны выполняться все требования к цифровому потоку. В качестве таких режимов выбраны:

1) 4:2:2P@ML, ТСЧ, скорость до 50 Мбит/с, любая разрешенная структура ГВК. 2. 4:2:2P@ML, ТСЧ, скорость до 50 Мбит/с, только I-кадры.

3а) 4:2:2P@HL, ТВЧ, скорость до 80 Мбит/с, любая разрешенная структура ГВК.

3б) 4:2:2P@HL, ТВЧ, скорость до 175 Мбит/с, любая разрешенная структура ГВК.

4) 4:2:2P@HL, ТВЧ, скорость до 300 Мбит/с, только I-кадры.

4.3 Реализация цифрового многопрограммного звука

4.3.1 MPEG-2- расширение MPEG-1 в сторону многоканального звука

Следствием совместимости MPEG-2 с MPEG-1 в части кодирования звука стало полное использование трехуровневой системы, разработанной в MPEG-1 для обработки звукоданных кодерами стандарта MPEG-2. Различия между стандартами начинаются при переходе от двухканального звука, принятого за основу в MPEG-1, к многоканальному звуку, поддерживаемому в MPEG-2.

MPEG-2 специфицирует различные режимы передачи многоканального звука, в том числе пятиканальный формат, семиканальный звук с двумя дополнительными фронтальными динамиками, применяемыми в кинотеатрах с очень широким экраном, расширения этих форматов с низкочастотным каналом. В числителе дроби указывается число фронтальных каналов, в знаменателе - число каналов, излучаемых сзади. Соответствующее расположение динамиков показано в таблице 4.3.

Подпись: Рисунок 4.5 - Варианты компоновки многоканального звукового сигнала по Рекомендации ВS.775 Одной из разновидностей многоканального звука является многоязычное звуковое сопровождение. Оно может осуществляться либо передачей отдельного цифрового потока для каждого языка, либо добавлением нескольких (до 7) языковых каналов 64 кбит/с к многоканальному потоку 384 кбит/с. Возможна передача дополнительных звуковых каналов для людей с ухудшением зрения и слуха (с описанием сцены в первом случае и отдельным каналом диалогов во втором). Как же обеспечивается совместимость этих сложных многокомпонентных сигналов с относительно простым декодером MPEG-1? В кодере MPEG-2 сначала с помощью матрицы формируются комбинированный двухканальный сигнал, совместимый со стереосигналом MPEG-1, и набор вспомогательных сигналов, не совместимых с ним и служащих для восстановления многоканального сигнала в декодере MPEG-2 (рисунок 4.6а).

а) кодер; б) декодер

Рисунок 4.6 - Обработка многоканального звукового сигнала в кодере и декодере МРЕG-2

При кодировании двухканальный сигнал укладывается в структуру ПЭП звука, совместимого с MPEG-1, и может прочитываться соответствующим декодером. Остальные компоненты после кодирования размещаются в других структурных единицах цифрового потока и доступны только декодеру MPEG-2.

Учитывая широкое распространение в мире системы Dolby Pro Logic (продано более 40 млн. декодеров) и совместимость ее с обычным стереоканалом, разработчики звукового стандарта MPEG-2 заложили в алгоритм формирование стереосигнала в таком виде, как его формирует указанная система. Владельцы декодера Dolby Pro Logic могут теперь получить многоканальный сигнал двумя способами: либо непосредственно с выхода декодера MPEG-2, либо подав комбинированный стереосигнал (stereo downmix) с выхода более простого декодера MPEG-1 на вход декодера Pro Logic, который выделит из него многоканальный сигнал (рисунок 4.6б). Соответствующий интерфейс определен в стандарте IEC61937, он основан на линейной передаче звукоданных с ИКМ и скоростью до 1536 кбит/с.

Таблица 4.3 – Иерархия многоканальных систем согласно Рекомендации BS.775

Система	Каналы	Обозначение	Расположение динамиков
Моно	М	1/0
Моно + моно	М	1/1
Двухканальная стерео	L/R	2/0
Двухканальная стерео + 1 окружающий	L/R/Ms	2/1
Двухканальная стерео + 2 окружающих	L/R/Ls/Rs	2/2
Трехканальная стерео	L/C/R	3/0
Трехканальная стерео + 1 окружающий	L/C/R/Ms	3/1
Трехканальная стерео + 2 окружающих	L/C/R/Ls/Rs	3/2

4.3.2 Кодирование с пониженными частотами дискретизации

В дополнение к основному режиму с частотами дискретизации 35, 44,1 и 48 кГц в MPEG-2 введен низкоскоростной режим, так называемый LSR (Low Sampling Rate) с пониженными вдвое частотами дискретизации: 16, 22,05 и 24 кГц. Этот режим применяется для передачи сигналов пониженного качества на очень низких скоростях, например, при вещании по сети Интернет. Оказывается, что на скоростях порядка 64 кбит/с применение половинных частот дискретизации повышает субъективное качество звучания речевого сигнала. Дело в том, что связанное с этим отбрасывание высоких частот почти не влияет на качество речи, а высвобождающиеся ресурсы битов используются кодером для более точной передачи нижней части звукового спектра. Поскольку число частотных полос в любом случае сохраняется равным 32, спектральное разрешение оказывается более высоким. Например, при частоте дискретизации 24 кГц ширина каждой из полос составляет 375 Гц вместо 750 Гц при 48 кГц.

Институтом Фраунгофера в Германии предложено дальнейшее понижение частот дискретизации до 8, 11,05, 12 кГц, позволяющее, по утверждению разработчиков, улучшить качество воспроизведения при сверхнизких скоростях цифрового потока. Это расширение пока не вошло в стандарт, но некоторые звуковые кодеры высоких уровней его поддерживают.

4.3.3 Система улучшенного кодирования звука ААС

Одной из лучших современных систем сжатия звука признана система ААС (Advanced Audio Coding - усовершенствованная система кодирования звука), специфицированная в седьмой части стандарта ISO/IEC 13818. В отличие от других методов сжатия звукоданных, принятых в MPEG-2, она не обладает свойством обратной совместимости - декодеры MPEG-1 не могут декодировать сигнал ААС. По своей эффективности ААС вдвое превосходит Уровень II и в 1,4 раза Уровень III стандарта MPEG-1. Высококачественное воспроизведение звука достигается уже при скорости цифрового потока 96 кбит/с. В стандарте поддерживается широкий набор параметров и возможностей: частоты дискретизации от 8 до 96 кГц, моно- и стереосигналы, три профиля — Основной (Main), Упрощенный (LC - Low complexity), Масштабируемый (SSR — Scalable Sampling Rate). Одновременно может быть описано до 16 звуковых программ, состоящих из большого числа сигналов звука и данных (до 48 основных, 15 низкочастотных, 15 многоязычных каналов, 15 потоков данных).

Как и самый сложный из предшествующих, Уровень III из MPEG-1/2, ААС использует все средства цифрового сжатия — полосное кодирование, неравномерное квантование, кодирование кодом Хаффмана, итерационные алгоритмы распределения битов, но улучшает алгоритм Уровня III во многих деталях и использует новые эффективные средства кодирования для улучшения качества звучания при очень низких скоростях.

Основные улучшения можно свести к следующим моментам [2]:

а) Улучшено разрешение по частоте благодаря использованию 1024 частотных полос по сравнению с 576 в алгоритме Уровня III. При этом короткие блоки имеют длину всего 256 отсчетов, что обеспечивает эффективную обработку быстрых изменений звукового сигнала. Переключение производится по результатам анализа поведения входного сигнала во времени.

б) В Основном профиле применена оптимальная схема предсказания назад, обеспечивающая более высокую эффективность отработки изменений основного тона.

в) Применен более гибкий алгоритм кодирования в режиме joint stereo, как в режиме кодирования по интенсивности, так и в режиме «сумма-разность».

г) Применен улучшенный код Хаффмана, кодирование четверками частотных линий применяется очень часто, что дополнительно сокращает расход битов.

Структурная схема звукового кодера формата ААС Основного профиля приведена на рисунке 4.7. Новым элементом по сравнению с Уровнем III можно считать функцию управления шумами во временной области (TNS - Temporal Noise Shaping), позволяющую формировать огибающую шума во временной области по предсказанию в частотной области. Устройство осуществляет фильтрацию сигнала с выхода ДКП набором из нескольких переключаемых фильтров и квантование полученных групп отсчетов. Коэффициенты квантования передаются в общем цифровом потоке декодеру, который перераспределяет огибающую шума в реконструируемом сигнале с учетом спектрального распределения энергии сигнала. Это полезно при быстрых изменениях уровня звукового сигнала, когда кодер не успевает переключить блок фильтров на обработку коротких блоков и возникают искажения в виде пред-эхо.

Еще один новый механизм повышения эффективности кодирования звука - адаптивное предсказание текущего кадра по предшествующему, широко используемое в кодировании изображения. Оно чаще используется в технике кодирования речи и более эффективно при низких скоростях потока. В кодере Простого профиля отсутствует предсказание, режим TNS ограничен 12 коэффициентами. Более сложный Масштабируемый профиль использует для анализа 4-полосный КЗФ, за которым следует модифицированное ДКП с высокой разрешающей способностью по частоте. Модуль управления коэффициентом усиления на выходе фильтра позволяет независимо регулировать сигналы в каждой полосе для предотвращения пред-эхо.

4.4 Системный уровень, потоки данных и информационные таблицы

4.4.1 Элементарные потоки сжатых данных и их объединение в единый поток

Как видно из предыдущей главы, MPEG-1 решает задачу мультиплексирования довольно простым образом. Он может объединить в одну программу несколько компонентов видео и звука, имеющих общую тактовую синхронизацию. Однако для организации полноценного многопрограммного вещания нужно объединить в общий поток программы, сформированные в разных местах и в разное время и не имеющие общей временной базы. Требуется новый инструмент объединения и транспортирования данных, обеспечивающий в то же время обратную совместимость с MPEG-1.

Рисунок 4.8 - Структура программного потока MPEG-2

Стандарт MPEG-2 предлагает две конструкции многокомпонентного цифрового потока. Более простой программный поток (ПП) почти точно совпадает с системным потоком MPEG-1 (в последнем несколько отличается формат и отсутствует сигнализация) и используется для распространения программного материала с переменной скоростью цифрового потока в среде без ошибок (запись на магнитные и оптические носители, передача по линиям на расстояние в единицы метров и т.д.). Структура ПП включает пачки (pack), содержащие один или несколько PES пакетов и заголовок со ссылкой на системные часы (SCR — System Clock Reference) (рисунок 4.8). В потоке может быть до 16 видео и до 32 звуковых потоков, но все они считаются компонентами одной программы, так как имеют общую временную базу (единый генератор тактовой частоты).

Транспортный поток (ТП) представляет собой более высокий уровень организации данных. В ТП пакетированные элементарные потоки, принадлежащие разным программам, переносятся в различных транспортных пакетах небольшой длины, снабженных кодозащитой для передачи в каналах с ошибками, в частности, для вещания. Один транспортный поток может переносить несколько программ, не связанных единой временной базой, каждая из нескольких компонентов. Передача оказывается, по сути дела, асинхронной и потому не может управляться единым синхронизирующим сигналом. Рассмотрим, как решены вопросы синхронизации в транспортном потоке MPEG-2.

4.4.2 Принципы обеспечения синхронизации цифровых потоков в стандарте MPEG-2

Мы уже проследили ранее, как происходит синхронизация всех компонентов цифрового потока MPEG-1. Общий отсчет времени задается ссылками на системные часы (SCR), вводимыми в заголовок системного потока, по ним декодер подстраивает свои внутренние часы и «привязывает» потоки видео и звука к абсолютным отсчетам времени. Для выравнивания задержки во времени отдельных пакетов в заголовок пакета ПЭП вводятся временные метки воспроизведения (PTS) и временные метки декодирования (DTS), которые указывают, в какие моменты этого абсолютного времени декодер должен обработать и вывести на экран соответствующие изображения или звуковые последовательности. Эти же средства используются и в программном потоке MPEG-2, где все компоненты потока также имеют общую временную базу.

Транспортный поток содержит программные компоненты с разной предысторией, в том числе и с несколько различающимися тактовыми частотами, поэтому невозможно или весьма трудоемко привести все сигналы к единой временной базе. Для управления такими потоками вводится еще один механизм синхронизации, называемый ссылкой на программные часы (PCR — Program Clock Reference). PCR, как и другие временные метки, также представляет собой 33-битовое число, отсчитываемое в периодах частоты 90 кГц, получаемой делением на 300 частот тактового генератора 27 МГц. Оно показывает ожидаемое время завершения считывания в декодере поля PCR из транспортного потока, после чего декодер может приступить к сравнению пришедшего и местного отсчетов и выработке корректирующего сигнала. Отличие от SCR в том, что PCR вводится в поток на программном, а не системном уровне, в одном потоке могут передаваться несколько различных PCR, по числу программ, и декодер при переключении на каждую новую программу заново синхронизирует свой внутренний генератор частоты 27 МГц. Стандарт предписывает повторение метки PCR не реже чем 1 раз в 0,7 с. В промежутках декодер вычисляет значения меток путем интерполяции.

4.4.3 Структура транспортного потока

Пакеты ТП имеют фиксированную длину 188 байт, из которых 4 байта выделяются на заголовок и 184 байта — на полезные данные. Это могут быть видео- или звукоданные, данные пользователя или пустые байты (1111 1111), называемые стаффингом. Каждый пакет переносит данные только одного вида. Размер пакета выбран для совместимости с широко применяемым на сетях связи стандартом асинхронной передачи данных ATM. Ячейка ATM имеет длину 53 байта, из которых полезных - 47 байт (с учетом 1 байта на уровень адаптации). Один пакет MPEG-2 длиной 188 байт упаковывается в 4 пакета ATM. Структура заголовка показана на рисунке 4.9.

Рисунок 4.9 - Структура заголовка пакета транспортного потока МРЕС-2

Первый байт - байт синхронизации - содержит зарезервированное кодовое число 0x47, легко опознаваемое демультиплексором. Далее идут три однобитовых флага (ошибки передачи, начала пакета ПЭП и приоритетной передачи) и 13-битовый идентификатор типа пакета PID (Packet IDentifier), указывающий на принадлежность пакета тому или иному потоку данных. PID служит основным признаком, по которому демультиплексор сортирует приходящие пакеты на приемной стороне. Из общего числа 8192 возможных значений PID 16 выделены на общесистемные цели, номер 8191 (0 x 1FFF) закреплен за стаффинговыми байтами, остальные могут назначаться пользователями произвольно для отдельных компонент своих программ.

Передача информации пакетами фиксированной длины и система идентификаторов имеют свои преимущества. Пропускная способность в этом случае используется в максимальной степени и может динамически перераспределяться между программами. Можно добавлять новые ПЭП или удалять ненужные, не меняя в целом структуру потока. Для извлечения необходимой информации декодеру не нужно знать детальную структуру всего потока, достаточно указать только PID, который всегда находится в заголовке на одном и том же месте.

Еще один байт в заголовке содержит три необходимых указателя:

2-битовый указатель скремблирования ТП — свидетельствует о наличии или отсутствии cкремблирования ТП;

2-битовый индикатор наличия полей адаптации в нагрузке пакета.

Поле адаптации занимает часть области полезных данных и служит для ввода управляющих и вспомогательных сигналов, передаваемых не в каждом пакете. В частности, в полях адаптации передаются таблицы программно-зависимой информации (PSI — Program Specific Information) и сигналы синхронизации. Поле адаптации может также использоваться для передачи данных пользователя, в этом случае оно разбивается на секции.

Значение указателя наличия полей адаптации 0x1 означает, что поле адаптации отсутствует и в пакете передаются данные видео или звука; 0x2 присваивается пакету, в котором часть области полезных данных занимает поле адаптации, остальное занято стаффингом; индикатор, установленный на 0x3, свидетельствует об одновременном наличии и поля адаптации, и полезных данных. Отметим, что заголовок пакета и поле адаптации не скремблируются.

4-битный счетчик непрерывности пакетов увеличивает свое значение на единицу при поступлении каждого следующего пакета с данным PID и обнуляется после каждого 15-го пакета. Он позволяет декодеру обнаруживать потерю пакета и принимать меры по его замене.

Область полезных данных транспортного пакета значительно меньше, чем обычная длина пакета ПЭП, поэтому последний для укладки в пакеты ТП должен разрезаться. Стандарт определяет, что первый байт пакета ПЭП должен обязательно совпадать с первым байтом области полезных данных, а конец пакета ПЭП - с концом одного из последующих транспортных пакетов. Незаполненные начальные байты этого последнего пакета дополняются пустыми байтами.

Рисунок 4.10 - Структура поля адаптации транспортного потока

Если в пакете присутствует поле адаптации, оно имеет структуру, показанную на рисунке 4.10. Первый байт указывает длину поля, затем следуют три однобитовых указателя - непрерывности, случайного доступа и приоритета элементарного потока. Первый указатель свидетельствует о непрерывности счета времени во временных метках и необходим на приеме для мониторинга ТП. Он устанавливается в «1», если на передающей стороне изменена база отсчета времени, например, гладко введена другая программа с иным PCR. Если в данном поле адаптации передается PCR, об этом свидетельствует однобитовый флаг PCR. Метка PCR занимает 48 битов, в том числе 33 бита собственно PCR, 6 битов зарезервировано для будущих применений и 9 битов занимает поле расширения PCR. В поле расширения ведется счет импульсов тактовой частоты 21 МГц. Как только их число достигает 300, поле обнуляется и значение PCR увеличивается на единицу. Так обеспечивается совместимость с MPEG-1, где отсчет времени ведется в периодах тактового генератора 90 кГц. Такой же формат имеет метка Исходной PCR (OPCR — Original PCR), передаваемой вместе с программой, заимствованной из другого транспортного потока. В отличие от PCR, значение OPCR не изменяется в процессе передачи. Оно может использоваться, например, при записи и воспроизведении программы.

Еще один флаг, splice_countdown, указывает число пакетов с тем же PID в транспортном потоке, оставшихся до точки гладкого входа в поток (например, для ввода рекламы, или местных программ). Оставшуюся часть поля адаптации могут занимать либо служебные данные, либо данные пользователя, либо расширения поля адаптации, на что указывают соответствующие флаги. Формат данных пользователя включает однобайтовый указатель длины поля и собственно поле данных, которые в этом случае вводятся в так называемые секции транспортного потока.

4.4.4 Мультиплексирование и статистическое мультиплексирование

Принятая в стандарте MPEG-2 схема построения ТП может быть описана как двухступенчатая. На первом этапе формируется программный поток (ПП) путем мультиплексирования одного или нескольких ПЭП с общей временной базой и индивидуальными PID (рисунок 4. 11а). На втором шаге ПП нескольких программ и управляющие потоки объединяются методом асинхронного пакетного мультиплексирования в единый транспортный поток (рисунок 4.11б). Отметим, что транспортный поток может быть построен и непосредственно из ПЭП или других ТП, если при этом сохраняются общие правила синтаксиса MPEG. Такая иерархическая структура обеспечивает большую гибкость в построении систем вещания. Можно, например, объявить один ПЭП принадлежащим более чем одной программе и организовать так называемые виртуальные каналы, можно использовать несколько потоков одного вида для масштабирования, возможна организация межрегионального вещания с выбором отдельного языка для каждого региона и т.д.

Рисунок 4.11 - Объединение ПЭП в программный поток (а) и

программных потоков в транспортный поток (б)

Гибкость мультиплексирования ТП представляет одну интересную возможность построения многопрограммной системы вещания, связанную с вводом в ТП, формируемый мультиплексором из программ, кодированных локальными кодерами, «постороннего» транспортного потока, поступившего по линии связи и имеющего другую временную базу (режим ремультиплексирования). Современные мультиплексоры легко справляются с такой задачей, позволяя при этом выбрать из компонентов пришедшего ТП желаемые, при необходимости изменить PID этих компонент, режим скремблирования и другие параметры.

Еще одна возможность гибкого изменения параметров сжатого сигнала - статистическое мультиплексирование, заключающееся в динамическом перераспределении ресурса битов между кодерами в многопрограммном цифровом потоке с учетом конкретных особенностей изображения в каждой программе таким образом, чтобы качество всех программ оставалось возможно более высоким. Более сложный контроллер может использовать технологию «заглядывания вперед» для оценки сложности представленных кадров и эта информация может служить для подстройки управления скоростью. Система работает следующим образом. Управляющий контроллер статистического мультиплексора получает от всех кодеров информацию о сложности обрабатываемого в данный момент изображения, оценивает ее и выделяет каждому кодеру ресурс битов, пропорциональный потребности. Дело в том, что при суммировании скоростей нескольких каналов среднее значение скорости растет пропорционально сумме средних значений составляющих, а среднеквадратичное отклонение изменяется пропорционально квадратному корню из числа каналов. Если в пакете программ присутствуют, например, фильмовые, детские, спортивные, развлекательные программы, в разные моменты времени в зависимости от наличия движения, детальности изображения, цветовой насыщенности они требуют разной скорости выходного потока для сохранения примерно одинакового субъективного качества изображения и, что еще важнее, пики скорости наступают в разные моменты

времени, так что суммарная скорость может быть заметно снижена. Исследования показали, что без ухудшения качества можно выиграть примерно 30% пропускной способности канала. Это означает, что вместо 6 программ в спутниковом стволе можно передать 8, вместо 8 — 10...11. Проводившиеся на некоторых выставках демонстрации передачи 18 и даже 24 программ — на сегодняшний день не более чем рекламный трюк и не имеют ничего о6щего с реальными задачами цифрового вещания.

4.4.5 Таблицы программно-зависимой информации

Вся информация, необходимая декодеру для обработки принятого цифрового потока и выделения нужных компонент программы, сосредоточена в управляющей информации (ее еще называют метаданными), передаваемой в составе транспортного потока. Она организована в виде нескольких таблиц, содержащих сведения о составе программ и идентификаторах их компонентов и называемых таблицами программно-зависимой информации PSI (Program Specific Information).

Алгоритм действий декодера при прочтении таблиц поясняет рисунок 4.12. Первая таблица, пакеты которой находит кодер в потоке - Таблица объединения программ (PAT — Program Association Table). Таблица PAT имеет по умолчанию PID = 0 и включает информацию о программах, передаваемых в данном потоке, и идентификаторы, относящиеся к этим программам. Каждый такой PID, в свою очередь, определяет для выбранной программы Таблицу состава программы (РМТ — Program Map Table), в которой перечислены все компоненты, входящие в данную программу, с их идентификаторами. Теперь декодеру остается отобрать из общего потока пакеты с нужными идентификаторами и декодировать их, восстановив изображение и звуковое сопровождение. Если программа платная, декодеру придется анализировать еще и содержание Таблицы условного доступа (CAT — Conditional Access Table) с PID = 1, в которой указаны идентификаторы пакетов с сообщениями системы условного доступа. Иногда в набор таблиц PSI включают еще необязательную Таблицу сетевой информации (NIT — Network Information Table), которая определяет все транспортные потоки, относящиеся к данной сети. Содержимое таблиц вводится в секции — области поля адаптации определенной длины, снабжаемые указателями. Размер секции для передачи служебной информации не должен превышать 1024 байта. Возможна передача нескольких коротких секций в поле адаптации одного пакета транспортного потока или одной длинной секции в нескольких пакетах.

На рисунке 4.13 показана иерархия PSI таблиц и взаимосвязи между ними. Рассмотрим теперь структуру таблиц подробнее. Общий формат таблицы PAT показан на рисунке 4.14а. Она содержит заголовок длиной 8 байт и поле данных. Структура заголовка более детально развернута на рисунке 4.14б. Первым идет идентификатор таблицы table_id. Это однобайтовое число обязательно входит в состав любой таблицы и определяет ее тип.

Рисунок 4.12 – Алгоритм действий декодера при прочтении таблиц PSI

Рисунок 4.13 – Структура таблиц программно-зависимой информации PSI

а) общая структура; б) структура заголовка

Рисунок 4.14 – Формат таблицы РАТ

Может возникнуть вопрос: разве PID не определяет таблицу полностью, и зачем нужен еще один идентификатор? Дело в том, что PID является более общим указателем, чем table_id. Например, две таблицы TDT и ТОТ (о них мы узнаем в шестой главе) имеют одинаковый PID, но разные table_id. Следующий существенный указатель - длина секции в байтах. Два старших бита из 12 установлены на «0», так что длина секции не может превышать 1024 байта.

Идентификатор транспортного потока transport_stream_id размером 2 байта указывает условный номер в данной сети транспортного потока, в котором передается анализируемая таблица. Указатель номер версии изменяется на единицу каждый раз, когда в таблицу вносятся изменения. Если таблица разбита на несколько секций, однобайтовый указатель номер секции сообщает номер передаваемой секции. Номер последней секции необходим для подтверждения того, что вся таблица принята декодером.

В поле данных таблицы PAT содержатся сведения о программах, передаваемых в транспортном потоке, с их номерами PID. Номер программы занимает 2 байта, затем следует 3-битовый промежуток и 13-битовое значение PID. Таблица РМТ создается отдельно для каждой программы, передаваемой в потоке. Общая структура таблицы показана на рисунке 4.16а, детальная структура заголовка - на рисунке 4.16б.

а) общая структура; б) структура заголовка

Рисунок 4.16 – Формат таблицы

Заголовок длиной 12 байтов содержит идентификатор таблицы table_id, всегда равный 0x02, номер программы, сведения о версии таблицы, номере секции и номере последней секции, а также PID того ПЭП в потоке, который переносит значения PCR. В поле данных описывается одна из передаваемых программ со всеми ее компонентами, а завершается секция контрольной суммой. Описание программы содержит подробный перечень всех элементарных потоков, составляющих программу, с их основными параметрами. Тип потока (stream_id) указывает на содержимое данного потока (0x01 - MPEG-1 видео, 0x02 - MPEG-2 видео, 0x03 - MPEG-1 звук, 0x04 -MPEG-2 звук, 0x05 — нестандартные секции, и т.д.), elementary_PID сообщает значение PID пакетированного потока, несущего данный элементарный поток, ES_info_length указывает длину дескриптора элементарного потока. По этим значениям декодер выделяет нужные элементарные потоки из общей цифровой последовательности.

Основными компонентами таблицы CAT являются уже знакомый нам table_id и дескриптор системы условного доступа — указатель, сообщающий декодеру условное обозначение используемой в потоке системы условного доступа и номер PID потока управляющих сообщений о правах доступа. Дескриптор условного доступа может присутствовать и в РМТ таблице, в этом случае он указывает на PID потока сообщений, необходимого для дешифровки скремблированной программы.

Частота повторения пакетов PAT и РМТ таблиц должна быть не менее 10 Гц, периодичность сообщений условного доступа определяется конкретной системой условного доступа.

Рассмотренные три таблицы составляют необходимый минимум, без которого декодер MPEG-2 не сможет декодировать цифровой поток. Для многопрограммного вещания нужны дополнительные данные, описывающие организацию букетов программ, состав вещательной сети, содержание программ и т.д.

5 Перспективные стандарты семейства MPEG

5.1 Стандарт представления медиа-объектов MPEG-4

5.1.1 Предпосылки создания стандарта

Стандарт МPEG-4 базируется на трех китах: 1) цифровое телевидение; 2) интерактивные графические приложения; 3) интерактивные мультимедийные приложения. Тенденция последних лет - сближение, слияние этих источников аудиовизуальной информации, появление новых источников как натурального, так и синтезированного контента (содержания). До недавнего времени в вещании преобладала концепция «телевидения» - программа готовилась в студии и передавалась как периодическая последовательность строк изображения и сопутствующих звуков. Все усовершенствования, включая появление цифрового вещания и стандарта MPEG-2, не изменили эту концепцию в корне, хотя добавили к ней некоторые новые аспекты - многопрограммность, подписку, дополнительные услуги, зачатки интерактивности. Однако похоже на то, что сейчас традиционная концепция телевидения не удовлетворяет уже пользователей аудиовизуальных услуг. Зрители хотят иметь доступ к видео- и аудиопрограммам, как они уже имеют доступ к мультимедийному контенту через Интернет и World Wide Web - «Всемирную паутину».

В последние 3-4 года мультимедийные и графические средства все чаще вторгаются в область классического ТВ вещания, которое, в свою очередь, проникает в сферу мультимедиа (значительная часть ТВ и звуковых программ транслируется в Интернете, иногда в специальных Интернет-версиях). Аудиовизуальное содержание все чаще используется в интерактивных приложениях, таких, например, как игры или дистанционное обучение. Заметно размывается граница между компьютерными изображениями, виртуальной реальностью и телевидением. Все чаще возникает необходимость перемещать один и тот же контент из одной сети в другую, из одной сферы в другую, и требуются унифицированные форматы представления и передачи информации.

Все эти факторы сформировали потребность в едином стандарте, который бы определял формат представления аудиовизуальной информации, совместимый с любой средой распространения, и механизмы интерактивного взаимодействия с мультимедийным контентом. В стандарте должны быть предусмотрены возможности передачи различных видов видео- и аудиоданных - текста, графики, двумерных (2D) и трехмерных (3D) изображений, натурального и синтезированного видео и аудио, в потоковой форме или в виде загружаемых файлов. Необходимо обеспечить высокое качество при очень низких скоростях передачи, гибкий доступ к контенту (с любого места, в ускоренном и замедленном режимах), средства интерактивного взаимодействия с объектами, вплоть до возможности абонента влиять на развитие сюжета, совместимость с любой транспортной средой. Важно иметь такой стандарт именно сейчас, на начальных этапах процесса, чтобы воспрепятствовать проникновению на рынок частных форматов отдельных компаний.

Именно эти задачи решает недавно появившийся стандарт MPEG-4 «Информационные технологии — Обобщенное кодирование аудиовизуальных объектов». Первая версия стандарта была принята в начале 1999 г. и получила индекс ISO/IEC 14496, вторая, дополняющая и расширяющая первую и обратно совместимая с ней — годом позже [2]. Сейчас идет работа над дополнениями, в частности, расширением раздела «Видео» в область студийных применений. В создании стандарта участвовали сотни экспертов из десятков стран, он во многих отношениях представляет собой высшее достижение инженерной мысли.

Стандарт содержит 6 частей:

14496-1 «Системы» определяет описание сцены, мультиплексирование, синхронизацию, управление буфером;

14496-2 «Визуальные средства» специфицирует кодированное представление натуральных и синтетических визуальных объектов;

14496-3 «Звук» описывает кодированное представление натуральных и синтетических звуковых объектов; 14496-4 «Проверка соответствия» стандартам, определяет условия соответствия для потоков и устройств;

14496-5 «Рекомендуемое программное обеспечение» содержит программные модули для большинства компонентов MPEG-4, которые могут быть использованы для построения совместимых устройств;

4496-6 «DMIF» определяет сеансовый протокол для управления мультимедийными потоками в обобщенной среде.

Основное отличие MPEG-4 от ранее принятых стандартов – объектно ориентированное представление медиа-информации. В стандарте вводится ключевое понятие медиа-объекта - единицы звукового, визуального или аудиовизуального контента. Любая сцена разделяется на объекты, которые соотносятся в пространстве и времени и описываются отдельными элементарными потоками (ЭП). Объекты могут быть натуральными - записанными с видеокамеры или микрофона, и синтетическими - синтезированными в компьютере. Такой подход имеет ряд преимуществ: более экономно расходуются биты для описания сцены, отдельные объекты легко использовать в других сценах, упрощается построение масштабируемых объектов и взаимодействие с объектами, появляются широкие возможности взаимодействия пользователя с выбранным объектом, например, вывод дополнительной информации об объекте, изменение его параметров (цвета, текстуры, громкости звучания или языка), исключение объекта из сцены, создание пользователем новых сцен из объектов, полученных от разных источников или хранящихся в памяти терминала. Все эти операции требуют лишь изменить описание сцены, а это вполне под силу процессору абонентского терминала.

5.1.2 Описание сцены

Для описания сцены и ее динамического изменения в MPEG-4 используется специально разработанный двоичный язык BIFS (Binary Format for Scenes — двоичный формат описания сцен). Описание сцены указывает декодеру, где и когда воспроизводить объекты, входящие в сцену, и как реагировать на воздействие пользователя. Чтобы увязать ЭП с медиа-объектами в сцене, используются дескрипторы объекта. Они переносят информацию о числе и свойствах ЭП, связанных с конкретными медиа-объектами. Сами дескрипторы также переносятся в одном или нескольких ЭП, поэтому нетрудно добавить или удалить объект во время сеанса. Потоки дескрипторов могут рассматриваться как описания потоковых ресурсов для представления, а описание сцены служит для изменения пространственно-временного размещения объектов в сцене. MPEG-4 определил специальный язык синтаксических описаний для точного описания синтаксиса потоков, переносящих информацию о медиа-объектах и описания сцен. Он представляет собой расширение языка C++ и позволяет дать точное, описание синтаксиса и в то же время упростить проверку на соответствие.

BIFS оперирует двумя протоколами модификации сцены во времени - командным (BIFS-Command) и анимационным (BIFS-Anim) [2]. Командные потоки BIFS позволяют загружать новую сцену, изменять свойства объектов, вводить и уничтожать объекты. Потоки BIFS-Anim управляют процессами анимации сцены, например, изменением точки взгляда, перемещением, трансформацией размера, плавным изменением цвета, освещенности и т.д. Синхронизация потоков осуществляется путем временной привязки. Как и в предыдущих стандартах MPEG, один вид временной метки обеспечивает синхронизацию тактовых частот кодера и декодера, метки другого вида, привязанные к функциональным единицам аудиовизуальных данных, содержат желаемое время декодирования (для единиц доступа) или время завершения компоновки (для компоновочных единиц).

Основные принципы BIFS заимствованы из языка VRML (Virtual Reality Modelling Language - язык моделирования виртуальной реальности), разработанного для создания 3D графики. Это широко распространенный и в значительной степени бесплатный язык программирования, точнее, эффективный 3D формат обмена, как бы объемный аналог HTML. Дело в том, что некоторые виды информации лучше воспринимаются в объемном виде - игры, результаты научных исследований, архитектурные решения. VRML обеспечивает интеграцию трехмерных, двумерных, текстовых и мультимедийных объектов в связную модель. Он оперирует объектами, каждый из которых имеет различные атрибуты. Объект называется узлом, а атрибуты - полями. Число полей зависит от типа узла. Полный перечень узлов и полей известен как граф (разветвленная древообразная структура). VRML включает большинство используемых в 3D приложениях средств: иерархические трансформации, источники света, выбор точки взгляда, анимацию, свойства материала, отображение текстуры и т.д.

Язык BIFS позаимствовал у VRML структуру описания сцены в виде графа, модели поведения, графические примитивы для построения 3D-изображений: конусы, сферы, сетки, текстовые примитивы, текстурирование и подсветку (всего их 36). В то же время BIFS имеет существенные отличия от VRML, в него внесены новые решения:

1) VRML — язык высокого уровня, BIFS — двоичный, благодаря этому объем сообщений в нем в 10-15 раз меньше, чем в VRML; хотя объем описаний сцены обычно меньше, чем аудиовизуальной информации, эти описания передаются непрерывно и могут в результате составить заметную часть передаваемых данных, поэтому сжатие потоков BIFS достаточно актуально;

2) VRML работает с файлами, предварительно загружаемыми в процессор, a BIFS предназначен в первую очередь для потоковой передачи в реальном времени;

3) BIFS позволяет работать как с 2D, так и с 3D объектами, осуществлять масштабирование, перемещение, вращение, более того, впервые решена задача представления в одной сцене и 2D, и 3D объектов.

Во второй версии стандарта в нем расширен BIFS, введены спецификации языков HTML 4.0 и MPEG-J, спецификация файла .mр4 для хранения и транспортировки данных MPEG-4 [2]. Новая версия BIFS предусматривает анимацию фигуры, улучшенную модель направленности источника звука, модель окружающей звуковой среды в интерактивной виртуальной сцене, учитывающую отражение звука от стен помещения (реверберацию, эффект Допплера, наличие препятствия между источником звука и пользователем), введение иерархических 3D сеток.

5.1.3 Доставка потоков данных

Полученные в результате кодирования элементарные потоки необходимо доставить к декодеру. Для этого MPEG-4 предлагает двухуровневый механизм мультиплексирования, показанный на рисунке 5.1. Элементарные потоки поступают на мультиплексирование, пройдя уровень синхронизации SL (Sync Layer), где в заголовки пакетированных элементарных потоков (ПЭП) вводятся временные метки. Первый уровень, названный FlexMux, играет вспомогательную роль в мультиплексировании, он объединяет низкоскоростные потоки с одинаковыми требованиями к качеству передачи, чтобы уменьшить их число в сложных сценах и сократить время передачи. Использование FlexMux не является обязательным, и он может быть пустым, если следующий уровень обеспечивает все необходимые функции. FlexMux не имеет собственных средств защиты от ошибок.

Второй уровень, TransMux (Transport Multiplexing), предлагает транспортные услуги по передаче потоков с заданным качеством обслуживания. Условия передачи предполагают необходимую пропускную способность, допустимый уровень ошибок, максимальное время задержки, приоритет и т.д. TransMux не является транспортным протоколом как таковым, он представляет собой скорее интерфейс между кодером MPEG-4 и стандартным транспортным протоколом. В качестве такового могут использоваться протокольные стеки RTP/UDP/IP, AAL5/ATM, транспортный поток MPEG-2.

Рисунок 5.1 - Двухуровневый механизм мультиплексирования цифрового

потока в стандарте MPEG-4

Взаимодействие с транспортной средой управляется протоколом DMIF (Delivery Multimedia Integration Framework - мультимедийная интегрированная система доставки). DMIF, как его определяет стандарт - сеансовый протокол для управления потоковой передачей в произвольных средах. После запуска он устанавливает соединение с удаленным абонентом, выбирает подлежащие передаче потоки и посылает запрос на их передачу. Порт DMIF посылает отметки к тем точкам, откуда будут передаваться потоки, и устанавливает соединение. Функции DMIF по связи с транспортными протоколами реализуются через интерфейс DAI (DMIF Application Interface), который получает ПЭП от уровня синхронизации и переводит запросы DMIF в команды, воспринимаемые конкретным протоколом. Команды для разных протоколов могут быть различными. На приемном конце индивидуальные ЭП выделяются из пришедшего транспортного потока путем демультиплексирования (рисунок 5.2). На этом этапе DMIF не отвечает за работу транспортного протокола, он подключается только при наличии потоков FlexMux. Выделенные после демультиплексирования пакеты ПЭП обрабатываются с целью извлечения из них информации о синхронизации. Эта информация переносится в заголовках пакетов, генерируемых на уровне синхронизации.

Во второй версии стандарта введены два дополнительных механизма, облегчающие транспортировку и опознавание элементарных потоков. Первый предназначен для организации передачи файлов и имеет вид специального файлового формата представления контента с расширением .mр4. Он содержит большой объем описательной информации, позволяющей передавать файлы, с помощью любых протоколов, редактировать их содержимое и воспроизводить его на разных терминалах. В основу положен популярный формат Quick Time.

Рисунок 5.2 - Структура терминала MPEG-4

Второй механизм - интерфейс программных приложений MPEG-4 с кодами известного языка программирования Java - призван облегчить интеграцию Java-приложений в структуру MPEG-4. Он будет принимать ЭП Java-приложений, обрабатывать их и направлять к соответствующим компонентам MPEG-4 плейера. Усовершенствование протокола DMIF во второй версии стандарта касается введения возможности работы с мобильными средствами связи, обеспечения более широкого класса параметров качества обслуживания (Q₀S), поддержания сеансовой работы одновременно с несколькими сетевыми провайдерами, имеющими собственные порты, и т.д.

5.1.4 Кодирование визуальных объектов

Первоначально предполагалось ограничить пределы скорости цифрового потока MPEG-4 видео значениями 4,8 кбит/с снизу и 64 кбит/с сверху. Однако в ходе разработки стало ясно, что заложенные принципы кодирования значительно мощнее, чем только кодирование на сверхнизких скоростях. Предел сверху был расширен до 10 Мбит/с в первой версии, до 38 Мбит/с во второй версии и ведется работа по его дальнейшему расширению. Тем не менее, визуальная часть стандарта не предназначена для вещательного телевидения, хотя и может обеспечить очень высокое качество изображения.

Основные требования, заложенные в разработку второй части стандарта, сводились к трем условиям: эффективное кодирование натуральных и синтетических изображений; высокая функциональность в интерактивном окружении; устойчивость в среде распространения с ошибками.

Средства представления натурального видео в MPEG-4 обеспечивают стандартизованную технологию обработки, хранения и передачи текстуры, изображений и видео для мультимедийных применений. В отличие от MPEG-2, где вся сцена раскладывалась до пиксела и затем осуществлялось однородное кодирование всего изображения, в MPEG-4 сцена разбивается на видеообъекты, для каждого объекта описываются его форма, текстура, местоположение, оптические характеристики (яркость, цвет, положение светотени), параметры движения - перемещение, вращение, изменение масштаба, данные кодируются со сжатием, упаковываются в отдельные ЭП (по несколько потоков на каждый объект), мультиплексируются и передаются декодеру. Визуальная сцена может состоять из одного или нескольких объектов. Каждый объект характеризуется пространственной и временной информацией в виде формы, текстуры и движения. Для некоторых приложений введение понятия визуального объекта оказывается неоправданно сложным, для них MPEG-4 допускает кодирование прямоугольными кадрами, которые представляют собой вырожденный случай объекта произвольной формы.

Пользователь может восстановить сцену в ее исходном виде, а может произвести определенные манипуляции - исключить часть объектов или ввести новые, изменить точку взгляда, масштаб, цвет и т.д. Разумеется, пользователь может внести только те изменения, которые предусмотрел автор.

Стандарт обработки визуальных объектов поддерживает широкий диапазон изменения входных параметров видеопоследовательности. Развертка может быть прогрессивной и чересстрочной, пространственное разрешение по яркости - от 8 х 8 до 2048 х 2048 пикс. (SQCIF, QCIF, CIF, 4CIF, Рек. ВТ.601); в цветовом пространстве допускаются сигналы монохромный и Y,C_B,C_R; пространственное разрешение по цветности«4:0:0», «4:2:0» и «4:2:2» (только в студийном профиле); частота кадров может изменяться от 0 до 30 Гц и более, причем может меняться от кадра к кадру; разрядность квантования - 8 бит с возможностью изменения от 4 до 12 бит. Нетрудно убедиться, что возможности выбора параметров значительно шире, чем даже в MPEG-2.

В зависимости от скорости цифрового потока могут использоваться алгоритмы, относящиеся к одной из трех групп:

1) Низкоскоростное видео (VLBV — Very Low Bit-rate Video) - скорость 5...64 кбит/с, разрешение не выше CIF, частота кадров до 15 Гц; основное назначение - кодирование обычных прямоугольных изображений с высокой эффективностью для мультимедийных приложений реального времени, а также системы случайного доступа к мультимедийным базам данных с быстрым поиском «вперед» и «назад»;

Рисунок 5.3 - Структура визуального цифрового потока

2) Высокоскоростное видео - скорость 64 кбит/c...10 Мбит/с; те же применения, но с более высоким пространственным и временным разрешением, вплоть до Рек. ВТ.601, также мультимедийное вещание или обратный канал в интерактивных системах с качеством, сравнимым с цифровым вещанием; системы с чересстрочной разверткой;

3) Кодирование, основанное на контенте, - поддерживает отдельное кодирование и декодирование натуральных объектов в сценах с гибридным кодированием; эта группа допускает смешение некоторого числа видеообъектов с синтетическими объектами (виртуальные задники). Визуальный цифровой поток MPEG-4 можно изобразить иерархической последовательностью уровней, как показано на рисунке 5.3. Последовательность визуальных объектов (VS — Visual Object Sequence) в этой иерархии соответствует видеопоследовательности в MPEG-2 и отображает сцену с произвольным числом 2D и 3D натуральных и синтетических объектов и их улучшающих слоев. Видеообъект (VO) соответствует обычному двумерному объекту в сцене. В самом простом случае он может быть прямоугольным кадром, в общем случае - объектом произвольной формы. Слой видеообъекта (VOL) - соответствует каждому ЭП, описывающему видеообъект. VOL может быть полнофункциональным или с укороченным заголовком, в этом случае он совместим с потоком стандарта Н.263. Каждый видеообъект дискретизируется во времени и такой временной срез (отсчет) видеообъекта называется плоскостью видеообъекта (VOP), Несколько плоскостей могут объединяться в группу плоскостей видеообъекта (GOV). Не правда ли, эта иерархия очень напоминает структуру видеопоследовательности MPEG-2? Плоскости видеообъекта могут кодироваться независимо (1-кодирование), или совместно, с применением компенсации движения (Р- и В-кодирование). Обобщенная схема кодера MPEG-4 показана на рисунке 5.4. Она включает кодирование формы и компенсацию движения, а также кодирование текстуры, базирующееся на ДКП (стандартное или адаптивное к форме объекта). Каждый видеообъект кодируется отдельно, затем цифровые потоки объединяются. В стандарте MPEG-4 применяются два метода кодирования информации о форме объекта — бинарное и градационное. При бинарном кодировании оперируют матрицей того же размера, что и плоскость видеообъекта, элементы которой могут принимать значения только 1 или 0 в зависимости от того, находятся ли они внутри объекта или вне его. Градационное кодирование более гибкое, оно описывает элементы матрицы 8-битовыми словами и позволяет кодировать «полупрозрачные» и «затуманенные» изображения.

Рисунок 5.4 - Обобщенная структурная схема видеокодера MPEG-4

Для цифрового сжатия плоскости видеообъектов, содержащие информацию о перемещении и текстуре, разбиваются на макроблоки размером 8x8 или 16 х 16 пикс., содержащие блоки отсчетов яркости и цветности, к этим последним применяется ДКП с последующим квантованием и кодированием квантованных разностей. Процесс схож с обычным цифровым сжатием из предыдущих стандартов MPEG.

При кодировании текстуры поступают следующим образом. На плоскость видеообъекта накладывают решетку с ячейками 8x8 элементов. Те ячейки, которые полностью разместились внутри объекта, кодируются обычным ДКП, за исключением того, что после квантования производится дополнительное предсказание коэффициентов блока на основе соседних блоков. Блоки, которые оказались на границе видеообъекта, дополняются до размера 8 х 8 по определенным правилам и только после этого кодируются (так называемое Shape-Adaptive DCT — ДКП, адаптивное к форме).

Более эффективный метод кодирования текстуры и неподвижных изображений поддерживается специальным режимом кодирования в MPEG-4, основанным на волновом преобразовании с нулевым деревом. Наряду с высокой эффективностью сжатия этот метод обеспечивает пространственную масштабируемость (до 11 уровней) и непрерывную масштабируемость по качеству. Масштабируемость в MPEG-4 обеспечивается передачей для видеообъекта нескольких цифровых потоков - VOL, один из которых базовый, остальные - улучшающие. При пространственном масштабировании может быть достигнуто улучшенное пространственное разрешение, временное масштабирование сглаживает движение. На рисунке 5.5 показано, как в этом случае кодер и декодер обрабатывают поступающие потоки. Предпроцессор субдискретизирует поступающие VOP и разделяет их на базовый и улучшающий слои. Поток базового слоя передается обычным путем, а в канале улучшающего слоя передается только разность между сигналом, поступившим от процессора, и сигналом, восстановленным промежуточным процессором путем повышающей дискретизации. На приеме процессы происходят в обратном порядке.

Рисунок 5.5 - Масштабируемое кодирование/декодирование в стандарте MPEG-4

Дальнейшему сокращению цифрового потока способствует глобальная компенсация движения, основанная на передаче статических спрайтов. Спрайтом называется часть видеообъекта, которая устойчиво присутствует в нем практически без изменений на протяжении довольно длительного времени. Это могут быть, например, панорамный задний план или группа неподвижных предметов, закрывающая значительную часть кадра. Такое почти статическое изображение может быть передано полностью один раз, в начале трансляции, а затем корректироваться декодером по мере необходимости. Информация о форме и текстуре спрайта кодируется как I-VOP. Для каждого следующего изображения в последовательности кодируются только 8 параметров глобального движения, описывающих движения телекамеры. Чтобы снизить задержку, сначала передают часть информации спрайта с грубым квантованием, а затем добавляют более тонкие структурные особенности. Можно также передать часть изображения, необходимую для реконструкции первых VOP, а затем дослать по частям остальные участки спрайта. На практике применяется сочетание обоих методов.

На рисунке 5.6 схема декодера показана более детально. Здесь видно, как обрабатываются и затем объединяются данные о форме и текстуре изображения. В цифровом потоке визуальной информации применяются дополнительные меры для повышения устойчивости к ошибкам:

- Ресинхронизация: после определенного количества битов в поток вводятся маркеры, отмечающие точки, к которым декодер переходит при потере части битов в потоке.

- Разделение данных: данные о перемещении и о текстуре разделяются на более мелкие порции для облегчения маскирования.

- Код расширения заголовка: вводится дополнительная кодозащита в заголовок пакета, повышающая его устойчивость к ошибкам.

Рисунок 5.6 - Декодирование видеокадра MPEG-4

Реверсивное кодирование с переменной длиной: кодовые слова реверсивного кода могут декодироваться как с начала, так и с конца. Если декодер встречает поврежденные биты, он не отбрасывает всю оставшуюся часть слова, а декодирует его с противоположного конца до поврежденного участка, минимизируя потери Синтетические объекты представляют значительный раздел компьютерной графики. В стандарт MPEG-4 включены следующие операции с объектами такого рода: параметрические описания синтезированного лица и фигуры; кодирование статических и динамических сеток с отображением текстуры; кодирование текстуры для проективных приложений. Метод анимации предполагает однократную передачу базового статического образа и последующую досылку сообщений, описывающих динамические изменения объекта. В первой версии стандарта этот метод используется для передачи синтезированного человеческого лица. За основу берется обобщенный шаблон лица с нейтральным выражением - один из хранимых в базе или специально загружаемый на передающей стороне. Он дополняется индивидуальными чертами, текстурой, выражением с помощью управляющих параметров (Facial Definition Parameters - параметры, определяющие лицо), другая группа параметров (Facial Animation Parameters - параметры анимации лица) изменяет выражение лица, вводит мимику, артикуляцию. Параметры передаются в отдельных потоках, для сжатия используется кадровое кодирование с ДКП.

Двумерная сетка представляет собой часть плоскости, поделенную на полигональные (многоугольные) участки. Точки пересечения линий называются узлами. MPEG-4 рассматривает только треугольные сетки. Сетка может быть Заполнена текстурой, тогда ее называют контентно-наполненной (content-based). Для описания сетки в динамике достаточно передать геометрию сетки и описать движение всех ее узлов. При этом треугольные участки текущего кадра получаются путем деформации треугольных участков опорного кадра, текстура также деформируется путем параметрического отображения векторов перемещения узлов сетки.

Двумерное моделирование может быть использовано для эффективного сжатия, если передавать опорные ключевые кадры и посылать векторы перемещения и информацию о текстуре для восстановления промежуточных кадров. Во второй версии стандарта добавлены новые технологии и алгоритмы, позволившие повысить эффективность кодирования, устойчивость к ошибкам, улучшить временное разрешение при малой задержке в буфере. В частности, введен режим глобальной компенсации движения, точность компенсации повысилась до 1/4 пиксела, внедрены три новых инструмента кодирования текстуры и неподвижных изображений; волновое кодирование с разделением на небольшие самостоятельно кодируемые участки, масштабируемое кодирование формы, сегментация и пакетирование для повышения устойчивости к ошибкам. Интересным новшеством второй версии является возможность кодирования кратных изображений (стереоскопических или полученных с, близких точек) с устранением избыточности между ними. Этот режим основан на методе градационного кодирования формы объекта и использует дополнительные возможности данного метода.

В области синтетических изображений основными нововведениями второй версии можно считать средства анимации человеческой фигуры (теми же методами, что и лица в первой версии) и кодирование трехмерных полигональных сеток.

5.1.5 Кодирование звуковых объектов

Широкие возможности представляет стандарт MPEG-4 для кодирования звука. Впервые используются раздельные алгоритмы для кодирования звуков музыкального происхождения и речи, введены мощные средства создания и обработки синтезированного звука. Наиболее широкий круг звуковых объектов, от низкоскоростных моно до многоканального звука вещательного качества, относится к категории Универсального звука (GA — General Audio). В качестве основного алгоритма кодирования звуков различного происхождения принят известный нам из MPEG-2 алгоритм ААС с незначительными усовершенствованиями. Одно из них касается введения режима PNS (Perceptual Noise Substitution - перцептуальное замещение шумом). Суть данного метода заключается в обнаружении в приходящем сигнале шумоподобных составляющих и исключении их из общего процесса кодирования. Декодеру передается информация о мощности шумовых компонентов в отдельных участках спектра и он подменяет соответствующие спектральные коэффициенты псевдослучайными сигналами с требуемой мощностью. Режим PNS иллюстрируется структурной схемой рисунка 5.7.

а) кодер; б) декодер

Рисунок 5.7 - Схема реализации режима PNS

Еще одно усовершенствование связано с введением алгоритма BSAC (Bit-Sliced Arithmetic Coding - арифметическое кодирование с побитовым расщеплением). Чтобы получить масштабируемый поток, BSAC использует альтернативный по отношению к ААС модуль кодирования квантованных коэффициентов с точным управлением скоростью потока в пределах от 16 до 64 кбит/с с шагом 1 кбит/с. Существенный выигрыш в скорости потока для стационарных гармонических и квазигармонических сигналов позволяет получить метод долговременного предсказания LТР (Long Term Prediction). В технике кодирования речи этот метод широко используется во временной области. В стандарте МРЕG-4 он интегрирован в схему универсального кодера (рисунок 5.8), где операции квантования и кодирования осуществляются над спектральными представлениями входного сигнала.

Рисунок 5.8 - Схема универсального кодера с LTP

Для работы схемы LТР кодированный сигнал предыдущего кадра переводится обратно во временную область с помощью инверсного преобразования TNS и синтезирующего БФ, в блоке LТР он сравнивается с приходящим сигналом, а полученная разность опять переводится в спектральную область. Специальный переключатель FSS (Frequency Selective Switch - переключатель с частотной избирательностью) выбирает исходный или разностный сигнал в зависимости от того, какая альтернатива в данный момент предпочтительнее. По сравнению с предсказанием из МРЕG-2 ААС данный метод предсказания требует вдвое меньших ресурсов памяти и производительности процессора. Для увеличения эффективности кодирования музыкальных сигналов на низких скоростях разработан новый алгоритм Twin VQ (Transform-domain Weighted Interleave VQ - взвешивающее векторное квантование с перемежением и преобразованием областей). Основная идея — заменить обычное кодирование спектральных компонентов в ААС перемежающим векторным квантованием, приложенным к нормализованному спектру. Квантование спектральных коэффициентов осуществляется в два шага: на первом они нормализуются к некоторому пределу, на втором - квантуются с использованием векторного квантования. Процесс нормализации включает оценку спектра по шкале Варка, извлечение периодических компонентов и оценку мощности спектральных составляющих.

Рисунок 5.9 - Алгоритм TwinVQ векторного квантования спектральных компонентов

В результате нормализации спектральные коэффициенты выравниваются и нормализуются вдоль частотной оси. Затем нормализованные коэффициенты описываются как многомерный вектор, чередуются в субвекторы, как показано на рисунке 5.9, и квантуются с использованием векторного квантования. Остальная часть алгоритма ААС остается неизменной. TwinVQ дает хорошие результаты в области скоростей от б до 24 кбит/с и используется в основном в универсальных кодеках MPEG-4 с масштабированием для формирования базового слоя. Для кодирования речи применяются два основных алгоритма: параметрический HVXC (Harmonic Vector eXcitation Coding - кодирование с помощью гармонических векторов) и CELP (Code Excited Linear Prediction coding - кодирование с линейным предсказанием). Первый алгоритм обеспечивает более высокое сжатие, он применяется в интервале скоростей потока 2-4 кбит/с (при переменной скорости - даже до 1,2 кбит/с), работает с частотой дискретизации 8 кГц в полосе стандартного телефонного канала 300-3400 Гц, Второй алгоритм имеет несколько разновидностей, работает в двух режимах - полосы частот 300-3400 Гц с дискретизацией 8 кГц и 50-7000 Гц с дискретизацией 16 кГц, и обеспечивает скорость потока от 4 до 24 кбит/с. Оба алгоритма базируются на моделировании речи с линейным предсказанием. Поступающий речевой сигнал сравнивается с сигналом, предсказанным моделью речевого тракта, параметры модели изменяются таким образом, чтобы минимизировать разность двух сигналов, и передаются декодеру. В декодере имеется такая же модель, которая по полученным значениям параметров синтезирует речевой сигнал. В HVXC более высокая степень сжатия объясняется более грубым анализом по огибающей спектра и изменениям высоты тона. CELP использует более точный спектральный анализ с долговременным предсказанием, обеспечивая более высокое качество передачи речи.

Рисунок 5.10 - Масштабируемость речевого кодека CELP

Основное преимущество обоих алгоритмов перед речевыми кодеками, стандартизованными МСЭ — масштабируемость по скорости (у CELP с шагом 200 бит/с), по полосе частот, что обеспечивает возможность работы с декодерами разной сложности. Эта возможность проиллюстрирована на рисунке 5.10, где показано, что кодер выдает базовый поток и улучшающие слои, а декодеры принимают эти потоки в соответствии со своими возможностями.

Рисунок 5.11 - Области применения различных алгоритмов кодирования звука

На рисунке 5.11 наглядно показаны области применения различных алгоритмов кодирования звука, применяемых в MPEG-4.

Если при кодировании натуральных звуков используется перцептуальное сжатие исходного звукового сигнала, то кодирование синтезированного звука производится путем создания его описания. Это описание передается декодеру и по нему синтезируется звук, аналогичный исходному. В стандарте MPEG-4 этот процесс реализуется в рамках формата «Структурированное аудио», допускающего передачу по каналу синтезированных звуков и музыки со скоростями 0,01-10 кбит/с. Для описания музыкальных звуков различных

инструментов разработан специальный структурированный оркестровый язык (SAOL — Structured Audio Orchestra Language), он оперирует загружаемыми в поток «инструментами». Инструмент представляет собой небольшой программный или аппаратный модуль генерации и обработки простейших сигналов, который может воспроизводить определенные звуки, в том числе и схожие со звуками музыкальных инструментов MPEG-4 не стандартизует метод синтеза, скорее он дает способ описания методов синтеза, пригодный для всех существующих и перспективных алгоритмов.

Второй язык - структурированный партитурный язык (Structured Audio Score Language) предназначен для описания партитуры всех инструментов, составляющих звуковой объект. Для воссоздания звуковой сцены в декодер загружаются параметры всех инструментов, а затем в потоке передается партитура.

Стандартом поддерживается механизм привязки звука к расположению объекта в пространстве сцены и его изменения при перемещении объекта, введены механизмы изменения звука в зависимости от акустических свойств пространства сцены.

Одно из новшеств стандарта МPEG-4 - алгоритм преобразования текста в речь TTSI (Text-to-Speech Interface). По каналу передается текст со скоростью от 200 бит/с до 1,2 кбит/с, а декодер преобразует его в речь. В отличие от обычных синтезаторов речи, извлекающих из базы данных фонемы (единицы речи) и соединяющих эти фонемы в связную, но совершенно лишенную эмоций речь, TTSI дополняет речь характеристиками живого голоса - тембром, интонацией, акцентом, просодией (так называется система произношения ударных и неударных, долгих и кратких звуков). Поддерживаются и другие функции: синхронизация речи с синтезированным лицом говорящего, включая выражение лица и движения губ; возможность для пользователя изменить ритм, тон, громкость, пол, возраст говорящего; сменить язык; изменение характеристик речи при перемещении говорящего в пространстве сцены; возможность остановки, ускоренного воспроизведения вперед и назад без нарушения просодии и т.д. Возможные области применения TTSI - искусственный рассказчик (по запросу); синтез речи, синхронной с анимацией; синтез речи для виртуальной реальности; говорящая газета; средство дублирования для анимационных картинок; голосовой Интернет и многие другие. Во второй версии стандарта приняты дополнения и усовершенствования к существующим алгоритмам, введены новые алгоритмы. В частности, повышена устойчивость к ошибкам в ААС, введена опция звукового кодера ААС с малой алгоритмической задержкой (Low-Delay Audio Coder — задержка 20 мс вместо нескольких сотен миллисекунд). Снижение задержки достигается уменьшением длины кадра до 512 отсчетов вместо 1024, уменьшением вдвое размера окна оконной функции, минимальным использованием резервуара битов. Ценой снижения задержки стало увеличение скорости потока для «прозрачного» канала примерно на 8 кбит/с, но такой кодер все еще лучше кодера МР-3 на скорости 64 кбит/с.

Рисунок 5.12 - Масштабирующий универсальный кодер MPEG-4

Во второй версии масштабируемость кодера Универсального звука сделана более детальной (шаги 2 кбит/с вместо 16 кбит/с). Масштабируемость достигает благодаря кодированию потока звукоданных несколькими кодерами, первый из которых обрабатывает прореженный исходный поток, а каждый из последующих компрессирует разность между входным и декодированным сигналами предыдущей ступени (рисунок 5.12). Для работы на очень низких скоростях введен алгоритм параметрического кодирования HILN (Harmonic and Individual Lines plus Noise — гармоники и одиночные линии плюс шум), базирующийся на представлении звукового сигнала как набора синусоид, гармоник и шумов и передаче по каналу параметров этих первичных сигналов. Частоты и амплитуды первичных сигналов квантуются с разрешением, соответствующим градации «различие едва заметно». Спектральная огибающая шума и гармонические компоненты описываются на основе техники линейного предсказания, при этом используется корреляция между параметрами в кадре и между последовательными кадрами. Этим методом можно кодировать звуковые сигналы начиная со скорости 4 кбит/с. Упомянем также специальный формат транспортного потока для звуковых применений с малой избыточностью LOAS (Low Overhead Audio Stream), возможность организации обратного канала от пользователя к источнику контента для поддержки интерактивных приложений, более устойчивую к ошибкам версию HVXC.

5.1.6 Профили и уровни стандарта МРЕG-4

MPEG-4 представляет собой обширный набор средств и алгоритмов кодирования аудиовизуальных объектов. Чтобы сделать реализацию декодера экономически оправданной и облегчить проверку на соответствие стандарту, в некоторых разделах определены ограниченные наборы инструментов, называемые Профилями. Для каждого из профилей установлены один или несколько уровней, ограничивающих требования к вычислительным способностям декодера. Понятие Профиля введено для визуальных объектов, аудио, системы и описаний сцены. Однако специфика MPEG-4 потребовала некоторых дополнений по сравнению с предшествующими стандартами. В MPEG-2 видеокадр можно представить себе как один прямоугольный объект, занимающий всю сцену, и для него достаточно определить один профиль. В MPEG-4 объектов может быть несколько, для каждого оптимальным будет свой профиль, поэтому введена дополнительная градация, как промежуточная между уровнем и профилем — тип объекта. Этот параметр определяет синтаксис (структуру) цифрового потока для одиночного объекта. Профиль же определяет набор типов объектов, которые могут присутствовать в сцене.

Для натуральных объектов определены пять типов объектов:

1) Простой — прямоугольный объект с произвольным форматом, использует простые средства кодирования, основанные на I- и P-VOP.

2) Простой масштабируемый — прямоугольный объект с пространственным и временным масштабированием.

3) Базовый — производный от Простого, с добавлением B-VOP. Чересстрочная развертка не поддерживается.

4) Основной — обеспечивает высшее качество, по сравнению с Базовым дополнительно поддерживает градационное кодирование формы, спрайты, чересстрочное разложение.

5) N-битовый — аналогичен Базовому, но допускает квантование плоскостей яркости и цветности с разрядностью от 4 до 12 бит.

Для кодирования неподвижных натуральных визуальных объектов существует специальный тип объекта:

6) Неподвижная масштабируемая текстура — неподвижное изображение произвольной формы, использует волновое кодирование и пошаговую загрузку и восстановление. Для синтетических объектов определены следующие три типа объектов:

7) Анимированная двумерная сетка — объединяет синтетическую сетку (прямоугольную или топологии Делоне) с натуральным видео, кодируемым по Базовому типу. Видео может отображаться на сетку и деформироваться путем перемещения ее узлов - это дает интересные анимационные возможности. Визуальный объект может быть любой формы.

8) Базовая анимированная текстура - анимация неподвижных изображений (таких, как в типе 6).

9) Примитивное лицо - средство анимации человеческого лица. Этот тип объекта не определяет конкретное лицо, анимация может быть применена к любой выбранной модели.

Профили, как уже сказано, определяют, какие типы визуальных объектов могут присутствовать в сцене. В первой версии стандарта 9 профилей, допустимые сочетания профилей и типов объектов приведены в таблице 5.1. Простой профиль допускает присутствие только объектов Простого типа и предназначен в первую очередь для мобильных служб и Интернета. Он поддерживает до 4-х объектов в сцене с максимальным разрешением QCIF, три уровня ограничивают скорость потока в пределах от 64 до 384 кбит/ с, максимальную площадь, занимаемую объектом, и число макроблоков в секунду, которое декодер должен обработать. Простой масштабируемый профиль может осуществлять кодирование с масштабированием при тех же предпосылках, имеет два уровня. Базовый профиль воспринимает типы объектов Простой и Базовый, полезен для интерактивных приложений. Основной профиль создавался с учетом вещательных служб. Самый высший уровень Основного профиля поддерживает до 32 объектов Простого, Базового или Основного типа и максимальную суммарную скорость потока до 38 Мбит/с. N-битовый профиль работает с объектами Простого, Базового и N-битового типа и полезен в специальных системах наблюдения и медицинского контроля, где требуется широкий динамический диапазон яркости и насыщенности.

Таблица 5.1 – Профили и типы объектов MPEG-4 видео

Профиль Тип объекта	Простой	Простой масштабируемый	Базовый	Основной	N-битовый	Масштабируемая текстура	Простой, анимация лица	Базовая анимированная структура	Гибридный
Простой	·	·	·	·	·				·
Простой масштабируемый		·
Базовый			·	·	·				·
Основной				·
N-битовый					·
Масштабируемая текстура				·		·		·	·
Масштабируемая D-сетка									·
Базовая анимированная структура								·	·
Примитивное лицо							·	·	·
Число уровней	3	2	2	3	1	3	2	2	2

Из остальных профилей наибольший интерес представляет Гибридный, объединяющий натуральные (Базовый) и синтетические (все три) типы объектов. Он полезен при помещении «реального» объекта в синтетический мир и, наоборот, синтетического объекта в реальное окружение.

В нижней строке таблицы 5.1 указано число уровней, определенных в стандарте для каждого профиля. В таблице 5.2 показаны параметры потока для некоторых уровней.

В стандарте установлены следующие точки соответствия: Простой профиль и Базовый профиль с размерами сцены QCIF и CIF, скоростями потока 64, 128, 384 кбит/с и 2 Мбит/с. Для Основного профиля нормируются форматы CIF, Рек. ВТ.601, ТВЧ со скоростями 2, 15 и 38,4 Мбит/с.

Вторая версия стандарта добавила три профиля к натуральному видео:

1) Простой усовершенствованный профиль реального времени — обеспечивает эффективное кодирование с использованием обратного канала (видеотелефония, телеконференции, дистанционное наблюдение).

2) Базовый масштабируемый профиль — поддерживает пространственное и временное масштабирование в Базовом профиле.

3) Профиль с улучшенной эффективностью кодирования — подходит для мобильного приема вещательных передач и других применений, где требуется высокая эффективность кодирования.

Таблица 5.2 – Параметры потока для некоторых профилей MPEG-4 видео

Профили и уровни		Типовой размер сцены	Скорость потока, бит/с	Максимальное число объектов	Общая емкость памяти, макроблоков
Простой профиль	L1	QCIF	64 к	4	198
	L2	CIF	128 к	4	792
	L3	CIF	384 к	4	792
Базовый профиль	L1	QCIF	384 к	4	594
Базовый профиль	L2	CIF	2 М	16	2376
Основной профиль	L2	CIF	2 М	16	2376
	L3	Рек. 601	15 М	32	9720
	L4	1920х1088	38,4 М	32	48960

Три новых профиля введены в синтетическое видео, в том числе Простой профиль анимации лица и фигуры. Общее число визуальных профилей достигло 15. Уже после принятия второй версии продолжается работа над дополнениями к стандарту. В частности, предполагается ввести Студийный профиль, в котором VOP с кодированием формы могли бы передаваться со скоростью несколько сот мегабит в секунду. В таблице 5.3 показаны основные параметры предлагаемого профиля. Низкий уровень этого профиля мог бы соответствовать высокому уровню профиля «4:2:2» из стандарта MPEG-2 (сравните таблицу 5.3 и таблицу 4.2), в двух других уровнях предлагается ввести два подуровня — с дискретизацией «4:2:2» и «4:4:4». Группа MPEG изучает кодирование 2D и 3D анимации, цифровой кинематограф и другие вопросы. Как и для видеообъектов, в стандарте введена классификация типов объектов для звука. В общей сложности первая версия определила 15 типов объектов, часть из них базируется на алгоритме ААС, один на алгоритме Twin VQ, три типа объектов связаны с алгоритмами кодирования речи, еще четыре определяют типы объектов для синтезированных звуков.

Таблица 5.3 – Параметры предлагаемого студийного профиля стандарта MPEG-4

Уровень		Максимальный размер изображения и частота кадров	Максимальная скорость отсчетов	Скорость цифрового потока, Мбит/с	Квантование, дискретизация
Низкий (совместим с 4:2:2 P@HL)		1920х1088 30Гц	125337600	300	10 битов 4:2:2
Основной	4:2:2	2048х2048 60Гц	250675200	600	10 битов 4:2:2
Основной	4:4:4	2048х2048 60Гц	376012800	800	10 битов 4:2:2 4:4:4
Высокий	4:2:2	4096х4096 120Гц	805306368	1200	10/12 битов 4:2:2
Высокий	4:4:4	4096х4096 120Гц	1207959552	2500	10/12 битов 4:2:2 4:4:4

Определены 4 профиля кодирования звука:

1) Речевой профиль — совместим с тремя «речевыми» типами объектов, имеет два уровня, допускает до 20 объектов в сцене одновременно.

2) Масштабируемый профиль — обеспечивает высококачественное кодирование при низкой скорости цифрового потока и гибкое приспособление к изменениям скорости в канале, наилучшим образом приспособлен для передачи звука в Интернете. Число объектов в сцене, число потоков и частоты дискретизации определяются четырьмя уровнями, определенными в условных «единицах сложности» — производительности процессора в миллионах операций в секунду (PCU) и объеме памяти в тысячах слов (RCU):

Уровень 1: один моно объект любого типа, частота дискретизации до 24 кГц;

Уровень 2: один стерео или два моно объекта, частота до 24 кГц;

Уровень 3: один стерео или два моно объекта, частота до 48 кГц;

Уровень 4: один объект 5.1 или группа объектов, частота до 48 кГц, сложность до 30 PCU и 19 RCU. В качестве примера в таблице 5.4 приведены требования к декодеру, работающему в одном из уровней данного профиля.

3) Синтетический профиль — группирует типы объектов синтезированного звука, может использоваться в тех случаях, когда источником звука служит не микрофон и требуется обеспечить передачу при очень низких скоростях.

4) Основной профиль — наиболее сложный профиль, объединяющий возможности всех остальных; пригоден для звуков всех видов, обеспечивает высочайшее качество звучания. Примеры применения — запись на DVD и мультимедийное вещание. Профиль имеет 4 уровня.

Соответствие звуковых профилей и типов объектов показано в таблице 5.5. Во второй версии стандарта введены 4 новых профиля: Высококачественный (High Quality), LD (Low Dе1ау)-профиль (с малой задержкой), Натуральный (Natural) и Межсетевой мобильный (Mobile Audio Internetworking).

Большое число возможных алгоритмов заставило ввести также три графических профиля, четыре профиля описаний сцены и один профиль дескрипторов объектов.

Таблица 5.4 – Требования к декодеру звука

масштабируемого профиля

Скорость потока, бит/с	Тактовая частота, кГц	Быстродействие процессора, млн. операций/с	Емкость памяти, тыс. слов
ААС Основной	48	5	5
ААС Простой	48	3	3
ААС с масштабируемой тактовой частотой	48	4	3
ААС с долговременным предсказанием	48	4	4
ААС Масштабируемый	48	5	4
Twin VQ	24	2	3
CELP	8	1	1
CELP	16	2	1
CELP	8/16	3	1
HVXC	8	2	1

Таблица 5.5 – Профили и типы объектов MPEG аудио
Профили Типы объектов	Речевой	Масштабируемый	Основной	Синтетический
ААС Основной			·
ААС с масштабируемой тактовой частотой			·
ААС Простой		·	·
ААС с долговремен-ным предсказанием		·
ААС Масштабируемый		·	·
Twin VQ		·	·
CELP	·	·	·
HVXC	·	·	·
TTSI	·	·	·
Основной Синтетический			·	·
Wavetable Синтезир			·	·
Общий MIDI			·	·
Алгоритмический синтез			·	·
Число уровней	2	4	4	3

5.1.7 Перспективы применения MPEG-4 в вещании

Как уже отмечалось, стандарт MPEG-4 не предназначен для замены MPEG-2 в ТВ вещании в его нынешнем виде, но в наш век быстрых изменений можно представить себе, что и традиционная концепция ТВ вещания будет заметно изменяться. Начало этим изменениям положено постепенным переходом на цифровое вещание, предоставляющее новые возможности по количеству программ, качеству изображения и звукового сопровождения, передаче дополнительных данных и предоставлению новых услуг. Можно с определенной степенью уверенности прогнозировать слияние ТВ приемника, телефона, спутникового и кабельного терминалов (в дальнейшем к ним присоединится и персональный компьютер) в единое информационное устройство, получающее информацию из общей информационной сети по высокоскоростному цифровому каналу (проводному, оптическому или спутниковому). Большая часть ТВ программ может передаваться по такому каналу в свободное от нагрузки (ночное) время, загружаясь в емкую память информационного блока, в реальном времени будут передаваться только новости и программы, рассчитанные на интерактивное взаимодействие со зрителем [2].

Теперь представим себе, как расширит возможности восприятия добавление к традиционной программе дополнительной информации в форме наложенного текста, неподвижных изображений (возможно, полупрозрачных), двумерной и трехмерной графики, дополнительных зрительных и звуковых образов. Часть этих улучшений используется и сегодня, но это происходит по воле вещателя, и зритель не в состоянии что-либо изменить. В MPEG-4 дополнительная информация передается вместе с объектом и ею легко управлять нажатием кнопки. Вы, например, можете вызвать на экран ответ на вопрос викторины, а можете убрать его и самостоятельно поломать голову над загадкой. Возможно изменить точку взгляда на сцену, как бы сменить положение камеры. Это дает возможность лучше воспринять спортивное соревнование или музыкальное шоу. В многоканальной звуковой системе можно выбрать число каналов, язык звукового сопровождения и даже самому включиться в оркестр, исполнив партию на любом понравившемся вам инструменте.

Широкие возможности открывает MPEG-4 в интерактивной среде. Возможности MPEG-4 позволят вам установить связь с несколькими людьми и организовать совместный просмотр программы, изменяя по договоренности ход сюжета, или поиграть в сетевые игры с трехмерными изображениями. А телемагазин?! Насколько расширятся здесь возможности покупателя по всесторонней оценке будущей покупки. Вы можете получить дополнительную информацию о заинтересовавшем вас объекте, например, новой марке автомобиля, подведя к нему курсор и нажав кнопку на пульте, можете рассмотреть автомобиль со всех сторон, пригласить консультанта (виртуального, разумеется) и выслушать его разъяснения, узнать цену и наличие модели на складе. Вы можете послать приятелю изображение автомобиля и всю информацию о нем по электронной почте и тут же получить его совет.

6 Спутниковое телерадиовещание

Национальные системы спутникового вещания предназначены, как правило, для приема программ населением той страны, которая организует вещание. Для таких систем, в первую очередь, предназначен диапазон частот 11,7...12,5 ГГц. Региональные системы действуют в диапазоне 10,95...11,7 ГГц. Упомянутые службы для ретрансляции используют (кроме системы «Молния») спутники, размещаемые на геостационарной орбите.

В соответствии с международными соглашениями для систем спутникового ТВ вещания на участке Космос-Земля выделены следующие полосы частот: 620...790, 2500...2690 МГц, 10,7...11,7 и 11,7...12,5 ГГц.

В полосе частот 10...11,7 ГГц могут работать системы фиксированной спутниковой службы любой страны мира. Полоса частот 11,7...12,5 ГГц предоставлена радиовещательной службе для государств Европы, Африки, СНГ, Турции и Монголии. Полоса частот 11,7... 12,5 ГГц разбита на 40 частотных каналов с разносом между несущими 19,18 МГц. Благодаря многократному использованию их по дуге геостационарной орбиты от 37° з.д. до 170⁰ в.д. удалось обеспечить 984 одновременно работающих каналов. Для спутников стран СНГ выделено пять позиций на геостационарной орбите: 23, 44, 74, 110 и 140° в. д., а также 36 номиналов частот в полосе 11,7...12,5 ГГц. Достаточно большой разнос между спутниками по долготе, наличие территориального расстояния между зонами обслуживания, а также применение двух видов поляризации (горизонтальной и вертикальной) позволяют обеспечить в странах СНГ число передаваемых одновременно программ с аналоговыми сигналами, равное 70.

Системы, использующие геостационарные спутники, имеют ряд преимуществ:

- связь может быть круглосуточной;

антенны земных станций не требуют системы автоматического сопровождения спутника, а механизм привода антенны для перехода на приём сигналов другого спутника оказывается сравнительно простым;

- за счет постоянства расстояния между спутником и земной станцией сигнал на трассе оказывается (исключая резкие изменения в тропосфере) достаточно устойчивым;

- практически отсутствует доплеровский сдвиг частоты.

Отличительной особенностью спутникового телевизионного вещания является возможность для телезрителя принимать интересующую его программу с любого спутника, находящегося в зоне видимости и при достаточном уровне сигнала на выходе его приемной установки. При наземном ТВ вещании зритель принимает программы лишь тех радиостанций, которые находятся в зоне его радиовидимости и на расстоянии не превышающем, как правило, 100 км.

В цветном аналоговом телевидении по способу передачи сигналов цветности различают три системы совместимого с чёрно-белым изображением цветного изображения: SECAM, NTSC и PAL. В системе SECAM (применяется во Франции, в странах СНГ, Восточной Европы и Азии) каждый из двух цветоразностных сигналов модулирует по частоте цветовую поднесущую в смежных строках. Частоты поднесущих при отсутствии модуляции составляют 4,065 и 4,25 МГц, девиация поднесущей 250 и 230 кГц.

В системе NTSC (распространена в странах Американского континента и Японии) цветоразностные сигналы передаются методом квадратурной фазовой модуляции на поднесущей частоте fп = 3,579545 МГц, соответствующей половинному значению 455-й гармоники строчной частоты, т.е. fп =455 fстр/2. В системе PAL (широко применяется в странах Центральной и Западной Европы, а также в КНДР, КНР и в некоторых странах азиатского континента) сигналы цветности так же, как и в системе NTSC, передаются с помощью квадратурной фазовой модуляции (ФМ), однако фаза поднесущей одного из модулированных сигналов поочередно от строки к строке изменяется на 180⁰. Частота поднесущей в зависимости от принятой разновидности стандарта может меняться в пределах 3,5795...4,4336 МГц. При квадратурной ФМ используют одну поднесущую на частоте 3,5795 МГц (NTSC) или 4,4336 МГц (PAL). Сигнал на поднесущей частоте с помощью фазовращающей цепочки разделяется на две составляющие, сдвинутые на 90⁰, что позволяет каждую из составляющих модулировать своим цветоразностным сигналом.

В последние годы в разных странах мира ведутся интенсивные исследования возможности передачи телевизионных сигналов в цифровом виде. Цифровые сигналы обладают большей помехоустойчивостью от гладких шумов и менее чувствительны к неравномерности амплитудной и нелинейности фазовой характеристики. Известно, что при отсутствии сжатия спектра сигнала для высококачественного цифрового телевидения необходимо обеспечить передачу по каналу потока со скоростью 216 Мбит/с, что без устранения избыточности в ТВ сигнале вызывает существенное расширение частотной полосы канала.

В последнее десятилетие совместными усилиями специалистов ряда стран удалось добиться сжатия спектра телевизионного сообщения в 10-20 раз. В США, Японии и Европе проводились разработки по системам телевидения с повышенной четкостью и цифровым методам передачи ТВ сигнала. В США для цифрового телевидения разработан стандарт Digi Cypher. В Японии детально разработан новый стандарт качества на 1125 строк - MUSE (Multiple Sub-IMyquist Sampling Encoding - система кодирования с многократной субдискретизацией) В Европе объединенными усилиями Международной Организации Стандартизации и Международной Электротехнической Комиссии (IEC) были разработаны стандарты MPEG-(Moving Picture Experts Group). Стандарт MPEG-1 оптимизирован для скоростей передачи цифровых сигналов 1,5...8 Мбит/с, MPEG-2 - для скоростей 2...15 Мбит/с. Оба стандарта рассчитаны для телевещания с развертками 525 строк , 30 кадров/с и 625 строк 25 кадров/с с форматами 4:3, 16:9. Стандарт MPEG-2 использует чересстрочную развертку, a MPEG-1 - построчную, так как ориентирован на применение в персональных компьютерах и системах мультимедиа. В стандарте MPEG-2 цифровой поток телевизионного сигнала со скоростью 216 Мбит/с сжимается до 2...15 Мбит/с (верхняя цифра соответствует передаче сигналов телевидения с высокой четкостью). Такое сжатие позволяет передавать по спутниковому каналу с полосой 27/36 МГц три-четыре ТВ программы повышенного качества по сравнению с аналоговым ТВ каналом. Известно, что ТВ-изображение имеет определенную избыточность - это либо практически неподвижный фон, либо передний план. Алгоритм MPEG-2 позволяет устранить эту избыточность с помощью межкадрового и внутрикадрового кодирования [8]. При межкадровом кодировании через каждые 10-15 кадров видеоизображения выбираются опорные кадры (infra-кадры), которые считаются основными и кодируются без обращения к другим кадрам. Остальные кадры анализируются микропроцессором системы, сравнивающим их с опорными кадрами и между собой и вырабатывающим сигналом различия на основе алгоритма предсказания с компенсацией движения. Эти кадры разделяются ещё на два типа: Р-кадры (Predictive), закодированные на основе предыдущих кадров и В-кадры (Bidirectionally predictive), закодированные на основе предыдущего и последующего кадров. Организация всех трех типов кадров (I, P и В) и их последовательности является достаточно гибкой, избыточность закодированная в сигнале различия устраняется с помощью дискретного косинусного преобразования (ДКП) сигнала. Внутрикадровое кодирование состоит в уменьшении пространственной избыточности в кадре и также производится с помощью ДКП. Таким образом, сжатие видеосигнала в стандарте MPEG-2 основано на сложных алгоритмах предсказания и применении дискретного косинусного преобразования.

В канале звукового сопровождения стандарта MPEG-2 кодирование и сжатие данных также производится по специально разработанным алгоритмам. Качество звука после восстановления в приемнике соответствует качеству компакт-дисков.

Отметим очевидные по сравнению с аналоговыми способами преимущества передачи телевизионной информации в цифровом виде по спутниковым каналам:

- применение информационного сжатия позволяет намного сократить объём передаваемой информации, а, следовательно, сократить полосу частот;

- при неизменной мощности передатчика спутника-ретранслятора уменьшение скорости передачи в канале приводит к увеличению энергии сигнала приходящейся на элементарную посылку и, следовательно, уменьшению вероятности ее сбоя. Таким образом, при заданной вероятности сбоя информационного символа появляется возможность уменьшения ЭИИМ ретранслятора или при неизменной ЭИИМ использовать приемные антенны меньшего диаметра;

- в полосе ствола ретранслятора можно передавать большее количество телевизионных программ;

- переход от аналогового к цифровому методу ТВ вещания почти не затрагивает приемно-передающее СВЧ оборудование системы.

В свете сказанного совершенно очевидным является крупномасштабный переход в ближайшее время от аналогового способа передачи ТВ сообщений к цифровому с использованием эффективных методов сжатия видео и аудио информации. На разных стадиях реализации находятся проекты других сетей цифрового спутникового ТВ вещания.

6.1 Структурная схема системы спутникового цифрового телевещания

На рисунке 6.1 приведена упрощенная структурная схема спутниковой системы цифрового телевизионного вещания (ЦТВ). Цифровой поток данных, сформированный из различных источников (телетекст, видеоинформационный и др.) поступает на мультиплексор. Для объединения и последующего разделения сигналов на вход мультиплексора поступают синхронизирующие сигналы (на схеме не показаны). Перед модулятором передатчика обычно устанавливается оптимальный фильтр. Его назначение вызвано различными причинами. Во-первых, для устранения межсимвольных искажений при демодуляции сигнала могут использоваться различные варианты фильтров Найквиста. Часто используют оптимальный фильтр типа «корень квадратный из спектра типа приподнятый косинус», как на передающей, так и приемной стороне, что обеспечивает отсутствие межсимвольных искажений на выходе демодулятора приемника. Используют также фильтры, минимизирующие спектр радиосигнала для уменьшения помех соседним радиоканалам.

Рисунок 6.1 – Упрощенная структурная схема спутниковой системы

цифрового телевизионного вещания (СЦТВ)

В спутниковых каналах сигналы достаточно стабильны при спокойном состоянии тропосферы, однако при возмущениях в ней опасно применять сигналы со сложными видами модуляции, поэтому, как правило, используют хорошо зарекомендовавшую и не только в спутниковых каналах четырехпозиционную фазовую манипуляцию (ФМ-4) - в английской аббревиатуре - QPSK. Поскольку в демодуляторе используется квазикогерентная обработка сигналов, то для устранения неопределенности фазы опорного колебания на приемной и передающей стороне дополнительно применяется дифференциальное кодирование и декодирование. Для повышения помехоустойчивости приема сигналы с выхода мультиплексора поступают на модулятор не непосредственно, а дважды дополнительно кодируются избыточным кодом (обычно внутренний код - сверточный и внешний - Рида-Соломона) - на рисунке 6.1 дифференциальный, сверточный и блоковый кодеры и декодеры не показаны.

Приёмные станции могут быть двух видов: профессиональные с цифровым декодером, с преобразователями вида QPSK/QAM (QAM-квадратурная амплитудно-фазовая манипуляция с числом уровней 64 или 256) для кабельных сетей и бытовые, для индивидуальных приёмных устройств спутникового телевидения.

В первом типе станций сигнал после декодирования поступает в профессиональную студию либо в кабельную распределительную сеть телевизионных программ или в бытовой интегрированный кабельный декодер, выделяющий также каналы телетекста и звукового вещания, во втором типе станций- на индивидуальный спутниковый ресивер-декодер. Разработаны бытовые и профессиональные спутниковые декодеры с весьма универсальными

схемами. Профессиональные цифровые декодеры рассчитаны на применение в любых конфигурациях стандартов и сигналов.

Многие западные фирмы настойчиво работают над созданием и усовершенствованием приемников цифрового телевидения. Так, приемники-декодеры цифровых спутниковых ТВ программ фирмы Philips серии DVS 3961/31 и DVS 3962/31 предназначены для работы в головных станциях кабельного телевидения и рассчитаны на работу в стандартах NTSC, PAL, SECAM. Блок предварительного усиления радиосигнала с модуляцией QPSK работает в расширенной полосе 950...2150 кГц. Программное обеспечение позволяет перенастраивать приемники на разные спутники. Приёмники имеют встроенный считыватель — смарт-карту, соответствующий стандарту ISO 7816. Структурная схема приёмной индивидуальной установки цифровой спутниковой системы изображена на рисунке 6.2, в которую входит параболическая антенна диаметром 0,6... 1,2 м, за рефлектором которой помещается наружный блок (конвертер). В соответствии со структурной схемой рисунка 6.2 принятый антенной сигнал проходит через блок выбора поляризации, далее поступает малошумящий усилитель, смеситель, на второй вход которого поступает сигнал гетеродина. После преобразования сигнал выделяется фильтром первой промежуточной частоты и далее усиливается УПЧ1.

поляризатор

Рисунок 6.2 – Структурная схема приемной индивидуальной установки спутниковой СЦТВ

Таким образом, в конвертере происходит преобразование частоты сигнала, принятого антенной в полосе частот 10,95...11,7 ГГц или 11,7...12,5 ГГц в сигнал первой УПЧ в полосе 0,95...1,75 ГГц или 0,95...2,21 ГГц и его усиление. Кратко рассмотрим требования к конвертеру ТВ сигналов и его технические характеристики. Конвертер - это наиболее важный узел приемной установки. Его основные задачи: уменьшение общего коэффициента шума, широкополосное усиление, преобразование частоты и сравнительно большой динамический диапазон, так как в противном случае могут возникать нелинейные искажения сигнала. Конвертер размещают в герметизированном корпусе и помещают в фокусе приемной антенны. Волноводно-полосковый переход предназначен для обеспечения согласования входа малошумящего усилителя (МШУ) с поляризатором. МШУ имеет обычно три усилительных каскада, содержащих полевые арсенид галлиевые малошумящие транзисторы, выполненные по технологии ТВПЭ-транзисторы с высокой подвижностью электронов, имеющие малый коэффициент шума. Особенностью каскадов таких МШУ является отсутствие резисторов во входных цепях, поскольку наличие их вызвало бы увеличение коэффициента шума. Канализация сигнала во входную цепь и передача ее на вход последующего каскада осуществляется микрополосковыми линиями. Стационарный режим каскадов осуществляется от отдельных источников питания через элементарные LС-фильтры низших частот. Благодаря принятым мерам удается получить коэффициент шума неохлаждаемого МШУ, равный 0,7—1 дБ, с неравномерностью АЧХ около 2 дБ, линейной ФЧХ и коэффициентом усиления около 25...35 дБ.

Фильтр смесителя выполняется по микрополосковой технологии. Потери преобразования смесителя с гетеродином составляют обычно 5...6 дБ (с учетом потерь вносимых полосовым фильтром). УПЧ1 имеет широкую полосу пропускания и малые собственные шумы. Для увеличения усиления сигнала в УПЧ1 имеется обычно четыре резисторных каскада на биполярных транзисторах с включением усилительных элементов по схеме с общим эмиттером, коэффициент усиления УПЧ1 составляет обычно 30...35 дБ. Питание конвертера осуществляется по центральной жиле кабеля, соединяющего наружный блок с внутренним. Длина соединительного коаксиального кабеля может достигать нескольких десятков метров.

Внутренний блок цифровой приемной установки - ресивер - согласно схеме (рисунок 6.2) содержит дополнительный УПЧ 1, преобразователь и усилитель второй промежуточной частоты с полосой пропускания 27/36 МГц. Уровень выходного сигнала УПЧ2 составляет 1В. Гетеродин второго преобразователя-перестраиваемый с шагом 10 кГц синтезатор частот, работающий в полосе 0,95...2,15 ГГц + 480 МГц. Сигнал с выхода ресивера после демодуляции поступает на цифровой декодер. Структурная схема бытового цифрового приемника - декодера приведена на рисунке 6.3.

В демодуляторе производится превращение сигнала с ВЧ заполнением в цифровой поток, который поступает на демультиплексор, разделяющий его на три составляющих: видео-, аудио- и поток данных. В этом же блоке осуществляется дескремблирование (устранение псевдослучайной последовательности, наложенной на сигнал в передатчике). Видеосигналы декодируются из стандарта MPEG в декомпрессированные цифровые сигналы в

1 – ресивер; 2 – демодулятор (прямое исправление ошибок);

3 – демультиплексор/дескремблер; 4 – аудиодекодер MPEG-2; 5 – видеодекодер MPEG-2;

6 – кодер системы цветного телевидения; 7 – модулятор; 8 – микропроцессор; 9 – модем;

10 – ИК датчик; 11 – модуль цифрового телевидения; 12 – пакеты данных формата MPEG-2; 13 – цифровое видео 4:2:2; 14 – SECAM/PAL; 15 – Y/C; 16 – R-G-B; 17 – аналоговое аудио; 18 – цифровое видео AES/EBU; 19 – RS 232; 20 – телефонная линия

Рисунок 6.3 – Структурная схема бытового цифрового телевизионного приемника

блоке 5, из которых после цифроаналогового преобразователя 6 выделяются исходные видеосигналы в виде составляющих яркостной (Y) и трех цветовых составляющих - красной (R), зеленой и голубой (В). Блок 6 осуществляет также функции преобразователя стандартов, т.е. на его выход в соответствии с желанием пользователя можно подключить телевизионный приемник, работающий в одном из трех стандартов аналогового телевидения. Имеется выход сигнала для подключения наземной сети телевещания. С выхода аудиодекодера 4, совмещенного с цифроаналоговым преобразователем, можно получить как аналоговые, так и цифровые сигналы. Микропроцессор 8 управляет работой блока 3 (демультиплексора - дескремблера) и выделяет телефонный сигнал в случае реализации интерактивной системы связи, а также образует интегрированные пакеты данных других служб, подводимые далее в блок 12. Микропроцессор имеет выход для подключения стандартного интерфейса RS-232. Модуль цифрового управления и инфракрасный датчик обеспечивают возможность дистанционного управления приемником-декодером.

Цены на бытовые декодеры колеблются в пределах от 200 до 300 долл., но, учитывая большую конкуренцию на мировом рынке, следует полагать, что цены на бытовые цифровые ТВ приемники будут заметно снижаться с каждым годом.

Сегодня на отечественном рынке имеется большое количество ресиверов, предназначенных для приема сигналов телевидения в аналоговой, цифроаналоговой и цифровой форме. В переходный период от аналогового к цифровому телевидению покупателю этой продукции необходима информация о ее технических и качественных показателях, полученная не только из описания прибора и инструкций по его использованию, но и на основании тестирования приемника на территории страны. Журнал «Теле-Спутник» периодически публикует результаты испытаний ресиверов, выпускаемых известными фирмами. Тестирование аппаратов производится по таким показателям, как качество изображения и звука, удобство эксплуатации, сумма характеристик/цена и общее заключение по 4-бальной системе: плохо, удовлетворительно, хорошо и отлично. В процессе тестирования обнаруживаются недостатки изделий как в техническом исполнении, так и программном обеспечении. Представляют интерес результаты тестирования ресиверов французской фирмы Xsat, которая была выбрана телекомпанией «НТВ-Плюс» в качестве поставщика первой партии цифровых терминалов для приема платного пакета программ этой компании. Было тестировано три изделия фирмы: Хsat CD.TV200, Xsat CD.TV300, Xsat CD.TV350 [9]. Исследования проводились на спутниках 13-градусной позиции в.д., а также спутниках российской группировки «Галс» - 36⁰ в.д. Результаты испытаний показали, что указанные приемники могут принимать программы и с других спутников (free to air). Как и во многих современных ресиверах поддержка DiSEqC-протокола позволяет управлять двух-четырехвходовыми переключателями и в сочетании с переключателем 0/12 В дает возможность строить сложную и разветвленную сеть приема. Качество изображения и звука соответствовали оценке - «удовлетворительно» и «хорошо», удобство эксплуатации - «хорошо». Приведем некоторые технические данные ресивера Xsat CD.TV.300. Напряжение питания 187/242В, 50Гц, частотный диапазон второй ПЧ 950…2500 МГц, оперативная память 2 Мбит, перепрограммируемая память 1 Мбит, декодер звука MPEG-2 (Musicam), декодер изображения MPEG-2, автоматический поиск, имеется возможность ручного поиска.

6.2 Спутниковое цифровое радиовещание

С начала 90-х годов в ряде развитых стран мира ведутся исследования по использованию цифровых сигналов в радиовещательных системах, работающих в ДВ, СВ, KB и УКВ диапазонах, а также в СВЧ диапазоне для спутниковых каналов [10-12].

1 - кодер; 2 - мультиплексор; 3 - цифровой модулятор; 4 - передатчик;

5-7 - приемные земные станции

Рисунок 6.4 - Типовая структура системы цифрового спутникового радиовещания

Мировым лидером в производстве передающей и приемной аппаратуры для сетей цифрового радиовещания является компания Com Stream (США). Оборудование Com Stream и реализованный в нем алгоритм цифрового сжатия MPEG-2, MPEG-3 стали стандартом на рынке стран СНГ. Преимущества цифрового сжатия звуковой информации очевидны, так как это позволяет сузить полосу частот до нескольких сотен килогерц и одним транспондером с шириной полосы 54...72 MГц ретранслировать более 100 радиостанций. При сужении полосы частот увеличивается энергия сигнала, приходящаяся на одну элементарную посылку, что позволяет осуществить прием сигналов на антенны меньшего диаметра или использовать передающее СВЧ оборудование на спутнике меньшей мощности.

Типовая структура системы цифрового спутникового радиовещания состоит из трех основных звеньев: передающей станции, работающей на линии Земля-ретранслятор, спутника- ретранслятора, одной или нескольких приемных станций - рисунок 6.4. На передающей станции сигналы одного или нескольких каналов звука, служебные данные и команды управления объединяются в единый цифровой поток и передаются на спутник. Передающая станция содержит функциональные узлы: кодер мультиплексор, цифровой спутниковый модем, СВЧ приемо-передающий блок и передающую антенну. Дополнительно передающая станция может быть оборудована системой поддержки сетевого администрирования на базе компьютера с соответствующим программным обеспечением и оборудованием для контроля диагностики удаленных приемников. Спутниковое звено представляет собой коммерческий спутник-ретранслятор, находящийся на геостационарной орбите. Для спутникового вещания используются частотные диапазоны 3,7...4,2 ГГц и 10,7...12,75 ГГц. Третье звено включает приемную антенну с понижающим конвертером и цифровой спутниковый приемник звуковой частоты. Проиллюстрируем структуру системы цифрового спутникового радиовещания на примере аппаратуры компании Com Stream. Передающее оборудование - кодек-мультиплексор (Com Stream DAC700). Звуковой сигнал одного или двух каналов в аналоговом виде или в цифровом формате AES/EBU подается на входы кодера DAC700. В кодере аналоговые сигналы преобразуются в цифровые, затем кодируются с применением сжатия информации. В зависимости от режима работы и требуемого качества передачи возможен выбор различных степеней сжатия сигнала и скоростей работы мультиплексора: 56, 64, 112, 128, 192, 256 и 384 кбит/с. Зависимость качества сигнала от степени сжатия для различных режимов работы приведена в таблице 6.1. Сформированный поток данных передается на модулятор спутникового модема ComStream CM701.

Таблица 6.1 – Зависимость качества сигнала от степени сжатия и полосы

аудиочастот

Скорость транспортного потока, кбит/с	Режим работы	Полоса частот аудио, кГц	Качество звука	Рекомендуемая скорость передачи данных, бит/с
64	Моно	8,3	АМ	2400
64	Стерео	8,3	АМ	2400
96	Стерео	10	АМ	4800
96	Моно	20	АМ	4800
96	Стерео	10	CD	4800
96	Стерео	20	АМ	4800
256	Стерео	20	CD	9600
304	Моно	20	CD	9600

СМ701 - универсальный спутниковый модем, предназначенный для дуплексной передачи данных. Скорость потока данных на входе модема может составлять от 4,8 до 9800 кбит/с. Поток данных расщепляется кодером Грея на два потока, которые подаются на входы модулятора сигналов ФМ-4. На выходе модулятора формируется сигнал ФМ-4 на промежуточной частоте 70 или 140 МГц.

Цифровой приемник звуковой частоты - Com Stream ABR200.

Приемник содержит следующие функциональные узлы: демодулятор, микропроцессорное устройство управления, обеспечивающее конфигурирование, настройку и управление, приемник-декодер, имеющий выходы аналоговых сигналов звука и выходы звука в цифровом формате AES\EBU, порт управления внешними устройствами, порт для управления и диагностикой приемника. Приемник ABR 200 поддерживает все режимы скорости передачи звука и данных, указанные в таблице 6.1. Аналоговые сигналы подаются на пульт оператора эфира и на входы звукозаписывающей аппаратуры для записи тех программ, которые транслируются в записи. Низкоскоростной порт данных подключается к принтеру или к компьютеру для автоматизированного учета трафика, составления эфирных справок и т.п.

Сигнал цифрового радиовещания в системе ComStream передаётся на одной несущей и занимает полосу частот от 64 до 512 кГц при скорости цифрового потока 64 и 356 кбит/с.

На пути от модулятора до демодулятора сигнал неоднократно переносится из одного частотного диапазона в другой. Для переноса частот используются гетеродины. В результате значение частоты на входе демодулятора имеет некоторую неопределенность, вызванную нестабильностью гетеродинов. Эта частотная неопределенность может быть более 2 МГц. Поэтому в процессе настройки приемник обнаруживает сигнал на заданной частоте приближенно, а затем выделяет и анализирует идентификаторы сети и канала. Для распознавания сигнала в общий поток данных на каждой несущей кодером DAC 700 вводится специальный идентификатор. Если хотя бы один идентификатор отличается от заданного пользователем, то приемник выдает соответствующий сигнал ошибки и производит поиск выше и ниже обнаруженной частоты до тех пор, пока не будет обнаружен сигнал с нужными идентификаторами.

При использовании сигнала ФМ-4 используется две несущих, сдвинутых на 90⁰. Демодулятор приемника через равные промежутки времени сравнивает фазу сигнала с фазой двух восстановленных несущих. Чем меньше скорость потока, тем длиннее промежуток времени между двумя последовательными анализами фаз и тем больше вероятность, что дрейф частоты или флуктуации фазы гетеродина приведут к случайному изменению фазы сигнала на выходе конвертера на величину большую 45⁰, и сбою в принятии решений на выходе демодулятора.

В заключение следует заметить, что в настоящее время в странах СНГ прием сигналов цифрового радиовещания используется в сетевых станциях-ретрансляторах. Индивидуальный прием пока не актуален, прежде всего из-за большой стоимости приемника ARB200. Оставляют желать лучшего и условия приема сигналов со спутников INTELSAT 604 (60⁰ в.д). Для качественного приема программ в приемной установке необходимо иметь антенну диаметром не менее 2 м.

Список литературы

1. Мамаев Н.С., Мамаев Ю.Н., Теряев Б.Г. Цифровое телевидение/Под ред. Н.С.Мамаева. –М.: Горячая линия – Телеком, 2001. – 180 с.

2. Локшин Б.А. Цифровое вещание: от студии к телезрителю. –М.: Компания Сайрус системс, 2001.

3. Смирнов А.В. Основы цифрового телевидения: Учебное пособие. – М.: Горячая линия – Телеком, 2001.

4. Севальнев Л.А. Эфирное вещание цифровых телевизионных программ со сжатием данных//Tеле-Спутник. - 1998. - № 10. - С. 56-64.

5. Сети телевизионного и ОВЧ ЧМ вещания: Справочник/ М.Г. Локшин, А.А. Шур, А.В. Кокорев, Р.А. Краснощеков. - М.: Радио и связь, 1988.

6. Кантор Л.Я., Соколов А.В., Кривошеев М.И. и др. Принимаем непосредственно из космоса/ Под общ. ред. А.В. Гороховского и А.В. Соколова. - М.: ЗАО Журнал "Радио", 1998.

7. Гласман К. Стандарт цифрового наземного телевидения DVB-T//"625". - 1999. - № 9. – С. 72-85.

8. Цифровая обработка телевизионных и компьютерных изображений/А.В. Дворкович, Ю.Б. Зубарев, Г.Н. Мохин, В.П. Нечепаев, Н.П. Новинский; под ред. Ю.Б. Зубарева и В.П. Дворковича. - М.: Международный центр научной и технической информации, 1997.

9. Берсон В. Цифровой терминал для приема программы НТВ-Плюс//Tеле-Спутник: Справочник. - 1999. - С. 29-31.

10. Зелевич Е. Цифровое радиовещание становится реальным//Технологии и средства связи. - 1999. - № 5. - С.90-93.

11. Зелевич Е. Прогресс цифрового радиовещания в НЧ, СЧ, и УКВ диапазонах//Tехнологии и средства связи. - 1999. - № 2. - С. 18-22.

12. Высоцкий Г. Построение сетей цифрового спутникового радиовещания//Tеле-Спутник. - 1998. - № 9. - С.44-47.

Содержание

Введение

1 Цифровое телевизионное вещание в наземных радиоканалах

2 Преобразование звуковых сигналов в цифровую форму

3 Сжатие звукоданных

4 Формирование цифрового потока по стандарту MPEG-2

5 Перспективные стандарты семейства MPEG

6 Спутниковое телерадиовещание

Список литературы

Стр.

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РЕСПУБЛИКИ КАЗАХСТАН

А.З.Айтмагамбетов, Г.Г.Сабдыкеева

ЦИФРОВОЕ ТЕЛЕРАДИОВЕЩАНИЕ

Алматы 2003

УДК

Предназначено для студентов всех форм обучения специальностей 380540 – Радиосвязь, радиовещание и телевидение, 380340 – Радиотехника.

Введение

Рисунок 2.1 – Синхронизация в интерфейсе AES/EBU

Уровень

Ограничение

Число отсчетов на строку

Система

Каналы

Обозначение

Расположение динамиков

Моно

М

1/0

Моно + моно

1/1

Двухканальная стерео

2/0

Двухканальная стерео +

2/1

Двухканальная стерео +

2/2

Трехканальная стерео

3/0

Трехканальная стерео +

3/1

Трехканальная стерео +

2 окружающих

3/2

15 М

Таблица 5.4 – Требования к декодеру звука

масштабируемого профиля

ААС Основной

Профили

Типы объектов

ААС Основной

Рисунок 6.2 – Структурная схема приемной индивидуальной установки спутниковой СЦТВ

Моно

АМ

CD

Содержание

Введение