МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РЕСПУБЛИКИ КАЗАХСТАН

 Алматинский институт энергетики и связи

 

 

А.З.Айтмагамбетов, Г.Г.Сабдыкеева

 

ЦИФРОВОЕ ТЕЛЕРАДИОВЕЩАНИЕ

 Учебное пособие

 

 

                                                                                                          

Алматы 2003 

 

УДК

Цифровое телерадиовещание:

Учебное пособие/А.З.Айтмагамбетов, Г.Г. Сабдыкеева;

АИЭС. Алматы, 2003.- 80 с.

 

Учебное пособие содержит материалы по преобразованию, обработке, формированию, передаче и сжатию звуко- и видеоданных в системах цифрового телерадиовещания.

          Рассмотрены современные цифровые стандарты, вопросы цифрового спутникового  телерадиовещания.

          Учебное пособие составлено в соответствии с новым образовательным стандартом.

          Предназначено для студентов всех форм обучения специальностей 380540 – Радиосвязь, радиовещание и телевидение, 380340 – Радиотехника.

Табл. 11;  Ил. 34; Библиогр.- 12 назв. 

 

          Рецензенты: канд.тех.наук, доц. В.Л.Гончаров, канд.тех.наук, Ахметов Ж.К.

  

         Печатается по плану издания Министерства образования и науки Республики Казахстан на 2003 г. 

 

          ISBN 9965-494-88-6

 

 

ã     Алматинский институт энергетики и связи, 2003 г.

 

 

Введение 

          В настоящее время можно выделить три направления  развития систем телевизионного вещания (ТВ):

первое - интенсивный рост числа коллективных и индивиду­альных установок спутникового телевизионного вещания;

второе - внедрение широкополосных интерактивных сетей кабельного телевидения в полосе 5-862 МГц, способных предоста­вить телезрителю до 100 и более ТВ программ;

третье - внедрение и развитие наземного ТВ при реализа­ции систем MMDS, LMDS, MVDS (многоканальные микроволновые, локальные многоточечные системы распределения).

          В каждом из этих трех направлений наметилась ус­тойчивая тенденция к переходу на цифровые методы передачи. Успешно внедряются коллективные приемные установки, объеди­няющие все указанные выше виды каналов.

На базовых (головных) станциях таких установок имеются антенны для приема сигналов со спутников и от наземных ретрансляторов, головная станция через магистральную распре­делительную кабельную сеть доводит различные виды программ к пользователям. Подобные универсальные сети имеют широкое распространение в странах Западной Европы, Канаде, США, Япо­нии и др. В нашей стране создаются кабельные сети с трансляцией до 50 телевизионных программ, позволяющие предоставить возможность заинтересованным абонентам обратный канал (так называемые системы интерактивного телевидения). При наличии обратных каналов по системе кабельного телевидения абоненту может быть предоставлен ряд дополнительных услуг: подключе­ние к телефонной сети общего пользования и сетям передачи данных, доступ в Интернет, возможность проводить расчеты через банк, не выходя из дома делать покупки и многое др. Наряду с внедрением многоканальных, многоточечных систем распреде­ления MMDS, LMDS, MVDS в наземном телевидении получают развитие принципиально новые системы DVB-T - цифровые сис­темы наземного телевидения.

Переход к цифровым методам передачи телевизионных сиг­налов по спутниковым каналам можно считать свершившимся фактом.

Достижения в области микроэлектроники позволили крупным фирмам добиться значительного улучшения пользовательских свойств оборудования для непосредственного спутникового теле­радиовещания и 2-3-кратного снижения цены индивидуальной ус­тановки.

 Таким образом, прогресс в сжатии спектра телевизионных сигналов при устранении в них избыточности (например, стандарт MPEG и др.) и новейшие достижения в области микроэлектроники позволили сделать буквально революционный скачок в развитии телевизионных технологий.

             На повестку дня стал вопрос о технической стандартизации и унификации узлов и блоков студийного и приемо-передающего обо­рудования для систем цифрового телевизионного вещания. Группой экспертов ряда стран Европы,  США, Японии был разработан стандарт цифрового оборудования (DVB), применимый в спутниковых, кабельных и наземных системах телевизионного вещания. В 1994 г. стандарт был принят большин­ством стран и для спутниковых цифровых каналов на основе ис­пользования сигналов с квадратурной фазовой модуляцией (QPSK); для кабельных каналов на основе использования сигналов многопозиционной амплитудно-фазовой модуляции: 16-КАМ, 64-КАМ, 256-КАМ. Учитывая неоднородность каналов наземного телевидения из-за переотражений, наличия большого уровня помех и влияния осадков для таких каналов был принят более сложный метод модуляции - COFDM-кодированная передача на многих ортогональных несущих.

          Рассмотрим основные преимущества цифровой технологии в телевидении перед аналоговой.

          Цифровое телерадиовещание представляет собой инфор­мационную технологию XXI века, так как позволяет:

- перейти от множества телевизионных стандартов (на сего­дня в эксплуатации имеется более 40, включая NTSC, PAL, SECAM) к единому цифровому;

- унифицировать передающую студийную и приемную аппа­ратуру;

- в абонентских терминалах (телевизорах) плавно перейти от приема аналоговых к цифровым, путем внедрения на первом эта­пе специальных приставок-декодеров, преобразующих цифровые сигналы в аналоговые;

- обеспечить передачу изображений повышенного каче­ства, а также телевидения высокой четкости, многопрограммного и стереоскопического телевидения;

- реализовать интерактивную связь.

Выдвинутая Россией и поддержанная 11-й Исследователь­ской комиссией Международного союза электросвязи глобальная модель единой системы телерадиовещания нашла одобрение практически всех стран. Предполагает­ся, что глобальная модель цифрового телевизионного вещания будет иметь гибкую цифровую архитектуру, позволяющую приспособиться не только к различным телевизионным стандартам, но и к системам телевидения высокой четкости и цифрового многопро­граммного телевизионного вещания.

 

1 Цифровое телевизионное вещание в наземных ра­диоканалах

 

         Переход к цифровым методам передачи обычно, связывают с резким улучшением качественных показателей видеоизображе­ния. Это действительно справедливо для спутниковых и кабель­ных каналов, где аддитивные и мультипликативные помехи (нало­женные от других источников), практически отсутствуют.

          В наземных каналах телерадиовещания, особенно в крупных городах с многоэтажной застройкой мультипликативные помехи иногда резко ухудшают качество изображений, а в ряде случаев могут быть причиной образования, так называемых "мертвых" зон, где качественный прием передач местного телецентра, практиче­ски невозможен. Эти помехи особенно сильно мешают при приеме сигналов на слабонаправленные антенны, т.е. в тех случаях, когда прием ведется на переносные или подвижные телевизионные и радиовещательные терминалы.

При разработке стандарта на цифровое телевизионное ве­щание в наземных сетях высококвалифициро­ванными специалистами ряда стран были проведены очень серьезные исследова­ния по уменьшению влияния мультипликативных помех.

Системы многопрограммного цифрового ТВ вещания встраиваются в существующие частотные планы распределения телевизионных каналов, предусматривающие полосу пропускания 8 МГц для наземного и кабельного телевидения. В спутниковых ТВ системах для непосредственного приема со спутников выделена полоса 27 МГц, а для фиксированной спутниковой связи (ФСС) разрешены системы с полосой пропускания 30, 33, 36, 40, 46, 54 и 72 МГц. Российские системы на спутниках "Радуга", "Экспресс", "Горизонт", как правило, работают в полосе 36 МГц.

При выборе в системах цифрового телерадиовещания оди­наковых или кратных полос пропускания для разных систем упро­щается обмен телевизионными программами между наземными и спутниковыми вещательными службами. В самом деле при цифро­вом потоке ТВ программы 9 Мбит/с, по спутниковым системам можно пропустить 3-4 программы, по наземным - одну программу, а по кабельному при перекодировании в 16 КАМ и 64-КАМ - четы­ре-шесть программ высокого качества.

Результатом этих усилий явился в 1996 г. стандарт для каналов наземного телевидения ETS 300744 - Digital Broadcasting Systems for television, sound and data services. Framing structure, channal coding and modulation for digital terrestrial television, 1996 [2] или сокращенно стандарт DVB-T.

В этом стандарте предложен новый метод модуляции COFDM (Coded Orthogonal Frequency Division Multiplexing), который можно перевести на русский язык как метод многоканальной ком­бинированной амплитудно-фазовой модуляции на многих ортого­нальных несущих с применением помехоустойчивого кодирования.

          Рассмотрим кратко основные особенности метода комбини­рованной амплитудно-фазовой модуляции на ортогональных несущих.

Применение комбинированной амплитудно-фазовой моду­ляции (16-КАМ, 64-КАМ, 256-КАМ) обусловлено необходимостью увеличения пропускной способности радиоканала по соотношению 2n, где цифра 2 означает дискретный канал для двоичного сигнала (посылка, пауза), a n - число двоичных каналов в системе связи. В системе 4-ФМ могут передаваться две независимых двоичных последовательности (22), в системе 8-ФМ - три (23) в системе 16-КАМ - четыре (24) и т.д. Использование в системах с числом позиций более восьми комбинированной амплитудно-фазовой мо­дуляции объясняется большей помехоустойчивостью этих сигна­лов по сравнению с многопозиционной фазовой модуляцией (16-ФМ, 64-ФМ и т.д.).      

Таким образом, с увеличением n в соотношении 2n количе­ство дискретных потоков, при одной и той же скорости передачи в заданной полосе канала, возрастает пропорционально числу n, где n - 0, 2, 3,..., 8. Число n = 8 соответствует системе КАМ-256, которая пока еще не нашла широкого практического применения. Ортогональность в предложенном методе модуляции позво­ляет исключить перекрытие спектров двух соседних несущих и тем самым свести к минимуму влияние двух соседних каналов. Усло­вие ортогональности выполняется, если частотный разнос между несущими fк и fK+1 будет равен величине обратной длительности символа рабочего интервала Ти, т.е. Df = fк+1 – fк = 1/Ти.

Математически ортогональность определяется как интеграл от произведения спектров двух модулированных несущих за время Ти, который равняется нулю.

Техническая реализация вышеописанного метода модуля­ции выражается в том, что в стандарте DVB-T предусмотрены две модификации, обозначаемые как 2К и 8К.

В модификации 2К используются 1705 несущих, а в 8К - 6817 несущих. При этом мультиплексированный суммарный поток видео-, аудиосигналов и данных делится на 1705 или 6817 парал­лельных потоков, в каждом из которых длительность символа уве­личивается либо в 1705, либо в 6817 раз. Это позволяет часть длительности символа сообщения выделить на защитный интер­вал от эхосигналов. В обеих модификациях относительная дли­тельность защитного интервала Dt/Ти может принимать значения 1/4, 1/8, 1/16 и 1/32, т.е. защитный интервал может составлять от 3 до 25% длины рабочего интервала Ти. Выбор длины защитного интервала определяется не только рельефом местности и харак­тером застройки на обслуживаемой телецентром территории, но и удалением соседних передатчиков.

Физически очевидно, что чем длиннее рабочий интервал, тем больше защитный интервал и система в целом эффективнее защищена от эхо-сигналов.

Вместе с увеличением числа несущих усложняется декодер, требующий для системы 8К применения процессора с двоичной ем­костью 213 = 8192, а это влечет за собой и повышение стоимости або­нентского телевизионного приемника. Поэтому модификация прием­ника 2К с процессором в декодере   211 = 2048 может оказаться дос­тупной значительно большим слоям населения в том числе и со средним достатком. В таблице 1.1 приведены основные параметры системы с модуляцией COFDM [4].

Двум модификациям 8К и 2К соответствуют разные величи­ны частотных разносов несущих в радиочастотном спектре COFDM; соответственно 1116 и 4464 Гц. Рабочая ширина полосы спектра радиоканала в обоих случаях будет одинаковой и равной 7,61 МГц. В полосе, отведенной для аналогового телевизионного радиоканала 8 МГц, разнос между соседними каналами системы цифрового телевидения составляет 0,39 МГц.

  

Таблица 1.1 – Основные параметры системы с модуляцией COFDM

Модификация

Длительность рабочего интервала, мкс

896

224

Число несущих в спектре группового сигнала

6817

1705

Частотный разнос несущих, Гц

1116

4464

Ширина радиоспектра группового сигнала, МГц

7,61

7,61

Относительная длительность защитного интервала

1/4, 1/8, 1/16, 1/32

1/4, 1/8, 1/16, 1/32

Длительность защитного интервала Dt, мкс

224, 112, 56, 28

56, 28, 14, 7

Длительность символа сообщения, мкс

1120, 1008, 952, 924

280, 252, 238, 231

Территориальный разнос между передатчиками в одночастотной сети, км

67; 34; 17; 8,4

17; 8,4; 4,2; 2

 

Таким образом, общая ширина спектра радиоканала цифро­вого телевидения в наземных системах телевещания полностью соответствует ширине полосы аналогового телевидения в стан­дарте с разложением в 625 строк (SECAM, PAL).

          В последней строке таблицы 1.1 приведены данные территори­ального разноса телевизионных передатчиков в системах назем­ного цифрового ТВ 8К и 2К, взятые из [4] и рассчитанные для одночастотной сети вещания. Однако эти данные могут лишь под­твердить вывод о том, что система 8К с большим в 4 раза числом несущих будет эффективнее защищена по сравнению с системой 2К от мультипликативных помех, создаваемых наземными цифро­выми передатчиками друг другу.

Реальные сети наземного телевизионного вещания особен­но в крупных городах и густонаселенных регионах, как правило, многочастотные и поэтому расчет электромагнитной совместимо­сти (ЭМС) передатчиков в такой сети является сложной многокри­териальной задачей. В настоящее время существует методика расчета передающих сетей телерадиовещания, в которых приме­няются аналоговые методы модуляции [1].

Для сетей с цифровыми методами передачи пока подобной методики не существует. По-видимому, в ближайшие 5-10 лет в нашей стране будут работать как передатчики аналогового, так и цифрового телерадиове­щания. Можно высказать лишь общие соображения, по вопросу электромагнитной совместимости этих двух систем. При цифровом телевидении значительно снижаются мощности передатчиков, а с учетом равномерности спектра цифровых сигналов с модуляцией CQFDM, помехи от них аналоговым сигналам будут незначитель­ны. В то же время цифровые сигналы обладают высокой устойчивостью к помехам, создаваемым аналоговыми системами. Поэто­му условия электромагнитной совместимости этих двух видов сис­тем телевещания выполнить значительно легче, чем при координации сетей с аналоговыми методами передачи.

При выборе сложных видов модуляции 4-ФМ, 8-ФМ, 16-КАМ, 64-КАМ каждому положению вектора несущей I (синфазному) или Q (квадратурному) будет соответствовать заданной длины кодовая комбинация. В случае модуляции 4-ФМ кодовая комбинация со­стоит из двух бит, например 00, 01, 10, 11, при 16-КАМ - из четы­рех бит, а при 64-КАМ - из 6 бит. Эти комбинации принято назы­вать манипуляционным кодом. Выбор манипуляционного кода дик­туется, с одной стороны, необходимостью достижения максимальной помехоустойчивости соответствующих кодовых комбинаций и, с другой, возможно более простой технической реа­лизацией модема.

Предложенный стандарт [2] обеспечивает при реализации модемов совместимость модемов COFDM, выпускаемых различны­ми фирмами. При этом отдельные функциональные узлы оборудо­вания наземных, спутниковых и кабельных цифровых систем ТВ вещания могут быть унифицированы, что позволит снизить стои­мость и повысить надежность аппаратуры цифрового телевидения.

Для устойчивой работы приемного устройства в условиях помех и передачи сложных мультиплексированных потоков преду­смотрены следующие синхронизирующие и управляющие сигналы:

- для фазовой подстройки несущих частот демодулятора;

- тактовой синхронизации демодулятора;

          - для оценки состояния радиоканала;

          - для управления демодулятором в случае изменения режи­мов модуляции 8К или 2К.

На системы синхронизации и управления приемным устрой­ством выделяется в модификации 8К - 769, а в 2К - 193 опорных несущих частоты, которые по сравнению с информационными несущими передаются с повышенной на 2,5 дБ мощностью. Эти фик­сированные несущие модулируются опорной псевдослучайной по­следовательностью.

Увеличение мощности достигается за счет перехода на бинарную фазовую манипуляцию (2-ФМ). Из общего числа 769 (8К) и 193 (2К) фиксированных несущих на автоматическую подстройку фазы опорного сигнала в демоду­ляторе и тактовую синхронизацию выделено 177 и 45 несущих. Сигналы управления демодулятором в режиме 8К передаются на 68 несущих, а в режиме 2К - на 17 несущих.

Оценка состояния канала осуществляется путем сканирова­ния сквозной амплитудно-частотной характеристики радиотракта. С этой целью используется 524 (режим 8К) и 131 (режим 2К) рас­средоточенных опорных несущих. Рассредоточенность несущих заключается в том, что частоты их смещаются при переходе от одного символа кадра к другому символу с заданным периодом.

Помехоустойчивость сжатого цифрового ТВ сигнала за счет удаления информационной избыточности заметно ниже даже по сравнению с аналоговым сигналом. Однако в настоящее время существуют весьма эффективные методы помехоустойчивого ко­дирования, которые и применяются достаточно успешно в систе­мах цифрового телерадиовещания.

В рассматриваемых системах используется внутренняя ко­довая защита модема с помощью сверточных кодов и внешняя защита с помощью кода Рида-Соломона (PC).

Декодер сверточного кода производит первый уровень защи­ты, уменьшая вероятность ошибки с 10-1...10-2 во входном потоке до значения не хуже 2.10-4 на выходе. При внешнем кодировании каждый пакет длиной 188 байт общего транспортного потока пре­образуется в новый пакет длиной 204 байта, что позволяет после такой процедуры исправлять восемь искаженных помехами байт. В литературе этот код называют укороченным кодом Рида-Соломона и обозначают PC (204, 188, 8). После декодирования, на вход декодера подается цифровой поток с коэффициентом ошибок не хуже 2.10-4, вероятность ошибки снижается до 10-10…10-11.

Для  устранения  пакетных ошибок,   превышающих 8 байт, применяется сверточное перемежение данных. Перемежение или перестановка двух соседних байт составляет 12 байт, т.е. в полто­ра раза превышает корректирующую способность кода по одиноч­ным ошибкам, тем самым, позволяет обнаруживать и исправлять групповые ошибки, не превышающие 8 байт. Более подробное изложение принципов помехоустойчивого кодирования с помощью кода Рида-Соломона и сверточных кодов можно найти в [6].

Поясним основные этапы обработки сжатых цифровых телевизионных сигналов и цифрового потока данных в передающем и приемном устройствах наземного ТВ в модификации стандарта DVB-T. На рисунке 1.1 представлена структурная схемы преобразования данных и сигналов в передатчике DVB-T [7].

        Аналоговые сигналы видео- и аудиоканалов поступают на вход своих кодеров (блоки 1-3), где преобразуются раздельно в  сжатые цифровые сигналы стандарта MPEG-2. Далее три цифровых потока (видео, аудио и данных) поступают на блоки формирования программного потока MPEG-2 (4) и мультиплексора (5). К муль­типлексору подводятся опорные и синхронизирующие сигналы, позволяющие разделить на приемной стороне цифровые потоки видео-, аудиосигналов и данных, а также выделить сигналы, пере­даваемые для оценки состояния радиоканала и об используемых режимах модуляции.

В мультиплексоре формируется транспортный поток путем разбиения программного потока на отдельные пакеты и ввода в каждый из них синхронизирующих сигналов. После мультиплексо­ра в схему может быть введен блок расщепления потока данных. Расщепление транспортного потока, в случае необходимо­сти, позволяет сформировать два потока с разным уровнем при­оритета. Поток, обозначенный пунктиром, имеет низший приоритет (несколько меньшую помехоустойчивость), но вместе с тем обес­печивает повышенную скорость передачи данных. Поток высшего приоритета имеет повышенную степень кодовой защиты от помех. Таким способом реализуется возможность передачи телевизион­ных программ в двух вариантах. Программа низшего приоритета передается с повышенной четкостью (при хорошем прохождении сигналов качество изображения будет высоким). При плохом сигнале передается программа пониженной четкости, но с высшим приоритетом защиты, что позволяет обеспечить равноценное ка­чество изображения. В случае изменения условий приема пользо­ватель может переключать приемник с одного канала на другой, выбирая лучший.

 

1-3 - кодеры МРЕС-2 для сигналов видео, аудио и данных; 4 - формиро­ватель программного потока MPEG-2; 5 - мультиплексор; 6 - блок расще­пления потока данных, используемый при иерархической передаче; 7 - рандомизатор (скремблер); 8, 9 - внешние кодер и перемежители; 10, 11 - внутренние кодер и перемежители; 12 - формирователь модуля­ционных символов; 13 - модулятор; 14 - формирователь защитных интер­валов;

15 - преобразователь частоты вверх; 16 - блок опорных сигналов

Рисунок 1.1 - Преобразование данных и ТВ-сигналов в передатчике DVB

 

В блоке (7) производится рандомизация (скремблирование) цифрового потока, что позволяет улучшить условия электромаг­нитной совместимости с другими системами. В блоке внешнего кодирования (8) в соответствии с кодом Рида-Соломона в каждый пакет длиной 188 байтов вводится 16 проверочных байтов. При декодировании такого сигнала ис­правляется до 8 байтов из пакета 204 байта. Перемежение (перемешивание или иногда используют тер­мин интерливинг - блок 9) производят изменением мест размеще­ния байтов в защищенном от ошибок транспортном пакете. При этом в синхронизирующие байты перемежение не вводится, что позволяет на приемной стороне произвести обратное перемеже­ние. Операция перемежения позволяет длинные пакетные ошибки разделить на отдельные части, распределив их по разным кодо­вым словам кода PC, которые далее обнаруживаются и исправля­ются схемой защиты от ошибок.

Внутреннее кодирование (блок 10) в системе DVB-T осущест­вляется с помощью сверточных кодов. При сверточном кодировании информация разделяется на блоки, содержащие несколько битов, к которым добавляются проверочные биты, образуя новые блоки на­зываемые кадрами. В сверточном коде 1/2 на каждый информацион­ный сигнал введен один проверочный символ, а в коде 7/8 на семь информационных символов вводится один проверочный. Естествен­но, что код 1/2 имеет более высокую степень защиты от ошибок, чем код 7/8, но при этом на выходе кодера скорость цифрового потока увеличивается вдвое, а в коде 7/8 всего лишь на 11 ,5%. В системе DVB-T перед формированием модуляционных символов производится внутреннее перемежение (блок 11) - про­цесс перемешивания данных, которые модулируют разные несу­щие. Формирование модуляционных символов и модуляция произ­водятся в блоках (12, 13). Несмотря на то, что система DVB-T тео­ретически позволяет использовать метод модуляции из ряда QPSK (4-ФМ), 8-ФМ, 16-КАМ, 32-КАМ, 64-КАМ, но в реальном оборудова­нии (например, в аппаратуре фирмы Юник-Канада) применен ме­тод модуляции 4-ФМ. При этом упрощается переход от спутниковых каналов, использующих сигналы с модуляцией 4-ФМ, к наземным и достигается высокое качество ТВ сигнала при пороговом отноше­нии сигнал-помеха на входе приемника в пределах 5.. .6 дБ.

1 - преобразователь частоты вниз; 2- демодулятор COFDM; 3, 4 - обрат­ные внутренние перемежители и декодер; 5-6 - обратные внешние пере­межители и декодер; 7 - дескремблер;

8 - демультиплексор; 9-11 - деко­деры сигналов видео, звука и данных;

12 - блок синхронизации и оценки характеристик канала и надежности данных

Рисунок 1.2 - Преобразование сигналов и данных в приемнике DVB

 

В блоке 14 формируется защитный интервал передаваемого цифрового сигнала и далее (блок 15) преобразование на частоту радиосигнала. Структурная схема преобразования сигналов и данных в при­емнике системы DVB-T приведена на рисунке 1.2. В соответствии со схемой очевидно, что в приемнике осуществляются обратные пре­образования цифровых сигналов, а именно после преобразования частоты принятого радиосигнала на промежуточную (блок 1) - де­модуляция (блок 2) - внешнее и внутреннее обратные перемежения и декодирование (блоки 3-6), дерандомизация (блок 7), демультип­лексирование (8) и наконец в декодерах видео, звука и данных (блоки 9-11) выделяются аналоговые видео-, аудиосигналы и данные.

В любой системе наземного ТВ, в том числе и DVB-T, очень важным элементом системы являются антенные устройства.

        Рекомендованный стандартом DVB-T [2] для наземных ка­налов телерадиовещания метод модуляции COFDM значительно сложнее, чем квадратурно-фазовая модуляция (4-ФМ), применяе­мая в спутниковых каналах. Однако при этом не исключается воз­можность использования в наземном цифровом телевидении мо­дуляции 4-ФМ (QPSK).

В заключение отметим, что в США для наземного вещания выбран стандарт ATSC (Advanced Television Systems), отличающийся от DVB-T методом модуляции.

        В ТВ системах, использующих стандарт ATSC, скомпрессированный цифровой поток видео- и аудиосигналов модулирует по амплитуде несущую, образуя 8- или 16-уровневые радиосигналы с подавленной  нижней  боковой  полосой  (8-VSB  или   16-VSB - Vestigal Side Band). В кабельных и радиорелейных линиях связи рекомендуется использовать сигналы 16-VSB, а в наземном вещании 8-VSB. К настоящему времени  в Европе пионером внедрения стандарта DVB-T является Англия, а на других континентах Австралия и Япония. Причиной такого медленного внедрения цифрового телевидения по системе DVB-T является относительная сложность и дороговизна абонентского терминала - цифрового телевизора пользователя.

         Австралия в течение почти двух лет  прово­дила всесторонние испытания цифрового телевидения в стандар­те DVB-T, в результате которых остановила свой выбор на этом стандарте. Решающим критерием для такого выбора была дока­занная на практике возможность приема сигналов стандартного телевидения (625 строк) на комнатную антенну или в движении. Япония также остановила свой выбор на стандарте DVB-T, несколько изменив его для условий своей страны.

 

2 Преобразование звуковых сигналов в цифровую форму

 

2.1 Двухканальный и многоканальный звуковой сигнал

  

          Способность человеческого слуха воспринимать пространственное положение звуковых объектов — бинауральный эффект — долгое время не использовалась в телевизионном вещании, да и сейчас скорее является исключением, чем правилом. Лишь немногие стра­ны ведут эфирное ТВ вещание со стереозвуковым сопровождением. Пионерами здесь оказались звуковое вещание и кинематограф. С появлением в УКВ диапазоне стереовещания с частотной модуляцией (ЧМ) и шумоподавлением звуковое вещание ощутимо приблизилось к пределу качества аналоговых систем. В кинематографе внедрение систе­мы шумоподавления Dolby позволило сократить ширину оптической дорожки для запи­си звука на киноленте и разместить вместо одной дорожки две — появилась возможность записи двухканального стереозвука. Однако при наличии двух динамиков — правого и левого — стереоэффект ощу­щался только в небольшой центральной части зала, зрители же, сидящие ближе к одному из динамиков, слышали звук, преимущественно из этого динамика. Такой перекос затруднял восприятие диалогов, и было решено установить за  экраном центральный динамик, на который подавался смикшированный сигнал, обеспечивавший «центральное» воспри­ятие диалогов для всей аудитории.

Дальнейшие исследования показали, что два микрофона с кардиоидной диаграммой направленности, размещен­ные под углом 90°, дают значительно больше информации, чем необходимо для двухканального звука, и эта информация может быть использована путем размещения одного или двух динами­ков позади слушателей. Еще один ди­намик размещался впереди и использовался для воспроизведения сверхнизких частот в полосе до 120 Гц (так называемый сабвуфер). Результирующий многоканальный сиг­нал обозначили 5.1 (5 полных каналов — центральный С, правый R и левый L перед­ние, правый Rs и левый Ls задние, низкочастотный LFE с информационной емкостью примерно 0,1 полного). Иногда еще используется форма записи 3/2.

Для улучшения разделения каналов была разработана система Dolby Pro Logic, ис­пользовавшая для этой цели некоторые тонкие эффекты. В частности, учитывались особенности человеческого слуха, связанные с ухудшенным различением направления на два источника примерно равной интенсивности и с преобладанием направления на более мощный источник при неравной интенсивности. Удалось добиться разделения между каналами до 35 дБ.

          При переходе к цифровому звуку все достижения в области многоканального звука сохраняются и получают дальнейшее развитие. Благодаря гибкости цифрового формати­рования легко обеспечить иерархическую передачу, когда из одного и того же цифрового сигнала, содержащего все компоненты многоканального звука, декодеры разной сложно­сти выделяют либо двухканальный стереосигнал, либо двухканальный сигнал Dolby Pro Logic с последующим разделением на матрице, либо полный многоканальный сигнал.

В применении к телевизионному вещанию, в отличие от кинематографа с его боль­шим экраном, существует противоречие объемного звукового образа с небольшим ТВ изображением. Надо полагать, с появлением ТВ приемников с большим размером экра­на и распространением  домашних кинотеатров» это противоречие будет постепенно сглаживаться.

 

2.2 Цифровой сигнал AES/EBU

 

Отличия в аналого-цифровом преобразовании звуковых сигналов и видеосигналов связа­ны с особенностями человеческого слуха. Если видеосигнал занимает полосу частот до 4...6 МГц, то ухо воспринимает звуки в диапазоне 20 Гц...20 кГц, и частота дискретиза­ции может быть значительно ниже, чем для видеосигнала. Практически применяются три номинала частоты: 32 кГц для бытовой аппаратуры с полосой воспроизводимых частот 30 Гц ... 15 кГц, 44,1 кГц для компакт-дисков (CD) и 48 кГц для профессиональ­ной звуковой аппаратуры высокого качества с полосой 20 кГц и более. Значение 44,1 кГц сложилось исторически, когда для записи CD мастер-копий использовались видеомагни­тофоны и требовалось, чтобы на строке укладывалось целое число отсчетов. Оказалось, что и для стандарта разложения 525 строк, и для стандарта 625 строк частота 44,1 кГц обеспечивает размещение ровно трех звуковых отсчетов на строке.

Особенностями слуха являются также огромный динамический диапазон слухового восприятия — более 100 дБ — и чувствительность к самым ничтожным нелинейным искажениям. Для обеспечения высококачественного (качества CD) воспроизведения разрядность квантования должна быть не менее 16 бит/отсчет, для профессиональной аппаратуры общепринятыми являются значения 18, 20 и даже 24 бита.

          В 1992 г. Американское общество звукоинженеров (AES) стандартизовало двухканальный звуковой цифровой интерфейс, построенный на основе этих предпосылок (вер­сия AES3). Позднее этот стандарт был принят Европейским союзом радиовещания ЕСР (англоязычная аббревиатура EBU) и под названием AES/EBU получил статус между­народного [2]. Он предполагает передачу с мультиплексированием по времени двух потоков звукоданных, соответствующих правому и левому каналам одного стереосигнала или двум независимым моноканалам. Один кадр данных содержит 2 субкадра, в каждом из которых передаются звукоданные одного канала: 20 битов одного отсчета, 4 бита данных для увеличения разрядности квантования, 4 бита вспомогательных не­звуковых данных и 4-битовая преамбула для синхронизации. Скорость потока состав­ляет 2-32-48-103 =3,072 Мбит/с при частоте дискретизации 48 кГц и 2,048 Мбит/с при частоте 32 кГц. Кадры группируются в блоки по 192 кадра. Выделение блоков необходимо для организации сравнительно медленных потоков вспомогательных дан­ных (по 1 биту в субкадре).

Устойчивое выделение тактовой частоты на приеме обеспечивается благодаря использо­ванию бифазного канального кода, в котором каждая граница такта отмечается переходом и, кроме того, логическая «1» отмечается дополнительным переходом. Такая схема практи­чески исключает постоянную составляющую и допускает инверсию сигнала данных. После кодирования
 
 

скорость данных в канале удваивается и достигает 6,144 Мбит/с.

Рисунок 2.1 – Синхронизация в интерфейсе AES/EBU

 

Синхронизация осуществляется посредством трех кодовых комбинаций X, Y, Z, пе­редаваемых соответственно в начале отсчета левого канала, в начале отсчета правого канала и в начале блока. Эти преамбулы нарушают правила бифазного кода и потому легко обнаруживаются на приеме (рисунок 2.1). Электрические характеристики интерфейса частично совместимы с RS422. Дифференциальное на­пряжение на передаче должно быть в пределах 2... 7 В, фронты импульсов от 5 до 30 нс, фазовое дрожание не должно превышать 4 нс (0,025 тактового интервала). В профессиональных применениях всегда используется балансная линия в виде витой пары с трехконтактными соеди­нителями XLR, использовавшимися еще в технике аналогового звука. Передача по специальному 110-омному кабелю возможна на 500 м без коррекции и до 1000 м с коррекцией, по обычному кабелю — на 70 м без коррекции и до 250 м с коррекцией. Раскрытие глазковой диаграммы на приеме должно быть не менее 0,25 тактового пери­ода по ширине и 0,2 В по высоте. Недопустима эксплуатация интерфейса без оконеч­ной нагрузки 100 Ом из-за значительного влияния отраженной волны. Не очень высокая экранирующая способность витой пары ставит под сомнение воз­можность передачи сигнала AES/EBU на большие расстояния как из-за влияния дру­гих сигналов, так и из-за помех от сигнала AES/EBU чувствительным радиоустрой­ствам в диапазоне нескольких мегагерц. Недавно стандартизован коаксиальный вариант интерфейса AES/EBU. Он допускает передачу данных по высококачественному коак­сиальному кабелю на расстояние до 1 км, при этом выходное напряжение передатчика должно составлять 1 ± 0,1 В на нагрузке 75 Ом. Характеристики, схожие с аналоговым видеосигналом (размах 1 В, полоса частот около 6 МГц), позволяют пропускать этот сигнал по имеющимся аналоговым студийным видеотрактам с их корректирующими усилителями и коммутаторами.

          Некоторыми фирмами-производителями оборудования предложены собственные форматы цифрового звука, но они не приобрели статус международного стандарта и используются в основном в бытовой аппаратуре самих разработчиков. Наиболее извес­тен формат SPDIF (Sony/Philips Digital Interface), разработанный для CD-плееров и использующий те же форматы звукоданных, но несколько иные электрические характе­ристики и другой формат незвуковых данных.

В документе IEC958 описано использование для бытовой аппаратуры небалансного звукового интерфейса с RCA соединителями, подключенными к обычному коаксиально­му звуковому кабелю. Указывается, что можно перекрыть расстояние в десятки метров.

Серьезной и не до конца решенной проблемой цифрового звука является установка и поддержание диаграммы уровней при аналого-цифровом преобразовании. Поддержи­вать стабильный и одинаковый по всем каналам уровень звука необходимо, чтобы слу­шателю не приходилось постоянно регулировать громкость своего ТВ приемника при просмотре передачи или переключении с канала на канал. В аналоговом вещании это делается подачей тонального измерительного сигнала определенного уровня (чаще все­го + 4 дБu = 1,23 Вэфф в профессиональном оборудовании и минус 10 дБu в бытовых устройствах, где дБu — децибелы относительно калибровочного напряжения 0,775 В, обеспечивающего мощность 1 мВт на номинальном сопротивлении 600 Ом) и последу­ющей регулировкой уровня реального звукового сигнала таким образом, чтобы его «ква­зипиковое» значение равнялось значению напряжения измерительного сигнала на том же измерителе уровня. Под  «квазипиковым» понимают пиковое значение с постоянной времени усреднения 5 мс, которое превышается «весьма редко». Если учесть, что «ква­зипиковое» значение сложного звукового сигнала на 10...14 дБ выше пикового значе­ния синусоидального сигнала, это означает, что реальная субъективная громкость, ко­торая определяется не пиковым, а средним уровнем сигнала, измеренным с постоянной времени 200 мс, на те же 10…14 дБ ниже громкости измерительного тона.

В цифровом вещании оператор лишен возможности подать звуковой сигнал на изме­ритель. Затруднены и оперативные регулировки его уровня, особенно для сигнала, встроенного в SDI. Единственной гарантией одинаковой громкости звука во всех кана­лах могла бы быть тождественность характеристик квантования (она определяется раз­рядностью квантования) и одинаковый запас по перегрузке, т.е. разница в децибелах между полным размером шкалы квантования и напряжением, соответствующим сред­нему уровню громкости (так называемым уровнем выравнивания). Запас нельзя делать слишком малым, иначе в моменты перегрузки наступит клипирование — обрезание пиков звукового сигнала, сопровождающееся нелинейными искажениями. Не следует и завышать запас, это связано с уменьшением динамического диапазона и ухудшением отношения сигнал-шум квантования.

К сожалению, относительно запаса по перегрузке у вещателей нет единого мнения, отсутствуют и общепризнанные стандарты на этот параметр. ЕСР в Рекомендации R.64-1992 установил запас равным 12 дБ для 16-битового квантования, позднее для 20-битового была рекомендована величина 18 дБ (R.68-1995). Однако в Германии пользу­ются значением 15 дБ, во Франции - 22 дБ. SMPTE в Рекомендации RP155 рекомендует запас в 20 дБ даже не над средним, а над квазипиковым уровнем звукового сигнала [2]. Компания NTL предлагает вернуться к значению 12 дБ и установить для уровня выравнивания определенные значения кодов, напрямую связанных

 с кодами макси­мального уровня кодирования [2]. Пока же вещателям при ретрансляции программ от разных источников приходится вводить в каждом звуковом канале цифровые или даже аналоговые (с ЦАП и АЦП) устройства для начальной установки уровня сигнала.

 

2.3 Ввод звукоданных AES/EBU в сигнал последовательного стыка SDI

 

При описании интерфейса SDI уже упоминалось, что в промежутке между сигналами EAV и SAV могут передаваться дополнительные данные. Стандарт SMPTE-272M [2] описывает формат размещения звукоданных, расширенных данных и командной ин­формации для встраивания (внедрения, имбеддирования) в цифровой поток до 8 стерео- или 16 моносигналов цифрового звука, предварительно преобразованного в фор­мат AES/EBU. Видеосигнал с внедренным звуком очень удобен в больших аппаратных при значительном общем числе каналов, когда велика опасность при коммутациях «по­терять» звук или нарушить его синхронность с видеосигналом. Стандарт поддерживает 10 режимов (уровней) функционирования, обозначаемых буквенными суффиксами от А до J и различающихся частотой дискретизации, точностью квантования, способом синхронизации. При внедрении в видеосигнал пары сигналов AES/EBU (четверки моносигналов) объединяют в группы. Сигналы каналов одной группы передают в одном пакете, снаб­женном идентификатором для определения его принадлежности к группе. Каждый субкадр звукового сигнала (кроме битов дополнительных данных) передается тремя 9-битовыми символами (10-й бит символа — инверсный к 9-му). При необходимости квантования на 24 бита дополнительные биты данных собираются в специальные пакеты расширенных данных, при этом в одно кодовое слово упаковываются дополнительные биты двух соседних каналов.

 

3 Сжатие звукоданных

 

3.1 Эффект маскирования и психоакустическая модель слуха

 

          Из-за повышенной чувствительности уха к искажениям сжатие звуковых сигналов ока­зывается более сложной задачей, чем видеокомпрессия. В то же время некоторые пси­хофизиологические особенности слухового восприятия позволяют даже при существен­ной компрессии (6:1 и более) обеспечить «прозрачный» канал, т.е. канал, звучание выходного сигнала которого субъективно неотличимо от звучания сигнала источника. Для понимания этих особенностей познакомимся вкратце с механизмом слухового восприятия. Известные  из курса анатомии барабанная перепонка и стремечко преобразуют звуки в механические вибрации и передают их на находящийся в улитке внутреннего уха кортиев орган — протяженную мембрану между двумя камерами, за­полненными жидкостью. Звуки разной высоты возмущают различные участки мембра­ны, имеющие разные резонансные частоты, и через нервные окончания эти возбужде­ния передаются в мозг. Частотный диапазон восприятия простирается от 20 Гц до примерно 20 кГц, область наибольшей чувствительности лежит между 1 кГц и 5 кГц. Как и во всякой системе с преобразованием из временной в частотную область, в слуховой системе имеется некоторая неопределенность в разделении двух событий: чем точнее известны характеристики сигнала во временной области, тем менее точно можно опи­сать его спектральный состав, и наоборот. Несовершенное разделение по частоте приво­дит к тому, что ухо не в состоянии различить звуки с близкими частотами, этот эффект называется частотным маскированием.                В результате длительных исследований удалось измерить ширину и расположение частотных полос, в пределах которых действует маскирование. Эти полосы получили название критических и в полосе слухового восприятия их насчитывается 25. В области низких слышимых частот ширина критической полосы менее 100 Гц, в районе 2 кГц она равна 300 Гц и возрастает до 4 кГц в области высших воспринимаемых частот.

          Измеряется ширина критической полосы в Барках и рассчитывается по формуле

Кроме частотного (статического), имеет место и временное (динамическое) маскиро­вание. Дело в том, что слабый сигнал, возникающий сразу после окончания сильного сигнала, остается в течение некоторого времени незамеченным. С другой стороны, даже предшествующий слабый сигнал становится незаметным за несколько миллисекунд до появления сильного сигнала. Эти явления называются «маскированием вперед» и «мас­кированием назад».

Использование эффекта маскирования позволяет существенно сократить объем звукоданных, сохраняя приемлемое качество звучания. Принцип здесь очень простой: «Если какая-то составляющая не слышна, то и передавать ее не надо». На практике это означа­ет, что в области маскирования можно снизить число битов на отсчет до такой степени, чтобы шум квантования все еще оставался ниже порога маскирования. Таким образом, для работы звукового кодера необходимо знать пороги маскирования при различных комбинациях воздействующих сигналов. Вычислением этих порогов занимается важный узел в кодере — психоакустическая  модель слуха (ПАМ). Она анализирует входной сигнал в последовательные от­резки времени и определяет для каждо­го блока отсчетов спектральные компо­ненты и соответствующие им области маскирования. Входной сигнал анали­зируется в частотной области, для это­го блок отсчетов, взятых во времени, с помощью дискретного преобразования Фурье преобразуется в набор коэффициентов при компонентах частотного спектра сигнала. Разработчики кодеров компрессии имеют значительную свобо­ду в построении модели, точность ее функционирования зависит от требуемой степени сжатия. При невысоком сжатии можно обойтись и без ПАМ, однако на высоких уровнях компрессии она играет важную роль.

 

3.2 Полосное кодирование и блок фильтров

 

Наилучшим методом кодирования звука, учитывающим эффект маскирования, оказы­вается полосное кодирование. Сущность его заключается в следующем. Группа отсчетов входного звукового сигнала, называемая кадром, поступает на блок фильтров (БФ), который содержит, как правило, 32 полосовых фильтра. Учитывая сказанное ранее о критических полосах и маскировании, хорошо бы иметь в блоке фильтров полосы про­пускания, по возможности совпадающие с критическими. Однако практическая реализация цифрового блока фильтров с неравными полосами сложна и оправданна только в устройствах самого высокого класса. Обычно используется блок фильтров на основе квадратурно-зеркальных фильтров (КЗФ) с равными полосами пропускания, охваты­вающих с небольшим взаимным перекрытием всю полосу слышимых частот. Полоса пропускания фильтра равна p/32Т и центральные частоты полос равны (2k+1)p164T, где Т — период дискретизации, k = 0, 1, .... 31. При частоте дискретиза­ции 48 кГц полоса пропускания секции фильтра составляет 750 Гц. Каждая секция фильтра позволяет проводить расщепление полосы пропускания на две равные части, не увеличивая при этом объем данных в каждой половине полосы, т.е. с одновременной понижающей дискретизацией. Расщепление на N = 2m полос производится каскад­ным включением m секций, содержащих соответственно 1, 2, 4...2m-1 фильтров. На выходе каждого фильтра оказывается та часть входного сигнала, которая попадает в полосу пропускания данного фильтра. Далее в каждой полосе с помощью ПАМ анализируется спектральный состав сигнала и оценивается, какую часть сигнала следует передавать без сокращений, а какая лежит ниже порога маскирования и может быть переквантована на меньшее число би­тов. Поскольку в реальных звуковых сигна­лах максимальная энергия обычно сосредо­точена в нескольких частотных полосах, может оказаться, что сигналы в других по­лосах не содержат различимых звуков и могут вообще не передаваться. Наличие, например, сильного сигнала в одной поло­се означает, что несколько вышележащих полос будут маскироваться и могут кодиро­ваться меньшим числом битов. Для сохранения максимального динамического диапазона определяется максимальный  отсчет в кадре и вычисляется масштабирующий множитель, который приводит этот отсчет к верхнему уровню квантования. Эта  операция сродни аналоговому компандированию. На этот же множитель умножаются и все остальные отсчеты. Масштабирующий мно­житель передается к декодеру вместе с кодированными данными для коррекции коэффици­ента передачи последнего. После масштабирования производится оценка порога маскирования и осуществляется перераспределение общего числа битов между всеми полосами.

3.3 Квантование и распределение битов

 

Все вышеописанные операции не сокращали заметно объем данных, они были как бы подготовительным этапом к собственно сжатию звукоданных. Как и при компрессии цифровых видеосигналов, основное сжатие происходит в квантователе. Исходя из при­нятых ПАМ решений о переквантовании отсчетов в отдельных частотных полосах, квантователь изменяет шаг квантования таким образом, чтобы приблизить шум кванто­вания в данной полосе к вычисленному порогу маскирования. При этом на отсчет может понадобиться вместо 16...20 всего 4 или 5 битов.

Принятие решения о передаваемых компонентах сигнала в каждой частотной полосе происходит независимо от других, и требуется некий «диспетчер», который выделил бы каждому из 32 полосных сигналов часть из общего ресурса битов, соответствующую значимости этого сигнала в общем ансамбле. Роль такого диспетчера выполняет устрой­ство динамического распределения битов.

Возможны три стратегии распределения битов.

В системе с прямой адаптацией кодер производит все расчеты и посылает результа­ты декодеру. Преимущество данного способа в том, что алгоритм распределения битов может обновляться и изменяться, не затрагивая работы декодера. Однако для пересыл­ки дополнительных данных декодеру расходуется заметная часть общего запаса битов.

Система с обратной адаптацией осуществляет одинаковые расчеты и в кодере, и в декодере, поэтому нет необходимости пересылать декодеру дополнительные данные.

Однако сложность и стоимость декодера значительно выше, чем в предыдущем вариан­те, и любое изменение алгоритма требует обновления или переделки декодера. Компромиссная система с прямой и обратной адаптацией разделяет функции расче­та распределения битов между кодером и декодером таким образом, что кодер произво­дит наиболее сложные вычисления и посылает декодеру только ключевые параметры, затрачивая на это относительно немного битов, декодер проводит лишь несложные вычисления. В такой системе кодер не может быть существенно изменен, но настройка некоторых параметров допустима. Обобщенная схема звукового кодера и декодера, выполняющих цифровое сжатие согласно описанному алгоритму с прямой адаптацией, приведена на рисунке 3.1а. Сигна­лы на выходе частотных полос объединяются в единый цифровой поток с помощью мультиплексора. В декодере процессы происходят в обратном порядке. Сигнал демультиплексируется, делением на масштабирующий множитель восстанавливаются исходные значения цифровых отсчетов в частотных полосах и поступают на объединяющий блок фильт­ров, который формирует на выходе поток звукоданных, адекватный входному с точки зрения психофизиологического восприятия звукового сигнала человеческим ухом.

Вариант схемы с обратной адаптацией показан на рисунке 3.1б.

 

 
 

а) с прямой адаптацией; б) с обратной адаптацией

Рисунок 3.1 – Обобщенная структурная схема звукового кодера и декодера

 

3.4 Усовершенствованные алгоритмы полосного кодирования

 

В предыдущих разделах описан базовый алгоритм цифрового сжатия звука с использо­ванием многофазного блока фильтров. Он обеспечивает «прозрачный» звуковой канал при скорости потока не менее 384 кбит/с. Стремление к дальнейшему снижению ско­рости потока вызвало к жизни более сложные, но и более эффективные алгоритмы сжатия цифрового звука.

Серьезным недостатком базовой модели принято считать недостаточную разреша­ющую способность в частотной области. В области низших слышимых частот полоса анализа значительно превышает критическую полосу и точность расчета порога маски­рования оказывается недостаточной. Предложено модифицировать БФ таким образом, чтобы наряду с разделением сигнала на частотные полосы и передискретизацией он осуществлял также ДКП групп отсчетов в каждой полосе. Например, при обработке блока из 18 отсчетов эквивалентная полоса анализа оказывается равной примерно 40 Гц. К недостаткам данной схемы относится низкое временное разрешение (как след­ствие высокого частотного разрешения), не позволяющее использовать алгоритм в кад­рах, где имеются быстрые переходы уровня. Кодеры с гибридным БФ снабжаются обычно детектором переходов, который отключает ДКП в моменты быстрых изменений уровня звукового сигнала. Еще один эффективный алгоритм цифрового сжатия звука использует представле­ние сигнала в форме с плавающей запятой. Полученный после ДКП набор коэффициентов переводится в экспоненциальную фор­му и представляется в виде двух наборов — характеристик и мантисс. Набор характери­стик называется спектральной огибающей, он служит входным сигналом для ПАМ и передается по каналу с использованием эффективных методов кодирования. Мантиссы переквантовываются в квантователе с учетом результатов спектрального анализа в ПАМ и также передаются к декодеру в общем цифровом потоке.

 

4 Формирование цифрового потока по стандарту MPEG-2

 

4.1 Составные части стандарта MPEG-2

 

         При разработке нового стандарта MPEG-2 с самого начала была по­ставлена задача обеспечить совместимость с MPEG-1, т.е. дать возможность декодеру MPEG-2 принимать цифровой поток MPEG-1. Когда говорят о совместимости двух систем, под совместимостью «вперед» (forward compatibility) понимают способность старой системы воспринимать сигналы новой системы, совместимость «назад», или обратная совместимость (backward compatibility), означает способность новой системы воспринимать сигналы старой. На подготовительном этапе в качестве основы для MPEG-2 тестировались 39 алгоритмов цифрового сжатия, в том числе и существенно отлич­ные от MPEG-1, но предпочтение было отдано последнему, не в последнюю очередь благодаря удобству достижения совместимости.

           MPEG-2 был принят как международный стандарт под номером ISO/IEC 13818 в 1996 г. и дополнен в 1997 г. [2]. Коротко его можно охарактеризовать как MPEG-1 со значительными улучшениями, включающими обработку чересстрочных изображений, набор уровней и профилей, масштабируемый синтаксис, системный уровень с программ­ным и транспортным потоками, новые средства кодирования звука и ряд других. На самом деле MPEG-2 значительно сложнее своего предшественника. Достаточно ска­зать, что при равной скорости потока кодер MPEG-2 примерно на 50% сложнее кодера MPEG-1. Успех MPEG-2 в значительной мере определил и прекращение работ над стандартом MPEG-3, предназначавшимся для систем ТВЧ. Оказалось, что синтаксис MPEG-2 пригоден для высоких разрешений, больших скоростей и полных компонент­ных сигналов без прореживания, а потому может использоваться и для ТВЧ.

Стандарт MPEG-2 называется «Информационные технологии - Обобщенное коди­рование движущихся изображений и сопровождающей звуковой информации» и содер­жит 9 частей, описывающих различные компоненты цифрового потока и средства под­держки.

13818-1 «Системы» описывает объединение одного или нескольких ЭП видео, звука и других данных в одно- или многопрограммный поток, пригодный для записи или передачи.

13818-2 «Видео» специфицирует средства компрессии видеоданных и процесс деко­дирования, необходимый для восстановления изображения.

13818-3 «Звук» представляет обратно совместимое расширение звукового стандарта MPEG-1.

13818-4 «Соответствие» и 13818-5 «Моделирование программного обеспечения» опи­сывают процедуры испытаний на соответствие требованиям частей 1, 2, 3 и дают приме­ры реализации программного обеспечения.

13818-6 «DSM-CC» стандартизует набор протоколов по управлению цифровыми по­токами MPEG-1 и MPEG-2.

13818-7 «ААС» специфицирует алгоритм кодирования многоканального звука ААС, не совместимый с MPEG-1.

13818-9 «Интерфейс реального времени для декодеров» описывает интерфейс реаль­ного времени для декодеров транспортного потока.

13818-10 «Соответствие для DSM-CC» рассматривает вопросы соответствия в при­менении к протоколу DSM-CC.

Часть 8 предназначалась для кодирования видео с разрешением 10 бит, но не вызва­ла практического интереса и была исключена.

 

4.2 Сжатие видеоданных

 

4.2.1 Особенности алгоритма обработки видеоданных

 

Наиболее существенное отличие алгоритма обработки видео в MPEG-2 от соответству­ющего алгоритма MPEG-1 - возможность обработки чересстрочных изображений. В MPEG-1 для кодирования таких изображений приходилось предварительно объединять два поля в один кадр и только после этого подавать сигнал на вход кодера. Однако при наличии движения эта процедура приводила к заметным искажениям. В MPEG-2 вве­дена концепция полевого и кадрового кодирования. При полевом кодировании два поля одного кадра называются верхним и нижним и могут кодироваться раздельно как самостоятельные изображения, в этом случае каждое поле разбивается на непересекаю­щиеся макроблоки 16 х 16 пикс. и к ним применяется ДКП. На изображении эти макроблоки занимают область высотой 32 строки. Кадровое кодирование предполагает построчное объединение двух полей в один кадр и обработку его как обычного изобра­жения с прогрессивным разложением.

MPEG-2 определяет два типа ДКП для макроблоков: кадровое и полевое. Кадровое ДКП действует аналогично MPEG-1: блок отсчетов яркости 16 х 16 пикс. разбивается на 4 блока 8x8 пикс. в соответствии с их расположением. Полевое ДКП берет 8 строк из верхнего поля для верхних двух блоков и 8 строк из нижнего поля для нижних блоков, образуя верхнее и нижнее поля макроблока, как показано на рисунке 4.1; цветоразностные блоки предполагаются принадлежащими всегда к верхнему полю. Полевое ДКП более эффективно при суще­ственном различии между полями, например, при наличии движения по вертикали. Кадровое ДКП позво­ляет лучше передать мелкие детали изображения. Заметим, что оба вида преобразования могут использовать­ся в одной видеопоследовательнос­ти. Кадры, кодируемые как два поля, всегда используют полевое ДКП, кадровое кодирование может использовать оба вида ДКП, переходя от одного к другому на уровне макроблока.

Рисунок 4.1 - Формирование полей макроблока при полевом ДКП

 

Обработка чересстрочных изобра­жений вносит существенные отли­чия и в процесс предсказания. Кад­ровое предсказание, как и в MPEG-1, оценивает наилучшее сопряжение макроблоков 16 х 16 пикс.   в текущем и опорном кадрах. Поле­вое предсказание ищет сопряжение для блока 16 х 16 пикс., взятого из текущего поля, в двух предыдущих полях и выбирает лучший результат. Как и при ДКП, полевое кодирование может использовать только полевое предсказание, у кадрового кодирова­ния возможности шире - допускается применение кадрового предсказания или поле­вого, в последнем случае ищется сопряжение отдельно верхнего и нижнего полей мак­роблока в каждом из двух полей опорного кадра и выбирается лучший результат. Более высокую точность компенсации движения обеспечивает разбиение макроблока на два поля. При этом определяются два вектора перемещения для вер­хнего и нижнего полей макроблока размерностью 16 х 8 пикс. и передаются декодеру, который использу­ет их для более точного восстановления изображе­ния.

MPEG-2 ввел новый режим компенсации движе­ния для эффективного устранения временной избы­точности между полями, названный «Двухступенчатая компенсация с уточнением векторов» (Dual prime motion compensation). В данном режиме ищутся вектор перемещения для области изображения 16 х 8 пикс. из одного поля и дополнительный вектор приращения (принимающий значения минус 1, 0, 1 по осям х и у) для той же области, но в поле другой четности. В декодере вектор приращения использу­ется для уточнения отсчетов предсказанного блока.

МPEG-2 допускает значительную гибкость и в формировании I-, Р-, В-кадров. Кодированный 1-видеокадр может состоять из I-кадра с прогрессивным разложением, или пары I-полей, или I-поля и пред­сказанного из него Р-поля. Аналогично Р-видеокадр может содержать Р-кадр, или два Р-поля, В-видео-кадр - В-кадр или пару В-полей.

Рисунок 4.2 – Альтернативное сканирова­ние коэффициентов ДКП

при черес­строчном разложении

 

Для обработки чересстрочных изображений MPEG-2 предлагает альтернативный вариант сканирования коэффициентов ДКП, оптимизированный с точки зре­ния кодирования длин серий (рисунок 4.2).

Отметим еще несколько отличий в кодировании видеоданных.

а) PEG-2 в большинстве случаев использует в качестве сигнала источника компонентный сигнал «4:2:0», но расположение отсчетов в поле изображения несколько отличается от MPEG-1 (рисунок 4.3).

б) В MPEG-2 длина слайса не может быть более одной строки (напомним, что в MPEG-1 длина слайса не ограничивалась).

в) MPEG-1 допускает квантование постоянной составляющей ДКП только с разрядно­стью 8 бит, в MPEG-2 в некоторых случаях допускается 9- или 10-битовое квантование.

Подпись: (х - сигнал яркости; 0 - сигнал цветности)
Рисунок 4.3 - Расположение отсче-тов компонентного сигнала в поле кадра в стандарте MPEG-2 
г) Для предотвращения потери макроблоков, кодированных с внутрикадровым пред­сказанием, применяется маскирование - подстановка вместо утерянного макроблока ближайшего, схожего по параметрам. Для этого в потоке передается управляющий код «пропущенного макроблока».

д) Предусмотрена передача информации режима панорамирования (pan&scan), ука­зывающей декодеру, какую часть изображения форматом 16:9 отображать на экране с форматом 4:3. Информация посылается в каждый кадр и позволяет смещать изображе­ние с точностью до 1/16 пикс.

 

4.2.2 Уровни и профили стандарта MPEG-2

MPEG-2 охватывает весьма широкий диапазон сложности кодирования и качества изоб­ражения - от простых I-кадров до сложных ГВК, от низкого разрешения до ТВЧ. В процессе разработки стало ясно, что построить декодер, удовлетворяющий одновремен­но всем требованиям стандарта, возможно, но неэкономично, так как он окажется весь­ма сложным и дорогим и в то же время будет обладать большой избыточностью по отношению к более простым приложениям. Разработчики стандарта разделили все сред­ства и инструменты обработки видеосигналов на несколько Профилей (Profile), под­держивающих обратную совместимость и различающихся использованием тех или иных элементов синтаксиса. Как правило, каждый Профиль добавляет один или несколько инструментов к имеющимся у нижележащего Профиля.

 

Таблица 4.1 – Пределы изменения параметров цифрового потока для различных уровней Основного профиля MPEG-2

Уровень

Параметр

Ограничение

Высокий

MP@HL

Число отсчетов на строку

1920

Число строк на кадр

1152

Частота кадров, Гц

60

Частота отсчетов сигнала яркости, отсч/с

62668800

Скорость потока, Мбит/с

80

Размер буфера, бит

9781248

Высокий

MP@H1440

Число отсчетов на строку

1440

Число строк на кадр

1152

Частота кадров, Гц

60

Частота отсчетов сигнала яркости, отсч/с

47001600

Скорость потока, Мбит/с

60

Размер буфера, бит

7340032

Основной

MP@ML

Число отсчетов на строку

720

Число строк на кадр

576

Частота кадров, Гц

30

Частота отсчетов сигнала яркости, отсч/с

10368000

Скорость потока, Мбит/с

15

Размер буфера, бит

1835008

Низкий

MP@LL

Число отсчетов на строку

352

Число строк на кадр

288

Частота кадров, Гц

30

Частота отсчетов сигнала яркости, отсч/с

3041280

Скорость потока, Мбит/с

4

Размер буфера, бит

475136

На сегодняшний день в стандарте приняты пять основных и один дополнительный, профессиональный Профиль «4:2:2», введенный позднее. Внутри каждого Профиля выде­лены Уровни (Level), определяющие допустимые пределы изменения основных парамет­ров цифрового потока. Таких Уровней четыре, и в таблице 4.1 приведены установленные для них пределы скорости потока и разрешающей способности. Уровень «Высокий-1440» был введен для планировавшейся европейской системы с разложением 1440 х 1152 пикс. и форматом кадра 4:3. Отметим, что в принятой Рекомендации ВТ.709 по ТВЧ форматам такой формат не предусмотрен. Не все Профили определены при всех Уровнях, допусти­мые сочетания указаны в таблице 4.2.

 

Таблица 4.2 – Уровни и профили стандарта MPEG-2

Уровни

Профили

Простой (Simple)

Основной (Main)

Масштабируемый по отношению сигнал-шум (SNR)

Пространственно масштабируемый  (Spatial)

Высокий (High)

Профессиональный  4:2:2

(Professional 4:2:2)

Типы кадров

I, P

I, P, B

I, P, B

I, P, B

I, P, B

I, P, B

Дискретизация сигнала цветности

4:2:0

4:2:0

4:2:0

4:2:0

4:2:0

или

4:2:2

4:2:0

или

4:2:2

Высокий (High)

Число отсчетов на строку

 

1920

 

 

1920

1920

Число строк на кадр

 

1152

 

 

1152

1152

Частота кадров, Гц

 

60

 

 

60

60

Скорость потока, Мбит/с

 

80

 

 

100

300

Высокий 1440

(High-1440)

Число отсчетов на строку

 

1440

 

1440

1440

 

Число строк на кадр

 

1152

 

1152

1152

 

Частота кадров, Гц

 

60

 

60

60

 

Скорость потока, Мбит/с

 

60

 

60

80

 

Основной (Main)

Число отсчетов на строку

720

720

720

 

720

720

Число строк на кадр

576

576

576

 

576

576

Частота кадров, Гц

30

30

30

 

30

30

Скорость потока, Мбит/с

15

15

15

 

20

50

Низкий (low)

Число отсчетов на строку

 

352

352

 

 

 

Число строк на кадр

 

288

288

 

 

 

Частота кадров, Гц

 

30

30

 

 

 

Скорость потока, Мбит/с

 

4

4

 

 

 

Примечание - режим 4:2:2 P@HL введен предлагаемым стандартом SMPTE-308M

 

Затенением в таблице выделен режим «4:2:2P@HL», отсутствующий в стандарте MPEG-2 и предложенный позднее проектом стандарта SMPTE-308М [2] по инициативе вещательных компаний. Этот режим удобно использовать при производстве программ. Он допускает максимальную скорость потока 300 Мбит/с со сле­дующими ограничениями: на скорости от 230 до 300 Мбит/с допускаются только I-кадры, на скорости от 175 до 230 Мбит/с - I-, IP-, IB-кадры, на меньших скоростях - ГВК любой конфигурации, не противоречащей стандарту MPEG-2. Декодеры, поддерживающие определенный Уровень определенного Профиля, должны работать также и при всех более низких Уровнях и Профилях.

В англоязычной ли­тературе принято обо­значать сочетания про­филя и уровня первыми буквами, разделенными знаком @. Например, сочетание «Основной профиль - Основной уровень» записывается как MP@ML (Main Profile@Main Level). Режим MP@ML стал наиболее распространенным и широко употребительным, он обеспечивает полную раз­решающую способность 720 х 576 пикс., предусмотренную Рекомендацией ВТ.601, и это сочетание признано наиболее подходящим для цифрового вещания. Максимальная скорость потока видеоданных 15 Мбит/с заведомо достаточна для достижения каче­ства изображения, превышающего возможности аналоговых стандартов PAL, SECAM и NTSC. Масштабирование в Основном профиле не применяется.

Простой профиль (SP Simple Profile), не поддерживающий двунаправленное пред­сказание и В-кадры, предназначался первоначально для массовых применений при об­работке компьютерных изображений и в других приложениях, не требующих высокого качества изображения, однако стоимость микросхем, разработанных для Основного про­филя, оказалась так низка, что разработка специальных изделий для Простого профиля была признана нецелесообразной. Он применяется лишь в простейших программных MPEG-кодерах.

Масштабируемые профили пока широко не используются, хотя в некоторых прило­жениях для них просматриваются возможные области применения. Масштабируемостью называют способность кодека (кодера и декодера) формировать и обрабатывать упоря­доченный набор из нескольких цифровых потоков. Минимально необходимый набор потоков называется базовым слоем, каждый из остальных - улучшающим слоем. Базо­вый слой передает сигнал пониженного качества с более высоким отношением сигнал-шум, или сигнал с пониженным пространственным разрешением, который может при­ниматься декодером низкого профиля, а в улучшающих слоях передается дополнительная информация, используя которую, кодеры более высокого профиля восстанавливают улучшенное изображение. Синтаксис MPEG-2 поддерживает до двух слоев масштаби­рования. Принцип работы масштабирующего кодека показан на рисунке 4.4. В ходе разработки было признано нецелесообразным объединять все виды масшта­бирования в один Профиль, и разработали две схемы - с масштабированием отноше­ния сигнал-шум и с пространственным масштабированием. В схеме, масштабирующей отношение сигнал-шум (SNR (Signal-to-Noise Ratio) Profile), в базовом слое передаются грубо квантованные коэффициенты ДКП. Они передаются с низкой скоростью, что несколько повышает шумы квантования, но улуч­шает помехоустойчивость. Улучшающий слой кодирует и передает разницу между не­квантованными и грубо квантованными значениями коэффициентов, которую декодер SNR профиля использует для уточнения значений коэффициентов.

а) кодер; б) декодер

Рисунок 4.4 - Принцип работы масштабирующего кодера

 

Можно использо­вать этот подход и для изменения пространственного разложения, если в базовом слое передавать самые нижние М х N (M<8, N< 8) коэффициентов ДКП, а в улучшающем слое — остальные (64 — М х N). Профиль с пространственным масштабированием (Spatial Scalable Profile) был вве­ден в стандарт для обеспечения доступа декодерам стандартной четкости к программам ТВЧ. Привязкой к ТВЧ объясняется довольно большая скорость цифрового потока, предусмотренная в этом Профиле. В базовом слое такой системы передается после прореживания информация, соответствующая стандартному разрешению, а в улучшаю­щем слое — дополнительные отсчеты, отфильтрованные в базовом слое.  Профиль «Высокий», предусматривающий все инструменты нижних профилей, в настоящее время пока не используется по нескольким причинам, в том числе, по-види­мому, из-за отсутствия интегральных микросхем с достаточными ресурсами производи­тельности.

Несколько особняком, вне иерархии, стоит профиль «Профессиональный 4:2:2», предназначенный для обеспечения совместимости с цифровым студийным оборудова­нием видеопроизводства. В этом формате работают, например, перевозимые комплекты цифровых систем сбора новостей, передающие сигнал через спутники для последующей записи и монтажа. Профиль «4:2:2» должен обеспечивать качество изображения, сравнимое с цифровой видеозаписью формата D1, и возможность многократного MPEG кодирования-декодирования сигнала. Его основными свойствами являются структура дискретизации «4:2:2» (в отличие от обычной в MPEG-2 «4:2:0»), увеличенное число строк - 608 в отличие от 576, и возможность работы с повышенными скоростями - до 50 Мбит/с вместо 15 Мбит/с, обеспечиваемых Основным профилем. Последнее тре­бование связано с более короткими группами видеокадров, используемыми при видео­монтаже. Предложенный недавно Высокий уровень этого профиля позволит расши­рить область использования MPEG-2 при подготовке ТВЧ программ.

Для профессиональных применений очень важна способность оборудования разных производителей работать совместно (по-английски это свойство называется interoperability, в русском языке наиболее близка «совместная работоспособность»). Хотя MPEG-2 должен обеспечивать полную совместимость во всех режимах работы, организация Pro-MPEG Forum, занимающаяся внедрением стандартов MPEG, предло­жила [2] использовать в профессиональных системах для стыков аппаратуры ограни­ченное число режимов, в которых заведомо должны выполняться все требования к цифровому потоку. В качестве таких режимов выбраны:

1) 4:2:2P@ML, ТСЧ, скорость до 50 Мбит/с, любая разрешенная структура ГВК.  2. 4:2:2P@ML, ТСЧ, скорость до 50 Мбит/с, только I-кадры.

3а) 4:2:2P@HL, ТВЧ, скорость до 80 Мбит/с, любая разрешенная структура ГВК.

3б) 4:2:2P@HL, ТВЧ, скорость до 175 Мбит/с, любая разрешенная структура ГВК.

 4) 4:2:2P@HL, ТВЧ, скорость до 300 Мбит/с, только I-кадры.

 

4.3 Реализация цифрового многопрограммного звука

 

4.3.1 MPEG-2- расширение MPEG-1 в сторону многоканального звука 

Следствием совместимости MPEG-2 с MPEG-1 в части кодирования звука стало полное использование трехуровневой системы, разработанной в MPEG-1 для обработки звукоданных кодерами стандарта MPEG-2. Раз­личия между стандартами начинаются при переходе от двухканального звука, принято­го за основу в MPEG-1, к многоканальному звуку, поддерживаемому в MPEG-2.

MPEG-2 специфицирует различные режимы пе­редачи многоканального звука, в том числе пятиканальный формат, семиканальный звук с двумя       дополнительными фронтальными динамиками, применяемыми в кинотеатрах с очень широким эк­раном, расширения этих форматов с низкочастотным каналом. В числителе дроби указывается число фронтальных каналов, в знаменателе - число каналов, излучаемых сзади. Соответствующее расположение динами­ков показано в таблице 4.3.

Подпись: Рисунок 4.5 - Варианты компоновки многоканального звукового сигнала по Рекомендации ВS.775

Одной из разновидностей многоканального звука является многоязычное звуко­вое сопровождение. Оно может осуществляться либо передачей отдельного цифро­вого потока для каждого языка, либо добавлением нескольких (до 7) языковых каналов 64 кбит/с к многоканальному потоку 384 кбит/с. Возможна передача допол­нительных звуковых каналов для людей с ухудшением зрения и слуха (с описанием сцены в первом случае и отдельным каналом диалогов во втором). Как же обеспечива­ется совместимость этих сложных многокомпонентных сигналов с относительно про­стым декодером MPEG-1? В кодере MPEG-2 сначала с помощью матрицы формируются комбинированный двухканальный сигнал, совместимый со стереосигналом MPEG-1, и набор вспомогательных сигналов, не совместимых с ним и служащих для восстановле­ния многоканального сигнала в декодере MPEG-2 (рисунок 4.6а).

а) кодер; б) декодер

Рисунок 4.6 - Обработка многоканального звукового сигнала в кодере и декодере МРЕG-2

 

При кодировании двухка­нальный сигнал укладывается в структуру ПЭП звука, совместимого с MPEG-1, и мо­жет прочитываться соответствующим декодером. Остальные компоненты после кодирования размещаются в других структурных единицах цифрового потока и доступ­ны только декодеру MPEG-2.

Учитывая широкое распространение в мире системы Dolby Pro Logic (продано более 40 млн. декодеров) и совместимость ее с обычным стереоканалом, разработчики звукового стандарта MPEG-2 заложили в алгоритм формирование стереосигнала в таком виде, как его формирует указанная система. Владельцы декодера Dolby Pro Logic могут теперь полу­чить многоканальный сигнал двумя способами: либо непосредственно с выхода декодера MPEG-2, либо подав комбинированный стереосигнал (stereo downmix) с выхода более простого декодера MPEG-1 на вход декодера Pro Logic, который выделит из него многока­нальный сигнал (рисунок 4.6б). Соответствующий интерфейс определен в стандарте IEC61937, он основан на линейной передаче звукоданных с ИКМ и скоростью до 1536 кбит/с.

 

 

Таблица 4.3 – Иерархия многоканальных систем согласно Рекомендации BS.775

Система

Каналы

Обозначение

Расположение динамиков

Моно

М

1/0

Моно + моно

М

1/1

Двухканальная стерео

L/R

2/0

Двухканальная стерео +

1 окружающий

L/R/Ms

2/1

Двухканальная стерео +

2 окружающих

L/R/Ls/Rs

2/2

Трехканальная стерео

L/C/R

3/0

Трехканальная стерео +

1 окружающий

L/C/R/Ms

3/1

Трехканальная стерео +

2 окружающих

L/C/R/Ls/Rs

3/2

 

4.3.2 Кодирование с пониженными частотами дискретизации

В дополнение к основному режиму с частотами дискретизации 35, 44,1 и 48 кГц в MPEG-2 введен низкоскоростной режим, так называемый LSR (Low Sampling Rate) с пониженными вдвое частотами дискретизации: 16, 22,05 и 24 кГц. Этот режим приме­няется для передачи сигналов пониженного качества на очень низких скоростях, напри­мер, при вещании по сети Интернет. Оказывается, что на скоростях порядка 64 кбит/с применение половинных частот дискретизации повышает субъективное качество звуча­ния речевого сигнала. Дело в том, что связанное с этим отбрасывание высоких частот почти не влияет на качество речи, а высвобождающиеся ресурсы битов используются кодером для более точной передачи нижней части звукового спектра. Поскольку число частотных полос в любом случае сохраняется равным 32, спектральное разрешение оказывается более высоким. Например, при частоте дискретизации 24 кГц ширина каж­дой из полос составляет 375 Гц вместо 750 Гц при 48 кГц.

Институтом Фраунгофера в Германии предложено дальнейшее понижение частот дискретизации до 8, 11,05, 12 кГц, позволяющее, по утверждению разработчиков, улуч­шить качество воспроизведения при сверхнизких скоростях цифрового потока. Это рас­ширение пока не вошло в стандарт, но некоторые звуковые кодеры высоких уровней его поддерживают.

 

4.3.3 Система улучшенного кодирования звука ААС

Одной из лучших современных систем сжатия звука признана система ААС (Advanced Audio Coding - усовершенствованная система кодирования звука), специфицирован­ная в седьмой части стандарта ISO/IEC 13818. В отличие от других методов сжатия звукоданных, принятых в MPEG-2, она не обладает свойством обратной совместимости - декодеры MPEG-1 не могут декодировать сигнал ААС. По своей эффективности ААС вдвое превосходит Уровень II и в 1,4 раза Уровень III стандарта MPEG-1. Высоко­качественное воспроизведение звука достигается уже при скорости цифрового потока 96 кбит/с. В стандарте поддерживается широкий набор параметров и возможностей: частоты дискретизации от 8 до 96 кГц, моно- и стереосигналы, три профиля — Основ­ной (Main), Упрощенный (LC - Low complexity), Масштабируемый (SSR Scalable Sampling Rate). Одновременно может быть описано до 16 звуковых программ, состоя­щих из большого числа сигналов звука и данных (до 48 основных, 15 низкочастотных, 15 многоязычных каналов, 15 потоков данных).

Как и самый сложный из предшествующих, Уровень III из MPEG-1/2, ААС исполь­зует все средства цифрового сжатия — полосное кодирование, неравномерное кванто­вание, кодирование кодом Хаффмана, итерационные алгоритмы распределения битов, но улучшает алгоритм Уровня III во многих деталях и использует новые эффективные средства кодирования для улучшения качества звучания при очень низких скоростях.

Основные улучшения можно свести к следующим моментам [2]:

а) Улучшено разрешение по частоте благодаря использованию 1024 частотных полос по сравнению с 576 в алгоритме Уровня III. При этом короткие блоки имеют длину всего 256 отсчетов, что обеспечивает эффективную обработку быстрых изменений зву­кового сигнала. Переключение производится по результатам анализа поведения вход­ного сигнала во времени.

б) В Основном профиле применена оптимальная схема предсказания назад, обеспе­чивающая более высокую эффективность отработки изменений основного тона.

в) Применен более гибкий алгоритм кодирования в режиме joint stereo, как в режиме кодирования по интенсивности, так и в режиме «сумма-разность».

г) Применен улучшенный код Хаффмана, кодирование четверками частотных линий применяется очень часто, что дополнительно сокращает расход битов.

Структурная схема звукового кодера формата ААС Основного профиля приведена на рисунке 4.7. Новым элементом по сравнению с Уровнем III можно считать функцию управ­ления шумами во временной области (TNS - Temporal Noise Shaping), позволяющую формировать огибающую шума во временной области по предсказанию в частотной области. Устройство осуществляет фильтрацию сигнала с выхода ДКП набором из не­скольких переключаемых фильтров и квантование полученных групп отсчетов. Коэффициенты квантования передаются в общем цифровом потоке декодеру, который пере­распределяет огибающую шума в реконструируемом сигнале с учетом спектрального распределения энергии сигнала. Это полезно при быстрых изменениях уровня звуково­го сигнала, когда кодер не успевает переключить блок фильтров на обработку коротких блоков и возникают искажения в виде пред-эхо.

 

Еще один новый механизм повышения эффективности кодирования звука - адап­тивное предсказание текущего кадра по предшествующему, широко используемое в ко­дировании изображения. Оно чаще используется в технике кодирования речи и более эффективно при низких скоростях потока. В кодере Простого профиля отсутствует предсказание, режим TNS ограничен 12 коэффициентами. Более сложный Масштабируемый профиль использует для анализа 4-полосный КЗФ, за которым следует модифицированное ДКП с высокой разрешающей способностью по частоте. Модуль управления коэффициентом усиления на выходе филь­тра позволяет независимо регулировать сигналы в каждой полосе для предотвращения пред-эхо.

 

4.4 Системный уровень, потоки данных и информационные таблицы

 

4.4.1 Элементарные потоки сжатых данных и их объединение в единый поток

Как видно из предыдущей главы, MPEG-1 решает задачу мультиплексирования до­вольно простым образом. Он может объединить в одну программу несколько компонен­тов видео и звука, имеющих общую тактовую синхронизацию. Однако для организации полноценного многопрограммного вещания нужно объединить в общий поток програм­мы, сформированные в разных местах и в разное время и не имеющие общей временной базы. Требуется новый инструмент объединения и транспортирования данных, обеспечивающий в то же время обратную совместимость с MPEG-1.

Рисунок 4.8 - Структура программного потока MPEG-2

 

Стандарт MPEG-2 предлагает две конструкции многокомпонентного цифрового по­тока. Более простой программный поток (ПП) почти точно совпадает с системным потоком MPEG-1 (в последнем несколько отличается формат и отсутствует сигнализа­ция) и используется для распространения программного материала с переменной скоро­стью цифрового потока в среде без ошибок (запись на магнитные и оптические носите­ли, передача по линиям на расстояние в единицы метров и т.д.). Структура ПП включает пачки (pack), содержащие один или несколько PES пакетов и заголовок со ссылкой на системные часы (SCR System Clock Reference) (рисунок 4.8). В потоке может быть до 16 видео и до 32 звуковых потоков, но все они считаются компонентами одной программы, так как имеют общую временную базу (единый генератор тактовой частоты).                      

Транспортный поток (ТП) представляет собой более высокий уровень организации данных. В ТП пакетированные элементарные потоки, принадлежащие разным програм­мам, переносятся в различных транспортных пакетах небольшой длины, снабженных кодозащитой для передачи в каналах с ошибками, в частности, для вещания. Один транспортный поток может переносить несколько программ, не связанных единой временной базой, каждая из нескольких компонентов. Передача оказывается, по сути дела, асинхронной и потому не может управляться единым синхронизирующим сигналом. Рассмотрим, как решены вопро­сы синхронизации в транспортном потоке MPEG-2.

 

          4.4.2 Принципы обеспечения синхронизации цифровых потоков в стандарте MPEG-2

           Мы уже проследили ранее, как происходит синхронизация всех компонентов цифрового потока MPEG-1. Общий отсчет времени задается ссылками на системные часы (SCR), вводимыми в заголовок системного потока, по ним декодер подстраивает свои внутрен­ние часы и «привязывает» потоки видео и звука к абсолютным отсчетам времени. Для выравнивания задержки во времени отдельных пакетов в заголовок пакета ПЭП вводятся временные метки воспроизведения (PTS) и временные метки декодирования (DTS), которые указывают, в какие моменты этого абсолютного времени декодер должен обработать и вывести на экран соответствующие изображения или звуковые после­довательности. Эти же средства используются и в программном потоке MPEG-2, где все компоненты потока также имеют общую временную базу. 

          Транспортный поток содержит  программные компоненты с разной предысторией, в том числе и с несколько различающимися тактовыми частотами, поэтому невозможно или весьма трудоемко привести все сигналы к единой временной базе. Для управления такими потоками вводится еще один механизм синхронизации, называемый ссылкой на программные часы (PCRProgram Clock Reference). PCR, как и другие временные метки, также представляет собой 33-битовое число, отсчитываемое в периодах частоты 90 кГц, получаемой делением на 300 частот тактового генератора 27 МГц. Оно пока­зывает ожидаемое время завершения считывания в декодере поля PCR из транспортно­го потока, после чего декодер может приступить к сравнению пришедшего и местного отсчетов и выработке корректирующего сигнала. Отличие от SCR в том, что PCR вводится в поток на программном, а не системном уровне, в одном потоке могут передаваться несколько различных PCR, по числу программ, и декодер при переключении на каждую новую программу заново синхронизирует свой внутрен­ний генератор частоты 27 МГц. Стандарт предписывает повторение метки PCR не реже чем 1 раз в 0,7 с. В проме­жутках декодер вычисляет значения меток путем интерполяции.

 

 

                                                        

         4.4.3 Структура транспортного потока

         Пакеты ТП имеют фиксированную длину 188 байт, из которых 4 байта выделяются на заголовок и 184 байта — на полезные данные. Это могут быть видео- или звукоданные, данные пользователя или пустые байты (1111 1111), называемые стаффингом. Каждый пакет переносит данные только одного вида. Размер пакета выбран для совместимости с широко при­меняемым на сетях связи стандартом асинхронной передачи данных ATM. Ячейка ATM имеет длину 53 байта, из которых полезных - 47 байт (с учетом 1 байта на уровень адаптации). Один пакет MPEG-2 длиной 188 байт упаковывается в 4 пакета ATM. Структура за­головка показана на рисунке 4.9.

Рисунок 4.9 - Структура заголовка пакета транспортного по­тока МРЕС-2

 

Пер­вый байт - байт синхронизации - содержит зарезервированное кодовое число 0x47, легко опознаваемое демультиплексором. Далее идут три однобитовых флага (ошибки передачи, начала пакета ПЭП и приоритетной передачи) и 13-битовый идентификатор типа пакета PID (Packet IDentifier), указывающий на принадлежность пакета тому или иному потоку данных. PID служит основным призна­ком, по которому демультиплексор сортирует приходящие пакеты на приемной стороне. Из общего числа 8192 возможных значений PID 16 выделены на общесистемные цели, номер 8191 (0 x 1FFF) закреплен за стаффинговыми байтами, остальные могут назначаться пользователями произвольно для отдельных компонент своих программ.

Передача информации пакетами фиксированной длины и система идентификаторов име­ют свои преимущества. Пропускная способность в этом случае используется в максимальной степени и может динамически перераспределяться между программами. Можно добавлять новые ПЭП или удалять ненужные, не меняя в целом структуру потока. Для извлечения необходимой информации декодеру не нужно знать детальную структуру всего потока, доста­точно указать только PID, который всегда находится в заголовке на одном и том же месте.

Еще один байт в заголовке содержит три необходимых указателя:

2-битовый указатель скремблирования ТП — свидетельствует о наличии или отсутствии cкремблирования ТП;

2-битовый индикатор наличия полей адаптации в нагрузке пакета.

Поле адаптации занимает часть области полезных данных и служит для ввода управляю­щих и вспомогательных сигналов, передаваемых не в каждом пакете. В частности, в полях адаптации передаются таблицы программно-зависимой информации (PSIProgram Specific Information) и сигналы синхронизации. Поле адаптации может также использоваться для передачи данных пользователя, в этом случае оно разбивается на секции.

          Значение указателя наличия полей адаптации 0x1 означает, что поле адаптации от­сутствует и в пакете передаются данные видео или звука; 0x2 присваивается пакету, в котором часть области полезных данных занимает поле адаптации, остальное занято стаффингом; индикатор, установленный на 0x3, свидетельствует об одновременном на­личии и поля адаптации, и полезных данных. Отметим, что заголовок пакета и поле адаптации не скремблируются.

4-битный счетчик непрерывности пакетов увеличивает свое значение на единицу при поступлении каждого следующего пакета с данным PID и обнуляется после каждо­го 15-го пакета. Он позволяет декодеру обнаруживать потерю пакета и принимать меры по его замене.

Область полезных данных транспортного пакета значительно меньше, чем обычная длина пакета ПЭП, поэтому последний для укладки в пакеты ТП должен разрезаться. Стандарт определяет, что первый байт пакета ПЭП должен обязательно совпадать с первым байтом области полезных данных, а конец пакета ПЭП - с концом одного из последующих транс­портных пакетов. Незаполненные начальные байты этого последнего пакета дополняются пустыми байтами.

Рисунок 4.10 - Структура поля адаптации транспортного потока

 

Если в пакете присутствует поле адаптации, оно имеет структуру, показанную на рисунке 4.10. Первый байт указывает длину поля, затем следуют три однобитовых указателя - непрерывности, случайного доступа и приоритета элементарного потока. Первый указатель свидетельствует о непрерывности счета времени во временных метках и необходим на при­еме для мониторинга ТП. Он устанавливается в «1», если на передающей стороне изменена база отсчета времени, например, гладко введена другая программа с иным PCR. Если в данном поле адаптации передается PCR, об этом свидетельствует однобитовый флаг PCR. Метка PCR занимает 48 битов, в том числе 33 бита собственно PCR, 6 битов зарезервировано для будущих применений и 9 битов занимает поле расширения PCR. В поле расширения ведется счет импульсов тактовой частоты 21 МГц. Как только их число достига­ет 300, поле обнуляется и значение PCR увеличивается на единицу. Так обеспечивается совместимость с MPEG-1, где отсчет времени ведется в периодах тактового генератора 90 кГц. Такой же формат имеет метка Исходной PCR (OPCROriginal PCR), передаваемой вместе с программой, заимствованной из другого транспортного потока. В отличие от PCR, значе­ние OPCR не изменяется в процессе передачи. Оно может использоваться, например, при записи и воспроизведении программы.

Еще один флаг, splice_countdown, указывает число пакетов с тем же PID в транспортном потоке, оставшихся до точки гладкого входа в поток (например, для ввода рекламы, или местных программ). Оставшуюся часть поля адаптации могут занимать либо служебные данные, либо данные пользователя, либо расширения поля адаптации, на что указывают соответствующие флаги. Формат данных пользователя включает однобайтовый указатель длины поля и собственно поле данных, которые в этом случае вводятся в так называемые секции транспортного пото­ка.

 

4.4.4 Мультиплексирование и статистическое мультиплексирование   

Принятая в стандарте MPEG-2 схема построения ТП может быть описана как двухступен­чатая. На первом этапе формируется программный поток (ПП) путем мультиплексирования одного или нескольких ПЭП с общей временной базой и индивидуальными PID (рисунок 4. 11а). На втором шаге ПП нескольких программ и управляющие потоки объединяются методом асинхронного пакетного мультиплексирования в единый транспортный поток (рисунок 4.11б). Отметим, что транспортный поток может быть построен и непосредственно из ПЭП или других ТП, если при этом сохраняются общие правила синтаксиса MPEG. Такая иерархичес­кая структура обеспечивает большую гибкость в построении систем вещания. Можно, напри­мер, объявить один ПЭП принадлежащим более чем одной программе и организовать так называемые виртуальные каналы, можно использовать несколько потоков одного вида для масштабирования, возможна организация межрегионального вещания с выбором от­дельного языка для каждого региона и т.д.

Рисунок 4.11 - Объединение ПЭП в программный поток (а) и

программ­ных потоков в транспортный поток (б)

 

Гибкость мультиплексирования ТП представляет одну интересную возможность построения многопрограммной системы вещания, связанную с вводом в ТП, формируе­мый мультиплексором из программ, кодированных локальными кодерами, «посторон­него» транспортного потока, поступившего по линии связи и имеющего другую временную базу (режим ремультиплексирования). Современные мультиплексоры легко справляются с такой задачей, позволяя при этом выбрать из компонентов пришедшего ТП желаемые, при необходимости изменить PID этих компонент, режим скремблирования и другие параметры.

Еще одна возможность гибкого изменения параметров сжатого сигнала - статис­тическое мультиплексирование, заключающееся в динамическом перераспределении ресурса битов между кодерами в многопрограммном цифровом потоке с учетом конк­ретных особенностей изображения в каждой программе таким образом, чтобы качество всех программ оставалось возможно более высоким. Более сложный контроллер может использовать технологию «заглядывания вперед» для оценки сложности представленных кадров и эта информация может служить для подстройки управления скоростью. Система работает следующим образом. Управляющий контроллер статистического мультиплексора получает от всех кодеров информацию о сложности обрабатываемого в данный момент изображения, оценивает ее и выделяет каждому кодеру ресурс битов, про­порциональный потребности. Дело в том, что при суммировании скоростей нескольких каналов среднее значение скорости растет пропорционально сумме средних значений составляющих, а среднеквадратичное отклонение изменяется пропорционально квадратному корню из числа каналов. Если в пакете программ присутствуют, например, фильмовые, детские, спортивные, развлекательные программы, в разные моменты времени в зависимости от наличия движения, детальности изображения, цветовой насыщенности они требуют разной скорости выходного потока для сохранения примерно одинакового субъективного качества изображения и, что еще важнее, пики скорости наступают в раз­ные моменты

времени, так что суммарная скорость может быть заметно снижена. Иссле­дования показали, что без ухудшения качества можно выиграть примерно 30% пропуск­ной способности канала. Это означает, что вместо 6 программ в спутниковом стволе можно передать 8, вместо 8 — 10...11. Проводившиеся на некоторых выставках демонст­рации передачи 18 и даже 24 программ — на сегодняшний день не более чем рекламный трюк и не имеют ничего о6щего с реальными задачами цифрового вещания.

 

4.4.5 Таблицы программно-зависимой информации

Вся информация, необходимая декодеру для обработки принятого цифрового потока и выделения нужных компонент программы, сосредоточена в управляющей информации (ее еще называют метаданными), передаваемой в составе транспортного потока. Она организована в виде нескольких таблиц, содержащих сведения о составе программ и идентификаторах их компонентов и называемых таблицами программно-зависимой ин­формации PSI (Program Specific Information).

          Алгоритм действий декодера при прочтении таблиц поясняет рисунок 4.12. Первая таблица, пакеты которой находит кодер в потоке - Таблица объединения программ (PATProgram Association Table). Таблица PAT имеет по умолчанию PID = 0 и включает информацию о программах, пере­даваемых в данном потоке, и иден­тификаторы, относящиеся к этим программам. Каждый такой PID, в свою очередь, определяет для выбранной программы Таблицу состава программы (РМТ — Program Map Table), в которой пе­речислены все компоненты, входя­щие в данную программу, с их идентификаторами. Теперь декодеру остается отобрать из общего потока пакеты с нужными идентификаторами и декоди­ровать их, восстановив изображение и звуковое сопровождение. Если программа плат­ная, декодеру придется анализировать еще и содержание Таблицы условного доступа (CATConditional Access Table) с PID = 1, в которой указаны идентификаторы пакетов с сообщениями системы условного доступа. Иногда в набор таблиц PSI вклю­чают еще необязательную Таблицу сетевой информации (NIT Network Information Table), которая определяет все транспортные потоки, относящиеся к данной сети. Со­держимое таблиц вводится в секции — области поля адаптации определенной длины, снабжаемые указателями. Размер секции для передачи служебной информации не дол­жен превышать 1024 байта. Возможна передача нескольких коротких секций в поле адаптации одного пакета транспортного потока или одной длинной секции в несколь­ких пакетах.

На рисунке 4.13 показана иерархия PSI таблиц и взаимосвязи между ними. Рассмотрим теперь структуру таблиц подробнее. Общий формат таблицы PAT показан на рисунке 4.14а. Она содержит заголовок длиной 8 байт и поле данных. Структура заголовка более детально развернута на рисунке 4.14б. Первым идет идентификатор таблицы table_id. Это однобайтовое число обязательно входит в состав любой таблицы и определяет ее тип.


Рисунок 4.12 – Алгоритм действий декодера при прочтении таблиц PSI

 

 


 
 

Рисунок 4.13 – Структура таблиц программно-зависимой информации PSI


 


а) общая структура; б) структура заголовка

Рисунок 4.14 – Формат таблицы РАТ

 

Может возникнуть вопрос: разве PID не определяет таблицу полностью, и зачем нужен еще один идентификатор? Дело в том, что PID является более общим указателем, чем table_id. Например, две таблицы TDT и ТОТ (о них мы узнаем в шестой главе) имеют одинаковый PID, но разные table_id. Следующий существенный указатель - длина секции в байтах. Два старших бита из 12 установлены на «0», так что длина секции не может превышать 1024 байта.

Идентификатор транспор­тного потока transport_stream_id размером 2 байта указывает ус­ловный номер в данной сети транспортного потока, в котором передается анализи­руемая таблица. Указатель номер версии изменяется на единицу каждый раз, когда в таблицу вносятся изменения. Если таблица разбита на несколько секций, однобайто­вый указатель номер секции сообщает номер передаваемой секции. Номер последней секции необходим для подтверждения того, что вся таблица принята декодером.

В поле данных таблицы PAT содержатся сведения о программах, передаваемых в транспортном потоке, с их номерами PID. Номер программы занимает 2 байта, затем следует 3-битовый промежуток и 13-битовое значение PID. Таблица РМТ создается отдельно для каждой программы, передаваемой в потоке. Общая структура таблицы показана на рисунке 4.16а, детальная структура заголовка - на рисунке 4.16б.

а) общая структура; б) структура заголовка
 
 

Рисунок 4.16 – Формат таблицы

 

Заголовок длиной 12 байтов содержит идентификатор таблицы table_id, всегда равный 0x02, номер программы, сведения о версии таблицы, номере секции и номере последней секции, а также PID того ПЭП в потоке, который переносит значе­ния PCR. В поле данных описывается одна из передаваемых программ со всеми ее компонентами, а завершается секция контрольной суммой. Описание программы содер­жит подробный перечень всех элементарных потоков, составляющих программу, с их основными параметрами. Тип потока (stream_id) указывает на содержимое данного потока (0x01 - MPEG-1 видео, 0x02 - MPEG-2 видео, 0x03 - MPEG-1 звук, 0x04 -MPEG-2 звук, 0x05 — нестандартные секции, и т.д.), elementary_PID сообщает значе­ние PID пакетированного потока, несущего данный элементарный поток, ES_info_length указывает длину дескриптора элементарного потока. По этим значениям декодер выде­ляет нужные элементарные потоки из общей цифровой последовательности.

Основными компонентами таблицы CAT являются уже знакомый нам table_id и дескриптор системы условного доступа — указатель, сообщающий декодеру условное обозначение используемой в потоке системы условного доступа и номер PID потока управляющих сообщений о правах доступа. Дескриптор условного доступа мо­жет присутствовать и в РМТ таблице, в этом случае он указывает на PID потока сооб­щений, необходимого для дешифровки скремблированной программы.

Частота повторения пакетов PAT и РМТ таблиц должна быть не менее 10 Гц, перио­дичность сообщений условного доступа определяется конкретной системой условного доступа.

        Рассмотренные три таблицы составляют необходимый минимум, без которого деко­дер MPEG-2 не сможет декодировать цифровой поток. Для многопрограммного веща­ния нужны дополнительные данные, описывающие организацию букетов программ, состав вещательной сети, содержание программ и т.д.

5 Перспективные стандарты семейства MPEG

 

5.1 Стандарт представления медиа-объектов MPEG-4

 

5.1.1 Предпосылки создания стандарта

Стандарт МPEG-4 базируется на трех китах: 1) цифровое телевидение;   2) интерактив­ные графические приложения; 3) интерактивные мультимедийные приложения. Тен­денция последних лет - сближение, слияние этих источников аудиовизуальной ин­формации, появление новых источников как натурального, так и синтезированного контента (содержания). До недавнего времени в вещании преобладала концепция «те­левидения» - программа готовилась в студии и передавалась как периодическая после­довательность строк изображения и сопутствующих звуков. Все усовершенствования, включая появление цифрового вещания и стандарта MPEG-2, не изменили эту концепцию в корне, хотя добавили к ней некоторые новые аспекты - многопрограммность, подписку, дополнительные услуги, зачатки интерактивности. Однако похоже на то, что сейчас традиционная концепция телевидения не удовлетворяет уже пользователей аудиовизуальных услуг. Зрители хотят иметь доступ к видео- и аудиопрограммам, как они уже имеют доступ к мультимедийному контенту через Интернет и World Wide Web - «Всемирную паутину».

В последние 3-4 года мультимедийные и графические средства все чаще вторгаются в область классического ТВ вещания, которое, в свою очередь, проникает в сферу муль­тимедиа (значительная часть ТВ и звуковых программ транслируется в Интернете, иногда в специальных Интернет-версиях). Аудиовизуальное содержание все чаще использует­ся в интерактивных приложениях, таких, например, как игры или дистанционное обу­чение. Заметно размывается граница между компьютерными изображениями, виртуаль­ной реальностью и телевидением. Все чаще возникает необходимость перемещать один и тот же контент из одной сети в другую, из одной сферы в другую, и требуются унифицированные форматы представления и передачи информации.

Все эти факторы сформировали потребность в едином стандарте, который бы опреде­лял формат представления аудиовизуальной информации, совместимый с любой средой распространения, и механизмы интерактивного взаимодействия с мультимедийным контентом. В стандарте должны быть предусмотрены возможности передачи различных ви­дов видео- и аудиоданных - текста, графики, двумерных (2D) и трехмерных (3D) изоб­ражений, натурального и синтезированного видео и аудио, в потоковой форме или в виде загружаемых файлов. Необходимо обеспечить высокое качество при очень низких скоро­стях передачи, гибкий доступ к контенту (с любого места, в ускоренном и замедленном режимах), средства интерактивного взаимодействия с объектами, вплоть до возможности абонента влиять на развитие сюжета, совместимость с любой транспортной средой. Важ­но иметь такой стандарт именно сейчас, на начальных этапах процесса, чтобы воспрепят­ствовать проникновению на рынок частных форматов отдельных компаний.

Именно эти задачи решает недавно появившийся стандарт MPEG-4 «Информацион­ные технологии — Обобщенное кодирование аудиовизуальных объектов». Первая вер­сия стандарта была принята в начале 1999 г. и получила индекс ISO/IEC 14496, вто­рая, дополняющая и расширяющая первую и обратно совместимая с ней — годом позже [2]. Сейчас идет работа над дополнениями, в частности, расширением раздела «Ви­део» в область студийных применений. В создании стандарта участвовали сотни экс­пертов из десятков стран, он во многих отношениях представляет собой высшее дости­жение инженерной мысли. 

Стандарт содержит 6 частей:

          14496-1 «Системы» определяет описание сцены, мультиплексирование, синхрониза­цию, управление буфером;

14496-2 «Визуальные средства» специфицирует кодированное представление нату­ральных и синтетических визуальных объектов;

 14496-3 «Звук» описывает кодированное представление натуральных и синтетических звуковых объектов; 14496-4 «Проверка соответствия» стандартам, определяет усло­вия соответствия для потоков и устройств;

14496-5 «Рекомендуемое программное обеспечение» содержит программные модули для большинства компонентов MPEG-4, которые могут быть использованы для постро­ения совместимых устройств;

 4496-6 «DMIF» определяет сеансовый протокол для управления мультимедийны­ми потоками в обобщенной среде.

Основное отличие MPEG-4 от ранее принятых стандартов – объектно ориентиро­ванное представление медиа-информации. В стандарте вводится ключевое понятие медиа-объекта - единицы звукового, визуального или аудиовизуального контента. Лю­бая сцена разделяется на объекты, которые соотносятся в пространстве и времени и описываются отдельными элементарными потоками (ЭП). Объекты могут быть нату­ральными - записанными с видеокамеры или микрофона, и синтетическими - синтезированными в компьютере. Такой подход имеет ряд преимуществ: более экономно расходуются биты для описания сцены, отдельные объекты легко использовать в дру­гих сценах, упрощается построение масштабируемых объектов и взаимодействие с объек­тами, появляются широкие возможности взаимодействия пользователя с выбранным объектом, например, вывод дополнительной информации об объекте, изменение его параметров (цвета, текстуры, громкости звучания или языка), исключение объекта из сцены, создание пользователем новых сцен из объектов, полученных от разных источ­ников или хранящихся в памяти терминала. Все эти операции требуют лишь изменить описание сцены, а это вполне под силу процессору абонентского терминала.

 

 

5.1.2 Описание сцены

         Для описания сцены и ее динамического изменения в MPEG-4 используется специаль­но разработанный двоичный язык BIFS (Binary Format for Scenes — двоичный формат описания сцен). Описание сцены указывает декодеру, где и когда воспроизводить объекты, входящие в сцену, и как реагировать на воздействие пользователя. Чтобы увязать ЭП с медиа-объектами в сцене, используются дескрипторы объекта. Они переносят инфор­мацию о числе и свойствах ЭП, связанных с конкретными медиа-объектами. Сами дескрипторы также переносятся в одном или нескольких ЭП, поэтому нетрудно добавить или удалить объект во время сеанса. Потоки дескрипторов могут рассматриваться как описания потоковых ресурсов для представления, а описание сцены служит для изме­нения пространственно-временного размещения объектов в сцене. MPEG-4 определил специальный язык синтаксических описаний для точного описания синтаксиса пото­ков, переносящих информацию о медиа-объектах и описания сцен. Он представляет собой расширение языка C++ и позволяет дать точное, описание синтаксиса и в то же время упростить проверку на соответствие.

BIFS оперирует двумя протоколами модификации сцены во времени - командным (BIFS-Command) и анимационным (BIFS-Anim) [2]. Командные потоки BIFS позво­ляют загружать новую сцену, изменять свойства объектов, вводить и уничтожать объек­ты. Потоки BIFS-Anim управляют процессами анимации сцены, например, изменением точки взгляда, перемещением, трансформацией размера, плавным изменением цвета, ос­вещенности и т.д. Синхронизация потоков осуществляется путем временной привязки. Как и в предыдущих стандартах MPEG, один вид временной метки обеспечивает синхро­низацию тактовых частот кодера и декодера, метки другого вида, привязанные к функци­ональным единицам аудиовизуальных данных, содержат желаемое время декодирования (для единиц доступа) или время завершения компоновки (для компоновочных единиц).

Основные принципы BIFS заимствованы из языка VRML (Virtual Reality Modelling Language - язык моделирования виртуальной реальности), разработанного для созда­ния 3D графики. Это широко распространенный и в значительной степени бесплатный язык программирования, точнее, эффективный 3D формат обмена, как бы объемный аналог HTML. Дело в том, что некоторые виды информации лучше воспринимаются в объемном виде - игры, результаты научных исследований, архитектурные решения. VRML обеспечивает интеграцию трехмерных, двумерных, текстовых и мультимедий­ных объектов в связную модель. Он оперирует объектами, каждый из которых имеет различные атрибуты. Объект называется узлом, а атрибуты - полями. Число по­лей зависит от типа узла. Полный перечень узлов и полей известен как граф (разветв­ленная древообразная структура). VRML включает большинство используемых в 3D приложениях средств: иерархические трансформации, источники света, выбор точки взгляда, анимацию, свойства материала, отображение текстуры и т.д.

Язык BIFS позаимствовал у VRML структуру описания сцены в виде графа, модели поведения, графические примитивы для построения 3D-изображений: конусы, сферы, сетки, текстовые примитивы, текстурирование и подсветку (всего их 36). В то же время BIFS имеет существенные отличия от VRML, в него внесены новые решения:

1) VRML — язык высокого уровня, BIFS — двоичный, благодаря этому объем со­общений в нем в 10-15 раз меньше, чем в VRML; хотя объем описаний сцены обычно меньше, чем аудиовизуальной информации, эти описания передаются непрерывно и могут в результате составить заметную часть передаваемых данных, поэтому сжатие потоков BIFS достаточно актуально;  

2) VRML работает с файлами, предварительно загружаемыми в процессор, a BIFS предназначен в первую очередь для потоковой передачи в реальном времени;

3) BIFS позволяет работать как с 2D, так и с 3D объектами, осуществлять масштаби­рование, перемещение, вращение, более того, впервые решена задача представления в одной сцене и 2D, и 3D объектов.

          Во второй версии стандарта в нем расширен BIFS, введены спецификации языков HTML 4.0 и MPEG-J, спецификация файла .mр4 для хранения и транспортировки данных MPEG-4 [2]. Новая версия BIFS предусматривает анимацию фигуры, улуч­шенную модель направленности источника звука, модель окружающей звуковой среды в интерактивной виртуальной сцене, учитывающую отражение звука от стен помеще­ния (реверберацию, эффект Допплера, наличие препятствия между источником звука и пользователем), введение иерархических 3D сеток.

 

5.1.3 Доставка потоков данных

Полученные в результате кодирования элементарные потоки необходимо доставить к декодеру. Для этого MPEG-4 предлагает двухуровневый механизм мультиплексирова­ния, показанный на рисунке 5.1. Элементарные потоки поступают на мультиплексирова­ние, пройдя уровень синхронизации SL (Sync Layer), где в заголовки пакетированных элементарных потоков (ПЭП) вводятся временные метки. Первый уровень, названный FlexMux, играет вспомогательную роль в мультиплек­сировании, он объединяет низкоскоростные потоки с одинаковыми требованиями к качеству передачи, чтобы уменьшить их число в сложных сценах и сократить время передачи. Использование FlexMux не является обязательным, и он может быть пустым, если следующий уровень обеспечивает все необходимые функции. FlexMux не имеет собственных средств защиты от ошибок.

Второй уровень, TransMux (Transport Multiplexing), предлагает транспортные услу­ги по передаче потоков с заданным качеством обслуживания. Условия передачи пред­полагают необходимую пропускную способность, допустимый уровень ошибок, макси­мальное время задержки, приоритет и т.д. TransMux не является транспортным протоколом как таковым, он представляет собой скорее интерфейс между кодером MPEG-4 и стандартным транспортным протоколом. В качестве такового могут использоваться протокольные стеки RTP/UDP/IP, AAL5/ATM, транспортный поток MPEG-2.

Рисунок 5.1 - Двухуровневый механизм мультиплексирования циф­рового

потока в стандарте MPEG-4

 

Взаимодействие с транспорт­ной средой управляется прото­колом DMIF (Delivery Multimedia Integration Framework - мультимедийная интегрированная система достав­ки). DMIF, как его определяет стандарт - сеансовый прото­кол для управления потоковой передачей в произвольных сре­дах. После запуска он устанав­ливает соединение с удаленным абонентом, выбирает подлежа­щие передаче потоки и посыла­ет запрос на их передачу. Порт DMIF посылает отметки к тем точкам, откуда будут передавать­ся потоки, и устанавливает соединение. Функции DMIF по связи с транспортными прото­колами реализуются через интер­фейс DAI (DMIF Application Interface), который получает ПЭП от уровня синхронизации и переводит запросы DMIF в команды, воспринимаемые конкретным протоколом. Команды для разных протоколов могут быть различными. На приемном конце индивидуальные ЭП выделяются из пришедшего транспортного потока путем демультиплексирования (рисунок 5.2). На этом этапе DMIF не отвечает за работу транспортного протокола, он подключается только при наличии потоков FlexMux. Выделенные после демультиплексирования пакеты ПЭП обрабатываются с целью из­влечения из них информации о синхронизации. Эта информация переносится в заго­ловках пакетов, генерируемых на уровне синхронизации.

Во второй версии стандарта введены два дополнительных механизма, облегчающие транспортировку и опознавание элементарных потоков. Первый предназначен для орга­низации передачи файлов и имеет вид специального файлового формата представления контента с расширением .mр4. Он содержит большой объем описательной информа­ции, позволяющей передавать файлы, с помощью любых протоколов, редактировать их содержимое и воспроизводить его на разных терминалах. В основу положен популяр­ный формат Quick Time.

 

Рисунок 5.2 - Структура терминала MPEG-4

 

Второй механизм - интерфейс программных приложений MPEG-4 с кодами извест­ного языка программирования Java - призван облегчить интеграцию Java-приложений в структуру MPEG-4. Он будет принимать ЭП Java-приложений, обрабатывать их и направлять к соответствующим компонентам MPEG-4 плейера. Усовершенствование протокола DMIF во второй версии стандарта касается введения возможности работы с мобильными средствами связи, обеспечения более широкого класса параметров качества обслуживания (Q0S), поддержания сеансовой работы одно­временно с несколькими сетевыми провайдерами, имеющими собственные порты, и т.д.

 

5.1.4 Кодирование визуальных объектов

Первоначально предполагалось ограничить пределы скорости цифрового потока MPEG-4 видео значениями 4,8 кбит/с снизу и 64 кбит/с сверху. Однако в ходе разработки стало ясно, что заложенные принципы кодирования значительно мощнее, чем только кодирование на сверхнизких скоростях. Предел сверху был расширен до 10 Мбит/с в первой версии, до 38 Мбит/с во второй версии и ведется работа по его дальнейшему расширению. Тем не менее, визуальная часть стандарта не предназначена для вещатель­ного телевидения, хотя и может обеспечить очень высокое качество изображения.

Основные требования, заложенные в разработку второй части стандарта, сводились к трем условиям: эффективное кодирование натуральных и синтетических изображе­ний; высокая функциональность в интерактивном окружении; устойчивость в среде распространения с ошибками.

Средства представления натурального видео в MPEG-4 обеспечивают стандартизо­ванную технологию обработки, хранения и передачи текстуры, изображений и видео для мультимедийных применений. В отличие от MPEG-2, где вся сцена раскладыва­лась до пиксела и затем осуществлялось однородное кодирование всего изображения, в MPEG-4 сцена разбивается на видеообъекты, для каждого объекта описываются его форма, текстура, местоположение, оптические характеристики (яркость, цвет, положе­ние светотени), параметры движения - перемещение, вращение, изменение масштаба, данные кодируются со сжатием, упаковываются в отдельные ЭП (по несколько потоков на каждый объект), мультиплексируются и передаются декодеру. Визуальная сцена может состоять из одного или нескольких объектов. Каждый объект характеризуется пространственной и временной информацией в виде формы, текстуры и движения. Для некоторых приложений введение понятия визуального объекта оказывается неоправ­данно сложным, для них MPEG-4 допускает кодирование прямоугольными кадрами, которые представляют собой вырожденный случай объекта произвольной формы.

Пользователь может восстановить сцену в ее исходном виде, а может произвести определенные манипуляции - исключить часть объектов или ввести новые, изменить точку взгляда, масштаб, цвет и т.д. Разумеется, пользователь может внести только те изменения, которые предусмотрел автор.

Стандарт обработки визуальных объектов поддерживает широкий диапазон измене­ния входных параметров видеопоследовательности. Развертка может быть прогрессив­ной и чересстрочной, пространственное разрешение по яркости - от 8 х 8 до 2048 х 2048 пикс. (SQCIF, QCIF, CIF, 4CIF, Рек. ВТ.601); в цветовом пространстве допуска­ются сигналы монохромный и Y,CB,CR; пространственное разрешение по цветности«4:0:0», «4:2:0» и «4:2:2» (только в студийном профиле); частота кадров может изме­няться от 0 до 30 Гц и более, причем может меняться от кадра к кадру; разрядность квантования - 8 бит с возможностью изменения от 4 до 12 бит. Нетрудно убедиться, что возможности выбора параметров значительно шире, чем даже в MPEG-2.

В зависимости от скорости цифрового потока могут использоваться алгоритмы, от­носящиеся к одной из трех групп:

1) Низкоскоростное видео (VLBV Very Low Bit-rate Video) - скорость 5...64 кбит/с, разрешение не выше CIF, частота кадров до 15 Гц; основное назначение - кодирование обычных прямоугольных изображений с высокой эффективностью для мультимедий­ных приложений реального времени, а также системы случайного доступа к мультиме­дийным базам данных с быстрым поиском «вперед» и «назад»;

 

Рисунок 5.3 - Структура визуального цифрового потока

 

2) Высокоскоростное видео - скорость 64 кбит/c...10 Мбит/с; те же применения, но с более высоким пространственным и временным разрешением, вплоть до Рек. ВТ.601, также мультимедийное вещание или обратный канал в интерактивных системах с каче­ством, сравнимым с цифровым вещанием; системы с чересстрочной разверткой;

3) Кодирование, основанное на контенте, - поддерживает отдельное кодирование и декодирование натуральных объектов в сценах с гибридным кодированием; эта группа допускает смешение некоторого числа видеообъектов с синтетическими объектами (вир­туальные задники). Визуальный цифровой поток MPEG-4 можно изобразить иерархической последовательностью уровней, как показано на рисунке 5.3. Последовательность визуаль­ных объектов (VS Visual Object Sequence) в этой иерархии соответ­ствует видеопоследова­тельности в MPEG-2 и отображает сцену с произ­вольным числом 2D и 3D натуральных и синтети­ческих объектов и их улучшающих слоев. Ви­деообъект (VO) соответ­ствует обычному двумерному объекту в сцене. В самом простом случае он может быть прямоуголь­ным кадром, в общем слу­чае - объектом произ­вольной формы. Слой видеообъекта (VOL) - соответствует каждому ЭП, описывающему видеообъект. VOL может быть полнофункциональ­ным или с укороченным заголовком, в этом случае он совместим с потоком стандарта Н.263. Каждый видеообъект дискретизируется во вре­мени и такой временной срез (отсчет) видеообъекта называется плоскостью видеообъек­та (VOP), Несколько плоскостей могут объединяться в группу плоскостей видеообъекта (GOV). Не правда ли, эта иерархия очень напоминает структуру видеопоследовательнос­ти MPEG-2? Плоскости видеообъекта могут кодироваться независимо (1-кодирование), или совместно, с применением компенсации движения (Р- и В-кодирование). Обобщен­ная схема кодера MPEG-4 показана на рисунке 5.4. Она включает кодирование формы и компенсацию движения, а также кодирование текстуры, базирующееся на ДКП (стандар­тное или адаптивное к форме объекта). Каждый видеообъект кодируется отдельно, затем цифровые потоки объединяются. В стандарте MPEG-4 применяются два метода кодирования информации о форме объекта — бинарное и градационное. При бинарном кодировании оперируют матрицей того же размера, что и плоскость видеообъекта, элементы которой могут принимать значения только 1 или 0 в зависимости от того, находятся ли они внутри объекта или вне его. Градационное кодирование более гибкое, оно описывает элементы матрицы 8-битовыми словами и позволяет кодировать «полупрозрачные» и «затуманенные» изображения.

Рисунок 5.4 - Обобщенная структурная схема видеокодера MPEG-4

Для цифрового сжатия плоскости видеообъектов, содержащие информацию о пере­мещении и текстуре, разбиваются на макроблоки размером 8x8 или 16 х 16 пикс., содержащие блоки отсчетов яркости и цветности, к этим последним применяется ДКП с последующим квантованием и кодированием квантованных разностей. Процесс схож с обычным цифровым сжатием из предыдущих стандартов MPEG.

           При кодировании текстуры поступают следующим образом. На плоскость видеообъ­екта накладывают решетку с ячейками 8x8 элементов. Те ячейки, которые полностью разместились внутри объекта, кодируются обычным ДКП, за исключением того, что после квантования производится дополнительное предсказание коэффициентов блока на основе соседних блоков. Блоки, которые оказались на границе видеообъекта, допол­няются до размера 8 х 8 по определенным правилам и только после этого кодируются (так называемое Shape-Adaptive DCT — ДКП, адаптивное к форме).

Более эффективный метод кодирования текстуры и неподвижных изображений под­держивается специальным режимом кодирования в MPEG-4, основанным на волновом преобразовании с нулевым деревом. Наряду с высокой эффективностью сжатия этот метод обеспечивает пространственную масштабируемость (до 11 уровней) и непрерыв­ную масштабируемость по качеству. Масштабируемость в MPEG-4 обеспечивается передачей для видеообъекта несколь­ких цифровых потоков - VOL, один из которых базовый, остальные - улучшающие. При пространственном масштабировании может быть достигнуто улучшенное простран­ственное разрешение, временное масштабирование сглаживает движение. На рисунке 5.5 показано, как в этом случае кодер и декодер обрабатывают поступающие потоки. Предпроцессор субдискретизирует поступающие VOP и разделяет их на базовый и улучшающий слои. Поток базового слоя передается обычным путем, а в канале улучшающего слоя передается только разность между сигналом, поступившим от процессора, и сигналом, восстановленным промежуточным процессором путем повышающей дискретиза­ции. На приеме процессы происходят в обратном порядке.

Рисунок 5.5 - Масштабируемое кодирование/декодирование в стандарте MPEG-4

 

          Дальнейшему сокращению цифрового потока способствует глобальная компенсация движения, основанная на передаче статических спрайтов. Спрайтом называется часть видеообъекта, которая устойчиво присутствует в нем практически без изменений на протяжении довольно длительного времени. Это могут быть, например, панорамный задний план или группа неподвижных предметов, закрывающая значительную часть кадра. Такое почти статическое изображение может быть передано полностью один раз, в начале трансляции, а затем корректироваться декодером по мере необходимости. Ин­формация о форме и текстуре спрайта кодируется как I-VOP. Для каждого следующего изображения в последовательности кодируются только 8 параметров глобального дви­жения, описывающих движения телекамеры. Чтобы снизить задержку, сначала переда­ют часть информации спрайта с грубым квантованием, а затем добавляют более тонкие структурные особенности. Можно также передать часть изображения, необходимую для реконструкции первых VOP, а затем дослать по частям остальные участки спрайта. На практике применяется сочетание обоих методов.

На рисунке 5.6 схема декодера показана более детально. Здесь видно, как обрабатывают­ся и затем объединяются данные о форме и текстуре изображения. В цифровом потоке визуальной информации применяются дополнительные меры для повышения устойчивости к ошибкам:

- Ресинхронизация: после определенного количества битов в поток вводятся маркеры, отмечающие точки, к которым декодер переходит при потере части битов в потоке.

- Разделение данных: данные о перемещении и о текстуре разделяются на более мел­кие порции для облегчения маскирования.

- Код расширения заголовка: вводится дополнительная кодозащита в заголовок паке­та, повышающая его устойчивость к ошибкам.

     

Рисунок 5.6 - Декодирование видеокадра MPEG-4

 

Реверсивное кодирование с переменной длиной: кодовые слова реверсивного кода могут декодироваться как с начала, так и с конца. Если декодер встречает поврежденные биты, он не отбрасывает всю оставшуюся часть слова, а декодирует его с противо­положного конца до поврежденного участка, минимизируя потери Синтетические объекты представляют значительный раздел компьютерной графики. В стандарт MPEG-4 включены следующие операции с объектами такого рода: парамет­рические описания синтезированного лица и фигуры; кодирование статических и дина­мических сеток с отображением текстуры; кодирование текстуры для проективных приложений. Метод анимации предполагает однократную передачу базового статического образа и последующую досылку сообщений, описывающих динамические изменения объекта. В первой версии стандарта этот метод используется для передачи синтезированного человеческого лица. За основу берется обобщенный шаблон лица с нейтральным выра­жением - один из хранимых в базе или специально загружаемый на передающей стороне. Он дополняется индивидуальными чертами, текстурой, выражением с помощью управляющих параметров (Facial Definition Parameters - параметры, определяющие лицо), другая группа параметров (Facial Animation Parameters - параметры анимации лица) изменяет выражение лица, вводит мимику, артикуляцию. Параметры передаются в отдельных потоках, для сжатия используется кадровое кодирование с ДКП.

Двумерная сетка представляет собой часть плоскости, поделенную на полигональ­ные (многоугольные) участки. Точки пересечения линий называются узлами. MPEG-4 рассматривает только треугольные сетки. Сетка может быть Заполнена текстурой, тогда ее называют контентно-наполненной (content-based). Для описания сетки в динамике достаточно передать геометрию сетки и описать движение всех ее узлов. При этом треугольные участки текущего кадра получаются путем деформации треугольных участ­ков опорного кадра, текстура также деформируется путем параметрического отображе­ния векторов перемещения узлов сетки.

Двумерное моделирование может быть использовано для эффективного сжатия, если передавать опорные ключевые кадры и посылать векторы перемещения и информацию о текстуре для восстановления промежуточных кадров. Во второй версии стандарта добавлены новые технологии и алгоритмы, позволив­шие повысить эффективность кодирования, устойчивость к ошибкам, улучшить вре­менное разрешение при малой задержке в буфере. В частности, введен режим глобаль­ной компенсации движения, точность компенсации повысилась до 1/4 пиксела, внедрены три новых инструмента кодирования текстуры и неподвижных изображений; волновое кодирование с разделением на небольшие самостоятельно кодируемые участ­ки, масштабируемое кодирование формы, сегментация и пакетирование для повышения устойчивости к ошибкам. Интересным новшеством второй версии является возможность кодирования кратных изображений (стереоскопических или полученных с, близких точек) с устранением из­быточности между ними. Этот режим основан на методе градационного кодирования формы объекта и использует дополнительные возможности данного метода.

В области синтетических изображений основными нововведениями второй версии можно считать средства анимации человеческой фигуры (теми же методами, что и лица в первой версии) и кодирование трехмерных полигональных сеток.

 

5.1.5 Кодирование звуковых объектов

          Широкие возможности представляет стандарт MPEG-4 для кодирования звука. Впер­вые используются раздельные алгоритмы для кодирования звуков музыкального проис­хождения и речи, введены мощные средства создания и обработки синтезированного звука. Наиболее широкий круг звуковых объектов, от низкоскоростных моно до многока­нального звука вещательного качества, относится к категории Универсального звука (GA General Audio). В качестве основного алгоритма кодирования звуков различно­го происхождения принят известный нам из MPEG-2 алгоритм ААС с незначительными  усовершенствованиями. Одно из них касается введения режима PNS (Perceptual Noise Substitution - перцептуальное замещение шумом). Суть данного метода заключа­ется в обнаружении в приходящем сигнале шумоподобных составляющих и исключе­нии их из общего процесса кодирования. Декодеру передается информация о мощности шумовых компонентов в отдельных участках спектра и он подменяет соответствующие спектральные коэффициенты псевдослучайными сигналами с требуемой мощностью. Режим PNS иллюстрируется структурной схемой рисунка 5.7.

а) кодер; б) декодер

Рисунок 5.7 - Схема реализации режима PNS

 

Еще одно усовершенствование связано с введением алгоритма BSAC (Bit-Sliced Arithmetic Coding - арифметическое кодирование с побитовым расщеплением). Что­бы получить масштабируемый поток, BSAC использует альтернативный по отношению к ААС модуль кодирования квантованных коэффициентов с точным управлением ско­ростью потока в пределах от 16 до 64 кбит/с с шагом 1 кбит/с. Существенный выигрыш в скорости потока для стационарных гармонических и ква­зигармонических сигналов позволяет получить метод долговременного предсказания LТР (Long Term Prediction). В технике кодирования речи этот метод широко используется во временной области. В стандарте МРЕG-4 он интегрирован в схему универсального кодера (рисунок 5.8), где операции квантования и кодирования осуществляются над спектральными представлениями входного сигнала.

 

Рисунок 5.8 - Схема универсального кодера с LTP

 

Для работы схемы LТР кодированный сигнал предыдущего кадра переводится обратно во временную область с помощью ин­версного преобразования TNS и синтезирующего БФ, в блоке LТР он сравнивается с приходящим сигналом, а полученная разность опять переводится в спектральную об­ласть. Специальный переключатель FSS (Frequency Selective Switch - переключатель с частотной избирательностью) выбирает исходный или разностный сигнал в зависимо­сти от того, какая альтернатива в данный момент предпочтительнее. По сравнению с предсказанием из МРЕG-2 ААС данный метод предсказания требует вдвое меньших ресурсов памяти и производительности процессора. Для увеличения эффективности кодирования музыкальных сигналов на низких скоро­стях разработан новый алгоритм Twin VQ (Transform-domain Weighted Interleave VQ - взвешивающее векторное квантование с перемежением и преобразованием областей). Ос­новная идея — заменить обычное кодирование спектральных ком­понентов в ААС перемежающим векторным квантованием, прило­женным к нормализованному спектру. Квантование спектраль­ных коэффициентов осуществля­ется в два шага: на первом они нормализуются к некоторому пределу, на втором - квантуют­ся с использованием векторного квантования. Процесс нормали­зации включает оценку спектра по шкале Варка, извлечение пе­риодических компонентов и оценку мощности спектральных составляющих.

Рисунок 5.9 - Алгоритм TwinVQ векторного квантования спектраль­ных компонентов

 

В результате нор­мализации спектральные коэффициенты выравниваются и нормализуются вдоль частот­ной оси. Затем нормализо­ванные коэффициенты опи­сываются как многомерный вектор, чередуются в субвек­торы, как показано на рисунке 5.9, и квантуются с исполь­зованием векторного кванто­вания. Остальная часть ал­горитма ААС остается неизменной. TwinVQ дает хорошие ре­зультаты в области скорос­тей от б до 24 кбит/с и ис­пользуется в основном в универсальных кодеках MPEG-4 с масштабированием для формирования базового слоя.  Для кодирования речи применяются два основных алгоритма: параметрический HVXC (Harmonic Vector eXcitation Coding - кодирование с помощью гармонических векто­ров) и CELP (Code Excited Linear Prediction coding - кодирование с линейным предсказанием). Первый алгоритм обеспечивает более высокое сжатие, он применяется в интервале скоростей потока 2-4 кбит/с (при переменной скорости - даже до 1,2 кбит/с), работает с частотой дискретизации 8 кГц в полосе стандартного телефонного канала 300-3400 Гц, Второй алгоритм имеет несколько разновидностей, работает в двух режимах - полосы частот 300-3400 Гц с дискретизацией 8 кГц и 50-7000 Гц с дискре­тизацией 16 кГц, и обеспечивает скорость потока от 4 до 24 кбит/с. Оба алгоритма базируются на моделировании речи с линейным предсказанием. Поступающий речевой сигнал сравнивается с сигналом, предсказанным моделью речевого тракта, параметры модели изменяются таким образом, чтобы минимизировать разность двух сигналов, и передаются декодеру. В декодере имеется такая же модель, которая по полученным значениям параметров синтезирует речевой сигнал. В HVXC более высокая степень сжатия объясняется более грубым анализом по огибающей спектра и изменениям высо­ты тона. CELP использует более точный спектральный анализ с долговременным пред­сказанием, обеспечивая более высокое качество передачи речи.

Рисунок 5.10 - Масштабируемость речевого кодека CELP

 

        Основное преимущество обоих алгоритмов перед речевыми кодеками, стандартизо­ванными МСЭ — масштабируемость по скорости (у CELP с шагом 200 бит/с), по полосе частот, что обеспечивает возможность работы с декодерами разной сложности. Эта возможность проиллюстрирована на рисунке 5.10, где показано, что кодер выдает базо­вый поток и улучшающие слои, а декодеры принимают эти потоки в соответствии со своими возможностями.

Рисунок 5.11 - Области применения различных алгоритмов кодирования звука

 

На рисунке 5.11 наглядно показаны области применения различных алгоритмов кодиро­вания звука, применяемых в MPEG-4.

Если при кодировании натуральных звуков используется перцептуальное сжатие исходного звукового сигнала, то кодирование синтезированного звука производится путем создания его описания. Это описание передается декодеру и по нему синтезирует­ся звук, аналогичный исходному. В стандарте MPEG-4 этот процесс реализуется в рамках формата «Структурированное аудио», допускающего передачу по каналу синтезированных звуков и музыки со скоростями 0,01-10 кбит/с. Для описания музыкаль­ных звуков различных

инструментов разработан специальный структурированный ор­кестровый язык (SAOL Structured Audio Orchestra Language), он оперирует загру­жаемыми в поток «инструментами». Инструмент представляет собой небольшой программный или аппаратный модуль генерации и обработки простейших сигналов, который может воспроизводить определенные звуки, в том числе и схожие со звуками музыкальных инструментов MPEG-4 не стандартизует метод синтеза, скорее он дает способ описания методов синтеза, пригодный для всех существующих и перспективных алгоритмов.

Второй язык - структурированный партитурный язык (Structured Audio Score Language) предназначен для описания партитуры всех инструментов, составляющих звуковой объект. Для воссоздания звуковой сцены в декодер загружаются параметры всех инструментов, а затем в потоке передается партитура.

Стандартом поддерживается механизм привязки звука к расположению объекта в пространстве сцены и его изменения при перемещении объекта, введены механизмы изменения звука в зависимости от акустических свойств пространства сцены.

Одно из новшеств стандарта МPEG-4 - алгоритм преобразования текста в речь TTSI (Text-to-Speech Interface). По каналу передается текст со скоростью от 200 бит/с до 1,2 кбит/с, а декодер преобразует его в речь. В отличие от обычных синтезаторов речи, извлекающих из базы данных фонемы (единицы речи) и соединяющих эти фонемы в связную, но совершенно лишенную эмоций речь, TTSI дополняет речь характеристика­ми живого голоса - тембром, интонацией, акцентом, просодией (так называется система произношения ударных и неударных, долгих и кратких звуков). Поддерживаются и дру­гие функции: синхронизация речи с синтезированным лицом говорящего, включая выра­жение лица и движения губ; возможность для пользователя изменить ритм, тон, гром­кость, пол, возраст говорящего; сменить язык; изменение характеристик речи при перемещении говорящего в пространстве сцены; возможность остановки, ускоренного воспроизведения вперед и назад без нарушения просодии и т.д. Возможные области применения TTSI - искусственный рассказчик (по запросу); синтез речи, синхронной с анимацией; синтез речи для виртуальной реальности; говорящая газета; средство дубли­рования для анимационных картинок; голосовой Интернет и многие другие. Во второй версии стандарта приняты дополнения и усовершенствования к существу­ющим алгоритмам, введены новые алгоритмы. В частности, повышена устойчивость к ошибкам в ААС, введена опция звукового кодера ААС с малой алгоритмической задер­жкой (Low-Delay Audio Coder — задержка 20 мс вместо нескольких сотен миллисе­кунд). Снижение задержки достигается уменьшением длины кадра до 512 отсчетов вме­сто 1024, уменьшением вдвое размера окна оконной функции, минимальным использованием резервуара битов. Ценой снижения задержки стало увеличение скоро­сти потока для «прозрачного» канала примерно на 8 кбит/с, но такой кодер все еще лучше кодера МР-3 на скорости 64 кбит/с.

Рисунок 5.12 - Масштабирующий универсальный кодер MPEG-4

 

Во второй версии масштабируемость кодера Универсального звука сделана более детальной (шаги 2 кбит/с вместо 16 кбит/с). Масштабируемость достигает благодаря кодированию потока звукоданных несколькими кодерами, первый из которых обраба­тывает прореженный исходный поток, а каждый из последующих компрессирует раз­ность между входным и декодированным сигналами предыдущей ступени (рисунок 5.12). Для работы на очень низких скоростях введен алгоритм параметрического кодирования HILN (Harmonic and Individual Lines plus Noise — гармоники и одиночные линии плюс шум), базирующийся на представлении звукового сигнала как набора синусоид, гармо­ник и шумов и передаче по каналу параметров этих первичных сигналов. Частоты и амплитуды первичных сигналов квантуются с разрешением, соответствующим градации «различие едва заметно». Спектральная огибающая шума и гармонические компоненты описываются на основе техники линейного предсказания, при этом используется корре­ляция между параметрами в кадре и между последовательными кадрами. Этим методом можно кодировать звуковые сигналы начиная со скорости 4 кбит/с. Упомянем также специальный формат транспортного потока для звуковых применений с малой избы­точностью LOAS (Low Overhead Audio Stream), возможность организации обратного канала от пользователя к источнику контента для поддержки интерактивных приложе­ний, более устойчивую к ошибкам версию HVXC.

 

5.1.6 Профили и уровни стандарта МРЕG-4

           MPEG-4 представляет собой обширный набор средств и алгоритмов кодирования аудио­визуальных объектов. Чтобы сделать реализацию декодера экономически оправданной и облегчить проверку на соответствие стандарту, в некоторых разделах определены ограни­ченные наборы инструментов, называемые Профилями. Для каждого из профилей уста­новлены один или несколько уровней, ограничивающих требования к вычислительным способностям декодера. Понятие Профиля введено для визуальных объектов, аудио, си­стемы и описаний сцены. Однако специфика MPEG-4 потребовала некоторых дополне­ний по сравнению с предшествующими стандартами. В MPEG-2 видеокадр можно представить себе как один прямоугольный объект, занимающий всю сцену, и для него доста­точно определить один профиль. В MPEG-4 объектов может быть несколько, для каждо­го оптимальным будет свой профиль, поэтому введена дополнительная градация, как промежуточная между уровнем и профилем — тип объекта. Этот параметр определяет синтаксис (структуру) цифрового потока для одиночного объекта. Профиль же определя­ет набор типов объектов, которые могут присутствовать в сцене.

Для натуральных объектов определены пять типов объектов:

1) Простой — прямоугольный объект с произвольным форматом, использует про­стые средства кодирования, основанные на I- и P-VOP.

2) Простой масштабируемый — прямоугольный объект с пространственным и вре­менным масштабированием.

3) Базовый — производный от Простого, с добавлением B-VOP. Чересстрочная раз­вертка не поддерживается.

4) Основной — обеспечивает высшее качество, по сравнению с Базовым дополни­тельно поддерживает градационное кодирование формы, спрайты, чересстрочное разло­жение.

5) N-битовый — аналогичен Базовому, но допускает квантование плоскостей ярко­сти и цветности с разрядностью от 4 до 12 бит.

Для кодирования неподвижных натуральных визуальных объектов существует спе­циальный тип объекта:

6) Неподвижная масштабируемая текстура — неподвижное изображение произволь­ной формы, использует волновое кодирование и пошаговую загрузку и восстановление. Для синтетических объектов определены следующие три типа объектов:

7) Анимированная двумерная сетка — объединяет синтетическую сетку (прямоу­гольную или топологии Делоне) с натуральным видео, кодируемым по Базовому типу. Видео может отображаться на сетку и деформироваться путем перемещения ее узлов - это дает интересные анимационные возможности. Визуальный объект может быть лю­бой формы.

8) Базовая анимированная текстура - анимация неподвижных изображений (таких, как в типе 6).

9) Примитивное лицо - средство анимации человеческого лица. Этот тип объекта не определяет конкретное лицо, анимация может быть применена к любой выбранной модели.

Профили, как уже сказано, определяют, какие типы визуальных объектов могут присутствовать в сцене. В первой версии стандарта 9 профилей, допустимые сочетания профилей и типов объектов приведены в таблице 5.1. Простой профиль допускает присут­ствие только объектов Простого типа и предназначен в первую очередь для мобильных служб и Интернета. Он поддерживает до 4-х объектов в сцене с максимальным разре­шением QCIF, три уровня ограничивают скорость потока в пределах от 64 до 384 кбит/ с, максимальную площадь, занимаемую объектом, и число макроблоков в секунду, ко­торое декодер должен обработать. Простой масштабируемый профиль может осуществ­лять кодирование с масштабированием при тех же предпосылках, имеет два уровня. Базовый профиль воспринимает типы объектов Простой и Базовый, полезен для инте­рактивных приложений. Основной профиль создавался с учетом вещательных служб. Са­мый высший уровень Основного профиля поддерживает до 32 объектов Простого, Базово­го или Основного типа и максимальную суммарную скорость потока до 38 Мбит/с. N-битовый профиль работает с объектами Простого, Базового и N-битового типа и полезен в специальных системах наблюдения и медицинского контроля, где требуется ши­рокий динамический диапазон яркости и насыщенности.

 

Таблица 5.1 – Профили и типы объектов MPEG-4 видео

                      Профиль

   Тип объекта 

Простой

Простой  масштабируемый

Базовый

Основной

N-битовый

Масштабируемая текстура

Простой, анимация лица

Базовая анимированная структура

Гибридный

Простой

·

·

·

·

·

 

 

 

·

Простой

масштабируемый

 

·

 

 

 

 

 

 

 

Базовый

 

 

·

·

·

 

 

 

·

Основной

 

 

 

·

 

 

 

 

 

N-битовый

 

 

 

 

·

 

 

 

 

Масштабируемая текстура

 

 

 

·

 

·

 

·

·

Масштабируемая

D-сетка

 

 

 

 

 

 

 

 

·

Базовая анимированная структура

 

 

 

 

 

 

 

·

·

Примитивное лицо

 

 

 

 

 

 

·

·

·

Число уровней

3

2

2

3

1

3

2

2

2

 

Из остальных профилей наибольший интерес представляет Гибридный, объединяю­щий натуральные (Базовый) и синтетические (все три) типы объектов. Он полезен при помещении «реального» объекта в синтетический мир и, наоборот, синтетического объек­та в реальное окружение.

В нижней строке таблицы 5.1 указано число уровней, определенных в стандарте для каждого профиля. В таблице 5.2 показаны параметры потока для некоторых уровней.

В стандарте установлены следующие точки соответствия: Простой профиль и Базо­вый профиль с размерами сцены QCIF и CIF, скоростями потока 64, 128, 384 кбит/с и 2 Мбит/с. Для Основного профиля нормируются форматы CIF, Рек. ВТ.601, ТВЧ со скоростями 2, 15 и 38,4 Мбит/с.

Вторая версия стандарта добавила три профиля к натуральному видео:

1) Простой усовершенствованный профиль реального времени — обеспечивает эф­фективное кодирование с использованием обратного канала (видеотелефония, телекон­ференции, дистанционное наблюдение).

2) Базовый масштабируемый профиль — поддерживает пространственное и времен­ное масштабирование в Базовом профиле.

3) Профиль с улучшенной эффектив­ностью кодирования — подходит для мо­бильного приема вещательных передач и других применений, где требуется высо­кая эффективность кодирования.

 

Таблица 5.2 – Параметры потока для некоторых профилей MPEG-4 видео

Профили и уровни

Типовой размер сцены

Скорость потока, бит/с

Максимальное число объектов

Общая емкость памяти, макроблоков

Простой профиль

L1

QCIF

64 к

4

198

L2

CIF

128 к

4

792

L3

CIF

384 к

4

792

Базовый профиль

L1

QCIF

384 к

4

594

L2

CIF

2 М

16

2376

Основной профиль

L2

CIF

2 М

16

2376

L3

Рек. 601

15 М

32

9720

L4

1920х1088

38,4 М

32

48960

 

Три новых профиля введены в синте­тическое видео, в том числе Простой про­филь анимации лица и фигуры. Общее число визуальных профилей достигло 15. Уже после принятия второй версии продолжается работа над дополнениями к стандарту. В частности, предполагается ввести Студийный профиль, в котором VOP с кодированием формы могли бы передаваться со скоростью несколько сот мегабит в секунду. В таблице 5.3 показаны основные параметры предлагаемого про­филя. Низкий уровень этого профиля мог бы соответствовать высокому уровню профиля «4:2:2» из стандарта MPEG-2 (сравните таблицу 5.3 и таблицу 4.2), в двух других уровнях предлагается ввести два подуровня — с дискретизацией «4:2:2» и «4:4:4». Группа MPEG изучает кодирование 2D и 3D анимации, цифровой кинематограф и другие вопросы. Как и для видеообъектов, в стандарте введена классификация типов объектов для звука. В общей сложности первая версия определила 15 типов объектов, часть из них базируется на алгоритме ААС, один на алгоритме Twin VQ, три типа объектов связаны с алгоритмами кодирования речи, еще четыре определяют типы объектов для синтези­рованных звуков.

Таблица 5.3 – Параметры предлагаемого студийного профиля стандарта   MPEG-4

Уровень

Максимальный размер изображения и частота кадров

Максимальная скорость отсчетов

Скорость цифрового потока, Мбит/с

Квантование, дискретизация

Низкий

(совместим с 4:2:2 P@HL)

1920х1088 30Гц

125337600

300

10 битов 4:2:2

Основной

4:2:2

2048х2048

60Гц

250675200

600

10 битов 4:2:2

4:4:4

376012800

800

10 битов 4:2:2

4:4:4

Высокий

4:2:2

4096х4096

120Гц

805306368

1200

10/12 битов

4:2:2

4:4:4

1207959552

2500

10/12 битов

4:2:2

4:4:4

 

Определены 4 профиля кодирования звука:

1) Речевой профиль — совместим с тремя «речевыми» типами объектов, имеет два уровня, допускает до 20 объектов в сцене одновременно.

2) Масштабируемый профиль — обеспечивает высококачественное кодирование при низкой скорости цифрового потока и гибкое приспособление к изменениям скорости в канале, наилучшим образом приспособлен для передачи звука в Интернете. Число объек­тов в сцене, число потоков и частоты дискретизации определяются четырьмя уровнями, определенными в условных «единицах сложности» — производительности процессора в миллионах операций в секунду (PCU) и объеме памяти в тысячах слов (RCU):

Уровень 1: один моно объект любого типа, частота дискретизации до 24 кГц;

Уровень 2: один стерео или два моно объекта, частота до 24 кГц;

Уровень 3: один стерео или два моно объекта, частота до 48 кГц;

Уровень 4: один объект 5.1 или группа объектов, частота до 48 кГц, сложность до 30 PCU и 19 RCU. В качестве примера в таблице 5.4 приведены требова­ния к декодеру, работающему в одном из уровней дан­ного профиля.

3) Синтетический профиль — группирует типы объектов синтезированного звука, может использовать­ся в тех случаях, когда источником звука служит не микрофон и требуется обеспечить передачу при очень низких скоростях.

4) Основной профиль — наиболее сложный про­филь, объединяющий возможности всех остальных; пригоден для звуков всех видов, обеспечивает высо­чайшее качество звучания. Примеры применения — запись на DVD и мультимедийное вещание. Профиль имеет 4 уровня.

Соответствие звуковых профилей и типов объек­тов показано в таблице 5.5. Во второй версии стандарта введены 4 новых про­филя: Высококачественный (High Quality), LD (Low Dе1ау)-профиль (с малой задержкой), Натуральный (Natural) и Межсетевой мобиль­ный (Mobile Audio Internetworking).

Большое число возможных алгоритмов заставило ввести также три графических про­филя, четыре профиля описаний сцены и один профиль дескрипторов объектов.

 

Таблица 5.4 – Требования к декодеру звука

масштабируемого профиля

Скорость потока, бит/с

Тактовая частота, кГц

Быстродействие процессора, млн. операций/с

Емкость памяти, тыс. слов

ААС Основной

48

5

5

ААС Простой

48

3

3

ААС с масштабируемой тактовой частотой

48

4

3

ААС с долговременным предсказанием

48

4

4

ААС Масштабируемый

48

5

4

Twin VQ

24

2

3

CELP

8

1

1

CELP

16

2

1

CELP

8/16

3

1

HVXC

8

2

1

 

Таблица 5.5 – Профили и типы объектов        MPEG аудио

 

               Профили

 

 

 

 

 

Типы объектов

Речевой

Масштабируемый

Основной

Синтетический

ААС Основной

 

 

·

 

ААС с масштабируемой тактовой частотой

 

 

·

 

ААС Простой

 

·

·

 

ААС с долговремен-ным предсказанием

 

·

 

 

ААС Масштабируемый

 

·

·

 

Twin VQ

 

·

·

 

CELP

·

·

·

 

HVXC

·

·

·

 

TTSI

·

·

·

 

Основной Синтетический

 

 

·

·

Wavetable Синтезир

 

 

·

·

Общий MIDI

 

 

·

·

Алгоритмический синтез

 

 

·

·

Число уровней

2

4

4

3

 

5.1.7 Перспективы применения MPEG-4 в вещании

          Как  уже отмечалось, стандарт MPEG-4 не предназначен для замены MPEG-2 в ТВ веща­нии в его нынешнем виде, но в наш век быстрых изменений можно представить себе, что и традиционная концепция ТВ вещания будет заметно изменяться. Начало этим измене­ниям положено постепенным переходом на цифровое вещание, предоставляющее новые возможности по количеству программ, качеству изображения и звукового сопровожде­ния, передаче дополнительных данных и предоставлению новых услуг. Можно с опреде­ленной степенью уверенности прогнозировать слияние ТВ приемника, телефона, спутни­кового и кабельного терминалов (в дальнейшем к ним присоединится и персональный компьютер) в единое информационное устройство, получающее информацию из общей информационной сети по высокоскоростному цифровому каналу (проводному, оптичес­кому или спутниковому). Большая часть ТВ программ может передаваться по такому каналу в свободное от нагрузки (ночное) время, загружаясь в емкую память информаци­онного блока, в реальном времени будут передаваться только новости и программы, рас­считанные на интерактивное взаимодействие со зрителем [2].

Теперь представим себе, как расширит возможности восприятия добавление к тради­ционной программе дополнительной информации в форме наложенного текста, непод­вижных изображений (возможно, полупрозрачных), двумерной и трехмерной графи­ки, дополнительных зрительных и звуковых образов. Часть этих улучшений используется и сегодня, но это происходит по воле вещателя, и зритель не в состоянии что-либо изменить. В MPEG-4 дополнительная информация передается вместе с объектом и ею легко управлять нажатием кнопки. Вы, например, можете вызвать на экран ответ на вопрос викторины, а можете убрать его и самостоятельно поломать голову над загад­кой. Возможно изменить точку взгляда на сцену, как бы сменить положение камеры. Это дает возможность лучше воспринять спортивное соревнование или музыкальное шоу. В многоканальной звуковой системе можно выбрать число каналов, язык звуково­го сопровождения и даже самому включиться в оркестр, исполнив партию на любом понравившемся вам инструменте.

          Широкие возможности открывает MPEG-4 в интерактивной среде. Возможности MPEG-4 позволят вам установить связь с несколькими людьми и организовать совмес­тный просмотр программы, изменяя по договоренности ход сюжета, или поиграть в сетевые игры с трехмерными изображениями. А телемагазин?! Насколько расширятся здесь возможности покупателя по всесторонней оценке будущей покупки. Вы можете получить дополнительную информацию о заинтересовавшем вас объекте, например, новой марке автомобиля, подведя к нему курсор и нажав кнопку на пульте, можете рассмотреть автомобиль со всех сторон, пригласить консультанта (виртуального, разу­меется) и выслушать его разъяснения, узнать цену и наличие модели на складе. Вы можете послать приятелю изображение автомобиля и всю информацию о нем по элект­ронной почте и тут же получить его совет.

 

6 Спутниковое телерадиовещание

 

Национальные системы спутникового вещания предназначе­ны, как правило, для приема программ населением той страны, которая организует вещание. Для таких систем, в первую очередь, предназначен диапазон частот 11,7...12,5 ГГц. Региональные сис­темы действуют в диапазоне 10,95...11,7 ГГц. Упомянутые службы для ретрансляции используют (кроме системы «Молния») спутни­ки, размещаемые на геостационарной орбите.

          В соответствии с международными соглашениями для сис­тем спутникового ТВ вещания на участке Космос-Земля выделены следующие полосы частот: 620...790, 2500...2690 МГц, 10,7...11,7 и 11,7...12,5 ГГц.

В полосе частот 10...11,7 ГГц могут работать системы фик­сированной спутниковой службы любой страны мира. Полоса час­тот 11,7...12,5 ГГц предоставлена радиовещательной службе для государств Европы, Африки, СНГ, Турции и Монголии. Полоса час­тот 11,7... 12,5 ГГц разбита на 40 частотных каналов с разносом между несущими 19,18 МГц. Благодаря многократному использо­ванию их по дуге геостационарной орбиты от 37° з.д. до 1700  в.д. удалось обеспечить 984 одновременно работающих каналов. Для спутников стран СНГ выделено пять позиций на геостационарной орбите: 23, 44, 74, 110 и 140° в. д., а также 36 номиналов частот в полосе 11,7...12,5 ГГц.           Достаточно большой разнос между спут­никами по долготе, наличие территориального расстояния между зонами обслуживания, а также применение двух видов поляриза­ции (горизонтальной и вертикальной) позволяют обеспечить в странах СНГ число передаваемых одновременно программ с ана­логовыми сигналами, равное 70.

Системы, использующие геостационарные спутники, имеют ряд преимуществ:

- связь может быть круглосуточной;

антенны земных станций не требуют системы автоматиче­ского сопровождения спутника, а механизм привода антенны для перехода на приём сигналов другого спутника оказывается сравни­тельно простым;

- за счет постоянства расстояния между спутником и земной станцией сигнал на трассе оказывается (исключая резкие измене­ния в тропосфере) достаточно устойчивым;

- практически отсутствует доплеровский сдвиг частоты.

Отличительной особенностью спутникового телевизионного вещания является возможность для телезрителя принимать интере­сующую его программу с любого спутника, находящегося в зоне ви­димости и при достаточном уровне сигнала на выходе его приемной установки. При наземном ТВ вещании зритель принимает программы лишь тех радиостанций, которые находятся в зоне его радиовидимо­сти и на расстоянии не превышающем, как правило, 100 км.

В цветном аналоговом телевидении по способу передачи сигналов цветности различают три системы совместимого с чёрно-белым изображением цветного изображения: SECAM, NTSC и PAL. В системе SECAM (применяется во Франции, в странах СНГ, Вос­точной Европы и Азии) каждый из двух цветоразностных сигналов модулирует по частоте цветовую поднесущую в смежных строках. Частоты поднесущих при отсутствии модуляции составляют 4,065 и 4,25 МГц, девиация поднесущей 250 и 230 кГц.

В системе NTSC (распространена в странах Американского континента и Японии) цветоразностные сигналы передаются мето­дом квадратурной фазовой модуляции на поднесущей частоте fп = 3,579545 МГц, соответствующей половинному значению 455-й гармоники строчной частоты, т.е. fп =455 fстр/2. В системе PAL (широко применяется в странах Центральной и Западной Европы, а также в КНДР, КНР и в некоторых странах азиатского континента) сигналы цветности так же, как и в системе NTSC, передаются с помощью квадратурной фазовой модуляции (ФМ), однако фаза поднесущей одного из модулированных сигна­лов поочередно от строки к строке изменяется на 1800. Частота поднесущей в зависимости от принятой разновидности стандарта может меняться в пределах 3,5795...4,4336 МГц. При квадратур­ной ФМ используют одну поднесущую на частоте 3,5795 МГц (NTSC) или 4,4336 МГц (PAL). Сигнал на поднесущей частоте с помощью фазовращающей цепочки разделяется на две состав­ляющие, сдвинутые на 900, что позволяет каждую из составляющих модулировать своим цветоразностным сигналом.

          В последние годы в разных странах мира ведутся интенсив­ные исследования возможности передачи телевизионных сигналов в цифровом виде. Цифровые сигналы обладают большей помехо­устойчивостью от гладких шумов и менее чувствительны к нерав­номерности амплитудной и нелинейности фазовой характеристики. Известно, что при отсутствии сжатия спектра сигнала для высоко­качественного цифрового телевидения необходимо обеспечить передачу по каналу потока со скоростью 216 Мбит/с, что без устранения избыточности в ТВ сигнале вызывает существенное рас­ширение частотной полосы канала.

          В последнее десятилетие совместными усилиями специали­стов ряда стран удалось добиться сжатия спектра телевизионного сообщения в 10-20 раз. В США, Японии и Европе проводились разработки по системам телевидения с повышенной четкостью и цифровым методам передачи ТВ сигнала. В США для цифрового телевидения разработан стандарт Digi Cypher. В Японии детально разработан новый стандарт качества на 1125 строк - MUSE (Multiple Sub-IMyquist Sampling Encoding - система кодирования с многократной субдискретизацией) В Европе объединенными усилиями Международной Организации Стандартизации и Между­народной Электротехнической Комиссии (IEC) были разработаны стандарты MPEG-(Moving Picture Experts Group). Стандарт MPEG-1 оптимизирован для скоростей передачи цифровых сигналов 1,5...8 Мбит/с, MPEG-2 - для скоростей 2...15 Мбит/с. Оба стандарта рас­считаны для телевещания с развертками 525 строк , 30 кадров/с и 625 строк 25 кадров/с с форматами 4:3, 16:9. Стандарт MPEG-2 использует чересстрочную развертку, a MPEG-1 - построчную, так как ориентирован на применение в персональных компьютерах и системах мультимедиа. В стандарте MPEG-2 цифровой поток телевизионного сигнала со скоростью 216 Мбит/с сжимается до 2...15 Мбит/с (верхняя цифра соответствует передаче сигналов телевидения с высокой четкостью). Такое сжатие позволяет передавать по спутниковому каналу с полосой 27/36 МГц три-четыре ТВ программы повышенно­го качества по сравнению с аналоговым ТВ каналом. Известно, что ТВ-изображение имеет определенную избыточность - это либо практически неподвижный фон, либо передний план. Алгоритм MPEG-2 позволяет устранить эту избыточность с помощью меж­кадрового и внутрикадрового кодирования [8]. При межкадровом кодировании через каждые 10-15 кадров видеоизображения выби­раются опорные кадры (infra-кадры), которые считаются основны­ми и кодируются без обращения к другим кадрам. Остальные кад­ры анализируются микропроцессором системы, сравнивающим их с опорными кадрами и между собой и вырабатывающим сигналом различия на основе алгоритма предсказания с компенсацией дви­жения. Эти кадры разделяются ещё на два типа: Р-кадры (Predictive), закодированные на основе предыдущих кадров и В-кадры (Bidirectionally predictive), закодированные на основе пре­дыдущего и последующего кадров. Организация всех трех типов кадров (I, P и В) и их последовательности является достаточно гибкой, избыточность закодированная в сигнале различия устраня­ется с помощью дискретного косинусного преобразования (ДКП) сигнала. Внутрикадровое кодирование состоит в уменьшении пространственной избыточности в кадре и также производится с по­мощью ДКП. Таким образом, сжатие видеосигнала в стандарте MPEG-2 основано на сложных алгоритмах предсказания и применении дис­кретного косинусного преобразования.

          В канале звукового сопровождения стандарта MPEG-2 коди­рование и сжатие данных также производится по специально раз­работанным алгоритмам. Качество звука после восстановления в приемнике соответствует качеству компакт-дисков.

           Отметим очевидные по сравнению с аналоговыми способа­ми преимущества передачи телевизионной информации в цифро­вом виде по спутниковым каналам:

- применение информационного сжатия позволяет намного сократить объём передаваемой информации, а, следовательно, сократить полосу частот;

- при неизменной мощности передатчика спутника-ретранслятора уменьшение скорости передачи в канале приводит к увеличению энергии сигнала приходящейся на элементарную посылку и, следовательно, уменьшению вероятности ее сбоя. Таким образом, при заданной вероятности сбоя информационного символа появляется возможность уменьшения ЭИИМ ретрансля­тора или при неизменной ЭИИМ использовать приемные антенны меньшего диаметра;

- в полосе ствола ретранслятора можно передавать большее количество телевизионных программ;

- переход от аналогового к цифровому методу ТВ вещания почти не затрагивает приемно-передающее СВЧ оборудование системы.

В свете сказанного совершенно очевидным является круп­номасштабный переход в ближайшее время от аналогового спосо­ба передачи ТВ сообщений к цифровому с использованием эф­фективных методов сжатия видео и аудио информации. На разных стадиях реализации находятся проекты других сетей цифрового спутникового ТВ вещания.

 

6.1 Структурная схема системы спутникового цифрового телевещания

 

На рисунке 6.1 приведена упрощенная структурная схема спут­никовой системы цифрового телевизионного вещания (ЦТВ). Цифровой поток данных, сформированный из различных источников (телетекст, видеоинформационный и др.) поступает на мультиплексор. Для объединения и последующего разделения сигналов на вход мультиплексора поступают синхронизирующие сигналы (на схеме не показаны). Перед модулятором передатчика обычно ус­танавливается оптимальный фильтр. Его назначение вызвано различными причинами. Во-первых, для устранения межсимвольных искажений при демодуляции сигнала могут использоваться раз­личные варианты фильтров Найквиста. Часто используют опти­мальный фильтр типа «корень квадратный из спектра типа при­поднятый косинус», как на передающей, так и приемной стороне, что обеспечивает отсутствие межсимвольных искажений на выхо­де демодулятора приемника. Используют также фильтры, миними­зирующие спектр радиосигнала для уменьшения помех соседним радиоканалам.

 

Рисунок 6.1 – Упрощенная структурная схема спутниковой системы

цифрового телевизионного вещания (СЦТВ)

 

В спутниковых каналах сигналы достаточно стабильны при спокойном состоянии тропосферы, однако при возмущениях в ней опасно применять сигналы со сложными видами модуляции, по­этому, как правило, используют хорошо зарекомендовавшую и не только в спутниковых каналах четырехпозиционную фазовую ма­нипуляцию (ФМ-4) - в английской аббревиатуре - QPSK. Посколь­ку в демодуляторе используется квазикогерентная обработка сиг­налов, то для устранения неопределенности фазы опорного коле­бания   на   приемной   и   передающей   стороне   дополнительно применяется дифференциальное кодирование и декодирование. Для повышения помехоустойчивости приема сигналы с выхода мультиплексора  поступают  на   модулятор  не  непосредственно, а дважды дополнительно кодируются избыточным кодом (обычно внутренний код - сверточный и внешний - Рида-Соломона) - на рисунке 6.1 дифференциальный, сверточный и блоковый кодеры и декодеры не показаны.

          Приёмные станции могут быть двух видов: профессиональ­ные с цифровым декодером, с преобразователями вида QPSK/QAM (QAM-квадратурная амплитудно-фазовая манипуляция с числом уровней 64 или 256) для кабельных сетей и бытовые, для индивидуальных приёмных устройств спутникового телевидения.

                   В первом типе станций сигнал после декодирования посту­пает в профессиональную студию либо в кабельную распредели­тельную сеть телевизионных программ или в бытовой интегриро­ванный кабельный декодер, выделяющий также каналы телетекста и звукового вещания, во втором типе станций- на индивидуальный спутниковый ресивер-декодер. Разработаны бытовые и профес­сиональные спутниковые декодеры с весьма универсальными

схемами. Профессиональные цифровые декодеры рассчитаны на применение в любых конфигурациях стандартов и сигналов.

Многие западные фирмы настойчиво работают над созданием и усовершенствованием приемников цифрового телевидения. Так, приемники-декодеры цифровых спутниковых ТВ программ фирмы Philips серии DVS 3961/31 и DVS 3962/31 предназначены для работы в головных станциях кабельного телевидения и рассчитаны на работу в стандартах NTSC, PAL, SECAM. Блок предварительного усиления радиосигнала с модуляцией QPSK работает в расширен­ной полосе 950...2150 кГц. Программное обеспечение позволяет перенастраивать приемники на разные спутники. Приёмники име­ют встроенный считыватель — смарт-карту, соответствующий стандарту ISO 7816. Структурная   схема   приёмной   индивидуальной   установки цифровой спутниковой системы изображена на рисунке 6.2, в которую входит параболическая антенна  диаметром 0,6... 1,2 м, за реф­лектором которой помещается наружный блок (конвертер). В соот­ветствии со структурной схемой рисунка 6.2 принятый антенной сигнал проходит через блок выбора поляризации, далее поступает мало­шумящий усилитель, смеситель, на второй вход которого поступа­ет сигнал гетеродина. После преобразования сигнал выделяется фильтром первой промежуточной частоты и далее усиливается УПЧ1.

 

поляризатор

 
 

Рисунок 6.2 – Структурная схема приемной индивидуальной установки спутниковой СЦТВ

 

Таким образом, в конвертере происходит преобразование частоты сигнала, принятого антенной в полосе частот 10,95...11,7 ГГц или 11,7...12,5 ГГц в сигнал первой УПЧ в полосе 0,95...1,75 ГГц или 0,95...2,21 ГГц и его усиление. Кратко рассмотрим требо­вания к конвертеру ТВ сигналов и его технические характеристики. Конвертер - это наиболее важный узел приемной установки. Его основные задачи: уменьшение общего коэффициента шума, широ­кополосное усиление, преобразование частоты и сравнительно большой динамический диапазон, так как в противном случае могут возникать нелинейные искажения сигнала. Конвертер разме­щают в герметизированном корпусе и помещают в фокусе приемной антенны. Волноводно-полосковый переход предназначен для обеспечения согласования входа малошумящего усилителя (МШУ) с поляризатором. МШУ имеет обычно три усилительных каскада, содержащих полевые арсенид галлиевые малошумящие транзисторы, выполненные по технологии ТВПЭ-транзисторы с высокой подвижностью электронов, имеющие малый коэффициент шума. Особенностью каскадов таких МШУ является отсутствие резисторов во входных цепях, поскольку наличие их вызвало бы увеличение коэффициента шума. Канализация сигнала во входную цепь  и передача ее на вход последующего каскада осуществляется микрополосковыми линиями. Стационарный режим каскадов осущест­вляется от отдельных источников питания через элементарные LС-фильтры низших частот. Благодаря принятым мерам удается получить коэффициент шума неохлаждаемого МШУ, равный 0,7—1 дБ, с неравномерностью АЧХ около 2 дБ, линейной ФЧХ и коэффициентом усиления около 25...35 дБ.

Фильтр смесителя выполняется по микрополосковой технологии. Потери преобразования смесителя с гетеродином состав­ляют обычно 5...6 дБ (с учетом потерь вносимых полосовым фильтром). УПЧ1 имеет широкую полосу пропускания и малые собственные шумы. Для увеличения усиления сигнала в УПЧ1 имеется обычно четыре резисторных каскада на биполярных тран­зисторах с включением усилительных элементов по схеме с об­щим эмиттером, коэффициент усиления УПЧ1 составляет обычно 30...35 дБ. Питание конвертера осуществляется по центральной жиле кабеля, соединяющего наружный блок с внутренним. Длина соединительного коаксиального кабеля может достигать несколь­ких десятков метров.

Внутренний блок цифровой приемной установки - ресивер - согласно схеме (рисунок 6.2) содержит дополнительный УПЧ 1, преоб­разователь и усилитель второй промежуточной частоты с полосой пропускания 27/36 МГц. Уровень выходного сигнала УПЧ2 состав­ляет 1В. Гетеродин второго преобразователя-перестраиваемый с шагом 10 кГц синтезатор частот, работающий в полосе 0,95...2,15 ГГц + 480 МГц. Сигнал с выхода ресивера после демодуляции по­ступает на цифровой декодер. Структурная схема бытового циф­рового приемника - декодера приведена на рисунке 6.3.

В демодуляторе производится превращение сигнала с ВЧ заполнением в цифровой поток, который поступает на демультиплексор, разделяющий его на три составляющих: видео-, аудио- и поток данных. В этом же блоке осуществляется дескремблирование (устранение псевдослучайной последовательности, наложен­ной на сигнал в передатчике). Видеосигналы декодируются из стандарта MPEG в декомпрессированные цифровые сигналы в

1 – ресивер; 2 – демодулятор (прямое исправление ошибок);

3 – демультиплексор/дескремблер; 4 – аудиодекодер MPEG-2; 5 – видеодекодер MPEG-2;

6 – кодер системы цветного телевидения; 7 – модулятор; 8 – микропроцессор; 9 – модем;

10 – ИК датчик; 11 – модуль цифрового телевидения; 12 – пакеты данных формата MPEG-2; 13 – цифровое видео 4:2:2; 14 – SECAM/PAL; 15 – Y/C; 16 – R-G-B; 17 – аналоговое аудио; 18 – цифровое видео AES/EBU; 19 – RS 232; 20 – телефонная линия

Рисунок 6.3 – Структурная схема бытового цифрового телевизионного приемника

блоке 5, из которых после цифроаналогового преобразователя 6 выделяются исходные видеосигналы в виде составляющих яркостной (Y) и трех цветовых составляющих - красной (R), зеленой и голубой (В). Блок 6 осуществляет также функции преобразователя стандартов, т.е. на его выход в соответствии с желанием пользователя можно подключить телевизионный приемник, работающий в одном из трех стандартов аналогового телевидения. Имеется выход сигнала для подключения наземной сети телевещания. С выхода аудиодекодера 4, совме­щенного с цифроаналоговым преобразователем, можно получить как аналоговые, так и цифровые сигналы. Микропроцессор 8 управляет работой блока 3 (демультиплексора - дескремблера) и выделяет телефонный сигнал в случае реализации интерактивной системы связи, а также образует интегрированные пакеты данных других служб, подводимые далее в блок 12. Микропроцессор име­ет выход для подключения стандартного интерфейса RS-232. Мо­дуль цифрового управления и инфракрасный датчик обеспечивают возможность дистанционного управления приемником-декодером.

Цены на бытовые декодеры колеблются в пределах от 200 до 300 долл., но, учитывая большую конкуренцию на мировом  рынке, следует полагать, что цены на бытовые цифровые ТВ приемники будут заметно снижаться с каждым годом.

          Сегодня на отечественном рынке имеется большое количество ресиверов, предназначенных для приема сигналов телевидения в аналоговой, цифроаналоговой и цифровой форме. В переходный период от аналогового к цифровому телевидению покупателю этой продукции необходима информация о ее технических и качествен­ных показателях, полученная не только из описания прибора и ин­струкций по его использованию, но и на основании тестирования приемника на территории страны. Жур­нал «Теле-Спутник» периодически публикует результаты испыта­ний ресиверов, выпускаемых известными фирмами. Тестирование аппаратов производится по таким показателям, как качество изо­бражения и звука, удобство эксплуатации, сумма характери­стик/цена и общее заключение по 4-бальной системе: плохо, удов­летворительно, хорошо и отлично. В процессе тестирования обна­руживаются недостатки изделий как в техническом исполнении, так и программном обеспечении. Представляют интерес  результаты тестирования ресиверов француз­ской фирмы Xsat, которая была выбрана телекомпанией «НТВ-Плюс» в качестве поставщика первой партии цифровых термина­лов для приема платного пакета программ этой компании. Было тестировано три изделия фирмы: Хsat CD.TV200, Xsat CD.TV300, Xsat CD.TV350 [9]. Исследования проводились на спутниках 13-градусной позиции в.д., а также спутниках российской группировки «Галс» - 360 в.д. Результаты испытаний показали, что указанные приемники могут принимать программы и с других спутников (free to air). Как и во многих современных ресиверах поддержка DiSEqC-протокола позволяет управлять двух-четырехвходовыми переклю­чателями и в сочетании с переключателем 0/12 В дает возмож­ность строить сложную и разветвленную сеть приема. Качество изображения и звука соответствовали оценке - «удовлетворитель­но» и «хорошо», удобство эксплуатации - «хорошо». Приведем некоторые технические данные ресивера Xsat CD.TV.300. Напряжение питания 187/242В, 50Гц, частотный диапазон второй ПЧ 950…2500 МГц, оперативная память 2 Мбит, перепрограммируемая память 1 Мбит, декодер звука MPEG-2 (Musicam), декодер изображения MPEG-2, автоматический поиск, имеется возможность ручного поиска.

 

6.2 Спутниковое цифровое радиовещание

 

           С начала 90-х годов в ряде развитых стран мира ведутся исследования по использованию цифровых сигналов в радиовещательных системах, работающих в ДВ, СВ, KB и УКВ диапазонах, а также в СВЧ диапазоне для спут­никовых каналов [10-12].

1 - кодер; 2 - мультиплексор; 3 - цифровой модулятор; 4 - передатчик;

5-7 - приемные земные станции

Рисунок 6.4 - Типовая структура системы цифрового спутникового радиовещания

 

         Мировым лидером в производстве передающей и приемной аппаратуры для  сетей цифрового радиовещания является компания Com Stream (США). Оборудование Com Stream и реализованный в нем алгоритм цифрового сжатия MPEG-2, MPEG-3 стали  стандартом  на  рынке стран СНГ. Пре­имущества цифрового сжатия звуковой информации очевидны, так как это позволяет сузить полосу частот до нескольких сотен кило­герц и одним транспондером с шириной полосы 54...72 MГц ретранслировать более 100 радиостанций. При сужении полосы частот увеличивается энергия сигнала, приходящаяся на одну элементарную посылку, что позволяет осуществить прием сигналов на антенны меньшего диаметра или использовать передающее СВЧ оборудование на спутнике меньшей мощности.

          Типовая структура системы цифрового спутникового радиовещания состоит из трех основных звеньев: передающей станции, работающей на линии Земля-ретранслятор, спутника- ретранслятора, одной или не­скольких приемных станций - рисунок 6.4. На передающей станции сигналы одного или нескольких каналов звука, служебные данные и команды управления объединяются в единый цифровой поток и передаются на спутник. Передающая станция содержит функцио­нальные узлы: кодер мультиплексор, цифровой спутниковый мо­дем, СВЧ приемо-передающий блок и передающую антенну. До­полнительно передающая станция может быть оборудована сис­темой поддержки сетевого администрирования на базе компьютера с соответствующим программным обеспечением и оборудованием для контроля диагностики удаленных приемников. Спутниковое звено представляет собой коммерческий спутник-ретранслятор, находящийся на геостационарной орбите. Для спутникового вещания используются частотные диапазоны 3,7...4,2 ГГц и 10,7...12,75 ГГц. Третье звено включает приемную антенну с понижающим конвертером и цифровой спутниковый приемник звуковой частоты. Проиллюстрируем структуру системы цифрового спутникового ра­диовещания на примере аппаратуры компании Com Stream. Пере­дающее оборудование - кодек-мультиплексор (Com Stream DAC700). Звуковой сигнал одного или двух каналов в аналоговом виде или в цифровом формате AES/EBU подается на входы коде­ра DAC700. В кодере аналоговые сигналы преобразуются в цифровые, затем кодируются с применением сжатия информации. В зависимости от режима работы и требуемого качества передачи возможен выбор различных степеней сжатия сигнала и скоростей работы мультиплексора: 56, 64, 112, 128, 192, 256 и 384 кбит/с. За­висимость качества сигнала от степени сжатия для различных ре­жимов работы приведена в таблице 6.1. Сформированный поток данных передается на модулятор спутникового модема ComStream CM701.

 

Таблица 6.1 – Зависимость качества сигнала от степени сжатия и полосы 

                        аудиочастот

Скорость транспортного потока, кбит/с

Режим работы

Полоса частот аудио,

кГц

Качество звука

Рекомендуемая скорость передачи данных, бит/с

64

Моно

8,3

АМ

2400

64

Стерео

8,3

АМ

2400

96

Стерео

10

АМ

4800

96

Моно

20

АМ

4800

96

Стерео

10

CD

4800

96

Стерео

20

АМ

4800

256

Стерео

20

CD

9600

304

Моно

20

CD

9600

 

СМ701 - универсальный спутниковый модем, предназначен­ный для дуплексной передачи данных. Скорость потока данных на входе модема может составлять от 4,8 до 9800 кбит/с. Поток дан­ных расщепляется кодером Грея на два потока, которые подаются на входы модулятора сигналов ФМ-4. На выходе модулятора формируется сигнал ФМ-4 на промежуточной частоте 70 или 140 МГц.

          Цифровой приемник звуковой частоты - Com Stream ABR200.

Приемник содержит следующие функциональные узлы: де­модулятор, микропроцессорное устройство управления, обеспечи­вающее конфигурирование, настройку и управление, приемник-декодер, имеющий выходы аналоговых сигналов звука и выходы звука в цифровом формате AES\EBU, порт управления внешними устройствами, порт для управления и диагностикой приемника.  Приемник ABR 200 поддерживает все режимы скорости передачи звука и данных, указанные в таблице 6.1. Аналоговые сигналы подаются на пульт оператора эфира и на входы звукозаписываю­щей аппаратуры для записи тех программ, которые транслируются в записи. Низкоскоростной порт данных подключается к принтеру или к компьютеру для автоматизированного учета трафика, составления эфирных справок и т.п.

          Сигнал цифрового радиовещания в системе ComStream пе­редаётся на одной несущей и занимает полосу частот от 64 до 512 кГц при скорости цифрового потока 64 и 356 кбит/с.

На пути от модулятора до демодулятора сигнал неоднократ­но переносится из одного частотного диапазона в другой. Для пе­реноса частот используются гетеродины. В результате значение частоты на входе демодулятора имеет некоторую неопределен­ность, вызванную нестабильностью гетеродинов. Эта частотная неопределенность может быть более 2 МГц. Поэтому в процессе настройки приемник обнаруживает сигнал на заданной частоте приближенно, а затем выделяет и анализирует идентификаторы сети и канала. Для распознавания сигнала в общий поток данных на каждой несущей кодером DAC 700 вводится специальный идентификатор. Если хотя бы один идентификатор отличается от за­данного пользователем, то приемник выдает соответствующий сигнал ошибки и производит поиск выше и ниже обнаруженной частоты до тех пор, пока не будет обнаружен сигнал с нужными идентификаторами.

При использовании сигнала ФМ-4 используется две несущих, сдвинутых на 900.  Демодулятор приемника через равные проме­жутки времени сравнивает фазу сигнала с фазой двух восстанов­ленных несущих. Чем меньше скорость потока, тем длиннее про­межуток времени между двумя последовательными анализами фаз и тем больше вероятность, что дрейф частоты или флуктуа­ции фазы гетеродина приведут к случайному изменению фазы сигнала на выходе конвертера на величину большую 450, и сбою в принятии решений на выходе демодулятора.

         В заключение следует заметить, что в настоящее время в странах СНГ прием сигналов цифрового радиовещания используется в сетевых станциях-ретрансляторах. Индивидуальный прием пока не актуален, прежде всего из-за большой стоимости приемника ARB200. Оставляют  желать лучшего и условия приема сигналов со спутников INTELSAT 604 (600 в.д). Для качественного приема программ в при­емной установке необходимо иметь антенну диаметром не менее 2 м.

 

Список литературы

 

1. Мамаев Н.С., Мамаев Ю.Н., Теряев Б.Г. Цифровое телевидение/Под ред. Н.С.Мамаева. –М.: Горячая линия – Телеком, 2001. – 180 с.

2. Локшин Б.А. Цифровое вещание: от студии к телезрителю. –М.: Компания Сайрус системс, 2001.

3. Смирнов А.В. Основы цифрового телевидения: Учебное пособие. – М.: Горячая линия – Телеком, 2001.

4. Севальнев Л.А. Эфирное вещание цифровых телевизионных программ со сжатием данных//Tеле-Спутник. - 1998. - № 10. - С. 56-64.

5. Сети телевизионного и ОВЧ ЧМ вещания: Справочник/ М.Г. Локшин, А.А. Шур, А.В. Кокорев, Р.А. Краснощеков. - М.: Радио и связь, 1988.

6. Кантор Л.Я., Соколов А.В., Кривошеев М.И. и др. Принимаем непосредственно из космоса/ Под общ. ред. А.В. Гороховского и А.В. Соколова. - М.: ЗАО Журнал "Радио", 1998.

7. Гласман К. Стандарт цифрового наземного телевидения DVB-T//"625". - 1999. - № 9. – С. 72-85.

8. Цифровая обработка телевизионных и компьютерных изображений/А.В. Дворкович, Ю.Б. Зубарев, Г.Н. Мохин, В.П. Нечепаев, Н.П. Но­винский; под ред. Ю.Б. Зубарева и В.П. Дворковича. - М.: Международный центр научной и технической информации, 1997.

9. Берсон В. Цифровой терминал для приема программы НТВ-Плюс//Tеле-Спутник: Справочник. - 1999. - С. 29-31.

10. Зелевич Е. Цифровое радиовещание становится реальным//Технологии и средства связи. - 1999. - № 5. - С.90-93.

11. Зелевич Е. Прогресс цифрового радиовещания в НЧ, СЧ, и УКВ диапазонах//Tехнологии и средства связи. - 1999. - № 2. - С. 18-22.

12. Высоцкий Г. Построение сетей цифрового спутникового радиовещания//Tеле-Спутник. - 1998. - № 9. - С.44-47.

 

Содержание

 

Введение

1 Цифровое телевизионное вещание в наземных ра­диоканалах

2 Преобразование звуковых сигналов в цифровую форму

3 Сжатие звукоданных

4 Формирование цифрового потока по стандарту MPEG-2

5 Перспективные стандарты семейства MPEG

6 Спутниковое телерадиовещание

Список литературы

Стр.

3

4

12

17

22

45

68

80