Кодирование речевых сигналов.

4.3. Кодирование речевых сигналов

Применение в различных системах радиосвязи изощренных алгоритмов кодирования отно­сительно узкополосных сигналов речи (300...3400 Гц) и широкополосных факсимильных звуковых сигналов (от 10 Гц до 20 кГц), сигналов изображения (до 15 МГц) становится все более эффективным и экономичным с точки зрения затрат [4.1].

> Смотреть актуальные цены на усилители сотовой связи репитеры GSM

Появление маломощных сверхбыстродействующих интегральных микросхем (СБИС) привело к использованию алгоритмов кодирования в мобильных телефонных аппаратах и движению по пути к цифровому радиовещанию. Назначение большинства из этих алгорит­мов — аналого-цифровое преобразование аналогового сигнала источника в цифровой сиг­нал с возможно меньшим количеством битов и его обработка, для передачи в форме цифро­вых данных и/или запоминания, или же синтеза и восстановления пораженного шумом и помехами ограниченного по полосе или искаженного сигнала. При этом сжатие (компрес­сия) цифровых данных может быть достигнута за счет устранения избыточности сигнала, преобразованного из аналоговой формы в цифровую.

Кодер речевого сигнала является первым элементом цифрового участка передающего тракта, следующим после АЦП (рис. 4.2).
Основной задачей кодера является предельно возможное сжатие сигнала речи, пред­ставленного в цифровой форме, то есть предельно возможное устранение избыточности ре­чевого сигнала при сохранении приемлемого качества передаваемой речи.

Компромисс между степенью сжатия и сохранения качества обычно отыскивается экс­периментально, а проблема получения высокой степени сжатия без чрезмерного снижения качества составляет основную трудность при разработке кодера.

В приемном устройстве (рис. 4.2) перед ЦАП размещен декодер (decoder) речевого сиг­нала. Задачей декодера является восстановление цифрового сигнала речи, с присущей ему естественной избыточностью, по принятому кодированному сигналу.
Сочетание кодера и декодера обычно называют кодеком (coder/decoder= codec).

Кодек речевого сигнала.


В стандарте GSM обработка речевого сигнала осуществляется в рамках принятой системы прерывистой передачи речи DTX (DiscontinuousTransmission), которая обеспечивает вклю­чение передатчика только тогда, когда пользователь начинает разговор и отключает его в паузах и в конце разговора.

Система DTX управляется детектором активности речи VAD (Voice Activity Detection), который обеспечивает обнаружение и выделение интервалов речи с шумоми шума без речи, даже в тех случаях, когда уровень шума соизмерим с уровнем речи.

В состав системы DTXвходит устройство формирования комфортного шума, которое включается и прослушивается в паузах речи (когда передатчик отключен).

Система прерывистой передачи речи также включает в себя устройство для экстраполя­ции фрагментов речи, потерянных из-за ошибок в канале.

Структурная схема процесса обработки речевого сигнала показана на рис. 4.3.
Основным устройством в данной схеме является кодек речи.

В соответствии со стандартом GSM каждый радиоканал используется для организации восьми цифровых каналов с TDMA. Значит, если это будут стандартные ИКМ-каналы, то потребуется скорость передачи 8x64 = 512 кбит/с. Такую скорость передачи пользователь­ской информации по одному радиоканалу обеспечить невозможно.

Рис. 4.3. Структурная схема процесса обработки речевого сигнала в стандарте GSM

Выход из данной ситуации может быть найден, с одной стороны, в увеличении плотно­сти передаваемой информации, а с другой — в применении более сложных способов коди­рования речевых сигналов, требующих меньшего объема информации.

Снижение требуемой скорости цифрового потока каждого канала за счет использования более сложных способов кодирования должно осуществляться без значительного ухудше­ния качества. Наиболее низкая скорость передачи информации — (1...3) кбит/с требуется при использовании вокодеров, однако, качество передачи речи в этом случае достаточно низкое, при декодировании получается «синтетический» речевой сигнал. Высокое качество передачи речи при незначительном снижении требований к скорости можно получить при использовании различных модификаций ИКМ, но более сложной аппаратной реализации.

Для того, чтобы иметь высокое качество передачи речи при более низких требованиях к скорости передачи информации, в GSM используется способ кодирования, объединяющий вокодеры и дифференциальную ИКМ, который получил название дифференциального коди­рования.Вокодерное преобразование основано на использовании особенностей речевых ор­ганов человека.

Звуковые колебания, излучаемые голосовыми связками, формируются да­лее в «фильтрах», образуемых горлом, ртом и носом. Зная в каждый момент спектр частот и параметры таких «фильтров», можно восстановить исходный сигнал. Учитывая инерцион­ность голосовых органов человека, можно считать, что за небольшой промежуток времени (порядка 10...30 мс) они не изменяют своего состояния, то есть остаются постоянными час­тоты и параметры «фильтров».

Следовательно, если брать отрезки речевого сигнала по 20 мс, частоту основного тона и параметры фильтра речеобразующего тракта, то по ним легко можно восстановить исходный сигнал. Так, например, при кодировании с линейным пред­сказанием определяется и передается следующая информация:
-  параметры модели речеобразующего тракта;
-  характер возбуждения (гласный или звонкий согласный звуки в сопоставлении с глу­хими звуками);
-  период основного тона;
-  коэффициент усиления.

В фиксированные промежутки времени голосовые органы человека не остаются в фик­сированном положении, их возбуждения носят более комплексный характер, чем передавае­мые характер возбуждения и период основного тона. Это приводит к значительному ухуд­шению качества.

Дифференциальная ИКМ учитывает корреляцию дискретных отчетов АИМ сигнала. При этом кодируются не сами дискретные отсчеты, а разность амплитудпоступившего и предыдущего дискретных отсчетов. Поскольку диапазон изменения амплитуд разности дис­кретных отсчетов меньше диапазона изменения амплитуд самих дискретных отсчетов, для их кодирования требуется меньшее число разрядов.

Таким образом, дифференциальное кодирование подразумевает деление речевого сиг­нала на отрезки в 20мс с предыдущим их кодированием.

Кодек стандарта GSM

В стандарте GSMв системе кодирования речевых сигналов используется метод линей­ного предсказания с возбуждением регулярной последовательностью импульсов и долго­временным предсказанием, то есть метод RPE-LTP.

Упрощенная блок-схема кодека в стандарте GSMпредставлена на рис. 4.4.

 Схема кодека речевого сигнала в стандарте GSMРис. 4.4. Схема кодека речевого сигнала в стандарте GSM

Кодер

Кодер, представленный на рис. 4.4, состоит из шести основных блоков Б.1...Б.6[4.4]. Рассмотрим последовательно назначение указанных блоков.
Б.1 — блок предварительной обработки осуществляет следующие функции:
-  предсказание входного цифрового сигнала sn(после АЦП) при помощи цифрового фильтра, подчеркивающего верхние частоты;
5- 632
-  разделение входного сигнала snна сегменты по 160 выборок (20мс);
-  взвешивание каждого из сегментов окном Хемминга («косинус на пьедестале» — ам­плитуда сигнала плавно спадает от центра окна к краям).
Б.2 — фильтр-анализатор STP: с выхода блока Б.1 сигнал фильтруется решетчатым фильтром-анализатором кратковременного линейного предсказания и по его выходному сигналу — остатку предсказания STPЬп— оцениваются параметры долговременного пред­сказания LTP: коэффициент предсказания gи временная задержка dв блоке Б.5.
Б.З — блок оценки параметров фильтра STP: для каждого 20 мс сегмента оцениваются параметры фильтра-анализатора STP— 8коэффициентов частичной корреляции kt (i= 1...8), при порядке предсказания М=8(/ = 1 ...М),которые для передачи по каналу свя­зи преобразуются в логарифмические отношения площадей LARrhпричем для функции ло­гарифма используется кусочно-линейная аппроксимация.
Б.4 — фильтр-анализатор LTP: сигнал остатка предсказания Ьпфильтруется фильтром- анализатором LTPдолговременного линейного предсказания, при этом формируется оста­ток предсказания LTP— v„.
Б.5 — блок оценки параметров фильтра LTP: в блоке по остатку STP— Ьпоцениваются параметры долговременного предсказания gи d.При этом выборочный сегмент остатка кратковременного предсказания, имеющий 160 выборок, разделяется на четыре подсегмен- та по 40 выборок в каждом, и параметры gи dоцениваются для каждого подсегмента в от­дельности, причем для оценки величины временной задержки dдля текущего подсегмента используется скользящий подсегмент из 40 выборок, перемещающийся в пределах предше­ствующих 128 выборок сигнала остатка предсказания Ьп.
Б.6 — блок оценки параметров сигнала возбуждения: выходной сигнал фильтра-анали­затора LTP— остаток предсказания vn— фильтруется сглаживающим фильтром и по нему формируются параметры возбуждения, в отдельности для каждого из 40 выборочных под- сегментов. Сигнал возбуждения одного подсегмента состоит из 13 импульсов, следующих через равные промежутки времени (втрое большие, чем интервалы дискретизации сигнала после АЦП — то есть исходного сигнала), и имеющих различные амплитуды. Для форми­рования сигнала возбуждения 40 импульсов подсегмента сглаженного остатка v„ обрабаты­ваются следующим образом:
-  последний сороковой импульс отбрасывается;
-  первые 39 импульсов разбиваются на три последовательности:

■  в первой последовательности — импульсы 1, 4.. .37;
■  во второй — импульсы 2, 5, ..., 38;
■  в третьей — импульсы 3, 6, ..., 39.

В качестве сигнала возбуждения выбирается та из последовательностей, энергия кото­рой больше. Амплитуды импульсов нормируются по отношению к импульсу с наибольшей амплитудой и нормированные амплитуды кодируются тремя битами каждая при линейной шкале квантования. Абсолютное значение наибольшей амплитуды кодируется шестью би­тами в логарифмическом масштабе. Положение начального импульса 13-элементной после­довательности кодируется двумя битами, то есть задается номер последовательности, вы­бранной в качестве сигнала возбуждения для данного подсегмента.

Таким образом, выходная информация кодера речевого сигнала для одного 20 мс сег­мента речи включает:
-  параметры фильтра-анализатора STP— 8коэффициентов логарифмического отноше­ния площадей LARг, (/ = 1.. .8) — один набор на весь сегмент;
-  параметры фильтра-анализатора LTP— коэффициент долговременного предсказания gи временную задержку dдля каждого из 4-х подсегментов;-  параметры сигнала возбуждения — номер последовательности п, максимальная ам­плитуда В, нормированные амплитуды bt(1...13) импульсов последовательности — для каждого из 4-х подсегментов.

Число бит, отводимых на кодирование передаваемых параметров, приведено в табл. 4.1.

Число бит, отводимых на кодирование передаваемых параметров, приведено в табл. 4.1.

 
Всего для одного 20-миллисекундного сегмента речи передается 260 бит информации, то есть кодер речи осуществляет сжатие информации почти в 5 раз (1280/260 = 4,92, где 1280 = 160x8 — число бит в методе линейного предсказания).

Декодер.

Рассмотрим принцип декодирования информации, поступающей по каналу связи в соот­ветствии со схемой рис. 4.4.

1. Блок формирования сигнала возбуждения 1.Б, используя принятые параметры сигна­ла возбуждения, восстанавливает 13-импульсную последовательность сигнала возбуждения для каждого из подсегментов сигнала речи, включая амплитуды импульсов и их расположе­ние во времени, то есть сигнал — как остаток долговременного предсказания поступает на вход 2.Б — фильтра-синтезатора LTP.

2. Сформированный таким образом сигнал возбуждения фильтруется фильтром-син­тезатором долговременного предсказания LTP, на выходе которого получается восстановлен­ный остаток кратковременного предсказания <У . Следует отметить, что на второй вход фильтра LTP поступают сигналы, передающие параметры долговременного линейного пред­сказания, а именно коэффициент долговременного предсказания gи временная задержка d.

3. Сигнал — остаток кратновременного предсказания Ь'п— поступает на решетчатый фильтр-синтезатор STP, который реализует фильтрацию сигнала 6^, причем параметры фильтра предварительно преобразуются из LARг* в коэффициенты частичной корреляции kt.

4. В 4.Б — блоке фильтрации выходной сигнал с фильтра-синтезатора STPфильтруется в (блоке пост-фильтрации) цифровым фильтром, восстанавливающим амплитудные соотноше­ния частотных составляющих речевого сигнала, то есть в кодере блок Б.1 вносит компенси­рующие предыскажения, а в блоке 4.Б декодера восстанавливается цифровой сигнал речи.
Таким образом, после декодирования получается цифровой речевой сигнал S'nSn.

Оценка качества речевого кодирования.

Как следует из рассмотрения функционирования кодека GSM, создание экономичного и со­вершенного кодека речи является сложным процессом, связанным с непрерывными поиска­ми новых технических решений.

При оценке качества кодирования кодеков оцениваются разборчивость речи и качество синтеза (качество звучания) речи.
Для оценки разборчивости речи используется метод DRT(DiagnosticRhymeTest)— диагностический рифмованный текст. В этом методе подбираются пары близких по звуча­нию слов, отличающихся отдельными согласными (типа «дом» — «том», «кол» — «гол»), которые многократно произносятся несколькими дикторами, и по результатам испытаний оценивается доля искажений. Метод позволяет получить оценку разборчивости отдельных согласных и общую оценку разборчивости речи.

Для оценки качества звучания используется критерий DAM (DiagnosticAcceptabilityMeasure) — диагностическая мера приемлемости. Испытания заключаются в чтении не­сколькими дикторами (мужчинами и женщинами) ряда специально подобранных фраз, которые прослушиваются на выходе тракта связи рядом экспертов, выставляющих свои оценки по пятибальной шкале. Результатом является средняя субъективная оценка или средняя оценка MOS (MeanOpinionScore).Хотя метод оценки качества звучания по кри­терию MOS является субъективным, его результаты достаточно объективны и использу­ются на практике.

В качестве примера в табл. 4.2 приведены результаты оценки четырех типов кодеков по критерию MOS.

 4.2 приведены результаты оценки четырех типов кодеков по критерию MOS.

Близкие к шкале MOS результаты дает объективный метод оценки качества с использо­ванием понятия кепстрального расстояния CD (Cepstrum Distance).

Следует отметить, что при разработке стандарта GSMбыли исследованы шесть типов кодеков, после чего выбор был остановлен на кодеке RPE-LTP.

Работы по совершенствованию кодеков в стандарте GSMпродолжаются:
-  введено полускоростное кодирование (6,5 кбит/с),
-  предлагаются новые усовершенствования полноскоростного кодека [4.6, 4.7].


Основы сотовой связи стандарта GSM. 
       1. ВВЕДЕНИЕ В СТАНДАРТ GSМ
       2. ОРГАНИЗАЦИЯ СОТОВОЙ СЕТИ МОБИЛЬНОЙ СВЯЗИ СТАНДАРТА GSМ. 
       3. АНТЕННЫ И ОСОБЕННОСТИ РАСПРОСТРАНЕНИЯ РАДИОВОЛН В СИСТЕМАХ СОТОВОЙ МОБИЛЬНОЙ СВЯЗИ.
       4. МОБИЛЬНЫЕ СТАНЦИИ.

               4.1. Структурная схема мобильной станции.
               4.2. Особенности преобразования речевых сигналов в стандарте GSM.
               4.3. Кодирование речевых сигналов.
               4.4. Кодер канала. 
               4.5. GМSК-модуляция. 
               4.6. Высокочастотные тракты в мобильной станции. 
               4.7. Эквалайзер в мобильной станции. 
               4.8. SIМ-карта в мобильной станции. Аутентификация и идентификация          
               4.9. Управление мощностью в системах стандарта GSМ.

       5. БАЗОВЫЕ СТАНЦИИ.
       6. ФУНКЦИОНИРОВАНИЕ СИСТЕМ СОТОВОЙ МОБИЛЬНОЙ СВЯЗИ СТАНДАРТА GSM. 
       7. ПРОБЛЕМЫ ПРОЕКТИРОВАНИЯ И МОНИТОРИНГА В СИСТЕМАХ СОТОВОЙ МОБИЛЬНОЙ СВЯЗИ.
       8. УСЛУГИ, ФРОД И БЕЗОПАСНОСТЬ В СИСТЕМАХ СОТОВОЙ МОБИЛЬНОЙ СВЯЗИ.
       9. УПРАВЛЕНИЕ СЕТЯМИ СВЯЗИ В СТАНДАРТЕ GSM.
     10. ПЕРСПЕКТИВЫ РАЗВИТИЯ СИСТЕМ СОТОВОЙ МОБИЛЬНОЙ СВЯЗИ.

 
   
Стол заказов: (067)194-45-55 | Киев