Устная речь представляет собой звуковой поток прерывный, распадающ. На отдельные звенья. В устной речи вычленяются отрезки ограничивающие паузами, объединенные интонацией и заключающей в себе относительно законченную мысль. Это самая крупная – фраза. В предложении: ветер выл/жалобно и тихо,//Во тьме ржали кони,// из табора плыла нежная и страстная песня-думка. Каждый из отрезков выражает относительно законченную мысль. В этом предположении 3 фонетические фразы.

Пример свидетельствует о том, что фонетическая фраза и предложение не одно и тоже. Но даже если на лицо есть совпадения фразы и предложения. П Северное небо вызывает тревогу.

Фраза – фонетическая единица и характеризуется типом интонации. Отсутствием или наличием и расположением (если есть). Предложение – синтаксическая единица, характеризующая по цели высказывания (повествующее, побудительное, вопросительное), по структуре (простое, сложное), т.е. это единицы разных уровней языка. Это единица фразы разбивается на более мелкие. Так часть предложения ветер выл жалобно и тихо может произноситься с паузой. Фраза делится на отрезки/ называемые речевыми тактами – часть фразы, ограничено более короткими, чем межфразовыми паузами, но не выражает законченное мысли и характеризующаяся за исключением последнего такта интонацией незаконченности.

Он был взволнован – нет речевых тактов. Речевой такт может состоять из 1 слова. Зима, крестьянин, торжествую … Фраза зима Речевой такт может включать в себя от 1 до 7 слов. Обычно от 2 до 4.
Членение фразы на такты помогает правильно понимать сказанное, т.к. оно зависит от смысла коп. Внаоззывается говоящ. в высказывании: Подарок / матери понравился. Подарок матери / понравился. О разных подарках.

Речевые такты представляют собой таким образом сочетанием слов, объединенных по смыслу. В речевом такте = синтагме вычлененных еще более мелких фонетических единиц – фонетического слова.

Фонетическое слово – часть речевого такта, объединенного 1 ударением.

Во фразе: ветер выл жалобно и тихо.

Из примера видно что фонетическое слово и лексема могут не совпадать. И тихо – состоит из 2-х лексем, что объясняется тем что самостоятельное ударение имеют в основном знаменитые слова, а служебное слова, предлоги, частицы их не имеют => служебного слова объединенного со знамен. в одно.

П подо льдом, над полем, принесла бы, он же, отец / и мать. Иногда знам. Слово теряет свое ударение, оно переносится на служебное. П

Город у моря стоит. Во поле березонька стояла. Без году неделя. За город уехать.

Фонетическое слово состоит из слогов. Слог – часть фонетического слова, которая произносится одним толчком выдыхаемого воздуха. Минимальная произносимая единица. Элементы тесно связаны друг с другом, по образованию и по звучанию. Элементы слова, звуки, обладают различной степенью звучности. Наибольшую звучность имеют гласные звуки. Большей звучности из согласных выделяются сонорные. Только звуки с большой степенью звучания могут образовывать слогообразующие звуки. В РЯ гласные. Вот только слогов, сколько гласных.

П Сто-ли-ца, лев, не го-во-ри, …
В некоторых других языках слоги могут образовывать сонорные звуки. П vrba –верба, prst- палец, vlk – волк.

Экспериментально доказано, что и в РЯ в ряде случаев некоторые сонорные образуют звуки: м-хи, р-вы, л-бы,… Но закономерности условия, при которых это происходит еще не выявлены. Может сонорные слоги образуются в качестве слова перед другими согласными. Но это вовсе не обязательное условие.

П те-а-тр, ко-ра-бль. Они стоят в конце слова.

53. Исторический обзор проблемы распознавания и синтеза речи.
Вопрос о возможности общения с технической системой интересовал человечество уже давно, с тех пор как начали появляться первые механические машины. Возникла идея научить машину говорить. Первые попытки создания в Росси синтезированной речи относятся к XVIII веку. Во времена правления Екатерины II Петербургская Академия Наук объявила конкурс на создание говорящей машины. Это был механический синтезатор речи, с помощью которого воспроизводились отдельные гласные звуки русской речи. В XIX веке появление резонаторной теории Гельмгольца дало новый толчок в развитии речевых исследований. Речевой тракт человека рассматривался как последовательность резонаторов. Ученые пришли к выводу о том, что гласные звуки различаются резонансными частотами, названными впоследствии формантами.

Серьёзные исследования в области речи относятся к началу XX века. В 1939 г. американский учёный Дадли создал первый вокодер, который осуществлял запись, сжатие и воспроизведение речи.

Основными историческими этапами и направлениями развития рассматриваемой проблематики являются следующие:

• развитие теория дифференциальных признаков;

• появление акустической теории речеобразования;

• 40-е годы XX века: получение первых результатов в распознавании изолированных русских гласных;

• создание в г.Бнро Института речи, основные цели которого заключались в разработке вокодеров, решении задач верификация голоса, распознавании ключевых слов;

• начало 1965 г. XX века – 1-я Всесоюзная школа-семинар по автоматическому распознаванию слуховых образов (АРСО), собиравшая в лучшие годы до 250 участников. Последнее АРСО-17 было проведено в 1992 г. За эти годы советскими исследователями были предложены признанный во всем мире ДП-метод распознавания речи, формантный метод синтеза русской речи по тексту и экспертный метод распознавания сонограмм. Таким образом, была заложена

основа перехода к новому этапу речевых исследований – решению задачи распознавания

речи неограниченного словаря;

• 1967 г. XX века – разработка метода динамического программирования, что

фактически явилось революцией в принятии решений при распознавании речи;

• разработка метода коэффициентов линейного предсказания анализа речевого сигнала;

• развитие экспертно-лингвистического метода, основанного на использовании комплекса акустико-фонетических знаний;

• проект АРПА (США);

• появление метода скрытых марковских моделей для решения задачи распознавания речи;

• 80-е годы XX века – появление первых коммерческих систем синтеза и распознавания речи. МОНИИС – система автоматической обзвонки. Распознавание изолированных речевых команд малого словаря;

• 90-е годы XX века – многоязычные синтезаторы речи, распознавание больших словарей;

• разработка пишущей машинки с голоса – система ДРАГОН и др.;

• проекты по созданию систем автоматического перевода (английский, немецкий, японский языки). Цепочка: ввод РС – распознавание – понимание – перевод через английский язык – синтез – РС;

• развитие компьютерной телефонии.
54. Системы автоматического синтеза речи. Практические приложения речевого интерфейса.
Под системами автоматического синтеза речи (иначе их еще называют

синтезаторами речи) понимают системы, преобразующие орфографический текст и другую

информацию в звучащую речь. Общепринятое в английской литературе обозначение – TTS (Text To Speech) System – системы преобразования текста в речь.

Упрощенная структурная схема системы автоматического синтеза речи представлена на рис.

Под моделью генерации речевых параметров понимается блок преобразования входного орфографического текста в последовательность параметров, с помощью которых можно описать речь. Это могут быть артикуляторные параметры, либо параметры, связанные
с акустикой речи, либо другие параметры, набор которых определяется, исходя из того, какая информация заключена в речевом потоке и каким образом она описана.

Модель генерации речевого сигнала – это блок преобразования речевых параметров в речевой сигнал, который воспринимает пользователь системы. Данный блок сопряжен с динамиками и в некоторых реализациях синтезаторов речи представляет собой только соответствующую аппаратную часть речевого интерфейса, а в некоторых – аппаратно-программную.
Фактически система автоматического синтеза речи – это совокупность двух компонент, которые часто называют синтезатором речевых параметров и синтезатором речевого сигнала. Оба этих компонента реализуются не только как набор программ, но и используют некую базу данных и знаний, содержащую информацию об особенностях организации естественного языка и о закономерностях, которые следует учитывать при синтезе речи. Кроме того, синтезатор речевого сигнала имеет аппаратно-программную реализацию, так как для того чтобы мы услышали звук, необходимо наличие, как минимум, звуковой платы и динамиков, подключенных к компьютеру. Таким образом, на выходе мы получаем звучащую синтезированную речь.

Практические приложения речевого интерфейса.
Прежде чем перейти к рассмотрению примеров практического использования речевого интерфейса, сравним его с наиболее распространенными в настоящее время средствами взаимодействия пользователя с компьютером: клавиатурой и дисплеем. Следует отметить по крайней мере три принципиальных отличия речевого интерфейса:

1) явный недостаток клавиатуры и дисплея заключается в том, что для общения с компьютером человеку нужно пройти специальную подготовку. В то же время речь – это естественный интерфейс для любого, даже неподготовленного человека. Речь снижает в резкой степени психологическое расстояние между человеком и компьютером. Если появляется речевой интерфейс, то круг пользователей компьютером может стать неограниченным;

2) речь сама по себе никак механически не привязана к компьютеру и может быть связана с ним через системы коммуникаций, например, телефон. Речевой интерфейс сокращает физическое расстояние между человеком и компьютером. Это дополнительно расширяет круг потенциальных пользователей компьютеров и делает речевой интерфейс идеальным средством для оздания систем массового информационного обслуживания;

3) можно обращаться с компьютером в полной темноте, с закрытыми глазами, в условиях занятости рук рычагами управления, с завязанными руками и в другой экстремальной обстановке. Это свойство даёт оперативность и мобильность общения, освобождение рук и разгрузку зрительного канала восприятия при получении информации. Это исключительно важно, например, для диспетчера большой энергетической системы или пилота самолёта и водителя автомобиля. Кроме того, компьютерные системы становятся более доступными людям с нарушением зрения.

В настоящее время речевые компьютерные технологии уже достаточно широко распространены и развиваются в нескольких направлениях, основные из которых представлены на рис.

55. Системы автоматического распознавания речи. Практические приложения речевого интерфейса.
Под системами автоматического распознавания речи (САРР) понимают системы, преобразующие входную речь (речевой сигнал) в распознанное сообщение. При этом распознанное сообщение может быть представлено как в форме текста этого сообщения, так и
преобразовано сразу в форму, удобную для его дальнейшей обработки с целью формирования ответной реакции системы. Изначально перед системой автоматического распознавания речи ставится задача преобразования текста в речь. Поэтому в английской литературе эти системы называются Speech To Text System. Часто системы автоматического распознавания речи называют также просто системами распознавания речи (СРР).

Упрощенная структурная схема системы автоматического распознавания речи приведена на рис.

Под моделью анализа речевого сигнала понимают блок, в задачи которого входит анализ входного сигнала, во-первых, с целью отнесения его к числу речевых, а во-вторых, для выделения в составе полученного сигнала компонент, которые являются основными для

распознавания полученного сообщения. К таким компонентам относятся параметры, описывающие речь, аналогичные тем, которые формируются в процессе синтеза речи. Набор указанных параметров зависит от избранного метода распознавания.

Модель распознавания речи и принятия решения – это блок, в рамках которого осуществляется формирование распознанного сообщения на основе анализа последовательности параметров, полученных из первого блока. Например, если используется формантная модель описания речи, то на основе полученных в первом блоке частот формант строится последовательность распознанных фонем, составляющих входное сообщение. При этом осуществляется принятие решения о том, распознано ли входное сообщение правильно. При принятии решения, в частности, возможны следующие решения: сообщение распознано правильно (подтверждением этого является текст, соответствующий нормам естественного языка) либо
сообщение не распознано или распознано не правильно (такое решение принимается в случае наличия в распознанном сообщении явных, трудно исправимых автоматически ошибок или вообще полной бессмыслицы).

В качестве ограничений, накладываемых на САРР, можно привести следующие характеризующие их параметры:

• вид распознаваемой речи (пословное произношение с паузами в стиле речевых команд; четкое произношение без пауз в стиле “диктант”; спонтанная речь);

• объём словаря (ограниченный до 100, 200 и т.д. слов; неограниченный);

• степень зависимости от диктора (дикторозависимые; дикторонезависимые);

• синтаксические ограничения (отдельные слова; типовые фразы; искусственный язык; естественный язык);

• условия приёма речевых сигналов (контактные микрофоны; удаленные на расстояние более 1 м микрофоны);

• условия применения СРР (слабые или сильные помехи);

• надежность распознавания.

Практические приложения речевого интерфейса
Прежде чем перейти к рассмотрению примеров практического использования речевого интерфейса, сравним его с наиболее распространенными в настоящее время средствами взаимодействия пользователя с компьютером: клавиатурой и дисплеем. Следует отметить по крайней мере три принципиальных отличия речевого интерфейса:

1) явный недостаток клавиатуры и дисплея заключается в том, что для общения с компьютером человеку нужно пройти специальную подготовку. В то же время речь – это естественный интерфейс для любого, даже неподготовленного человека. Речь снижает в резкой степени психологическое расстояние между человеком и компьютером. Если появляется речевой интерфейс, то круг пользователей компьютером может стать неограниченным;

2) речь сама по себе никак механически не привязана к компьютеру и может быть связана с ним через системы коммуникаций, например, телефон. Речевой интерфейс сокращает физическое расстояние между человеком и компьютером. Это дополнительно расширяет круг потенциальных пользователей компьютеров и делает речевой интерфейс идеальным средством для оздания систем массового информационного обслуживания;

3) можно обращаться с компьютером в полной темноте, с закрытыми глазами, в условиях занятости рук рычагами управления, с завязанными руками и в другой экстремальной обстановке. Это свойство даёт оперативность и мобильность общения, освобождение рук и разгрузку зрительного канала восприятия при получении информации. Это исключительно важно, например, для диспетчера большой энергетической системы или пилота самолёта и водителя автомобиля. Кроме того, компьютерные системы становятся более доступными людям с нарушением зрения.

В настоящее время речевые компьютерные технологии уже достаточно широко распространены и развиваются в нескольких направлениях, основные из которых представлены на рис.

56. Лингвистические основы речевого интерфейса. Использование лингвистики в реализации речевых систем.
Знакомство с устройствами речевого ввода и вывода речевой информации целесообразно начать с изучения основных понятий, характеристик и структуры речевого сигнала. Речевой сигнал содержит данные о лингвистике, акустике и информационной структуре речи.

Из рис. видно, что с точки зрения лингвистики в речевом сигнале отражаются фонетические и просодические аспекты речи, с точки зрения акустики — акустические характеристики фонем и просодем, а информационная структура содержит дополнительную информацию о речевом сигнале, включающую его смысловое содержание, а также индивидуальные характеристики личности говорящего и передающей среды.
Аналогично тому, как связный текст естественного языка членится на иерархические уровни его изучения, в сплошном потоке речи выделяются основные составляющие. К ним относятся:

высказывание;

фонетический период речи;

фраза;

синтагма;

акцентная группа;

фонетическое слово;

слог;

фонема (звук).

Высказывание в речи соответствует сплошному тексту в естественном языке. Это самый верхний уровень, на котором определяется весь речевой поток.
Высказывание членится на фонетические периоды речи (иногда их называют просто периодами речи), которым в естественно-языковом тексте соответствуют абзацы.

Фонетические периоды речи состоят из фраз, что в естественном языке соответствует предложениям.

Каждая фраза состоит из одной или нескольких синтагм, которым в письменном естественно-языковом тексте нет точного эквивалента.

Синтагма – это самостоятельно сформированные просодические единицы, заканчивающиеся паузами в речи.

Паузы в речи являются ее естественной составляющей, так как при чтении текста любой человек делает дыхательные остановки. Это может быть связано с естественной потребностью сделать очередной вдох либо с необходимостью выделить интонационно какую-либо часть произносимой речи. Во втором случае имеется ввиду выделение той части фразы, которая на письме, как правило, заканчивается знаком препинания: запятой, двоеточием и т.д. Часто синтагмы никак не обозначаются в тексте, а только подразумеваются. Синтагма может состоять как из одного слова, так и из нескольких слов – двух, трех и т.д., в зависимости от фразы и от особенностей дикции говорящего.

Синтагмы могут состоять из одной или нескольких акцентных групп.

Под акцентной группой понимаются одно или несколько слов, объединенных общим групповым ударением.

Акцентная группа, в свою очередь, состоит из фонетических слов.

В отличие от слов в естественно-языковом тексте, фонетическое слово – это значащее слово и (если есть) связанный с этим словом предлог или частица. Например, «на крыше» – в фонетическом смысле это одно фонетическое слово и читается оно слитно, без паузы. В качестве примера фонетического слова с частицей можно привести любое слово с частицей «бы», например, «хотел бы».

Лексика – это активный словарь, с которым работает естественно-языковая система. Например, системы, проверяющие орфографические ошибки с учётом знаний о словообразовании, работают с 1–2 млн словоформ русского языка. Системы распознавания речи работают с меньшими словарями – это десятки, сотни, максимум тысячи слов.

Морфология – это раздел лингвистики, изучающий части речи и правила словообразования, в которых используются морфемы: приставки (префиксы), суффиксы, окончания и т.д. С использованием знаний морфологии, в частности, строятся морфологические таблицы с перечислением всех окончаний, суффиксов, парадигм, спряжений, склонений и т.д.

Фонетика – это раздел лингвистики, занимающийся изучением звукового строя естественного языка. Предметом рассмотрения фонетики являются звуки (фонемы) речи.

Синтаксис – это набор правил образования предложений, с помощью которых осуществляется построение фраз естественного языка.

Семантика занимается вопросами изучения смысла, заключенного в естественно-языковом высказывании. Это особый раздел лингвистики, который имеет тесные связи с искусственным интеллектом и проблемой формализации знаний.

На уровне прагматики рассматривается ситуация, в рамках которой происходит общение. Здесь изучается набор условий, при которых возможно или невозможно возникновение той или иной естественно-языковой фразы.

Просодика – это подраздел фонетики, изучающий ритмику и интонацию речи.

Фонема – это минимальная значимая звуковая единица речи.

Для любой фонемы должны найтись хотя бы два слова, отличающихся только одним звуком, соответствующим этой фонеме. Например, для слов «дом» и «дым» можно выделить фонемы [о] и [ы], так как они отличаются именно этим звуком. Между буквами и фонемами имеется определенная связь, хотя она далеко не всегда очевидна. Так, любое сообщение можно написать буквами, а можно – фонемами.

Транскрипция – это фонетическая запись слов.

Итак, звучащая речь может быть представлена минимально значимыми звуковыми единицами – фонемами. Каждой фонеме соответствует в международной фонетической транскрипции одна и та же буква или символ.

Под местом образования понимается сужение артикуляторного тракта, определяющее его артикуляторную статику и резонансные свойства. Место образования гласных фонем обусловлено положением тела языка (переднее / заднее, высокое / низкое) и губ (огубленное / неогубленное). Место образования согласных фонем определяет положение смычки или щели (губное, зубное, альвеолярное, нёбное, фарингальное), а также заднее или переднее положение тела языка (разделение на мягкие и твердые согласные).

От способа образования фонем зависят энергетические и динамические особенности артикуляции фонемы. Под способом образования фонемы понимается то, каким образом образуется звук при прохождении воздуха через артикуляторный тракт человека во время произнесения фонемы.

Рассмотрим более подробно классификацию фонем. Итак, в соответствии с артикуляторными особенностями образования фонемы отличаются:

1) по способу образования;
2) по месту образования.
По способу образования фонемы подразделяются на следующие виды:

гласные;

плавные;

боковые (латеральные);

носовые

дрожащие;

звонкие;

глухие;

щелевые (фрикативные);

взрывные;

аффрикаты.

57. Структура речевого сигнала. Анализ и синтез. Спектрально-временные характеристики речевого сигнала.
Речь – это сложное физическое явление. Она образуется в результате прохождения воздушных потоков через речевой тракт человека. В результате всевозможных акустических преобразований происходит формирование различных звуков речи. Механизм речеобразования человека представляет собой акустическую трубу, возбуждаемую либо квазипериодической последовательностью импульсов, генерируемых голосовыми связками, либо турбулентным потоком воздуха, проталкиваемого сквозь сужения, в разных местах речевого тракта.

С акустической точки зрения звук – это колебательные движения среды. Сложность речи заключается в том, что это не один колебательный процесс. Речевой сигнал состоит из множества гармонических составляющих, т.е. колебаний, которые периодически изменяются во времени по синусоидальным законам (рис. 3.1, 3.2) и описываются следующим уравнением:

Рисунок 3.1. Синусоидальное гармоническое колебание
Итак, любые гармонические колебания характеризуются тремя параметрами: частотой F, амплитудой А и фазой. При этом частота (F) колебаний обратно пропорциональна периоду: F = 1 / T.

Речевой сигнал, как и любой сложный сигнал, является результатом сложения нескольких гармонических составляющих, каждая из которых характеризуется своими значениями указанных параметров. Каждая такая составляющая называется гармоникой. Например, на рис. 3.3 приведен пример сложения двух гармонических составляющих.

Рисунок 3.3. Пример получения сигнала из нескольких гармонических составляющих

В результате разложения речевого сигнала на входящие в его состав гармонические колебания получается частотный спектр – амплитудно-частотная зависимость. Например, если для сигнала, изображенного на рис. 3.3, частота и амплитуда первой гармоники равны F1 и А1 соответственно, а второй – F2 и А2, то получим амплитудно-частотную зависимость, представленную на рис. 3.4.

Рисунок 3.4. Представление сигнала в виде частотного спектра
Спектр речевого сигнала выражает его частотный состав, т.е. самыми главными характеристиками речевого сигнала являются значения частот его гармонических составляющих. Именно в результате наложения этих частот и их восприятия органами слуха мы получаем возможность слышать богато украшенный звук (речевой сигнал), несущий, кроме того, смысловую. Для разложения речевого сигнала в спектр, как правило, используется преобразование Фурье. На практике такое разложение речевого сигнала представляется в виде так называемых динамических спектрограмм (сонограмм).

Сонограмма – это трехмерное изображение динамики артикуляторных процессов в речевом тракте. По оси абсцисс откладывается время, по оси ординат – значения частот, а степень их зачернения соответствует энергии (амплитуде) частотных компонент в спектре

58. Информационная и модуляционная структура речевого сигнала.

Трудности, возникающие как при разработке систем автоматического синтеза речи, так и систем автоматического распознавания речи, связаны с чрезвычайной изменчивостью основных характеристики речевого сигнала (РС). Отсутствие законченной модели РС не позволяет грамотно сформулировать требования к первичным синтезирующим и анализирующим устройствам. В результате решения, имеющиеся в настоящее время, сопровождаются большим количеством ошибок. Особенно это касается систем автоматического распознавания речи.

Как известно из теории связи, для передачи любых сообщений требуется вполне определенная структура системы связи. Технические системы связи существуют с прошлого века. Эволюция их развития: телеграф, телефон, радио, телевидение, Internet. Естественная биологическая система связи – речевая. Связь используется для передачи сообщений от одного субъекта к другому на расстоянии. Общий вид системы связи представлен на рис. 3.9.

Рисунок 3.9. Общий вид системы связи

Основной особенностью речевого сигнала, вытекающей из такого рассмотрения, является его полиинформативность и полимодуляционность.
Полиинформативность речевого сигнала заключается в многообразии типов информации, передаваемой с помощью. Информация, заключенная в речевом сигнале, может быть разделена на два вида:

основная, т.е. смысловое содержание речи (семантика высказывания);

дополнительная, т.е. информация об индивидуальных особенностях говорящего, его физическом и эмоциональном состоянии, а также характеристики передающей среды.

Наибольшее число видов модуляции, а следовательно, и наибольшую информационную емкость имеет тональный переносчик, а наименьшую – импульсный. Переносчики включаются или выключаются в связи с фонетическим составом сообщений. Каждый из переносчиков может менять свои параметры, т.е. может происходить:

модуляция формы спектра или спектральная модуляция – несет наибольшую нагрузку и моделирует все источники (коэффициенты ak и bk), она модулирует и тональный переносчик.

манипуляция переносчиков (включение / выключение переносчиков, связана с фонетическим составом сообщений);

модуляция длительности звуков – это просодика, фонетика, темп.

амплитудная модуляция – ей подвергаются все типы переносчиков. Есть громкие фонемы ([ а ]) и тихие ([ ф ], [ м ]). Амплитуда играет роль при передаче фонетики, просодики (главный элемент просодики – ударение, оно характеризуется амплитудой);

частотная модуляция (модуляция частоты основного тона) – участвует в передаче просодической информации: передает эмоциональное состояние человека через высоту его голоса, воздействует только на тональный переносчик.

При передаче информации о фонемном составе речи осуществляется непрерывный процесс перестройки речевого тракта. Это приводит к непрерывному изменению формы мгновенных спектров речевого сигнала – модуляция формы спектров – и его средней мощности – амплитудная модуляция. При перестройке речевого тракта осуществляется также фазовая модуляция, хотя полной ясности ее роли в восприятии речевых звуков нет. Кроме того, процесс передачи информации о фонемном составе связан с постоянной сменой комбинаций включения переносчиков – манипуляция переносчиков – и с изменением частоты основного тона на смычках звонких взрывных звуков – частотная модуляция. Информация об интонационной окраске речи, а также о физическом и эмоциональном состоянии, об индивидуальных особенностях голоса и характеристике электроакустической среды передается в основном путем модуляций частоты основного тона – частотная модуляция – и общего уровня звуков – амплитудная модуляция.

59. Методы синтеза речевого сигнала. Обобщенные математические модели описания речевых сигналов.

«Речевой сигнал представляет случайный нестационарный процесс, удовлетворительное стохастическое описание которого в настоящее время неизвестно. В качестве рабочей гипотезы, позволяющей приблизиться к математическому описанию речевого сигнала, часто принимают гипотезу локальной стационарности. Согласно этой гипотезе, стохастический процесс, описывающий речевой сигнал, считается стационарным на кратковременных интервалах (сегментах), характерная длительность которых зависит от сложности выбранной стационарной модели. Таким образом, предполагается, что внутри сегмента речевой сигнал описывается некоторой стационарной моделью, а переход от одной стационарной модели к другой (или изменение значений параметров модели) осуществляется на границе соседних сегментов.

В качестве простого примера реализации этой гипотезы можно привести модель синтеза речевого сигнала посредством его прямого восстановления из дискретной (обычно равномерной) выборки или импульсно-кодовой модуляции сигнала (ИКМ–модель. В ИКМ–модели речевой сигнал аппроксимируется постоянной величиной на интервалах длительностью , где — частота дискретизации сигнала, которую выбирают выше удвоенной максимальной частоты спектра речевого сигнала. Синтезированный речевой сигнал в этом случае можно представить в виде стохастического процесса с независимыми приращениями

ИКМ–модель позволяет получить высокое качество синтезированного речевого сигнала при выборе частоты дискретизации fд > 104 Гц. Существенным недостатком ИКМ–модели является довольно большой объем априорной информации (знание конкретной реализации дискретного случайного процесса { хn}, n = 0,1, …), необходимый для определения речевого сигнала.

Преодолеть указанный недостаток ИКМ – модели можно путем увеличения длительности сегментов стационарности за счет некоторого усложнения модели, описывающей речевой сигнал внутри сегмента. Известной моделью более высокого уровня сложности по сравнению с ИКМ–моделью является ЛПК–модель речевого сигнала или метод линейного предиктивного. Сущность ЛПК–модели состоит в следующем:

Речевой сигнал компилируется (т.е. последовательно составляется) из сегментов длительностью , где Гц — частота сегментации, внутри которых речевой сигнал аппроксимируется (моделируется) некоторой функцией, характеристики которой определяются значением вектора параметров .

В качестве модели речевого сигнала на сегменте стационарности обычно выбирается модель авторегрессии – скользящего среднего (АРСС):

По заданной реализации дискретного векторного случайного процесса , гдe = и произвольной реализации белого шума синтезируют речевой сигнал

При реализации ЛПК–модели обычно принимают М, К ~ 10. Таким образом, вектор параметров , занимая объем порядка десяти дискретных значений ИКМ–сигнала, представляет речевой сигнал на сегменте стационарности порядка ста интервалов дискретизации. Следует отметить, однако что ЛПК–модель не позволяет получить высокое качество синтезированного речевого сигнала при существенном (>10) выигрыше в плотности или скорости передачи информации по сравнению с ИКМ–моделью».
«Довольно близкой к естественному представлению является фонетическая модель речевого сигнала. Согласно этой модели речевой сигнал можно представить в виде некоторой последовательности элементарных или базисных звуков, которые для речевого сигнала получили название фонем. В русском языке, например, выделяют 42 фонемы которые составляют словарь или алфавит фонем русского языка.
60. Методы синтеза речевого сигнала. Геометрическая модель речевого тракта.
Одной из первых моделей синтеза речевого сигнала является геометрическая модель речевого тракта. В ее основу положена попытка смоделировать реальный речевой тракт человека, выделив в нем основные составляющие и заменив их на соответствующие технические реализации. Воздух, поступающий из легких и проходящий через голосовые связки, образует звук. Затем этот звук подвергается дальнейшим изменениям под воздействием органов речеобразования. Таким образом, в местах наибольшего сужения речевого тракта образуется фонема. Для указанных сужений вычисляются площади сечений S(х), которые затем используются в качестве основы для моделирования геометрии речевого тракта.

Рисунок 3.14. Сечения речевого тракта человека

Согласно такому подходу, речевой тракт моделируется в виде набора цилиндрических секций, характерных для того или иного звука (рис. 3.15). Таким образом, геометрия речевого тракта аппроксимируется определенным количеством секций. В среднем их берется по одной секции на один сантиметр речевого тракта. Следует при этом отметить, что у мужчин длина речевого тракта порядка 12 см, а у женщин – около 10 см. Акустическая труба, состоящая из набора секций, возбуждается колебаниями от источника речевого возбуждения, вследствие чего образуются резонансы. Эти процессы моделируются различным образом, с тем чтобы на выходе акустической трубы получился речевой сигнал.

Рисунок 3.15. Моделирование геометрии речевого тракта в виде набора цилиндрических секций
Существует много методов моделирования. Наилучшая цифровая модель, которая сейчас известна и позволяет получить хорошую аппроксимацию синтеза речевого сигнала, это модель, основанная на частичных коэффициентах автокорреляции (PARCOR). Синтезатор, построенный на этом методе, имеет вид, представленный на рис. 3.16. На данном рисунке используются следующие обозначения. Ci – секции, моделирующие участки речевого тракта. Параметры этих секций управляются коэффициентами Кi. Голосовой источник возбуждения управляется частотой основного тона F0 и амплитудой звука А. Источник возбуждения может переключаться на шумовой источник, который также управляется амплитудой (силой) звука Аш. Таком образом, включая тот или иной источник возбуждения, а также меняя величины корреляционных коэффициентов Ki, мы изменяем площадь сечения речевого тракта в разных точках и моделируем специфические особенности речевого тракта для всех возможных звуков.

Рисунок 3.16. Схема синтезатора речи, построенного на основе моделирования геометрии речевого тракта
Алгоритмическая схема каждой ячейки Ci может быть представлена в виде схемы, аналогичной представленной на рис. 3.17.

Рисунок 3.17. Схема цилиндрической секции
Таким образом, чтобы промоделировать одну секцию акустической трубы, требуется сделать одно умножение, три сложения и одну задержку.

Такие синтезаторы генерируют достаточно качественную речь. Основная задача – правильно подать на вход коэффициенты Ki и смоделировать источник возбуждения. Из-за того, что текущие размеры речевого тракта определяются трудно, можно только догадываться об их изменении, и до сих пор нет такой действующей модели. Поэтому все-таки лучшие практические результаты показали формантные модели синтеза речевого сигнала.
61. Методы синтеза речевого сигнала. Формантная модель.

Формантная модель является наиболее распространенной и чаще всего используется в реализации систем автоматического синтеза речи. В рамках формантной модели описываются частотные характеристики речи, которые содержат основную информацию о произносимых фонемах.

Акустические характеристики фонем тесно связаны с артикуляционными особенностями их образования – местом и способом.

Речевой аппарат человека представляется в виде двух параллельных каналов – ротового и носового, образующих единую акустическую систему, возбуждаемую периодическими колебаниями голосовых связок либо турбулентным шумом. Распространение акустических волн в такой системе описывается уравнением Вебстера:

Решение этого уравнения для речевого тракта различных конфигурация, соответствующих различным звукам речи, является основным предметом исследования акустической теории речеобразования. В результате решения получается аналитическое выражение для передаточной функции речевого тракта H(p). В общем случае при достаточно малых потерях (что вполне справедливо для реального речевого тракта):

На практике передаточная функция аппроксимируется ограниченным числом формант (до четырех) с помощью последовательно соединенных формантных фильтров.

Под формантой в общем случае понимают полосы передаточной функции речевого тракта, характеризующиеся частотой Fi, амплитудой Ai и полосой пропускания Bi.

На амплитудно-частотном спектре форманты проявляются в виде заметных максимумов (рис. 3.18). Однако не всякий максимум является формантой. Обычно в диапазоне частот первых четырех формант ряд побочных максимумов не является формантами (рис. 3.19).

Рисунок 3.18. Выделение формант в спектре речевого сигнала

Рисунок 3.19. Выделение формант в спектре речевого сигнала для фонемы [ а ]
Анализ вида передаточных функций речевого тракта для различных групп звуков показал, что достаточно полно описать их акустические характеристики можно, используя формантную модель (рис. 3.20).

Рисунок 3.20. Формантная модель акустики речевого тракта
Управляющими параметрами модели являются следующие 10 формантных параметров:

• Aр, Aн – амплитуды голосового возбуждения ротовых и носовых формант;
• Aф – амплитуда шумового возбуждения фрикативных формант;
• Aа – амплитуда аспиративного возбуждения ротовой форманты;
• F0 – частота основного тона;
• F1, F2, F3 – частоты первой, второй и третье формант;
• Fф – частота фрикативных формант;
• Bф – полоса пропускания фрикативных формант.

Различия в способе образования фонем определяются амплитудой голосового возбуждения ротовых формант Aр, носовых формант Aн, амплитудой шумового возбуждения фрикативных формант Aф, амплитудой аспиративного возбуждения ротовых формант Aа, а также частотой основного тона F0. Причем очень важной является временная организация этих параметров.

Группа гласных отличается от согласных тем, что для них Aр = 1, а Aф = Aн = Aа = 0. Кроме того, внутри группы гласных фонем, т.е. по месту образования, гласные отличаются значениями формантных частот F1, F2 и F3, причем основную роль играют F1 и F2. На рис. 3.21 приведен пример распределения формантных частот гласных для мужских и женских голосов. Приведенные здесь зависимости значений первой и второй формант для одного голоса образуют так называемые формантные треугольники, в рамках которых распределяются формантные частоты гласных большинства дикторов. Данные на рисунке значения являются усредненными и могут варьироваться в рамках допустимых диапазонов частот формант для разных голосов.

Рисунок 3.21. Распределение формантных частот гласных для мужских и женских голосов
При внимательном рассмотрении данных формантных треугольников можно сделать определенные выводы о близости (схожести) различных фонем. Например, хорошо видно, что фонемы [ы] и [и] очень незначительно различаются по значению первой форманты. При этом фонемы [у] и [о] близки по значению второй форманты.

Еще один немаловажный вывод заключается в том, что диапазон частот формант женского голоса значительно выше и более разбросан по сравнению с данными для мужского голоса. Этим объясняется то, что большинство систем автоматического синтеза речи «умеют говорить» только мужскими голосами. Кроме того, этот факт привносит дополнительные трудности в решение задачи распознавания речи женского голоса.

Наибольшую роль в разделении согласных по месту образования играет формантная частота F2. Причем вследствие коартикуляции F2 зависит от места образования не только согласного, но и окружающих его гласных (рис. 3.22). Как видно из рисунка, наибольшему коартикуляционному воздействию подвергается группа небных твердых согласных [к], [г], [х], а наименьшему – мягкие согласные.

По способу образования фонемы подразделяются на следующие виды:

Рисунок 3.22. Зависимость частоты второй форманты согласных от частоты гласных в слоге

62. Компиляционные методы синтеза речевого сигнала.
Эти методы основаны на использовании отрезков естественной речевой волны. Благодаря этому, звук не генерируется, а извлекается из памяти, где хранятся заранее заготовленные отрезки речевой волны. Преимущество таких синтезаторов заключается в том, что они позволяют при определенных условиях приблизить качество синтезированной речи к естественной. Это очень важное преимущество, так как, как бы ни была упрощена модель речевого тракта, все равно мы многого о ней не знаем, особенно того, что касается индивидуальности голоса. Поэтому если потребуется синтезировать свой собственный голос, то лучше использовать компиляционные методы.

Одним из наиболее простых вариантов реализации компиляционного метода синтеза речевого сигнала является аллофонная модель, в которой в качестве отрезков естественной речевой волны используются записи аллофонов. Для реализации систем автоматического синтеза речи на основе указанной модели необходимо выполнить ряд предварительных этапов:

1) запись и оцифровка наборов слов или фраз, из которых впоследствии будут вырезаться аллофоны (существуют такие специальные наборы слов для надиктовки, которые рассчитаны на то, что из этих наборов можно будет нарезать необходимое количество аллофонов);

2) используя средства редактирования оцифрованного звука, нарезать необходимое количество аллофонов (это делается в основном вручную, на слух; при этом желательно нарезать несколько вариантов одного и того же аллофона, чтобы можно было впоследствии выбрать лучшие по качеству звучания);
3) сохранить наборы аллофонов в специальной звуковой базе данных, которая будет использоваться синтезатором речи. Описанные действия являются достаточно простыми, но проблема заключается в том, какое количество аллофонов требуется подготовить для достаточно хорошего качества синтеза речи. Подсчитаем сначала общее количество аллофонов, которые могут быть в русской речи. При этом требуется учесть типологию аллофонов и их свойства.
Подсчитаем теперь общее число позиционных аллофонов. Известно, что в русской речи число фонем

Nф = 42.

Каждая фонема может быть представлена в виде позиционного аллофона в 6-ти вариантах, т.е. имеем

Np = 6.

Итак, число позиционных аллофонов

Nп.ал. = Nф x Np = 42 x 6 = 252.

Теперь рассчитаем количество комбинаторных аллофонов. Их число зависит от количества левых и правых контекстов фонем. В общем случае число левых контекстов

Nl = 42 + 1 = 43 (т.к. может быть пауза в начале).

Число правых контекстов такое же:

Nr = Nl = 43 .

Тогда получаем общее число аллофонов русской речи:

Nал. = 42 x 6 x 43 x 43 = 466 000 – это почти 0,5 млн. аллофонов!

Если мы хотим синтезировать качественную речь, то необходимо набрать базу из такого количества аллофонов. Потом в процессе синтеза речи для каждого слова будут выбираться нужные аллофоны и компилироваться в соответствующий речевой сигнал. Очевидно, что вручную перебрать такое число аллофонов практически нереально. Поэтому разработчики пытаются минимизировать число необходимых аллофонов. Разумеется, при этом стараются не ухудшить качество синтеза.

Вспомним, что основными недостатками компиляционных методов являются:
1) потенциально большой объем информации, которую нужно запомнить (для хорошего качества речи требуются тысячи аллофонов);
2) очень трудоемкая работа по созданию баз данных элементов речи (это кропотливая, монотонная работа на многие месяцы).

Для того чтобы разобраться в том, что такое микроволны, рассмотрим в качестве примера аллофон гласного. Возьмем следующий комбинаторный аллофон: гласная [а], в левом контексте которой [п], а в правом – [к]. Рассмотрим осциллограмму этого аллофона (рис. 3.23).

Рисунок 3.23. Микроволны на осциллограмме аллофона [а]

63. Методы анализа речевого сигнала.
Существует несколько методов анализа речевого сигнала. Каждый из методов предназначен для выделения в сплошном потоке речи некоторого определенного набора параметров, в которых заключается основная (смысловая) информация, а также отделения набора параметров, описывающих дополнительную информацию.

Для формирования параметрического описания речевых сигналов в современных системах распознавания речи широко используются, как правило, три основных метода спектрального анализа:

• метод цифровой фильтрации;

• метод быстрых алгоритмов преобразования Фурье;
• метод, основанный на линейном предсказании речевого сигнала.

Метод цифровой фильтрации
В этом методе реализуется наиболее простой и понятный подход к спектральному разложению сигналов. Анализаторы, основанные на данном подходе, состоят из набора параллельно включенных цифровых полосовых фильтров, спектральные характеристики которых представляют собой узкие примыкающие друг к другу полосы, перекрывающие необходимый диапазон частот. Для получения спектра сигнала достаточно измерить значение мощности на выходе каждого фильтра и рассматривать их как точки спектра, соответствующие центральным частотам полос пропускания. Практически формирование вектора параметров в задачах распознавания речи осуществляется на основе способа «кадр-за-кадром» с их пошаговым перекрытием. Поскольку с каждым новым шагом изменяется только часть данных, такой способ сегментирования гарантирует отслеживание всех акустических явлений в речевом сигнале, обеспечивая в то же время достаточно плавное изменение параметров от выборки к выборке. Поэтому на выходе каждого канала «кадр-за-кадром» вычисляются оценки значений мощности, которые используются в качестве компонент вектора спектральных параметров описания речевых сигналов.

Спектральный анализ с использованием алгоритмов БПФ
Быстрое преобразование Фурье (БПФ) — это название целого ряда эффективных алгоритмов, предназначенных для вычисления дискретно-временного ряда Фурье. Основы построения таких алгоритмов, аппаратурная и программная реализация, а также принципы их применения для спектрального анализа подробно освещены в ряде работ. Поскольку, как правило, спектр дискретизируется с достаточно тонким разрешением, большое количество отсчетов спектра, получаемых с помощью алгоритмов БПФ, не позволяет использовать их напрямую в качестве параметров описания речевых сигналов и требует некоторой процедуры сглаживания, к примеру, в виде взвешенной суммы полученных значений спектральных плотностей мощности, лежащих внутри заданного «канального» диапазона частот. Поэтому на основе спектрального анализа через алгоритмы БПФ для формирования вектора параметров описания речевых сигналов обычно используют взвешенные поканальные значения мощности.

Использование в распознавании речи гомоморфных параметров, к числу которых можно отнести кепстральные коэффициенты позволяет отделить сигнал возбуждения от формы голосового тракта. Кепстр преобразования Фурье представляет собой обратное преобразование Фурье от логарифма спектра.

Спектральный анализ на основе линейного предсказания

Рассмотрим метод коэффициентов линейного предсказания (КЛП или LPС). В этом методе анализа речевого сигнала используется мощная математическая теория, решающая задачу описания нуль-полюсной модели речевого сигнала. Основная идея – описание речевого спектра с помощью информации о нулях и полюсах, для этого используется аппарат дифференциальных уравнений и др. математика.

Реальный алгоритм получения параметров описания на основе модели линейного предсказания коротко состоит в следующем. Предположим, что анализируемый случайный процесс является выходом фильтра, на вход которого поступает белый шум. Этот фильтр задается как рекурсивный фильтр с импульсной характеристикой бесконечной протяженности. В той мере, насколько справедлива эта модель, энергетический спектр сигнала описывается выражением

где T — частота дискретизации. Коэффициенты p, a[1], a[2], …, a[m] определяются из решения уравнений Юла-Уолкера при помощи рекурсивного алгоритма Левинсона . Уравнения Юла-Уолкера для коэффициентов a[k], k=1,…,m совпадают с уравнениями, возникающими при постановке задачи линейного. Коэффициенты a[k], k=1,…,m называют коэффициентами линейного предсказания, а спектр, полученный методом авторегрессии, называется спектром линейного предсказания. Спектр линейного предсказания, также как и спектр БПФ, в явном виде при обработке речи не используется. Обычно диапазон частот спектра линейного предсказания разбивается на заданное число каналов. Для каждого канала рассчитывается средняя мощность. Эти значения мощности используются как коэффициенты вектора параметров. Коэффициенты линейного предсказания используются также для расчета кепстральных коэффициентов линейного предсказания.

64. Метод цифровой фильтрации речевого сигнала. Спектральный анализ с использованием алгоритмов БПФ.

Метод цифровой фильтрации

В этом методе реализуется наиболее простой и понятный подход к спектральному разложению сигналов. Анализаторы, основанные на данном подходе, состоят из набора параллельно включенных цифровых полосовых фильтров, спектральные характеристики которых представляют собой узкие примыкающие друг к другу полосы, перекрывающие необходимый диапазон частот. Для получения спектра сигнала достаточно измерить значение мощности на выходе каждого фильтра и рассматривать их как точки спектра, соответствующие центральным частотам полос пропускания. Практически формирование вектора параметров в задачах распознавания речи осуществляется на основе способа «кадр-за-кадром» с их пошаговым перекрытием. Поскольку с каждым новым шагом изменяется только часть данных, такой способ сегментирования гарантирует отслеживание всех акустических явлений в речевом сигнале, обеспечивая в то же время достаточно плавное изменение параметров от выборки к выборке. Поэтому на выходе каждого канала «кадр-за-кадром» вычисляются оценки значений мощности, которые используются в качестве компонент вектора спектральных параметров описания речевых сигналов.
Спектральный анализ с использованием алгоритмов БПФ

Быстрое преобразование Фурье (БПФ) — это название целого ряда эффективных алгоритмов, предназначенных для вычисления дискретно-временного ряда Фурье. Основы построения таких алгоритмов, аппаратурная и программная реализация, а также принципы их применения для спектрального анализа подробно освещены в ряде работ. Поскольку, как правило, спектр дискретизируется с достаточно тонким разрешением, большое количество отсчетов спектра, получаемых с помощью алгоритмов БПФ, не позволяет использовать их напрямую в качестве параметров описания речевых сигналов и требует некоторой процедуры сглаживания, к примеру, в виде взвешенной суммы полученных значений спектральных плотностей мощности, лежащих внутри заданного «канального» диапазона частот. Поэтому на основе спектрального анализа через алгоритмы БПФ для формирования вектора параметров описания речевых сигналов обычно используют взвешенные поканальные значения мощности.
Использование в распознавании речи гомоморфных параметров, к числу которых можно отнести кепстральные коэффициенты, позволяет отделить сигнал возбуждения от формы голосового тракта. Кепстр преобразования Фурье представляет собой обратное преобразование Фурье от логарифма спектра.

65. Спектральный анализ на основе линейного предсказания. Формантно-параметрическое описание речевого сигнала.
Спектральный анализ на основе линейного предсказания

Рассмотрим метод коэффициентов линейного предсказания (КЛП или LPС). В этом методе анализа речевого сигнала используется мощная математическая теория, решающая задачу описания нуль-полюсной модели речевого сигнала. Основная идея – описание речевого спектра с помощью информации о нулях и полюсах, для этого используется аппарат дифференциальных уравнений и др. математика.
Реальный алгоритм получения параметров описания на основе модели линейного предсказания коротко состоит в следующем. Предположим, что анализируемый случайный процесс является выходом фильтра, на вход которого поступает белый шум. Этот фильтр задается как рекурсивный фильтр с импульсной характеристикой бесконечной протяженности. В той мере, насколько справедлива эта модель, энергетический спектр сигнала описывается выражением

где T — частота дискретизации. Коэффициенты p, a[1], a[2], …, a[m] определяются из решения уравнений Юла-Уолкера при помощи рекурсивного алгоритма Левинсона. Уравнения Юла-Уолкера для коэффициентов a[k], k=1,…,m совпадают с уравнениями, возникающими при постановке задачи линейного. Коэффициенты a[k], k=1,…,m называют коэффициентами линейного предсказания, а спектр, полученный методом авторегрессии, называется спектром линейного предсказания. Спектр линейного предсказания, также как и спектр БПФ, в явном виде при обработке речи не используется. Обычно диапазон частот спектра линейного предсказания разбивается на заданное число каналов. Для каждого канала рассчитывается средняя мощность. Эти значения мощности используются как коэффициенты вектора параметров. Коэффициенты линейного предсказания используются также для расчета кепстральных коэффициентов линейного предсказания.

Вектор основных параметров, составленный на базе описанных выше методов не может исчерпывающим образом описать все возможные вариации речи. Несмотря на возможность управления разрешением спектра и увеличения числа кепстральных коэффициентов, это не приводит в конечном итоге к улучшению точности распознавания. Поскольку оценки спектра получаются достаточно сглаженными, увеличение разрешения спектра не дает новой существенной информации о сигнале, поэтому на практике используются не более 20 каналов. В качестве компонент вектора параметров обычно используются не более 14 первых кепстральных коэффициентов, поскольку более высокие коэффициенты практически нечувствительны к изменениям в сигнале.

Ранее уже отмечалось, что при покадровой сегментации для упрощения вычисления векторы параметров разных окон считаются независимыми друг от друга, тем самым теряется информация о динамике речевых характеристик. Однако такая информация может быть восстановлена путем аппроксимации производной каждого параметра конечной разностью по нескольким последовательным выборкам речевого сигнала. Полученные таким образом величины, являющиеся по сути производными от основных параметров, позволяют добавить весьма важную информацию в вектор параметров и носят название дельта-параметров.

Если вектор параметров обозначить как , где — компоненты вектора речевых параметров, d – размерность вектора, а вектор параметров для n-го окна как , то последовательность X векторов параметров при покадровой обработке есть . Таким образом, при помощи рассмотренных выше алгоритмов на выходе блока параметрического описания речевого сигнала формируется последовательность X векторов параметров описания речевого сигнала.

Формантно-параметрическое описание речевого сигнала

Следующий вид анализа РС – получение формантного описания речевого сигнала. Этот метод позволяет получить наиболее ценную информацию о самых значимых максимумах и минимумах спектра и их параметрах.
Для задачи распознавания речи, как уже определено выше, наиболее адекватны параметры формантной модели описания речевого сигнала. На основе этих методов разрабатываются многочисленные процедуры оценки параметров способа образования – главным образом параметров источников возбуждения, и места образования – главным образом формантных частот.

В рамках форматной модели выделены 10 управляющих параметров указанной модели и показана зависимость первой и второй формант гласных, а также эффект коартикуляции, т.е. влияния гласных на формантные характеристики согласных фонем русской речи. Здесь продолжим это рассмотрение.

Для дальнейшего разделения согласных по месту образования используются параметры F3, Fф, Bф, Aа. Основную роль в разделении мягких согласных играет параметр F3 (рис. 3.24), в разделении зубных и альвеолярных согласных – параметр Fф (рис. 3.25).

Рисунок. Разделение мягких согласных по параметру F3

Рисунок. Разделение зубных и альвеолярных согласных по параметру Fф
Дополнительное выделение группы губных согласных осуществляется по параметру Bф, который равен 1 только для этой группы, а для остальных фонем равен 0. Аналогично параметр Aа = 1 только для группы небных согласных и благодаря этому участвует в их дополнительном выделении.

В разделении фонем по способу образования важную роль играют значения параметров Aр, Aф, Aа, Aн, F1, F0, определенные на участке ядра фонемы. Не менее важной является также временная организация этих параметров, которая в значительной степени определяется способом образования фонем. На временных диаграммах рис. 3.26 отражены значения параметров Aр, Aн, Aф, Aа, характеризующие ту или иную группу согласных, а также временные особенности их развития в контексте гласный — согласный — гласный.

Рисунок. Временные диаграммы изменения А-параметров для согласных разного способа образования


Автор: Ербол Нурланов

Ербол — талантливый фотограф, зафиксировавший красоту природы и городской жизни Казахстана. Его работы придают нашим материалам визуальное великолепие.