Русский

Conference publications

Abstracts

XVI conference

Программная оболочка анализа речевых сигналов на основе технологии Вейвлет-преобразований

Запрягаев С.А., Коновалов А.Ю.

Воронежский госуниверситет, Россия, 394006, Воронеж, Университетская пл.1, E-mail: zsa@main.vsu.ru

1 pp. (accepted)

Задача распознавания речевых сигналов является актуальной в условиях развития цифровых технологий. Одной из основных целей машинного распознавания речи является создание ориентированного на человека интерфейса информационных систем. Кроме того, проблема речевого управления связана с тем, что в некоторых областях применения речь стала единственным возможным средством управления техникой.

В настоящей работе представлен программный комплекс для проведения анализа речевых сигналов с использованием как стандартных методов спектрального анализа, так и с использованием метода вейвлет преобразований. Данная оболочка имеет целью формирование инструмента при изучении различных методов и алгоритмов обработки данных, содержащихся в речевых сигналах для выявления их применимости к анализу речи. В программной оболочке реализованы следующие возможности: запись и редактирование звуковых сигналов; спектральный вейвлет анализ сигналов; вейвлет фильтрация сигналов и крупномасштабный вейвлет анализ. Реализация осуществлена в среде разработке Borland Delphi под операционной системой Microsoft Windows.

Для записи звука используются низкоуровневые средства системы MMSystem OC MS Windows. Запись производится с различными параметрами битности и частоты. Оболочка поддерживает запись и загрузку множества экземпляров звуковых данных.

Вейвлет анализ сигналов реализован с применением непрерывного вейвлет преобразования (дискретизированный вариант). Вейвлет фильтрация и крупномасштабный анализ (многоуровневое разложение) сигналов реализован с использованием вейвлет фильтров Добеши.

В качестве примера применения данной оболочки рассматривается построение непрерывных и дискретных спектров для сигналов схожих речевых сегментов (слов) типа «день» - «тень» в русском языке и аналогичных созвучных сегментов в английском языке. Спектры отображались с нормировкой по масштабам (Арнеодо). Дискретный спектр строился с вейвлетами Добеши 4-го порядка с глубиной разложения в 10 уровней. Непрерывный спектр строился с Гауссовым вйвлетом 4-го порядка в диапазоне масштабов 0.0001 – 0.01 с шагом 0.125.

Выделенные различия показывают, что корректный подбор коэффициентов для процедуры сопоставления образов на основе коэффициентов преобразования с учетом масштабов могут дать хорошие результаты при идентификации слов и речевых сегментов и снизить вероятность ошибок на схожих звуковых сигналах.

Литература

1. Добеши И.. Десять лекций по вейвлетам. – НИЦ «РХД», 2001. -464 cтр.



© 2004 Designed by Lyceum of Informational Technologies №1533