Глубокое обучение в задаче разработки системы автоматической транскрипции

В статье представлена архитектура глубокой нейронной сети для автоматического распознавания фонем в речевом сигнале. Предложенная модель использует комбинацию сверточных и рекуррентных слоев, а также механизм внимания, обогащенный референсными значениями формант гласных фонем. Это позволяет эффективно извлекать локальные и глобальные акустические признаки, необходимые для точного распознавания последовательностей фонем. Особое внимание уделяется проблеме несбалансированности частоты фонем в обучающем наборе данных и способам ее преодоления, таким как аугментация данных и применение взвешенной функции потерь. Представленные результаты демонстрируют работоспособность предложенного подхода, однако указывают на необходимость дальнейшего совершенствования модели для достижения более высоких показателей точности и полноты в задаче распознавания речи.

This paper presents a deep neural network architecture for automatic phoneme recognition in speech signals. The proposed model combines convolutional and recurrent layers, as well as an attention mechanism enriched with reference values of vowel formant frequencies. This allows the model to effectively extract local and global acoustic features necessary for accurate phoneme sequence recognition. Particular attention is paid to the problem of imbalanced phoneme frequency in the training dataset and ways to overcome it, such as data augmentation and the use of a weighted loss function. The reported results demonstrate the viability of the proposed approach, but also indicate the need for further model refinement to achieve higher accuracy and recall in the speech recognition task.

Авторы
Издательство
Институт системного программирования им. В.П. Иванникова РАН
Номер выпуска
1
Язык
Russian
Страницы
145-158
Статус
Published
Том
37
Год
2025
Организации
  • 1 Пятигорский государственный университет
  • 2 Российский университет дружбы народов имени Патриса Лумумбы
  • 3 Институт системного программирования им. В.П. Иванникова РАНSciences
Ключевые слова
automatic speech recognition; phonetic transcription; Deep Neural Networks; formants; автоматическое распознавание речи; фонетическая транскрипция; глубокие нейронные сети; форманты
Цитировать
Поделиться

Другие записи

Avatkov V.A., Apanovich M.Yu., Borzova A.Yu., Bordachev T.V., Vinokurov V.I., Volokhov V.I., Vorobev S.V., Gumensky A.V., Иванченко В.С., Kashirina T.V., Матвеев О.В., Okunev I.Yu., Popleteeva G.A., Sapronova M.A., Свешникова Ю.В., Fenenko A.V., Feofanov K.A., Tsvetov P.Yu., Shkolyarskaya T.I., Shtol V.V. ...
Общество с ограниченной ответственностью Издательско-торговая корпорация "Дашков и К". 2018. 411 с.
Абдуллоева Ш.Ш., Каприн А.Д., Зикиряходжаев А.Д., Сарибекян Э.К., Рассказова Е.А., Онофрийчук И.М., Волкова Ю.И., Хомиди У.И., Кодзоева Д.Б., Казарян Л.П.
Исследования и практика в медицине. Том 12. 2025. С. 8-25