Редактирование: Синтез речи
Перейти к навигации
Перейти к поиску
Правка может быть отменена. Пожалуйста, просмотрите сравнение версий ниже, чтобы убедиться, что это нужная вам правка, и запишите страницу ниже, чтобы отменить правку.
Текущая версия | Ваш текст | ||
Строка 9: | Строка 9: | ||
Система преобразования текста в речь (или "движок") состоит из двух частей: передней и задней. Front-end имеет две основные задачи. Во-первых, он преобразует необработанный текст, содержащий символы, такие как цифры и аббревиатуры, в эквивалент выписанных слов. Этот процесс часто называют нормализацией текста, предварительной обработкой или токенизацией. Затем интерфейс присваивает фонетические транскрипции каждому слову, а также делит и помечает текст на просодические единицы, такие как фразы, предложения и предложения. Процесс присвоения фонетических транскрипций словам называется преобразованием текста в фонему или графемы в фонему. Фонетические транскрипции и просодическая информация вместе составляют символическое лингвистическое представление, которое выводится интерфейсом. Back-end - часто называемый синтезатором — затем преобразует символическое лингвистическое представление в звук. В некоторых системах эта часть включает вычисление целевой просодии (контура высоты тона, длительности фонемы), которая затем накладывается на выходную речь. | Система преобразования текста в речь (или "движок") состоит из двух частей: передней и задней. Front-end имеет две основные задачи. Во-первых, он преобразует необработанный текст, содержащий символы, такие как цифры и аббревиатуры, в эквивалент выписанных слов. Этот процесс часто называют нормализацией текста, предварительной обработкой или токенизацией. Затем интерфейс присваивает фонетические транскрипции каждому слову, а также делит и помечает текст на просодические единицы, такие как фразы, предложения и предложения. Процесс присвоения фонетических транскрипций словам называется преобразованием текста в фонему или графемы в фонему. Фонетические транскрипции и просодическая информация вместе составляют символическое лингвистическое представление, которое выводится интерфейсом. Back-end - часто называемый синтезатором — затем преобразует символическое лингвистическое представление в звук. В некоторых системах эта часть включает вычисление целевой просодии (контура высоты тона, длительности фонемы), которая затем накладывается на выходную речь. | ||
[[Файл:TTS System.svg|400px|thumb|left|Обзор типичной системы TTS]] | [[Файл:TTS System.svg.png|400px|thumb|left|Обзор типичной системы TTS]] | ||
==История== | ==История== |