Редактирование: Синтез речи
Перейти к навигации
Перейти к поиску
Правка может быть отменена. Пожалуйста, просмотрите сравнение версий ниже, чтобы убедиться, что это нужная вам правка, и запишите страницу ниже, чтобы отменить правку.
Текущая версия | Ваш текст | ||
Строка 9: | Строка 9: | ||
Система преобразования текста в речь (или "движок") состоит из двух частей: передней и задней. Front-end имеет две основные задачи. Во-первых, он преобразует необработанный текст, содержащий символы, такие как цифры и аббревиатуры, в эквивалент выписанных слов. Этот процесс часто называют нормализацией текста, предварительной обработкой или токенизацией. Затем интерфейс присваивает фонетические транскрипции каждому слову, а также делит и помечает текст на просодические единицы, такие как фразы, предложения и предложения. Процесс присвоения фонетических транскрипций словам называется преобразованием текста в фонему или графемы в фонему. Фонетические транскрипции и просодическая информация вместе составляют символическое лингвистическое представление, которое выводится интерфейсом. Back-end - часто называемый синтезатором — затем преобразует символическое лингвистическое представление в звук. В некоторых системах эта часть включает вычисление целевой просодии (контура высоты тона, длительности фонемы), которая затем накладывается на выходную речь. | Система преобразования текста в речь (или "движок") состоит из двух частей: передней и задней. Front-end имеет две основные задачи. Во-первых, он преобразует необработанный текст, содержащий символы, такие как цифры и аббревиатуры, в эквивалент выписанных слов. Этот процесс часто называют нормализацией текста, предварительной обработкой или токенизацией. Затем интерфейс присваивает фонетические транскрипции каждому слову, а также делит и помечает текст на просодические единицы, такие как фразы, предложения и предложения. Процесс присвоения фонетических транскрипций словам называется преобразованием текста в фонему или графемы в фонему. Фонетические транскрипции и просодическая информация вместе составляют символическое лингвистическое представление, которое выводится интерфейсом. Back-end - часто называемый синтезатором — затем преобразует символическое лингвистическое представление в звук. В некоторых системах эта часть включает вычисление целевой просодии (контура высоты тона, длительности фонемы), которая затем накладывается на выходную речь. | ||
[[Файл:TTS System.svg|400px|thumb|left|Обзор типичной системы TTS]] | [[Файл:TTS System.svg.png|400px|thumb|left|Обзор типичной системы TTS]] | ||
==История== | ==История== | ||
Строка 116: | Строка 116: | ||
==Специализированное оборудование== | ==Специализированное оборудование== | ||
* | * Икофон | ||
* | * General Instrument SP0256-AL2 | ||
* | * National Semiconductor DT1050 Digitalker (Мозер – Форрест Мозер) | ||
* | * Texas Instruments LPC речевые чипы | ||
==Аппаратные и программные системы== | ==Аппаратные и программные системы== | ||
Строка 144: | Строка 144: | ||
===AmigaOS=== | ===AmigaOS=== | ||
[[Файл:SoftVoice.svg|300px|thumb|right|оп]] | [[Файл:SoftVoice.svg.png|300px|thumb|right|оп]] | ||
Второй операционной системой с расширенными возможностями синтеза речи была AmigaOS, представленная в 1985 году. Синтез голоса был лицензирован Commodore International от SoftVoice, Inc., которая также разработала оригинальную систему преобразования текста в речь MacinTalk. Он включал полную систему голосовой эмуляции американского английского языка, как с мужскими, так и с женскими голосами и индикаторными маркерами "стресса", ставшую возможной благодаря аудиокомплексу Amiga. Система синтеза была разделена на библиотеку переводчиков, которая преобразовывала неограниченный английский текст в стандартный набор фонетических кодов и устройство рассказчика, реализующее формантную модель генерации речи.. AmigaOS также имел высокоуровневый "Обработчик речи", который позволял пользователям командной строки перенаправлять вывод текста в речь. Синтез речи иногда использовался в сторонних программах, особенно в текстовых процессорах и образовательных программах. Программное обеспечение синтеза оставалось практически неизменным с первого выпуска AmigaOS, и Commodore в конечном итоге удалил поддержку синтеза речи из AmigaOS 2.1 и далее. | Второй операционной системой с расширенными возможностями синтеза речи была AmigaOS, представленная в 1985 году. Синтез голоса был лицензирован Commodore International от SoftVoice, Inc., которая также разработала оригинальную систему преобразования текста в речь MacinTalk. Он включал полную систему голосовой эмуляции американского английского языка, как с мужскими, так и с женскими голосами и индикаторными маркерами "стресса", ставшую возможной благодаря аудиокомплексу Amiga. Система синтеза была разделена на библиотеку переводчиков, которая преобразовывала неограниченный английский текст в стандартный набор фонетических кодов и устройство рассказчика, реализующее формантную модель генерации речи.. AmigaOS также имел высокоуровневый "Обработчик речи", который позволял пользователям командной строки перенаправлять вывод текста в речь. Синтез речи иногда использовался в сторонних программах, особенно в текстовых процессорах и образовательных программах. Программное обеспечение синтеза оставалось практически неизменным с первого выпуска AmigaOS, и Commodore в конечном итоге удалил поддержку синтеза речи из AmigaOS 2.1 и далее. | ||
Строка 181: | Строка 181: | ||
Существуют некоторые программные системы с открытым исходным кодом, такие как: | Существуют некоторые программные системы с открытым исходным кодом, такие как: | ||
* | * RHVoice с поддержкой нескольких языков. | ||
* | * Фестивальная система синтеза речи, которая использует синтез на основе дифона, а также более современные и лучше звучащие методы. | ||
* | * eSpeak, который поддерживает широкий спектр языков. | ||
* | * gnuspeech, который использует артикуляционный синтез из Фонда свободного программного обеспечения. | ||
* MaryTTS, web based and open source. | * MaryTTS, web based and open source. | ||
Строка 191: | Строка 191: | ||
* После коммерческого провала аппаратного Intellivoice разработчики игр экономно использовали программный синтез в более поздних играх. Более ранние системы от Atari, такие как Atari 5200 (бейсбол) и Atari 2600 (Quadrun и Open Sesame), также имели игры, использующие программный синтез. | * После коммерческого провала аппаратного Intellivoice разработчики игр экономно использовали программный синтез в более поздних играх. Более ранние системы от Atari, такие как Atari 5200 (бейсбол) и Atari 2600 (Quadrun и Open Sesame), также имели игры, использующие программный синтез. | ||
* Некоторые устройства для чтения электронных книг, такие как Amazon Kindle, Samsung E6, PocketBook eReader Pro, enTourage eDGe и Bebookneo. | * Некоторые устройства для чтения электронных книг, такие как Amazon Kindle, Samsung E6, PocketBook eReader Pro, enTourage eDGe и Bebookneo. | ||
* | * BBC Micro внедрила чип синтеза речи Texas Instruments TMS5220, | ||
* Некоторые модели домашних компьютеров Texas Instruments 1979 и 1981 годов выпуска (Texas Instruments TI-99/4 и TI-99/ 4A) были способны к синтезу текста в фонему или чтению полных слов и фраз (text-to-dictionary) с использованием очень популярного периферийного синтезатора речи. TI использовала проприетарный кодек для встраивания полных произносимых фраз в приложения, в первую очередь в видеоигры. | * Некоторые модели домашних компьютеров Texas Instruments 1979 и 1981 годов выпуска (Texas Instruments TI-99/4 и TI-99/ 4A) были способны к синтезу текста в фонему или чтению полных слов и фраз (text-to-dictionary) с использованием очень популярного периферийного синтезатора речи. TI использовала проприетарный кодек для встраивания полных произносимых фраз в приложения, в первую очередь в видеоигры. | ||
* IBM OS / 2 Warp 4 включала VoiceType, предшественник IBM ViaVoice. | * IBM OS / 2 Warp 4 включала VoiceType, предшественник IBM ViaVoice. | ||
* | * GPS-навигаторы производства Garmin, Magellan, TomTom и других компаний используют синтез речи для автомобильной навигации. | ||
* В 1999 году Yamaha выпустила музыкальный синтезатор Yamaha FS1R, который включал в себя возможность синтеза формантов. Последовательности до 512 отдельных гласных и согласных формантов могут быть сохранены и воспроизведены, что позволяет синтезировать короткие вокальные фразы. | * В 1999 году Yamaha выпустила музыкальный синтезатор Yamaha FS1R, который включал в себя возможность синтеза формантов. Последовательности до 512 отдельных гласных и согласных формантов могут быть сохранены и воспроизведены, что позволяет синтезировать короткие вокальные фразы. | ||