Синтез речи

См. также: Речеобразующее устройство

Синтез речи - это искусственное производство человеческой речи. Компьютерная система, используемая для этой цели, называется речевым компьютером или синтезатором речи и может быть реализована в программных или аппаратных продуктах. Система преобразования текста в речь (TTS) преобразует текст нормального языка в речь; другие системы преобразуют символические лингвистические представления, такие как фонетические транскрипции, в речь. Обратный процесс - распознавание речи.

Синтезированная речь может быть создана путем объединения фрагментов записанной речи, которые хранятся в базе данных. Системы различаются по размеру хранимых речевых единиц; система, которая хранит телефоны или диктофоны, обеспечивает самый большой диапазон выходного сигнала, но может не хватать четкости. Для определенных областей использования хранение целых слов или предложений позволяет получить высококачественный вывод. Кроме того, синтезатор может включать в себя модель голосового тракта и другие характеристики человеческого голоса, чтобы создать полностью "синтетический" голосовой выход.

О качестве синтезатора речи судят по его сходству с человеческим голосом и по его способности быть понятным. Понятная программа преобразования текста в речь позволяет людям с нарушениями зрения или чтения слушать написанные слова на домашнем компьютере. Многие компьютерные операционные системы включали синтезаторы речи с начала 1990-х годов.

Система преобразования текста в речь (или "движок") состоит из двух частей: передней и задней. Front-end имеет две основные задачи. Во-первых, он преобразует необработанный текст, содержащий символы, такие как цифры и аббревиатуры, в эквивалент выписанных слов. Этот процесс часто называют нормализацией текста, предварительной обработкой или токенизацией. Затем интерфейс присваивает фонетические транскрипции каждому слову, а также делит и помечает текст на просодические единицы, такие как фразы, предложения и предложения. Процесс присвоения фонетических транскрипций словам называется преобразованием текста в фонему или графемы в фонему. Фонетические транскрипции и просодическая информация вместе составляют символическое лингвистическое представление, которое выводится интерфейсом. Back-end - часто называемый синтезатором — затем преобразует символическое лингвистическое представление в звук. В некоторых системах эта часть включает вычисление целевой просодии (контура высоты тона, длительности фонемы), которая затем накладывается на выходную речь.

История[править]

Задолго до изобретения электронной обработки сигналов некоторые люди пытались построить машины для эмуляции человеческой речи. Некоторые ранние легенды о существовании "Медных голов" связаны с папой Сильвестром II (ум. 1003 н.э.), Альбертом Магнусом (1198-1280) и Роджером Бэконом (1214-1294).

В 1779 году немецко-датский ученый Христиан Готлиб Кратценштейн получил первую премию в конкурсе, объявленном Российской императорской академией наук и художеств, за построенные им модели голосового тракта человека, которые могли бы производить пять длинных гласных звуков (в международной системе фонетического алфавита: [aː], [eː], [Iː], [oː] и [uː]). Затем последовала меховая "акустико-механическая речевая машина" Вольфганга фон Кемпелена из Прессбурга, Венгрия, описанная в статье 1791 года. Эта машина добавила модели языка и губ, что позволило ей производитьсогласные, а также гласные. В 1837 году Чарльз Уитстон создал "говорящую машину" по проекту фон Кемпелена, а в 1846 году Джозеф Фабер выставил "Эвфонию". В 1923 году Пейджет возродил дизайн Уитстона.

В 1930-х годах Bell Labs разработала вокодер, который автоматически анализировал речь на ее основные тона и резонансы. Работая над вокодером, Гомер Дадли разработал синтезатор голоса с клавиатурным управлением под названием Voder (Voice Demonstrator), который он выставил на Всемирной выставке в Нью-Йорке в 1939 году.

Доктор Франклин С. Купер и его коллеги из Haskins Laboratories построили воспроизведение паттернов в конце 1940-х годов и завершили его в 1950 году. Существовало несколько различных версий этого аппаратного устройства; в настоящее время выживает только одна. Машина преобразует изображения акустических паттернов речи в виде спектрограммы обратно в звук. Используя это устройство, Элвин Либерман и его коллеги обнаружили акустические сигналы для восприятия фонетических сегментов (согласных и гласных).

Электронные устройства[править]

Первые компьютерные системы синтеза речи появились в конце 1950-х годов. Норико Умеда и др. разработали первую общеанглийскую систему преобразования текста в речь в 1968 году в Электротехнической лаборатории в Японии. В 1961 году физик Джон Ларри Келли-младший и его коллега Луи Герстман использовали компьютер IBM 704 для синтеза речи.известный в истории Bell Labs. Синтезатор (вокодер) диктофона Келли воссоздал песню "Daisy Bell" с музыкальным сопровождением от Макса Мэтьюза. Так совпало, что Артур Кларк навещал своего друга и коллегу Джона Пирса на объекте Bell Labs Murray Hill. Кларк был настолько впечатлен демонстрацией, что использовал ее в кульминационной сцене своего сценария для романа "2001: Космическая одиссея", где компьютер HAL 9000 поет ту же песню, что и астронавт Дэйв Боуман. Несмотря на успех чисто электронного синтеза речи,исследования механических синтезаторов речи продолжаются.

Линейное предиктивное кодирование (LPC), форма кодирования речи, начала развиваться с работы Фумитады Итакуры из Университета Нагои и Шузо Сайто из Nippon Telegraph and Telephone (NTT) в 1966 году. Дальнейшие разработки в технологии LPC были сделаны Бишну С. Атал и Манфред Р. Шредер в Bell Labs в 1970-х годах. Позже LPC стал основой для ранних чипов синтезатора речи, таких как Texas Instruments LPC Speech Chips, используемые в игрушках Speak & Spell с 1978 года.

В 1975 году Фумитада Итакура разработал метод линейных спектральных пар (LSP) для кодирования речи с высоким сжатием, в то время как в NTT. С 1975 по 1981 год Итакура изучал проблемы анализа и синтеза речи на основе метода LSP.команда разработала чип синтезатора речи на основе LSP. LSP является важной технологией синтеза и кодирования речи, и в 1990-х годах была принята почти всеми международными стандартами кодирования речи в качестве важного компонента, способствующего расширению цифровой речевой коммуникации по мобильным каналам и Интернету.

В 1975 году MUSA была выпущена и стала одной из первых систем синтеза речи. Он состоял из автономного компьютерного оборудования и специализированного программного обеспечения, которое позволяло ему читать по-итальянски. Вторая версия, выпущенная в 1978 году, также могла петь по-итальянски в стиле "а капелла".

Доминирующими системами в 1980-х и 1990-х годах были система DECtalk, основанная в основном на работах Денниса Клатта в Массачусетском технологическом институте, и система Bell Labs; последняя была одной из первых многоязычных независимых от языка систем, широко использующих методы обработки естественного языка.

Портативная электроника с синтезом речи начала появляться в 1970-х годах. Одним из первых был портативный калькулятор Telesensory Systems Inc. (TSI) Speech + для слепых в 1976 году. Другие устройства имели в основном образовательные цели, такие как игрушка Speak & Spell производства Texas Instruments в 1978 году. Fidelity выпустила говорящую версию своегоэлектронный шахматный компьютер 1979 года. Первой видеоигрой с синтезом речи была аркадная игра 1980 года shoot 'em up Stratovox (известная в Японии как Speak & Rescue) от Sun Electronics. Первой персональной компьютерной игрой с синтезом речи была Manbiki Shoujo (Shoplifting Girl), выпущенная в 1980 году для игры PET 2001, для которой разработчик игры Хироси Судзуки разработал технику программирования "zero cross" для получения синтезированной речевой волны. Другой ранний пример, аркадная версия Berzerk, также датируется 1980 годом. В том же году компания Milton Bradley выпустила первую многопользовательскую электронную игру с использованием синтеза голоса Milton.

Ранние электронные синтезаторы речи звучали роботизированно и часто были едва понятны. Качество синтезированной речи неуклонно улучшается, но по состоянию на 2016 год выход из современных систем синтеза речи остается четко отличимым от реальной человеческой речи.

Синтезированные голоса обычно звучали как мужские до 1990 года, когда Энн Сирдал из AT & T Bell Laboratories создала женский голос.

Курцвейл предсказал в 2005 году, что, поскольку соотношение затрат и производительности привело к тому, что синтезаторы речи стали дешевле и доступнее, все больше людей выиграют от использования программ преобразования текста в речь.

Синтезаторные технологии[править]

Наиболее важными качествами системы синтеза речи являются естественность и разборчивость.[27] Естественность описывает, насколько близко вывод звучит как человеческая речь, в то время как разборчивость - это легкость, с которой вывод понимается. Идеальный синтезатор речи одновременно естественен и понятен. Системы синтеза речи обычно пытаются максимизировать обе характеристики.

Двумя основными технологиями генерации синтетических речевых сигналов являются конкатенативный синтез и формантный синтез. Каждая технология имеет сильные и слабые стороны, и предполагаемое использование системы синтеза обычно определяет, какой подход используется.

Синтез конкатенации[править]

Основная статья: Конкатенативный синтез

Конкатенативный синтез основан на сцеплении (нанизывании) отрезков записанной речи. Как правило, конкатенативный синтез дает наиболее естественно звучащую синтезированную речь. Однако различия между естественными вариациями речи и характером автоматизированных методов сегментации сигналов иногда приводят к слышимым сбоям на выходе. Существует три основных подтипа конкатенативного синтеза.

Синтез выделения единиц[править]

Unit selection synthesis использует большие базы данных записанной речи. При создании базы данных каждое записанное высказывание сегментируется на некоторые или все из следующих частей: отдельные телефоны, дифоны, полуфоны, слоги, морфемы, слова, фразы и предложения. Как правило, разделение на сегменты выполняется с помощью специально модифицированного распознавателя речи, настроенного на режим "принудительного выравнивания" с некоторой ручной коррекцией после этого, используя визуальные представления, такие как форма волны и спектрограмма.[28] Индекс единиц в базе данных речи затем создается на основе сегментации и акустических параметровкак и основная частота (высота тона), длительность, положение в слоге и соседних телефонах. Во время выполнения искомое целевое высказывание создается путем определения наилучшей цепочки единиц-кандидатов из базы данных (выбор единицы). Этот процесс обычно достигается с помощью специально взвешенного дерева решений.

Выбор единицы измерения обеспечивает наибольшую естественность, поскольку он применяет лишь небольшое количество цифровой обработки сигналов (DSP) к записанной речи. DSP часто делает звук записанной речи менее естественным, хотя некоторые системы используют небольшое количество обработки сигнала в точке конкатенации для сглаживания формы волны. Результаты лучших систем выбора единиц часто неотличимы от реальных человеческих голосов, особенно в контекстах, для которых была настроена система TTS. Однако максимальная естественность обычно требует, чтобы речевые базы данных с выделением единиц были очень большими, в некоторых системах - гигабайтами записанных данных, представляющими десятки часов речи.[29] Кроме того, было известно, что алгоритмы выбора единиц выбирают сегменты из места, которое приводит к менее идеальному синтезу (например,второстепенные слова становятся неясными), даже когда в базе данных существует лучший выбор. Недавно исследователи предложили различные автоматизированные методы обнаружения неестественных сегментов в системах синтеза речи с выделением единиц измерения.

Синтез дифонов[править]

Синтез дифонов использует минимальную речевую базу данных, содержащую все дифоны (переходы звука в звук), происходящие в языке. Количество дифонов зависит от фонотактики языка: например, в испанском около 800 дифонов, а в немецком около 2500. В синтезе дифонов только один пример каждого дифона содержится в базе данных речи. Во время выполнения целевая просодия предложения накладывается на эти минимальные единицы с помощью цифровых методов обработки сигналов, таких как линейное предсказательное кодирование, PSOLA или MBROLA. или более поздних методов, таких как модификация высоты тона в исходной области с использованием дискретного косинусного преобразования. Синтез дифонастрадает от звуковых сбоев конкатенативного синтеза и роботизированной природы формантного синтеза и имеет мало преимуществ любого подхода, кроме небольшого размера. Таким образом, его использование в коммерческих приложениях снижается, хотя он продолжает использоваться в исследованиях, потому что существует ряд свободно доступных программных реализаций. Ранним примером синтеза дифонов является обучающий робот Leachim, изобретенный Майклом Дж. Leachim содержал информацию о учебной программе класса и некоторые биографические данные о студентах, которых он был запрограммирован учить. Он был протестирован в классе четвертого класса в Бронксе, штат Нью-Йорк.

Доменный синтез[править]

Доменно-специфический синтез объединяет предварительно записанные слова и фразы для создания полных высказываний. Он используется в приложениях, где разнообразие текстов, которые будет выводить система, ограничено определенной областью, например, объявления о расписании транзита или погодные сводки.Технология очень проста в реализации и уже давно используется в коммерческих целях в таких устройствах, как говорящие часы и калькуляторы. Уровень естественности этих систем может быть очень высоким, поскольку разнообразие типов предложений ограничено, и они тесно соответствуют просодии и интонации оригинальных записей.

Поскольку эти системы ограничены словами и фразами в своих базах данных, они не являются универсальными и могут синтезировать только те комбинации слов и фраз, с которыми они были предварительно запрограммированы. Смешение слов в естественном разговорном языке, однако, все еще может вызвать проблемы, если не учитывать множество вариаций. Например, в неротических диалектах английского языка "r" в таких словах, как "clear" /ˈklɪə / обычно произносится только тогда, когда следующее слово имеет гласную в качестве первой буквы (например, "clear out" реализуется как /ˌklɪəɹˈʌʊt /). Точно так же во французском языке многие конечные согласные перестают молчать, если за ними следует слово, начинающееся с гласной, эффект, называемый связью. Это чередование не может быть воспроизведено простой системой конкатенации слов, что потребовало бы дополнительной сложности, чтобы быть контекстно-зависимым.

Синтез формантов[править]

Формантный синтез не использует образцы человеческой речи во время выполнения. Вместо этого синтезированный речевой вывод создается с использованием аддитивного синтеза и акустической модели (physical modeling synthesis). Такие параметры, как основная частота, озвучивание и уровни шума, изменяются с течением времени для создания формы волны искусственной речи. Этот метод иногда называют синтезом на основе правил; однако многие конкатенативные системы также имеют компоненты, основанные на правилах. Многие системы, основанные на технологии формантного синтеза, генерируют искусственную, роботизированную речь, которую никогда не примут за человеческую речь. Однако максимальная естественность не всегда является целью системы синтеза речи, и системы формантного синтеза имеют преимущества перед конкатенативными системами. Синтезированная формантом речь может быть надежно разборчивой даже на очень высоких скоростях, избегая акустических сбоев, которые обычно поражают конкатенативные системы. Высокоскоростная синтезированная речь используется слабовидящими для быстрой навигации по компьютерам с помощью программы чтения с экрана. Формантные синтезаторы обычно представляют собой программы меньшего размера, чем конкатенативные системы, поскольку у них нет базы данных речевых выборок. Поэтому они могут быть использованы во встраиваемых системах, где память и мощность микропроцессора особенно ограничены. Поскольку системы, основанные на формантах, полностью контролируют все аспекты выходной речи, можно выводить самые разнообразные просодии и интонации, передавая не только вопросы и утверждения, но и разнообразные эмоции и интонации голоса.

Примеры не в реальном времени, но очень точного управления интонацией в синтезе формантов включают работу, проделанную в конце 1970-х годов для игрушки Texas Instruments Speak & Spell, а также в начале 1980-х годов Sega arcade machines и во многих аркадных играх Atari, Inc. с использованием чипов TMS5220 LPC. Создание правильной интонации для этих проектов было кропотливым, и результаты еще не были сопоставлены интерфейсами преобразования текста в речь в реальном времени.

Артикуляционный синтез[править]

Артикуляционный синтез относится к вычислительным методам синтеза речи на основе моделей голосового тракта человека и происходящих в нем артикуляционных процессов. Первый артикуляционный синтезатор, регулярно используемый для лабораторных экспериментов, был разработан в Haskins Laboratories в середине 1970-х годов Филиппом Рубином, Томом Бэром и Полом Мермельштейном. Этот синтезатор, известный как ASY, был основан на моделях голосового тракта, разработанных в Bell Laboratories в 1960-х и 1970-х годах Полом Мермельштейном, Сесилом Кокером и его коллегами.

До недавнего времени модели артикуляционного синтеза не были включены в коммерческие системы синтеза речи. Заметным исключением является система NeXT, первоначально разработанная и продаваемая Trillium Sound Research, дочерней компанией Университета Калгари, где была проведена большая часть оригинальных исследований. После распада различных воплощений NeXT (начатых Стивом Джобсом в конце 1980-х годов и объединенных с Apple Computer в 1997 году) программное обеспечение Trillium было опубликовано под лицензией GNU General Public License, и работа над ним продолжалась под названием gnuspeech. Система, впервые выпущенная на рынок в 1994 году, обеспечивает полное преобразование текста в речь на основе артикуляции с использованием волновода или аналога линии передачи орального и носового трактов человека, управляемого "отличительной моделью региона" Карре.

Более поздние синтезаторы, разработанные Хорхе С. Лусеро и его коллегами, включают модели биомеханики голосовых складок, аэродинамики голосовой щели и распространения акустических волн в бронках, тракеа, носовой и ротовой полостях и, таким образом, представляют собой полные системы моделирования речи на основе физики.

HMM-based synthesis[править]

HMM-based synthesis - это метод синтеза, основанный на скрытых марковских моделях, также называемый статистическим параметрическим синтезом. В этой системе частотный спектр (голосовой тракт), основная частота (источник голоса) и длительность (просодия) речи моделируются одновременно с помощью HMM. Речевые сигналы генерируются из самих HMM на основе критерия максимального правдоподобия.

Синусоидальный синтез[править]

Синусоидальный синтез - это метод синтеза речи путем замены формантов (основных полос энергии) чистыми тональными свистками.

Синтез на основе глубокого обучения[править]

Глубокое обучение синтез речи использует глубокие нейронные сети (DNN) для создания искусственной речи из текста (text-to-speech) или спектра (vocoder). Глубокие нейронные сети обучаются с использованием большого количества записанной речи и, в случае системы преобразования текста в речь, связанных меток и / или входного текста.

Синтезаторы речи на основе DNN приближаются к естественности человеческого голоса. Примерами недостатков метода являются низкая робастность при недостаточности данных, отсутствие управляемости и низкая производительность в авторегрессионных моделях. Некоторые ограничения (например, отсутствие управляемости) могут быть решены будущими исследованиями.

Проблемы[править]

Проблемы нормализации текста[править]

Процесс нормализации текста редко бывает простым. Тексты полны гетеронимов, чисел и аббревиатур, которые требуют расширения в фонетическое представление. В английском языке есть много вариантов написания, которые произносятся по-разному в зависимости от контекста. Например, "My latest project is to learn how to better project my voice" содержит два произношения "project".

Большинство систем преобразования текста в речь (TTS) не генерируют семантические представления своих входных текстов, поскольку процессы для этого ненадежны, плохо поняты и вычислительно неэффективны. В результате различные эвристические методы используются для угадывания правильного способа устранения неоднозначности омографов, например, изучение соседних слов и использование статистики о частоте встречаемости.

Недавно системы TTS начали использовать HMM (обсуждалось выше) для генерации "частей речи", чтобы помочь в устранении неоднозначности омографов. Эта техника довольно успешна для многих случаев, например, следует ли произносить "read" как "red", подразумевая прошедшее время, или как "reed", подразумевая настоящее время. Типичная частота ошибок при использовании HMM таким образом обычно ниже пяти процентов. Эти методы также хорошо работают для большинства европейских языков, хотя доступ к необходимым учебным корпусам на этих языках часто затруднен.

Решение вопроса о том, как конвертировать числа, - это еще одна проблема, которую должны решить системы TTS. Это простая задача программирования, чтобы преобразовать число в слова (по крайней мере, на английском языке), как "1325" становится "одна тысяча триста двадцать пять". Однако числа встречаются во многих разных контекстах; "1325" также может читаться как "один три два пять", "тринадцать двадцать пять" или "тринадцать сто двадцать пять". Система TTS часто может сделать вывод о том, как расширить число, основываясь на окружающих словах, числах и пунктуации, а иногда система предоставляет способ указать контекст, если он неоднозначен. Римские цифры также могут читаться по-разному в зависимости от контекста. Например, "Генрих VIII" читается как "Генрих Восьмой", а "Глава VIII" - как "Глава восьмая".

Точно так же аббревиатуры могут быть неоднозначными. Например, аббревиатуру "in" для "inches" необходимо отличать от слова "in", а адрес "12 St John St." использует одну и ту же аббревиатуру как для "Saint", так и для "Street". Системы TTS с интеллектуальными интерфейсами могут делать обоснованные предположения о неоднозначных аббревиатурах, в то время как другие дают один и тот же результат во всех случаях, что приводит к бессмысленным (а иногда и комичным) выводам, таким как "Улисс С. Грант", отображаемый как "Улисс Южный Грант".

Проблемы преобразования текста в фонему[править]

Системы синтеза речи используют два основных подхода для определения произношения слова на основе его написания, процесс, который часто называют преобразованием текста в фонему или графемы в фонему (фонема - это термин, используемый лингвистами для описания отличительных звуков в языке). Самый простой подход к преобразованию текста в фонему - это подход, основанный на словаре, когда программа хранит большой словарь, содержащий все слова языка и их правильное произношение. Определение правильного произношения каждого слова - это вопрос поиска каждого слова в словаре и замены написания произношением, указанным в словаре. Другой подход основан на правилах, в котором правила произношения применяются к словам, чтобы определить их произношение на основе их написания. Это похоже на "озвучивание", или синтетическую акустику, подход к обучению чтению.

Каждый подход имеет свои преимущества и недостатки. Подход, основанный на словаре, быстр и точен, но полностью терпит неудачу, если ему дается слово, которого нет в его словаре. С ростом размера словаря требования к объему памяти системы синтеза также возрастают. С другой стороны, подход, основанный на правилах, работает на любом входе, но сложность правил существенно возрастает, поскольку система учитывает неправильное написание или произношение. (Учтите, что слово "of" очень распространено в английском языке, но является единственным словом, в котором буква "f" произносится [v].) В результате почти все системы синтеза речи используют комбинацию этих подходов.

Языки с фонематической орфографией имеют очень регулярную систему письма, и предсказание произношения слов на основе их написания довольно успешно. Системы синтеза речи для таких языков часто широко используют метод, основанный на правилах, прибегая к словарям только для тех немногих слов, таких как иностранные имена и заимствованные слова, произношение которых не очевидно из их написания. С другой стороны, системы синтеза речи для таких языков, как английский, которые имеют крайне нерегулярные системы правописания, с большей вероятностью полагаются на словари и используют методы, основанные на правилах, только для необычных слов или слов, которых нет в их словарях.

Проблемы оценки[править]

Последовательная оценка систем синтеза речи может быть затруднена из-за отсутствия универсально согласованных объективных критериев оценки. Разные организации часто используют разные речевые данные. Качество систем синтеза речи также зависит от качества техники производства (которая может включать аналоговую или цифровую запись) и от средств, используемых для воспроизведения речи. Поэтому оценка систем синтеза речи часто ставилась под угрозу различиями между технологиями производства и средствами воспроизведения.

Однако с 2005 года некоторые исследователи начали оценивать системы синтеза речи, используя общий речевой набор данных[49].

Просодика и эмоциональное содержание[править]

См. Также: Распознавание эмоциональной речи и Просодия (лингвистика)

Исследование, проведенное в журнале Speech Communication Эми Драхота и ее коллегами из Университета Портсмута, Великобритания, показало, что слушатели голосовых записей могут определить, улыбается ли говорящий. Было высказано предположение, что идентификация вокальных особенностей, которые сигнализируют об эмоциональном содержании, может быть использована, чтобы помочь сделать синтезированную речь более естественной. Одним из связанных с этим вопросов является изменение контура тона предложения в зависимости от того, является ли оно утвердительным, вопросительным или восклицательным. Один из методов модификации высоты тона использует дискретное косинусное преобразование в области источника (линейное предсказание остаточного). Такие методы синхронной модификации высоты тона требуют априорной маркировки высоты тона базы данных речи синтеза с использованием таких методов, как извлечение эпох с использованием динамического индекса plosion, применяемого к интегральному линейному предсказанию остатка озвученных областей речи .

Специализированное оборудование[править]

Икофон
General Instrument SP0256-AL2
National Semiconductor DT1050 Digitalker (Мозер – Форрест Мозер)
Texas Instruments LPC речевые чипы

Аппаратные и программные системы[править]

Популярные системы, предлагающие синтез речи в качестве встроенной возможности.

Mattel[править]

Игровая приставка Mattel Intellivision предложила модуль синтеза голоса Intellivoice в 1982 году. Он включал в себя микросхему синтезатора речи диктора SP0256 на съемном картридже. У Рассказчика было 2 Кб памяти только для чтения (ROM), и она использовалась для хранения базы данных общих слов, которые можно было комбинировать для создания фраз в играх Intellivision. Поскольку чип Оратора мог также принимать речевые данные из внешней памяти, любые необходимые дополнительные слова или фразы могли храниться внутри самого картриджа. Данные состояли из строк коэффициентов аналогового фильтра, изменяющих поведение синтетической модели голосового тракта чипа, а не из простых оцифрованных выборок.

СЭМ[править]

Также выпущенное в 1982 году программное обеспечение Automatic Mouth было первой коммерческой полностью программной программой синтеза голоса. Позже он был использован в качестве основы для Macintalk. Программа была доступна для компьютеров Apple, не относящихся к Macintosh (включая Apple II и Lisa), различных моделей Atari и Commodore 64. Версия Apple предпочитала дополнительное оборудование, содержащее ЦАП, хотя вместо этого она могла использовать однобитовый аудиовыход компьютера (с добавлением большого искажения), если карта не присутствовала. Atari использовала встроенный аудиочип POKEY. Воспроизведение речи на Atari обычно отключает запросы прерывания и выключает чип ANTIC во время вокального вывода. Слышимый выход - это чрезвычайно искаженная речь, когда экран включен. Commodore 64 использовал встроенный аудиочип SID 64.

Atari[править]

Возможно, первой речевой системой, интегрированной в операционную систему, были персональные компьютеры 1400XL / 1450XL, разработанные Atari, Inc. с использованием чипа Votrax SC01 в 1983 году. Компьютеры 1400XL / 1450XL использовали конечный автомат для обеспечения синтеза текста в речь на английском языке. К сожалению, персональные компьютеры 1400XL / 1450XL никогда не поставлялись в количестве.

Компьютеры Atari ST продавались с "stspeech.tos" на дискете.

Apple[править]

Первой речевой системой, интегрированной в операционную систему, которая поставлялась в количестве, был MacinTalk от Apple Computer. Программное обеспечение было лицензировано сторонними разработчиками Джозефом Кацем и Марком Бартоном (позже SoftVoice, Inc.) и было представлено во время введения компьютера Macintosh в 1984 году. Эта январская демонстрация потребовала 512 килобайт оперативной памяти. В результате он не мог работать в 128 килобайтах оперативной памяти, с которыми был поставлен первый Mac. Таким образом, демонстрация была выполнена с прототипом 512k Mac, хотя присутствующие не сказали об этом, и демонстрация синтеза вызвала значительный ажиотаж для Macintosh. В начале 1990-х годов Apple расширила свои возможности, предлагая общесистемную поддержку преобразования текста в речь. С появлением более быстрых компьютеров на базе PowerPC они включали более качественную выборку голоса. Apple также внедрила распознавание речи в свои системы, которые обеспечивали набор команд fluid. Совсем недавно Apple добавила голоса на основе сэмплов. Начиная с любопытства, речевая система Apple Macintosh превратилась в полностью поддерживаемую программу PlainTalk для людей с проблемами зрения. Впервые озвучка была показана в 2005 году вMac OS X Tiger (10.4). Во время 10.4 (Tiger) и первых выпусков 10.5 (Leopard) была только одна стандартная голосовая доставка с Mac OS X. Начиная с 10.6 (Snow Leopard), пользователь может выбрать из широкого списка нескольких голосов. VoiceOver voices отличает реалистичное дыхание между предложениями, а также улучшенная четкость при высокой скорости чтения по сравнению с обычным языком. Mac OS X также включает в себя say, приложение на основе командной строки, которое преобразует текст в слышимую речь. Стандартные дополнения AppleScript включают глагол say, который позволяет сценарию использовать любой из установленных голосов и управлять высотой тона, скоростью речи и модуляцией произносимого текста.

Amazon[править]

Используется в Alexa и как программное обеспечение, как сервис в AWS (с 2017 года).

AmigaOS[править]

Второй операционной системой с расширенными возможностями синтеза речи была AmigaOS, представленная в 1985 году. Синтез голоса был лицензирован Commodore International от SoftVoice, Inc., которая также разработала оригинальную систему преобразования текста в речь MacinTalk. Он включал полную систему голосовой эмуляции американского английского языка, как с мужскими, так и с женскими голосами и индикаторными маркерами "стресса", ставшую возможной благодаря аудиокомплексу Amiga. Система синтеза была разделена на библиотеку переводчиков, которая преобразовывала неограниченный английский текст в стандартный набор фонетических кодов и устройство рассказчика, реализующее формантную модель генерации речи.. AmigaOS также имел высокоуровневый "Обработчик речи", который позволял пользователям командной строки перенаправлять вывод текста в речь. Синтез речи иногда использовался в сторонних программах, особенно в текстовых процессорах и образовательных программах. Программное обеспечение синтеза оставалось практически неизменным с первого выпуска AmigaOS, и Commodore в конечном итоге удалил поддержку синтеза речи из AmigaOS 2.1 и далее.

Несмотря на ограничение фонемы американского английского языка, была разработана неофициальная версия с многоязычным синтезом речи. При этом использовалась расширенная версия библиотеки translator, которая могла переводить несколько языков, учитывая набор правил для каждого языка.[60]

Microsoft Windows[править]

См. Также: Microsoft Agent

Современные настольные системы Windows могут использовать компоненты SAPI 4 и SAPI 5 для поддержки синтеза речи и распознавания речи. SAPI 4.0 был доступен в качестве дополнительного дополнения для Windows 95 и Windows 98. В Windows 2000 добавлена утилита преобразования текста в речь Narrator для людей с нарушениями зрения. Сторонние программы, такие как JAWS for Windows, Window-Eyes, Non-visual Desktop Access, Supernova и System Access, могут выполнять различные задачи преобразования текста в речь, такие как чтение текста вслух с указанного веб-сайта, учетной записи электронной почты, текстового документа, буфера обмена Windows, ввода текста с клавиатуры пользователя и т.Д. Не все программы могут использовать синтез речи напрямую. Некоторые программы могут использовать плагины, расширения или дополнения для чтения текста вслух. Доступны сторонние программы, которые могут читать текст из системного буфера обмена.

Microsoft Speech Server - серверный пакет для синтеза и распознавания речи. Он предназначен для использования в сети с веб-приложениями и колл-центрами.

Texas Instruments TI-99/4A[править]

Основная статья: Texas Instruments LPC Speech Chips

В начале 1980-х годов TI был известен как пионер в области синтеза речи, и для TI-99/4 и 4A был доступен очень популярный подключаемый модуль синтезатора речи. Синтезаторы речи предлагались бесплатно при покупке нескольких картриджей и использовались во многих написанных TI видеоиграх (известные названия, предлагаемые с речью во время этой акции, были Alpiner и Parsec). Синтезатор использует вариант линейного предиктивного кодирования и имеет небольшой встроенный словарный запас. Первоначальное намерение состояло в том, чтобы выпустить небольшие картриджи, которые подключались непосредственно к блоку синтезатора, что увеличило бы встроенный словарный запас устройства. Однако успех программного преобразования текста в речь в картридже Terminal Emulator II отменил этот план.

Votrax[править]

Основная статья: Votrax

С 1971 по 1996 год Votrax производила ряд коммерческих компонентов синтезатора речи. Синтезатор Votrax был включен в первое поколение машины для чтения Kurzweil для слепых.

Системы преобразования текста в речь[править]

Преобразование текста в речь (TTS) относится к способности компьютеров читать текст вслух. Механизм TTS преобразует письменный текст в фонематическое представление, а затем преобразует фонематическое представление в осциллограммы, которые могут быть выведены в виде звука. Движки TTS с различными языками, диалектами и специализированными словарями доступны через сторонних издателей.

Android[править]

В версии 1.6 Android добавлена поддержка синтеза речи (TTS).

Интернет[править]

В настоящее время существует ряд приложений, плагинов и гаджетов, которые могут читать сообщения непосредственно из почтового клиента и веб-страниц из веб-браузера или панели инструментов Google. Некоторые специализированные программы могут передавать RSS-каналы. С одной стороны, онлайн RSS-дикторы упрощают доставку информации, позволяя пользователям слушать свои любимые источники новостей и конвертировать их в подкасты. С другой стороны, он-лайн RSS-ридеры доступны практически на любом персональном компьютере, подключенном к Интернету. Пользователи могут загружать сгенерированные аудиофайлы на портативные устройства, например, с помощью приемника подкастов, и слушать их во время ходьбы, бега трусцой или поездок на работу.

Растущая область в интернет-TTS - это веб-вспомогательные технологии, например Browsealoud от британской компании и Readspeaker. Он может предоставить функциональность TTS любому человеку (по соображениям доступности, удобства, развлечения или информации), имеющему доступ к веб-браузеру. Некоммерческий проект Pediaphon был создан в 2006 году для предоставления аналогичного веб-интерфейса TTS для Википедии.

Другая работа проводится в контексте W3C через группу аудио-инкубатора W3C с участием BBC и Google Inc.

Open source[править]

Существуют некоторые программные системы с открытым исходным кодом, такие как:

RHVoice с поддержкой нескольких языков.
Фестивальная система синтеза речи, которая использует синтез на основе дифона, а также более современные и лучше звучащие методы.
eSpeak, который поддерживает широкий спектр языков.
gnuspeech, который использует артикуляционный синтез из Фонда свободного программного обеспечения.
MaryTTS, web based and open source.

Прочее[править]

После коммерческого провала аппаратного Intellivoice разработчики игр экономно использовали программный синтез в более поздних играх. Более ранние системы от Atari, такие как Atari 5200 (бейсбол) и Atari 2600 (Quadrun и Open Sesame), также имели игры, использующие программный синтез.
Некоторые устройства для чтения электронных книг, такие как Amazon Kindle, Samsung E6, PocketBook eReader Pro, enTourage eDGe и Bebookneo.
BBC Micro внедрила чип синтеза речи Texas Instruments TMS5220,
Некоторые модели домашних компьютеров Texas Instruments 1979 и 1981 годов выпуска (Texas Instruments TI-99/4 и TI-99/ 4A) были способны к синтезу текста в фонему или чтению полных слов и фраз (text-to-dictionary) с использованием очень популярного периферийного синтезатора речи. TI использовала проприетарный кодек для встраивания полных произносимых фраз в приложения, в первую очередь в видеоигры.
IBM OS / 2 Warp 4 включала VoiceType, предшественник IBM ViaVoice.
GPS-навигаторы производства Garmin, Magellan, TomTom и других компаний используют синтез речи для автомобильной навигации.
В 1999 году Yamaha выпустила музыкальный синтезатор Yamaha FS1R, который включал в себя возможность синтеза формантов. Последовательности до 512 отдельных гласных и согласных формантов могут быть сохранены и воспроизведены, что позволяет синтезировать короткие вокальные фразы.

Цифровой звук-alikes[править]

С появлением в 2016 году прототипа Adobe Voco audio editing and generating software, который должен был стать частью Adobe Creative Suite и аналогично включенного DeepMind WaveNet, программного обеспечения для синтеза звука на основе глубокой нейронной сети от Google [70], синтез речи становится практически неотличимым от реального человеческого голоса.

Adobe Voco занимает примерно 20 минут речи желаемой цели, и после этого он может генерировать звукоподобный голос даже с фонемами, которые не присутствовали в учебном материале. Программное обеспечение создает этические проблемы, поскольку позволяет красть голоса других людей и манипулировать ими, чтобы сказать все, что угодно.

На конференции 2018 года по нейронным системам обработки информации (NeurIPS) исследователи из Google представили работу "Transfer Learning from Speaker Verification to Multispeaaker Text-To-Speech Synthesis", которая переносит обучение от верификации динамиков для достижения синтеза текста в речь, который может звучать почти так же, как кто-либо из сэмпл речи всего 5 секунд.

Кроме того, исследователи из Baidu Research представили систему клонирования голоса с аналогичными целями на конференции NeurIPS 2018 года, хотя результат довольно неубедителен.

К 2019 году цифровые звуковые сигналы попали в руки преступников, поскольку исследователи Symantec знают о 3 случаях, когда технология Digital sound-alikes использовалась для совершения преступлений.

Это усиливает стресс от дезинформационной ситуации в сочетании с фактами, которые

Синтез человеческих изображений с начала 2000-х годов улучшился настолько, что человек не смог отличить реального человека, изображенного с помощью реальной камеры, от симуляции человека, изображенного с помощью симуляции камеры.
В 2016 году были представлены методы 2D-подделки видео, которые позволяют почти в реальном времени подделывать выражения лица в существующем 2D-видео[76].
В 2017 году исследователи из Вашингтонского университета представили цифровой аналог верхней части туловища Барака Обамы. Он управлялся только голосовой дорожкой в качестве исходных данных для анимации после завершения фазы обучения для получения синхронизации губ и более широкой информации о лице из учебного материала, состоящего из 2D-видео со звуком.

В марте 2020 года появилось бесплатное веб-приложение под названием 15.ai был выпущен продукт, который генерирует высококачественные голоса из множества вымышленных персонажей из различных медиа-источников. Первоначальными персонажами были ГЛаДОС из Portal, Твайлайт Спаркл и Флаттершай из шоу My Little Pony: Friendship Is Magic и Десятый доктор из Doctor Who.

Языки разметки синтеза речи[править]

Для передачи текста в виде речи в XML-совместимом формате был создан ряд языков разметки. Самым последним является язык разметки синтеза речи (SSML), который стал рекомендацией W3C в 2004 году. Более старые языки разметки синтеза речи включают Java Speech Markup Language (JSML) и SABLE. Хотя каждый из них был предложен в качестве стандарта, ни один из них не был широко принят.

Языки разметки синтеза речи отличаются от языков разметки диалога. VoiceXML, например, включает в себя теги, связанные с распознаванием речи, управлением диалогами и набором номера touchtone, в дополнение к разметке текста в речь.

Приложения[править]

Синтез речи уже давно является жизненно важным вспомогательным технологическим инструментом, и его применение в этой области является значительным и широко распространенным. Это позволяет устранить экологические барьеры для людей с широким спектром инвалидности. Самое длинное применение было в использовании программы чтения с экрана для людей с нарушениями зрения, но системы преобразования текста в речь в настоящее время широко используются людьми с дислексией и другими трудностями чтения, а также дошкольниками. Они также часто используются, чтобы помочь людям с тяжелыми нарушениями речи, как правило, с помощью специального средства связи голосового вывода. Известным применением синтеза речи была машина для чтения Kurzweil для слепых, которая включала программное обеспечение для преобразования текста в фонетику, основанное на работе из Haskins Laboratories и синтезатора черного ящика, построенного Votrax.

Методы синтеза речи также используются в развлекательных постановках, таких как игры и анимации. В 2007 году Animo Limited объявила о разработке программного пакета приложений на основе своего программного обеспечения для синтеза речи FineSpeech, явно ориентированного на клиентов индустрии развлечений, способного генерировать повествование и диалоги в соответствии с пользовательскими спецификациями. Приложение достигло зрелости в 2008 году, когда NEC Biglobe анонсировала веб-сервис, который позволяет пользователям создавать фразы из голосов персонажей японского аниме-сериала Code Geass: Lelouch of the Rebellion R2.

В последние годы стали широко доступны средства преобразования текста в речь для инвалидов и средства коммуникации с нарушениями зрения. Преобразование текста в речь также находит новые приложения; например, синтез речи в сочетании с распознаванием речи позволяет взаимодействовать с мобильными устройствами через интерфейсы обработки естественного языка.

Преобразование текста в речь также используется для овладения вторым языком. Например, Voki - это образовательный инструмент, созданный Oddcast, который позволяет пользователям создавать свой собственный говорящий аватар, используя различные акценты. Они могут быть отправлены по электронной почте, встроены на веб-сайтах или опубликованы в социальных сетях.

Кроме того, синтез речи является ценным вычислительным пособием для анализа и оценки речевых нарушений. Синтезатор качества голоса, разработанный Хорхе С. Лусеро и др. в Университете Бразилиа, имитирует физику фонации и включает в себя модели вокальной частоты дрожания и тремора, шума воздушного потока и асимметрии гортани.Синтезатор использовался для имитации тембра дисфонических динамиков с контролируемыми уровнями шероховатости, одышки и напряжения.

См. Также[править]

Пруф[править]

//curlie.org/Computers/Speech_Technology/Speech_Synthesis/