Нейросети вывели качество синтеза русскоязычной речи на новый уровень

Группa кoмпaний ЦРТ, вxoдящaя в экoсистeму Сбeрбaнкa, сooбщилa o рaзрaбoткe пeрeдoвoй плaтфoрмы синтeзa рeчи, кoтoрaя, кaк утвeрждaeтся, oбeспeчивaeт плaвнoсть и выразительность прочтения любого текста.

Представленное решение — это третье поколение системы синтеза речи. Высококачественный аудиосигнал генерируют сложные нейросетевые модели. Разработчики заявляют, что результатом работы этих алгоритмов является самый реалистичный синтез русскоязычной речи.

В состав платформы входит модуль предсказания ударений в словах, которых ещё нет в базовом словаре. Кроме того, предусмотрено автоматическое исправление типичных орфографических ошибок. Благодаря глубокому лингвистическому анализу текста произношение будет соответствовать нормам языка даже в сложных случаях.

Ещё одно достоинство платформы заключается в том, что ей не требуются дорогостоящие серверы, оснащённые GPU-ускорителями. Использовать технологию можно двумя способами — через облачный сервис или встроив в собственное решение.

Среди возможных областей применения разработки называются чат-боты и голосовые помощники, сервисы информирования и оповещения, голосовые сервисы с моментальным синтезом любого текста в процессе звонка и пр.

«В автоматизированных сценариях общения с клиентами технология позволяет взаимодействовать в индивидуальном порядке с каждым абонентом, так как нет фиксированных сообщений, и любой текст может быть синтезирован в процессе звонка», — говорят разработчики.

Опробовать технологию можно здесь. 

Источник