Архитектура сервиса синтеза речи: gRPC, пайплайны, нейронные сети

✖

Asterisk Эксперт

Asterisk Эксперт с 23 августа по 24 августа

Количество
свободных мест

4 Записаться

Курс по Asterisk

Интенсив-курс по Asterisk с 30 июня по 4 июля

Количество
свободных мест

8 Записаться

Курсы по Mikrotik MTCNA

Курсы по Mikrotik MTCNA с 14 июля по 17 июля

Количество
свободных мест

1 Записаться

- Услуги
  
  Услуги
  
  Решаем Ваши бизнес-задачи с помощью IT-технологий. Знаем, как сделать лучше, быстрее и дешевле. Наш опыт – на службе Вашего бизнеса.
  
  Интеграция Asterisk с Active Directory Ip-телефония для удаленных сотрудников DECT разведка Проектирование и настройка сети Предпроектный аудит Приоритезация трафика QoS Аудит IP-ATC
  
  Монтаж СКС Курсы по Asterisk Модернизация АТС Запись IVR Защита IP-ATC Установка Asterisk
- База знаний
  
  База знаний
  
  Не все герои носят плащи. Сотни техических статей, написанных инженерами нашей компании. Делимся опытом и своими знаниями со всем сообществом.
  
  DECT Linux Вспомогательный софт при работе с Asterisk Интеграция с CRM и другими системами Интеграция с другими АТС Использование Elastix Использование FreePBX Книга
  
  Мониторинг и траблшутинг Настройка Asterisk Настройка IP-телефонов Настройка VoIP-оборудования Новости и Статьи Подключение операторов связи Разработка под Asterisk Установка Asterisk
- Функции
  
  Функции
  
  Сотни функций и возможностей Asterisk помогут вывести коммуникации в Вашей компании на принципиально новый уровень. Технические ограничения – фантазия Заказчика.
  
  Номерные планы Панель управления Безопасность Детализация звонков Транзитная запись раговоров Подключение к GSM Обратный звонок Очереди звонков Прием факсов на E-Mail Видеозвонки Конференцсвязь Масштабируемость
  
  Панель оператора Парковка вызова Интеграция с CRM Голосовое меню Группы вызова Гео номера Голосовая почта Защита от прослушки Запись разговоров Объединение офисов Сохранение номера Снижение затрат
- IP-АТС
  
  IP-АТС
  
  Вы платите за систему, которая будет полностью соответствовать Вашим ожиданиям, требованиям и будет драйвером роста Вашего бизнеса
  
  Собственная IP-АТС на базе Asterisk vs облачная АТС Малый Бизнес Средний Бизнес Крупный Бизнес Индивидуальный проект Техническая поддержка
  
  IP-телефония + CRM Колл-Центр
- Колл-центр
  
  Колл-центр
  
  Идти в ногу со временем или оставаться на старых технологиях? Такой вопрос не стоит перед нашими клиентами. Решаем самые смелые задачи для Колл-Центров. Строим с нуля или работаем с существующими.
  
  Запись экранов операторов Speech Analytics Статистика и аналитика Мониторинг KPI Колл-Центра Компоненты решений Схемы и решения
  
  Супервайзер системы Предиктивный обзвон Внедрение call-центров Рабочее место оператора call-центра
- CRM
  
  CRM
  
  Поместите свой бизнес в эпицентр продаж. Интеграция IP-телефонии и CRM даст новый и мощный импульс Вашему Отделу Продаж и выведет компанию на три шага впереди конкурентов.
  
  Новые возможности 1C:CRM SalesMan CRM Bitrix24 AmoCRM Интеграция телефонии и CRM
- Номера
  
  Номера
  
  Подбираем для клиентов такие тарифы, которые ему редко получится найти на рынке самостоятельно. Работаем с 100+ операторов связи в интересах клиента.
  
  Подключение FMC Подключение Skype Номера регионов РФ Безлимитные тарифы Международная связь Номера в коде 495/499
  
  Номера в коде 8-800 Исходящая телефонная связь
- Продукты
  
  Продукты
  
  Разработки, созданные нашей командой под запросы клиентов. Не отказывайтесь от инноваций. Мы поможем идти с ногу со временем.
  
  voxservice SIP3 VoxDistro Автоконфиг Коллтрекинг Кластеризация серверов Asterisk
  
  ПО для Колл-центров CallForce Телефонная книга CallMetrix
- Обучение
  
  Обучение
  
  Умные всю жизнь учатся, а остальные всегда все и так знают. Мы проводим обучение более 8 лет и выпустили более 1000 специалистов по Asterisk и Mikrotik. Проводим ежегодную конференцию Asterisk.
  
  Каталог выступлений Вебинары Курсы Mikrotik Конференция по Asterisk Курсы Asterisk
- Внедрение
  
  Внедрение
  
  Купить наш опыт дешевле, чем набивать свои шишки. Мы реализовали более 800 проектов и накопили экспертизу для того, чтобы идеально выполнить Ваш проект.
  
  Антисанкционный Asterisk Выбор сервера для ip-телефонии Поставка оборудования Бесплатная техподдержка Документация на оборудование Паспорт проекта
  
  Обучение Этапы работ по внедрению IP-телефонии Asterisk Комплексное внедрение
- Оборудование
  
  Оборудование
  
  Правильный выбор оборудования позволяет сэкономить от 20 до 50% бюджета телефонии. Мы предельно внимательно подойдем к выбору «железа» в Ваш проект.
  
  GSM-шлюзы Аудиоконференцсвязь Видеоконференцсвязь Дополнительное оборудование DECT IP-телефоны VoIP-шлюзы
  
  Аналоговые платы Аналоговые телефоны Гарнитуры Серверы Сетевое оборудование Цифровые платы
- Цены
  
  Цены
  
  Наши цены доступны не только для Москвы, но и для регионов. А вложения в нашу экспертизу обычно окупаются за несколько месяцев.
  
  Цены на техническую поддержку Тарифы на связь
- О нас
  
  О нас
  
  Работаем с 2011 года. Собрали отличную команду реальных фанатов своего дела. Подходим к работе с душой и ответственностью.
  
  Партнерская программа Наши клиенты Собственные разработки Рекомендательные письма Контакты
0

Архитектура сервиса синтеза речи: gRPC, пайплайны, нейронные сети

ГлавнаяАрхитектура сервиса синтеза речи: gRPC, пайплайны, нейронные сети

Дата записи: 23 сентября, 2022

123

Доклад

Стас Шишкин

Архитектура сервиса синтеза речи: gRPC, пайплайны, нейронные сети

Введение

Данный материал посвящён обзору синтеза речи, основным элементам его пайплайна, а также технологиям, применяемым в современных сервисах преобразования текста в голос. Отдельно рассматриваются задачи, связанные с обработкой голоса и речи, решаемые в рамках платформы Tinkoff VoiceKit. Доклад ориентирован на специалистов, которые не слишком глубоко погружены в машинное обучение, но работают с телефонией и смежными направлениями.

Эволюция голосовых технологий в Tinkoff

В банке Tinkoff развитие голосовых технологий началось с команды студентов из Вистеха, которые разрабатывали речевую аналитику для колл-центра. Первоначально активно применялось решение Яндекса для распознавания речи, однако быстро возникла необходимость в собственных моделях: их можно оперативно обучать на специфичных данных, что улучшало итоговое качество распознавания.

Параллельно появилась идея разрабатывать и синтез речи «под ключ» внутри компании. В 2018 году была создана первая «MVP-версия» синтеза. Годом позже, в 2019-м, состоялся релиз голосового помощника «Олег» в приложении Tinkoff — ключевой вехой стало объединение технологий синтеза, распознавания и инфраструктуры в единый продакшн.

В том же году были представлены модули для Asterisk, дающие возможность интегрировать синтез и распознавание в эту телефонию на базе разработок Tinkoff. Решение опубликовано в open source и продолжает активно использоваться.

В 2021 году началось развитие технологии voice conversion (преобразование голоса) и голосовой биометрии на основе нейросетей. Подобные инструменты находят применение в различных сервисах, включая колл-центры и системы безопасности.

Основные направления использования синтеза речи

Исходящие звонки (роботы-обзвонщики).
Входящие звонки (роботы, понимающие речь абонента).
Озвучивание аудиокниг.
С современными моделями удаётся добиться довольно выразительного звучания, но при чтении художественных текстов зачастую требуется ручная донастройка произношения.
Озвучивание статей или контента на сайтах.
Например, в одном из спецпроектов появилась кнопка, позволяющая прослушать текст публикации целиком.

Техническая схема синтеза

Разбиение текста на фразы
Текст бьётся на короткие предложения или фразы для повышения эффективности и возможности кэширования. Если в запросах часто повторяются одни и те же части, кэширование позволяет избежать повторной нагрузки на модели и ускоряет ответ.
Нормализация
Приведение текста из письменной формы к разговорной. Раскрываются числительные, аббревиатуры, транслитерированные слова. Учитывается грамматический контекст (падеж, род, число). Нормализация — одна из самых сложных частей пайплайна: ошибки на этом этапе сразу бросаются в уши слушателю.
Восстановление лингвистической информации : пасстановка пауз (где они уместны), предсказание акцентных слов и ударений, определение амбиграфов (единообразное чтение неоднозначных слов).
Для этого применяется векторизация слов (например, модель BERT) и несколько параллельных нейросетевых моделей.
Акустическая модель
Получив текст с метками пауз и акцентами, модель восстанавливает интонацию, скорость произношения, ритм речи и другие параметры, формируя «программу» звучания.
Vocoder
Преобразует сгенерированную акустической моделью программу в цифровой аудиосигнал, восстанавливая фазовые характеристики. По сути, он «оживляет» синтезированную речь.
Перекодирование / ресэмплинг
Если необходимо, аудио подгоняется под нужные параметры (битрейт, формат) и отправляется получателю по частям (стриминг).

Кэширование и учёт ошибок

Система кэширует готовые фрагменты, чтобы при повторе одинакового текста не запускать тяжёлый процесс заново. При релизах новые версии моделей обнуляют кэш, чтобы слушатели получали обновлённое качество озвучки.

Если во входных данных присутствуют ошибки или бессвязные фрагменты (например, «java.lang.Object.ru.tinkoff.amshans.if java.lang.Boolean java.lang.Object …»), синтезируетcя именно то, что было прислано. Система не исправляет и не фильтрует подобные искажения.

Управление параметрами речи

В ближайших релизах планируется дать возможность управлять скоростью, высотой и громкостью речи на этапе синтеза. Это особенно важно для голосовых роботов, которые должны подстраивать темп и интонацию под различные сценарии.

Для задания параметров применяется SSML (Speech Synthesis Markup Language), позволяющий, например, в одной и той же фразе менять голос, тембр, громкость и расстановку пауз.

Архитектура сервиса

Сервинг нейросетевых моделей. Работает под управлением Kubernetes и выполняется преимущественно на GPU. Формирует батчи запросов, чтобы эффективно загружать ресурсы. Может использовать популярные open-source решения: Triton Serving, TensorFlow Serving и т.д.
gRPC и потоковая передача. Выбран формат gRPC для возможности стриминга — выдачи аудио порциями по мере готовности синтезированных фрагментов.
Реализация на Go. Большое число параллельных операций и интенсивная работа с текстом удобны на Go. Язык также упрощает внедрение gRPC и порог входа для разработчиков.
DAG (Directed Acyclic Graph). Для каждого запроса строится граф модулей, по которому движутся входные фразы. Элементы графа работают параллельно, но сохраняется строгая последовательность обработки от текста к аудио.

Технологии Tinkoff VoiceKit

Собственное STT (Speech-To-Text).Высокое качество для русского языка (и с недавних пор для английского), особенно в задачах колл-центров.
Голосовая биометрия. Позволяет идентифицировать пользователя по голосу.
Готовые решения для интеграции с Asterisk. Открытые модули синтеза и распознавания, дающие широкие возможности по настройке в среде Asterisk.
Voice Conversion. Технология преобразования голоса, которая позволяет брать интонацию и особенности речи одного спикера и воспроизводить их голосом другого. Уже показала существенный отрыв от open-source аналогов по качеству. Потенциально планируется интеграция в решения для телефонии, коллекшена и другие продукты, где важно сохранять узнаваемость и эмоциональную окраску речи.

Дополнительные материалы, примеры работы Vocoder’ов и результаты тестирования доступны на сайте Tinkoff VoiceKit. Там же можно протестировать доступный функционал синтеза и распознавания.

Заключение

Синтез речи в Tinkoff прошёл путь от эксперимента в колл-центре до комплексного решения, способного обслуживать масштабные задачи в области голосовых технологий. Адаптированные под телефонию Asterisk модули, собственные модели синтеза и распознавания, а также новые разработки вроде voice conversion и голосовой биометрии дают широкие возможности для создания современных и эффективных голосовых сервисов.

Работы в этом направлении продолжаются, и впереди ожидается появление ещё более гибких и точных инструментов, которые позволят развивать голосовые решения в разных отраслях — от клиентской поддержки до автоматизации сложных бизнес-процессов.

Таймкоды

Свернуть..

Ежегодная конференция по Asterisk 2025!

Билеты уже в продаже!

Остались вопросы?

Я - Першин Артём, менеджер компании Voxlink. Хотите уточнить детали или готовы оставить заявку? Укажите номер телефона, я перезвоню в течение 3-х секунд.