Yandex SpeechKit Cloud

Продукт
Разработчики: Яндекс (Yandex), Яндекс.Облако (Yandex.Cloud)
Дата последнего релиза: 2023/12/19
Отрасли: Интернет-сервисы
Технологии: SaaS - Программное обеспечение как услуга,  ИБ - Биометрическая идентификация,  Речевые технологии

Содержание

Основная статья: Голосовая биометрия

2023

Представление 8 дополнительных голосов

19 декабря 2023 года облачная платформа Yandex Cloud представила 8 новых голосов с разными эмоциями в сервисе Yandex SpeechKit. Теперь компании смогут использовать в синтезе речи приветливую, строгую интонации или даже шепот. Это позволит компаниям-разработчикам менять окраску синтеза речи в зависимости от бизнес-сценария и повышать удовлетворенность клиентов и конверсию в голосовых каналах. Кроме этого, в сервисе появился параметр, который позволяет изменять высоту голоса.

Компании смогут выбирать оптимальный голос под бизнес-сценарий. Например, для опроса удовлетворенности использовать приветливую речь, а для сбора обратной связи о качестве услуг после жалобы клиента выбрать сопереживающую, серьезную интонацию голоса. По данным исследования разработчика голосовых роботов Tomoru, разные типы голосов влияют на конверсию продаж и на восприятие речевых коммуникаций клиентами. Так, женский голос лучше всего работает в рекрутинге — 68% конверсий, а мужской чаще используют в онлайн-образовании — 53% конверсий.

Разнообразие голосов в Yandex SpeechKit позволило сделать диалоги роботов менее шаблонными, нативными. При создании новых голосов разработчики Yandex SpeechKit изменили не только работу модели машинного обучения, но и текстовую базу, которую использовали дикторы. Это позволило улучшить звучание голосов в вопросительных и восклицательных предложениях, которые являются сложной задачей для синтеза речи.

«
Синтез речи — это популярная технология для автоматизации коммуникаций в контакт-центрах и не только. Нам, как разработчикам, важно в том числе, чтобы диалоги с голосовыми роботами были человечными и комфортными для обычных людей. В будущем мы планируем предоставлять пользователям еще больше новых голосов, - рассказал Григорий Атрепьев, CPO облачной платформы Yandex Cloud.
»

Распознавание речи на узбекском языке

15 июня 2023 года компания Yandex Cloud сообщила о разработке нейросети, которая может распознавать речь и воспроизводить ее на узбекском языке. Компании как в России, так и в Узбекистане уже могут использовать дополнительный язык в сервисе Yandex SpeechKit для создания голосовых помощников, автоматизации колл-центров и речевой аналитики.

Модели синтеза речи обучались на предзаписи голоса реального диктора. При этом они умеют синтезировать речь не только из текста, но и из его фонемной записи, в которой указаны все особенности звуков в словах. Это позволит клиентам корректировать в синтезе произношение отдельных слов - сложные фамилии, названия товаров, заимствованные выражения. Для этого им нужно будет указать в тексте фонемный разбор нужного слова с помощью специального синтаксиса. TAdviser выпустил Карту российского рынка цифровизации строительства 25.3 т

Так же как и для синтеза речи, для распознавания нейросети учатся на примерах. Чтобы их обучить, специалисты Yandex Cloud собрали датасет с тысячами часов аудио и их расшифровками, в том числе короткие и длинные фразы, а также имена, адреса, даты и числа.

Нейросети для синтеза и распознавания узбекского работают с латинским алфавитом, который используется в Узбекистане уже больше 20 лет. При этом алгоритмам пришлось выучить и некоторые звуковые особенности букв. Например, буква «X» обозначает в алфавите твердый [х], а в иностранных словах может произноситься как [кс].

«
В Узбекистане активно развиваются сценарии, связанные с искусственным интеллектом, в частности с речевыми технологиями. По оценке одного из наших партнеров, объем рынка речевых технологий в Узбекистане может достигать до 395 миллионов минут обработанной речи в год. Появление шестнадцатого языка в Yandex SpeechKit - большой шаг для создания диалоговых сценариев как для узбекских, так и для российских компаний, - рассказал Григорий Атрепьев, директор по продуктам в Yandex Cloud.

»

Модели доступны на сайте и настраиваются стандартными средствами в API. Синтез и распознавание узбекского языка с помощью Yandex SpeechKit уже начал использовать ряд компаний.

2022

Интеграция с Just AI Conversational Platform

20 сентября 2022 года компания Just AI сообщила об интеграции с Yandex Cloud решений для запуска голосовых AI-проектов в контуре заказчика. Теперь пользователи сервиса для распознавания и синтеза речи Yandex SpeechKit смогут разворачивать полномасштабные голосовые AI-проекты не только в облаке, но и в собственном контуре. Подробнее здесь.

Добавление возможности автоматической расстановки знаков препинания

В Yandex SpeechKit (сервисе для синтеза и распознавания речи) появилась возможность при переводе голоса в текст автоматически расставить знаки препинания. Распознанный нейросетью текст максимально приближен к литературному и проще воспринимается читателем. Об этом компания Яндекс сообщила 20 апреля 2022 года.

Это улучшит опыт пользователей в сценариях, где с речевыми технологиями напрямую взаимодействует человек. Например, общение с голосовым помощником, автоматическое транскрибирование или формирование субтитров.

Пунктуатор разработан с помощью двух последовательно работающих моделей машинного обучения. Первая переводит голос в текст, вторая расставляет знаки препинания в соответствии с нормами русского языка. На апрель 2022 года модель расставляет все основные знаки пунктуации русского языка.

2020: Yandex SpeechKit Pro

23 сентября 2020 года компания платформа Yandex.Cloud представила специализацию сервиса SpeechKit — Yandex SpeechKit Pro. Это программа для компаний-разработчиков, участники которой получат доступ к новым инструментам для создания роботов и голосовых помощников, ориентированных на работу в конкретной отрасли или компании. Такие роботы смогут распознавать слова и команды на определенную тему с максимальным уровнем точности, утверждают в Yandex.Cloud. Новые инструменты помогут оптимизировать сценарии обслуживания в банке, в медицине или в доставке. Также SpeechKit Pro позволяет создавать индивидуальные черты голосового робота: интонации и манеру общения.

К 2020 году синтез и распознавание речи стали самым востребованным ML-сервисом на платформе Yandex.Cloud. По данным разработчиков, с начала года объем потребления SpeechKit вырос на 120%. Количество активных проектов превысило 500. В России уже сформировалась экосистема разработчиков и интеграторов решений, которые по заказу компаний из различных сфер создают и внедряют голосовых роботов для помощи в обработке входящих и исходящих звонков, системы голосового управления в приложениях и терминалах обслуживания клиентов, решения по анализу эффективности бизнес-коммуникаций. На сентябрь это более 20 компаний, большинство из которых — постоянные партнеры платформы Yandex.Cloud. По данным партнеров, за последние два года основными мотивами внедрения голосовых роботов в российских компаниях стали сокращение затрат и быстрое масштабирование решений.

«
«Вместе с нашими партнерами мы прошли большой путь, за два года сделав Речевые технологии из экзотического сервиса прикладным инструментом бизнеса. Теперь мы делаем следующий шаг и открываем следующий уровень речевых технологий Яндекса для партнеров. Компании-разработчики получат доступ к расширенным возможностям SpeechKit, а заказчики решений смогут выбрать поставщика с наиболее подходящей экспертизой», — прокомментировал Алексей Башкеев, руководитель платформы Yandex.Cloud.
»

Вместе с интересом бизнеса к возможностям речевых технологий, выросли и требования к точности распознавания в конкретных сценариях взаимодействия голосовых роботов и человека, возможности быстро адаптировать разработки под новые задачи. Например, для компании из сферы доставки принципиально важно, чтобы робот не путался в оценке значений фраз «перенесите заказ» или «занесите заказ», а для телекоммуникационных компаний — чтобы без ошибок отличал фразы «включить услугу» и «отключить услугу». Приоритет бизнеса — точность именно в его сфере, возможность развивать опыт применения в конкретном бизнес-сценарии на основе объективных показателей.

Для решения этих задач Yandex.Cloud предоставляет патнерам дополнительные инструменты разработки в рамках специализации SpeechKit Pro. Теперь компании-партнеры смогут пользоваться разметкой аудиоданных, обучать индивидуальные модели распознавания речи на данных заказчиков, контролировать метрики качества распознавания речи и адаптировать модели распознавания к конкретному потоку данных.

Специализацию SpeechKit Pro уже получили компании Neuro.net, Just.ai, Авиационные технологии связи, Naumen, Robovoice и Voximplant.

2019: Включение в состав IP АТС Standalone от MCN Telecom

29 июля 2019 года компания MCN Telecom сообщила, что добавила сервис Yandex SpeechKit от Яндекса.Облако в IP АТС Standalone, благодаря чему появилась возможность предоставлять крупным клиентам продукт Голосовой помощник на русском языке. Данный функционал может пригодится банкам, финансовым организациям, интернет-магазинам – компаниям, которые применяют в продажах искусственный интеллект (AI) и пр. Подробнее здесь.

2014: Анонс SpeechKit Cloud

4 августа 2014 года компания Яндекс представила SpeechKit Cloud — облачный сервис распознавания речи. С его помощью разработчики могут научить свои продукты понимать голос человека.

Компания сообщила, поддержку SpeechKit Cloud можно добавить в различные программы, сервисы и устройства: от компьютерной игры до автомобильной навигационной системы.

В основе SpeechKit Cloud технология распознавания речи Yandex SpeechKit, которую Яндекс запустил в 2013 году. На 4 августа 2014 года она используется в 400 мобильных приложениях для Android, iOS и Windows Phone.

SpeechKit Cloud "понимает" русский и турецкий языки. Обработка голосовых запросов производится на серверах Яндекса, рассчитанных на высокие нагрузки.

Инфраструктура сервиса спроектирована с учетом высоких нагрузок, чтобы обеспечить доступность и безотказную работу системы при большом количестве одновременных обращений.

Модель взаимодействия (2014)

Взаимодействие со SpeechKit Cloud реализуется через HTTP API. Без установки дополнительного ПО выполняются функции:

  • голосовой ввод в компьютерных играх и приложениях;
  • голосовое управление в салоне автомобиля — например, навигационной системой;
  • интерактивное голосовое меню IVR в телефонии;
  • голосовой интерфейс систем «Умный дом»;
  • голосовой интерфейс электронных роботов;
  • голосовое управление бытовой техникой и т.д.



ПРОЕКТЫ (4) ПРОЕКТЫ НА БАЗЕ (7) ИНТЕГРАТОРЫ (6)
РЕШЕНИЕ НА БАЗЕ (6) СМ. ТАКЖЕ (32) ОТРАСЛИ (7)

Лучшие интеграторы данного продукта по годам

За всю историю
2021 год
2022 год
2023 год
Текущий год

Данные не найдены

Данные не найдены

Данные не найдены

Данные не найдены


Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Сбербанк (1, 2)
  Voca-Tech (Вока-Тек) (1, 1)
  Shenzhen Chainway Information Technology (1, 1)
  Другие (0, 0)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год