Tinkoff VoiceKit

Продукт

Разработчики:	Тинькофф Банк
Дата премьеры системы:	2019/07/23
Технологии:	ИБ - Биометрическая идентификация, Речевые технологии

Основные статьи:

2019: Старт продаж Tinkoff VoiceKit

23 июля 2019 года компания Тинькофф сообщила, что начала продажу корпоративным клиентам собственных речевых технологий TinkoffVoiceKit, которые позволяют преобразовывать голос в текст и синтезировать голос из текста.

По информации компании, речевые технологии TinkoffVoiceKit – это глубокие нейросетевые модели для синтеза и распознавания речи, которые в течение последних лет разрабатывались в Тинькофф в рамках стратегии AIFirst и которые также использовались для создания Олега - финансового голосового помощника собственной разработки.

Технология TinkofVoiceKit может использоваться, например, для:

Создания собственных голосовых помощников
Создания роботов для автоматизации работы колл-центра
Быстрой записи аудиокниг, озвучки и редактирования видеороликов
Построения системы речевой аналитики по транскрибированным текстам – например, в колл-центрах для контроля работы операторов
Создания приложений для людей с ограниченными возможностями
Транскрибации любых звуковых записей публичных выступлений
Поисковой оптимизации и полнотекстовому поиску по аудио и видеозаписям

Образовательным учреждениям и студентам Тинькофф будет предоставлять технологию бесплатно – таким образом группа планирует сделать дополнительный вклад в российскую систему образования в рамках развития собственных образовательных проектов, поддержки всероссийских олимпиад и сотрудничества с ведущими российскими вузами и образовательными центрами.

Рынок ИТ-услуг в России: оценки, тренды, крупнейшие участники. Обзор и рейтинг TAdviser 298.4 т

Как отметили в компании, Тинькофф начал разработку собственной технологии распознавания речи в 2016 году. На июль 2019 года эта технология правильно определяет до 95 % произнесенных слов и использует для обучения терабайты данных и десятки тысяч часов человеческой речи. Она одинаково хорошо справляется с шумной речью в телефонном канале, так и с чистой речью, полученной из качественных источников данных.

Разработка собственной технологии синтеза речи началась в Тинькофф в 2018 году на основе таких нейросетевых моделей, как WaveNet, Tacotron-2, DeepVoice. Для этого использовались знания и экспертиза о звуке, накопленные специалистами Тинькофф за два предыдущих года, поэтому вся работа по созданию синтеза речи заняла всего около 9 месяцев. Разработанные в Тинькофф нейросетевые архитектуры позволяет качеству синтезированного голоса вплотную приблизиться к человеческому.

Также для разработки TinkoffVoiceKit и обучения нейросетевых моделей был задействован кластер «Колмогоров».

Голосовые технологии используются на июль 2019 года в группе Тинькофф не только в голосовом помощнике: они помогают автоматизировать процессы, связанные с обслуживанием. Так, через распознавание речи ежедневно проходит около миллиона звонков обслуживания, анализируется качество обработки обращений клиентов, а собственная биометрическая система, обученная на голосах клиентов, успешно помогает отсеивать все мошеннические действия в колл-центре.

Наши решения, независимо от того в каком формате они будут использоваться - потоковое распознавание или пакетная оффлайн обработка - будут доступны только в виде API. В тех случаях, где заказчикам потребуется доработка своих систем или on-site решение, мы планируем сотрудничать с крупными интеграторами, которые будут готовы взять эту работу на себя. Также готовятся к выпуску мобильные SDK под iOS и Android.

рассказал Вячеслав Цыганов, вице-президент Тинькофф, Директор по информационным технологиям