3i Speech Transcriptor (3i ASR)

Продукт
Разработчики: 3iTech (ранее 3i Technologies)
Дата последнего релиза: 2020/05/22
Технологии: ИБ - Биометрическая идентификация,  Речевые технологии,  Средства разработки приложений

Содержание

3i Speech Transcriptor — специальное программное обеспечение, которое предназначено для решения задачи преобразования речи в текст, передающейся по медиаканалам (ТВ, радио) и по каналам телефонной связи (традиционной, сотовой, IP-телефонии).

3i Speech Transcriptor предоставляет разработчику API.

2020: Оптимизация речевой модели для понимания молодежного сленга

Компания 3iTech 22 мая 2020 года сообщила о том, что оптимизировала речевую модель, которая используется в системе распознавания речи 3i ASR. Теперь платформы, которые построены на этом речевом движке, смогут «понять» молодежный сленг и сбивчивую разговорную речь.

Речевой движок 3i ASR применяется при создании широкого спектра продуктов, например, чат-ботов и голосовых помощников; используется для создания интеллектуальной «первой линии» в контакт-центрах и службах технической поддержки. Голосовым системам нередко приходится иметь дело со сленгом или несвязной речью, что осложняет распознавание и корректное «понимание» сказанного. Включение в языковую модель сниженной, специфической и других пластов разговорной лексики повышает корректность распознавания и расширяет возможности применения как речевого движка 3i ASR, так и построенных на его базе платформ, подчеркнули в 3iTech.

«
В реальной языковой ситуации люди часто используют специфические словечки и выражения: это и молодежный сленг, и устоявшиеся сокращения, и слова-паразиты. То, как мы говорим в жизни, совсем не похоже на телевизионное вещание или диалоги из художественной литературы. Поэтому интеллектуальным системам подчас сложно «понять» людей. Мы усовершенствовали речевую модель, включив в нее пласты человеческой разговорной культуры», - отметил Алексей Любимов, председатель совета директоров компании 3iTech.
»

3iTech использует 3i ASR для создания специализированных систем и программных комплексов. Например, на его основе построены платформа речевой аналитики 3i TouchPoint Analytics и облачная AI-платформа 3i VOX, которые уже используется в ритейле, в банках, в телекоммуникационных компаниях. Решения на базе речевого движка 3i ASR уже применяются в контакт-центрах и клиентских офисах.

2019

Разработка 3i ASR 2.0

19 сентября 2019 года компания 3i Technologies сообщила, что ее эксперты разработали движок распознавания речи 3i ASR 2.0, который позволит заметно улучшить качество работы продуктов и сервисов компании. Благодаря 3i ASR 2.0 системы смогут точнее понимать живую человеческую речь. Движок будет использоваться как в выпускаемых продуктах и сервисах компании, так и в тех, которые уже представлены на рынке.

Движок построен на базе end-to-end архитектуры с использованием нейросетей и машинного обучения (machine learning). 3i ASR 2.0 обучен на выборке в несколько тысяч часов с аугментацией данных (внесением разных типов искажений). Это позволило значительно снизить уровень относительной ошибки и повысить качество распознавания живой речи.

Реклама
Lenovo ST50 – идеальный сервер начального уровня

Высокая производительность, надежность и удобство обслуживания делают ThinkSystem ST50 идеальным вариантом для компаний малого и среднего бизнеса, удаленных офисов и филиалов.

Узнать больше

Вычислительная инфраструктура реализована с ускорением на GPU, что позволяет получать многократный прирост производительности относительно CPU. Представленный движок дает возможность распознавать массивы речевой информации в более чем сто раз быстрее их реального звучания.

«
Технологии распознавания речи и системы созданные с их использованием меняют привычные сервисы. Все уже сталкивались с тем, что речевую систему можно встретить в контакт-центре, позвонив в техподдержку. Нас прекрасно понимают электронные устройства, когда мы голосом диктуем, например, поисковый запрос. Продукты 3i Technologies контролируют диалоги сотрудников транспортных компаний с клиентами, или общение работников ритейла. По «голосу» мы выявляем телефонных мошенников. B c каждым днем сфера применения речевых технологии расширяется, при этом заказчики становятся все более требовательными к качеству распознавания и скорости обработки речевой информации. И наш движок – это ощутимый шаг вперед,
говорит Любимов Алексей, председатель совета директоров 3i Technologies
»

Движок будет интегрирован в облачный сервис для профессиональной обработки речевых данных 3i Speech Recognition, в облачную платформу речевой аналитики 3i TouchPoint Analytics и другие продукты и сервисы компании. Миграция на данный движок произойдет бесшовно.

Интеграция с платформой Personal IT

25 января 2019 года компания 3i Technologies сообщила о подписании с компанией «Проф ИТ» соглашения о сотрудничестве в области создания голосовых интеллектуальных сервисов и чат-ботов. Разработчики «Проф ИТ» получили доступ к голосовой платформе и инструментам 3i Technologies. Подробнее здесь.

Технология. Характеристики. Модификации

Технология

По информации на январь 2019 года возможности распознавания речи 3i Speech Transcriptor базируются на технологиях DNN и WFST — глубоких нейронных сетей (deep neural networks) и взвешенных конечных автоматов (weighted finite state transducer).

Основные характеристики

Использованные компанией технологии распознавания речи обеспечивают:

  • высокую скорость обработки речевого сигнала, за счет распараллеливания вычислений;
  • должное качество распознавания речи;
  • возможность гибкой настройки модуля распознавания речи на тип канала (телевидение и радио), телефония (традиционная, сотовая, IP-телефония)) и\или язык за счет использования обучаемых моделей, распространяемых независимо;
  • дикторонезависимое распознавание слитной речи, в том числе при наличии акцента, внешних шумов, неречевых звуков, музыки;
  • распознавание файлов или потоков речи неограниченной длины за счет деления записей по паузам внутри речи и *распознавания получившихся кусочков в отдельных потоках ЦП;
  • большой словарь распознаваемых слов, включающий сотни тысяч слов, чего практически достаточно для распознавания любого текста общей лексики.

Возможна адаптация существующих языковых моделей и разработка новых под требования заказчика.

Модификации

На январь 2019 года доступны две модификации продукта, ориентированные на различные источники входных данных:

  • Phone — обработка речевых данных из телефонного канала
  • Broadcast — обработка речевых данных из медийного (телерадиовещательного) канала

Системные требования (минимальные)

  • CPU Intel Core i7 – 5820K 3,3 ГГц (6 физических вычислительных ядер);
  • ОЗУ 16 ГБ;
  • HDD 100 ГБ свободного места на жёстком диске.
  • Поддерживаемые ОС: Microsoft Windows 7 SP1 или выше либо ОС на основе ядра Linux.[1]

Примечания



СМ. ТАКЖЕ (2)


Подрядчики-лидеры по количеству проектов

За всю историю
2017 год
2018 год
2019 год
Текущий год

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2017 год
2018 год
2019 год
Текущий год

Распределение базовых систем по количеству проектов, включая партнерские решения

За всю историю
2017 год
2018 год
2019 год
Текущий год

Подрядчики-лидеры по количеству проектов

За всю историю
2017 год
2018 год
2019 год
Текущий год

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2017 год
2018 год
2019 год
Текущий год

  Oracle (3, 4)
  IBM (2, 3)
  Диасофт (Diasoft) (2, 2)
  Abbyy Россия (Аби) (2, 2)
  Haulmont (Хоулмонт) (2, 2)
  Другие (14, 16)

Распределение базовых систем по количеству проектов, включая партнерские решения

За всю историю
2017 год
2018 год
2019 год
Текущий год

  CUBA.platform - 2 (1, 1)
  Hyperledger Fabric - 2 (2, 0)
  IBM API Connect - 2 (2, 0)
  Java - 2 (2, 0)
  Diasoft MeNext - 2 (1, 1)
  Другие 18

  Apache Spark - 2 (2, 0)
  Solar appScreener (ранее Solar inCode) - 2 (2, 0)
  ABBYY FineReader Engine - 1 (1, 0)
  Microsoft.NET Framework - 1 (1, 0)
  Nvidia Isaac - 1 (1, 0)
  Другие 5