Название базовой системы (платформы): | Искусственный интеллект (ИИ, Artificial intelligence, AI) |
Разработчики: | D. lab |
Технологии: | Речевые технологии, Системы видеоаналитики |
Основные статьи:
- Нейросети (нейронные сети)
- Распознавание речи (технологии, рынок)
- Речевые технологии: на пути от распознавания к пониманию
- Синтез речи
- Компьютерное зрение (машинное зрение)
2023: Начало тестирования нейропродакшена в проектах ГПМ Радио, Rutybe, Premier и Yappy
Студия нейропродашкена D. lab, которую «Газпром-Медиа Холдинг» запустил в сентябре 2023 года, представила первые демо-образцы AIGC – мультимедийного контента разных форматов и жанров, произведенные искусственным интеллектом с минимальным участием человека. Образцы созданы с помощью собственного решения D.lab. Теперь студия переходит к тестированию своих технологий на проектах Детского Радио, Rutube, PREMIER и Yappy. Об этом «Газпром-Медиа Холдинг» сообщил 15 ноября 2023 года.
Решение D.lab позволяет создавать новые форматы контента. Например, анимированные пересказы литературных произведений или краткие пересказы полнометражных фильмов. Решение может синтезировать музыкальное оформление и закадровый голос, визуализировать аудиоконтент, генерировать цифровых персонажей, стилизовать видео. Решение гибридное – в его основе более 20 open source и коммерческих моделей искусственного интеллекта, дополнительно обученных и скомбинированных командой D.lab, для производства мультимедийного контента. Также в решении применяются технологии компьютерного зрения, синтеза и распознавания речи.Как защищать «поумневшие» промышленные сети: «Синоникс» на страже безопасного объединения изолированных сетей
Ключевые плюсы решения D.lab – экономия времени профессионалов, повышение скорости выполнения рутинных задач и снижение затрат на производство. Например, вместо ручной отрисовки различных фонов, персонажей или деталей можно выбирать из предложенных нейросетями вариантов, созданных на основе специальных запросов-промптов. Участие человека требуется только при постановке задачи, внесении стилистических правок и контроле результатов.
Мы работаем в постоянном контакте с профессионалами медиа, поскольку наше решение в первую очередь для них. У нас не нейромосфильм и нейроголливуд. Их и не может быть. У нас – набор решений-помощников для профессионального продакшена. Этот набор уже на текущем этапе позволил втрое сократить стоимость отдельных производственных процессов и выполнять их за часы и дни, а не за месяцы и годы. У нас нейросети уже более чем на 80% участвуют в создании самого разнообразного контента новых форматов. И нет задачи, чтобы на 100% вкалывали роботы, сказал Эдуард Маас, руководитель D.lab.
|
На RUTUBE-канале D.lab[1] представлены первые примеры AIGC-работ: анимационные пересказы «Слова о полку Игореве» и рассказа Айзека Азимова «Лжец!» из знаменитого цикла «Я, робот», видеопересказы киноклассики – «Метрополиса» Фрица Ланга и «Броненосца Потемкина» Сергея Эйзенштейна, а также образец анимационной стилизации видео.
Как работает решение D.lab:
В цикле создания анимационных пересказов литературных произведений от D.lab в среднем 7 этапов:
- анализ исходного текста LLM-моделями
- написание сценария LLM-моделями
- формирование стилевой концепции моделями Text-to-Image
- черновая раскадровка ролика с текстовым описанием LLM-моделями
- генерация сцен и персонажей моделями Text-to-Image
- добавление анимации (при необходимости с участием человека)
- озвучание моделями Text-to-Speech
В «Лжеце!» качество нейросинтезированного озвучания не устроило команду D.lab, и было принято решение использовать классический вариант с настоящим человеческим голосом. На подготовку таких видеороликов по книгам сейчас уходит около двух недель.
В видеопересказах полнометражных фильмов решением D.lab выполнено 6 видов работ:
- анализ фильма ансамблем нейросетей
- обработка полученных результатов LLM-моделями
- написание сценария видеоролика LLM-моделями
- выделение ключевых монтажных точек ансамблем нейросетей
- монтаж видеоролика
- озвучание моделями Text-to-Speech
Решение D.lab по стилизации позволяет оперативно «переодевать» любое видео, например, превращать фильм в мультфильм. Решение двухшаговое:
- текстовое описание стилистики моделями Text-to-Image
- накладывание стилистики на исходное видео моделями Image-to-Image.
Как будут проходить тесты на Детском радио, в RUTUBE, PREMIER и Yappy:
Субхолдинг ГПМ Радио заинтересовали анимированные пересказы, и было принято решение протестировать нейропродакшен D.lab в визуализации контента единственной в России станции для юных слушателей – Детского радио. Уже готовится визуализация популярного аудиоподкаста.
Команда RUTUBE тестирует возможности решения D.lab в создании коротких видео из своих оригинальных шоу. Параллельно платформа анализирует возможности AIGC сразу в нескольких направлениях – интеграция в новые выпуски текущих проектов, разработка премьерных шоу, построенных на нейроконтенте, использование такого материала в трансляциях спортивных и культурных событий, визуализация аудиоконтента, перемонтирование контента в разные форматы.
Онлайн-кинотеатр PREMIER выбрал для тестирования стилизацию видео. Трейлер одного из топовых сериалов сервиса будет представлен в непривычном виде.
В Yappy также выбрали стилизацию как наиболее подходящий и оперативный инструмент для обработки текущего контента. Команда платформы хочет использовать решение D.lab для повышения качества исходного видео (свет, стабилизация, фокусировка и т. п.).
Примечания
Подрядчики-лидеры по количеству проектов
VizorLabs (Визорлабс) (41)
Вокорд (Vocord) (39)
ВидеоМатрикс (Videomatrix) (32)
VisionLabs (ВижнЛабс) (25)
Simetra (ранее А+С Транспроект) (18)
Другие (320)
ВидеоМатрикс (Videomatrix) (9)
Simetra (ранее А+С Транспроект) (6)
VisionLabs (ВижнЛабс) (5)
VizorLabs (Визорлабс) (5)
Ростелеком (4)
Другие (49)
VizorLabs (Визорлабс) (11)
ВидеоМатрикс (Videomatrix) (8)
Nord Clan (Норд Клан) (4)
Джей Эс Эй Групп (JSA Group) (3)
VisionLabs (ВижнЛабс) (2)
Другие (30)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Вокорд (Vocord) (9, 45)
VizorLabs (Визорлабс) (9, 40)
ВидеоМатрикс (Videomatrix) (17, 32)
VisionLabs (ВижнЛабс) (13, 32)
PTV Group (2, 25)
Другие (332, 180)
ВидеоМатрикс (Videomatrix) (9, 9)
VisionLabs (ВижнЛабс) (3, 9)
PTV Group (1, 6)
Ростелеком (3, 5)
VizorLabs (Визорлабс) (2, 5)
Другие (14, 21)
VizorLabs (Визорлабс) (7, 11)
ВидеоМатрикс (Videomatrix) (7, 8)
VisionLabs (ВижнЛабс) (2, 2)
Nord Clan (Норд Клан) (1, 2)
Интеллоджик (TeleMD) (1, 1)
Другие (16, 16)
VizorLabs (Визорлабс) (4, 13)
Технологии безопасности дорожного движения (ТБДД) (1, 3)
VisionLabs (ВижнЛабс) (1, 2)
РИР (Росатом Инфраструктурные решения) (1, 2)
Nord Clan (Норд Клан) (1, 2)
Другие (13, 14)
PTV Group (1, 1)
VizorLabs (Визорлабс) (1, 1)
Сколково Фонд (1, 1)
ЭЛВИС-НеоТек (1, 1)
NVI Research (1, 1)
Другие (3, 3)
Распределение систем по количеству проектов, не включая партнерские решения
PTV Visum - 25
VisionLabs Luna - 24
Визорлабс Контроль ОТ и ПБ (VizorLabs Health & Safety) - 24
Vocord Traffic - 16
ЦРТ: Визирь - 14
Другие 249
PTV Visum - 6
VisionLabs Thermo (ранее VisionLabs Termo) - 5
VisionLabs Luna - 5
Визорлабс Контроль ОТ и ПБ (VizorLabs Health & Safety) - 4
Nord Clan: RDetector - 3
Другие 33
Визорлабс Контроль ОТ и ПБ (VizorLabs Health & Safety) - 6
Vmx SILA: HSE - 2
Nord Clan: RDetector - 2
Випакс: Domination - 1
VisionLabs Luna Pass - 1
Другие 28
Подрядчики-лидеры по количеству проектов
Группа компаний ЦРТ (Центр речевых технологий) (43)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (27)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (25)
Naumen (Наумен консалтинг) (14)
Voice Systems Robotics (VSR, VS Robotics) (9)
Другие (149)
Группа компаний ЦРТ (Центр речевых технологий) (5)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
Naumen (Наумен консалтинг) (2)
Neuro.net (Нейро) (2)
Voice Systems Robotics (VSR, VS Robotics) (2)
Другие (15)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
Naumen (Наумен консалтинг) (3)
Voice Systems Robotics (VSR, VS Robotics) (3)
Мегапьютер Интелидженс (Megaputer Intelligence) (2)
Другие (11)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Группа компаний ЦРТ (Центр речевых технологий) (16, 46)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 28)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (11, 27)
Яндекс (Yandex) (9, 15)
Avaya (4, 13)
Другие (300, 145)
Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
Naumen (Наумен консалтинг) (1, 2)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 2)
Другие (7, 9)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
Naumen (Наумен консалтинг) (1, 3)
Voice Systems Robotics (VSR, VS Robotics) (1, 3)
Voximplant (Фастком) (2, 2)
Другие (9, 11)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 8)
Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
Unlimited Production (Анлимитед Продакшен) (1, 6)
Naumen (Наумен консалтинг) (2, 4)
Другие (12, 13)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 4)
SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
Ростелеком (1, 2)
Яндекс (Yandex) (1, 2)
Naumen (Наумен консалтинг) (1, 1)
Другие (6, 6)
Распределение систем по количеству проектов, не включая партнерские решения
МТТ VoiceBox - 24
BSS Digital2Speech - 20
Voice2Med Система распознавания речи в медицине - 14
SmartLogger II - 12
Naumen Erudite - 12
Другие 161
BSS Digital2Speech - 5
Voice2Med Система распознавания речи в медицине - 4
3i TouchPoint Analytics - 2
Naumen Erudite - 2
МТТ VoiceBox - 2
Другие 9
МТТ VoiceBox - 11
BSS Digital2Speech - 6
VS Robotics: VS Робот-оператор - 3
Naumen Erudite - 3
VoxImplant - 2
Другие 12
МТТ VoiceBox - 9
BSS Digital2Speech - 7
EXpress Защищенный корпоративный мессенджер - 6
SmartLogger II - 4
Naumen Erudite - 3
Другие 17
BSS Digital2Speech - 2
BSS: Виртуальный голосовой ассистент - 2
YandexGPT (YaLM 2.0) - 2
NLab Speech TTS - 1
СберБизнесБот - 1
Другие 7