2026/03/11 09:40:27

Конец классической видеоаналитики? Почему MLLM меняет правила игры

Авторская колонка Василия Долгова

Содержание

Основные статьи:

За последний год в индустрии видеоаналитики произошло событие, которое обычно случается раз в десятилетие. На сцену вышли мультимодальные языковые модели — MLLM и их частный случай Visual LLM. В отличие от традиционных алгоритмов компьютерного зрения они не просто обнаруживают объекты в кадре, а пытаются интерпретировать происходящее.Когда данные есть, а решений бизнес-задач — нет: как платформа AIDP возвращает управляемость data-ландшафту 2.6 т

На первый взгляд это звучит как приговор всей отрасли видеоаналитики, сформировавшейся за последние десять лет: детекторам, правилам, логике событий и системам управления инцидентами. Если модель способна посмотреть на видеокадр, объяснить, почему ситуация опасна, и даже предложить действия, возникает естественный вопрос: зачем тогда нужна вся эта сложная инфраструктура?

Как и в большинстве технологических революций, ответ оказывается менее драматичным, чем кажется в моменте. Да, перед нами серьёзный технологический сдвиг. Но выводы о полном обнулении прежних подходов сильно преувеличены. MLLM сегодня слишком дорогая, чтобы круглосуточно анализировать каждый видеопоток. Поэтому она не заменит детекторы — по крайней мере в ближайшие годы. Зато она меняет другое: то, как система понимает контекст и интерпретирует события. И именно это меняет саму логику развития видеоаналитики.

В данной статье эксперт Василий Долгов 10 марта 2026 года рассказал TAdviser, почему MLLM/VLM — действительно гейм-чейнджер, где их применение экономически целесообразно уже сейчас, и главное — как выстроить платформенную архитектуру так, чтобы новая волна ИИ не сожгла инвестиции, а превратила их в фундамент для следующего уровня видеоаналитики.

От детекции к интерпретации

Долгое время индустрия решала относительно простую задачу: определить, что находится в кадре. Человек, каска, машина, ограждение. Из этих базовых элементов строились правила. Если человек без каски появляется в опасной зоне — тревога. Если объект пересекает линию — событие.

За этим простым принципом стоит целая инженерная экосистема: детекторы объектов, классификаторы, трекинг, логика зон, таймеры и сценарии. Такой подход хорошо масштабируется, относительно недорог в эксплуатации и годами остаётся основой промышленной видеоаналитики.

Однако у него есть фундаментальное ограничение. Классический компьютерный зрительный алгоритм умеет описывать пиксели, но не смысл происходящего. Он видит человека и каску, но не понимает, является ли ситуация опасной работой, нормальной операцией или просто случайным совпадением. А именно такие вопросы задаёт бизнес.

MLLM меняет уровень ответа. Она связывает объекты в сцену, а сцену — в контекст. Вместо сухого сигнала «сработало правило №17» появляется объяснение происходящего. Система начинает рассуждать категориями, которые ближе человеку: что происходит, почему это важно, что изменилось и какие риски возникают. Это не просто новый алгоритм детекции. Это переход к интерпретации.

Почему видео сложнее изображения?

Особенно хорошо этот сдвиг заметен, когда речь заходит о видео, а не об отдельных изображениях. Видео — это не просто последовательность кадров. Это время. А значит, появляются события, изменения и состояния. Человек вошёл в зону. Техника проехала. Объект исчез. Проход перекрыт уже двадцать минут. Ворота открыты слишком долго. Классическая аналитика пытается собрать такие вещи из детекторов и правил. Появляются буферы, трекинг, сложные пороги, ручная логика переходов между состояниями. Всё это работает, но со временем становится всё более сложным и хрупким. Малейшее изменение сцены начинает ломать сценарии.

MLLM предлагают другой подход. Вместо того чтобы вручную строить сложную логику событий, система может описывать происходящее естественным языком. Она способна заметить, что проход остаётся перекрытым уже длительное время или что состояние территории постепенно ухудшается. И именно здесь начинается одна из самых недооценённых трансформаций отрасли.

Настоящая революция происходит в видеоархиве

Самый недооценённый эффект MLLM связан не с онлайн-детекцией, а с работой с видеоархивом. До недавнего времени архив видеонаблюдения чаще всего был просто хранилищем записей. Камеры пишут, данные складываются, а если происходит инцидент — операторы ищут нужный фрагмент вручную.

MLLM меняют сам способ работы с архивом. Появляется возможность задавать вопросы со смыслом. Что изменилось на этой площадке за неделю? Когда проход оказался перекрыт? Появлялись ли признаки захламления? Видеоархив перестаёт быть кладбищем терабайтов и превращается в источник аналитики.

Но именно здесь возникает соблазн сделать слишком радикальный вывод. Если модель способна понимать ситуацию, почему бы не поручить ей анализ всего видеопотока круглосуточно? Ответ снова возвращает нас к инженерной реальности.

Экономика охлаждает технологический оптимизм

MLLM — невероятно мощная технология. Но у неё есть простая проблема: она прожорлива. Видео — это поток кадров. Чтобы модель понимала происходящее, ей нужно анализировать большое количество изображений и держать их в контексте. На одном потоке это выглядит впечатляюще. Но как только речь заходит о сотнях камер, возникает очень практический вопрос — сколько это будет стоить?

И ответ оказывается довольно трезвым. Анализировать весь видеопоток MLLM круглосуточно сегодня экономически бессмысленно. Поэтому в реальных системах применяется гораздо более прагматичная стратегия. Модель вызывается редко: по событию, по триггеру или при анализе коротких фрагментов. Иногда достаточно одного кадра в минуту или нескольких секунд видео вокруг подозрительного события. Это не недостаток технологии. Это просто этап её зрелости. В результате постепенно формируется архитектура, которая почти неизбежно станет стандартом: детекторы работают как дешёвые датчики потока, а MLLM выступает в роли эксперта по вызову. Детекторы фиксируют события, а модель проверяет, интерпретирует и объясняет их. Именно эта комбинация даёт максимальную эффективность.

Где на самом деле находятся инвестиции

На этом месте возникает ещё один страх, который сегодня часто обсуждают в индустрии. Если MLLM так сильно меняет правила игры, не обесценит ли она все прежние инвестиции в видеоаналитику? Ответ зависит не от технологии, а от архитектуры системы. Если ваша система — это набор разрозненных модулей, каждая новая технология действительно выглядит как катастрофа. Любое изменение требует переписывания интеграций и пересборки всей инфраструктуры.

Но если у вас есть единая платформа, ситуация выглядит иначе. В такой архитектуре MLLM — это не новая система, а просто ещё один вычислительный блок. Детекторы продолжают работать как базовый слой мониторинга, а новая модель добавляется поверх них как уровень интерпретации и анализа. И тогда технологические волны перестают быть угрозой. Они становятся апгрейдом.

Более того, становится очевидно, что реальные инвестиции компаний никогда не были в моделях. Они были в подключении камер, управлении архивами, процессах расследования инцидентов, интеграциях с корпоративными системами и построении сценариев реагирования. MLLM не уничтожает эти вещи. Наоборот, она делает их ценнее, потому что наконец может использовать их как контекст.

Самый недооценённый риск

При этом важно не впадать в технологический оптимизм. У MLLM есть риски, о которых редко говорят на презентациях. Самый опасный из них — способность модели ошибаться убедительно. Генеративная система может выдать красивое объяснение того, чего на самом деле нет. И люди склонны этому верить.

Поэтому внедрение MLLM требует строгой инженерной дисциплины. Результаты модели должны быть измеримы, проверяемы и встроены в систему метрик. Качество оценивается не по тому, насколько разумно звучит объяснение, а по вполне конкретным показателям: снижению ложных тревог, скорости расследования инцидентов и реальному влиянию на безопасность и операционные процессы. Если этого нет, речь идёт не о продукте, а о демонстрации.

Парадокс видеоаналитики

В итоге парадокс современной видеоаналитики выглядит так. По возможностям это действительно революция. MLLM переводит язык взаимодействия с видео с уровня объектов на уровень смысла. Система начинает отвечать на вопросы, которые раньше требовали участия человека: что происходит на самом деле, почему это важно и как меняется ситуация со временем.

Но по архитектуре внедрения это скорее эволюция. Детекторы остаются «датчиками» видеопотока — быстрыми, дешёвыми и массовыми. MLLM становится интеллектуальным уровнем, который включается там, где нужен контекст и объяснение.

Главный вывод в этой истории довольно простой. Не стоит бояться новых моделей. Стоит строить системы, в которых любая новая модель становится всего лишь новым блоком. Это и есть смысл платформенного подхода. Платформа позволяет переживать технологические волны без паники и без сжигания инвестиций.

Именно поэтому главный стратегический вопрос для компаний сегодня звучит иначе. Не «заменят ли новые модели старые системы?», а «готова ли ваша архитектура переживать технологические революции — и превращать их в конкурентное преимущество?».