| Название базовой системы (платформы): | Сбер ruDALL-E Мультимодальная нейросеть |
| Разработчики: | Сбербанк |
| Дата премьеры системы: | 2022/06/14 |
| Дата последнего релиза: | 2025/11/20 |
| Технологии: | Big Data |
Основные статьи:
2025
Kandinsky 5.0 с двумя моделями Image Lite и Video Pro
Сбер 20 ноября 2025 года представил Kandinsky 5.0 — линейку моделей генерации изображений и видео нового поколения.
Дополнительные модели расширят возможности для творчества — как в профессиональной сфере, так в личных проектах. Пользователи могут легко создавать персонализированные видеопоздравления, оживлять фотографии или придумывать оригинальные визуальные истории. Для профессионалов — режиссёров, дизайнеров, маркетологов, художников-аниматоров — Kandinsky 5.0 станет мощным инструментом для производства промо-материалов и коммерческого видеоконтента.
| |
Мы значительно усовершенствовали Kandinsky. Команда существенно улучшила ключевые параметры – качество и скорость генерации видео. Теперь любой пользователь может легко воплотить свои художественные задумки как в видео, так и в изображениях. Особое внимание мы традиционно уделили обучению модели на качественном национальном датасете. Благодаря этому Kandinsky точно понимает запросы на русском языке и создаёт контент, соответствующий культурному контексту и ожиданиям пользователей из нашей страны. При этом все модели новой линейки опубликованы в открытом доступе. Такой шаг предоставляет инженерам и исследователям возможность использовать их в своих разработках и стимулирует рост открытой экосистемы отечественных генеративных технологий, сказал Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка.
| |
Пользователям стали доступны две модели линейки Kandinsky 5.0: Image Lite – универсальная модель генерации HD-изображений, и Video Pro – мощная модель, генерирующая 5-секундные SD-ролики по текстовому запросу или стартовому кадру. Обе модели уверенно ориентируется в российском культурном контексте, одинаково хорошо понимают запросы на русском и английском, а также создают надписи на кириллице и латинице.В «Т1» — большое укрупнение. TAdviser составил карту активов холдинга
Особый фокус при обучении моделей был сделан на эстетичности и качестве генерации, выразительности и художественности создаваемого ими визуального контента. Для этого на финальных этапах обучения использовался датасет сверх-качественных изображений и видео, отобранных большой командой дизайнеров, художников и арт-директоров. Эксперты тщательно выбирали материалы с безупречной композицией, стилем и визуальным качеством. Благодаря этому Kandinsky 5.0 создаёт не только детальные и точные визуальные материалы, но и по-настоящему выразительный, художественный контент.
Модели Kandinsky 5.0 Image Lite и Video Pro уже доступны на всех поверхностях ГигаЧат.
«Сбер» откроет флагманские ИИ-модели GigaChat и Kandinsky
19 ноября 2025 года резидент и председатель правления Сбербанка Герман Греф анонсировал размещение флагманских моделей искусственного интеллекта (ИИ) в публичном доступе. Речь идет о следующих продуктах: GigaChat 3 Ultra Preview, GigaChat Lightning, новое поколение моделей распознавания речи GigaAM, а также модели генерации изображений и видео Kandinsky 5.0. Подробнее здесь.
Интеграция с Platform V Product 360
Российский разработчик ПО СберТех интегрировал нейросеть Kandinsky в систему для управления данными о товарах Platform V Product 360. Теперь пользователи решения могут прямо в его интерфейсе создавать изображения высокого качества для продуктовых каталогов с помощью встроенного AI-инструмента. Об этом в ходе сессии «Игра на опережение. Цифровизация как конкурентный актив» на конференции ЦИПР-2025 в июне 2025 года рассказал генеральный директор СберТеха Максим Тятюшев. Подробнее здесь.
Kandinsky 4.1 Image
5 июня 2025 года Сбер представил следующую версию модели генерации изображений по тексту Kandinsky 4.1 Image — теперь она создаёт ещё более качественные и детализированные изображения, при этом лучше следует текстовым инструкциям пользователей.
Как сообщалось, для нейрохудожников появился AI-редактор MALVINA (Multimodal Artificial Language VIsion Neural Assistant), который позволяет редактировать изображение, следуя текстовым инструкциям. Удалить лишние объекты или текст с картинки, сменить цвет волос или возраст человека на изображении, отреставрировать и раскрасить старое фото, заменить фон, сменить лето на зиму — MALVINA поможет воплотить любую креативную идею нейрохудожника, открывая горизонты сотворчества человека и генеративного AI. Причём в отличие от других моделей, предназначенных для редактирования фото, MALVINA старается сохранять геометрию исходного изображения: изменения затрагивают только релевантные части картинки. Таким образом, даже при внесении серьёзных изменений в сцену будут сохранены черты лица людей или вид объектов, не затрагиваемых в процессе редактирования. Запуск моделей расширяет возможности генеративной системы GigaChat от Сбера в области создания и редактирования визуального контента.
В основе данной версии модели генерации изображений Kandinsky лежит обновлённая архитектура — теперь это диффузионный трансформер (DiT), который позволяет использовать различные практики в области обучения больших трансформерных моделей. Технология обеспечивает возможность эффективного масштабирования, что по факту означает улучшение общего качества и скорости работы флагманской модели.
Помимо обучения на большом датасете пар «изображение — текстовое описание» модель Kandinsky 4.1 Image была дополнительно дообучена на отобранных вручную изображениях, сбалансированных по 9 метакатегориям (люди, техника, природа и другие). Отбором этих качественных данных занималась команда, состоящая более чем из 100 специалистов — фотографов, художников, дизайнеров, которые не только имеют профессиональное художественное образование, но и успешно прошли тесты на углублённое понимание эстетических и визуальных аспектов фотографии.
В результате такого дообучения значительно выросла эстетичность и корректность генерируемых изображений во всех доменах. Также повысилось качество генерации текстур и сложных объектов, например разного рода техники. Kandinsky 4.1 Image точнее следует сложным текстовым инструкциям — например, понимает «пространственные» запросы типа «справа/слева» и «выше/ниже». Если попросить модель нарисовать «мужчину в белой кепке и полосатом пиджаке, сидящего на зелёном стуле справа от высокой берёзы, в стиле Ван Гога», — нейросеть учтёт все детали.
Модель понимает стили известных художников — Айвазовского, Босха, Кранаха, Кандинского и других. Кроме того, пользователь может создавать изображения в произвольных художественных стилях от импрессионизма до поп-арта или же генерировать изображения, например, в стиле известной анимационной Studio Ghibli.
Kandinsky 4.1 Image лучше работает с русским культурным кодом: модель качественно генерирует матрёшек, богатырей, самовары, знает героев русских народных сказок и фильмов, может изобразить различные блюда национальной кухни. Ещё лучше модели стали удаваться изображения в духе русской народной росписи, например гжели и хохломы, — теперь пользователи могут экспериментировать и с такого рода стилями.
Интеграция телеграм-бота GigaChat с AI-редактором MALVINA открыла любому пользователю возможность редактировать любые изображения простыми командами. За пару кликов на картинке можно изменить фон («сделай горы вместо неба»), цвет («сделай дракона зелёным») или внешность («добавь очки», «перекрась волосы в рыжий»). Кроме того, можно убирать и добавлять объекты («замени черешню на конфеты») и корректировать дефекты («удали царапины»).
Модель не просто поддерживает работу с исходными файлами изображений — при их изменении она старается сохранить все важные визуальные характеристики (фигуры, лица, фон), включая мельчайшие детали и текстуры оригинального кадра.
Нейросеть была обучена на большом массиве данных. На этапе предварительного обучения исследователи обработали более 10 млн примеров, а для этапа дообучения (SFT-фаза) применили свыше 1,5 млн разнообразных изображений — как реальных фотографий с ручной обработкой, так и синтетических данных, сгенерированных специальными моделями.
| | Обновленный редактор изображений в GigaChat — это простой и удобный интеллектуальный помощник в реализации любых креативных задумок. Он работает с пиксельной точностью, сохраняя максимум исходных деталей, но при этом позволяет менять фон, объекты и даже стиль фото. Теперь пользователям можно не тратить часы в графических редакторах — достаточно освоить нескольких текстовых команд. Мы специально обучали обновлённую модель Kandinsky на разнообразных и при этом детально выверенных и размеченных данных, чтобы нейросеть могла работать с различными сценами: от портретов до пейзажей. Интеграция с GigaChat превращает нашу языковую модель в универсальный инструмент для творчества и работы, который может освоить любой желающий. сообщил Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка | |
2024
Доступность Kandinsky 3.1 всем пользователям
Возможности нейросети Kandinsky 3.1 стали доступны всем пользователям.
Обновлённая версия дообучена на датасете эстетичных изображений, что позволило повысить качество генерации картинок. Об этом 22 апреля 2024 года сообщил первый заместитель Председателя Правления Сбербанка Александр Ведяхин.
| |
Первыми оценить возможности усовершенствованной версии нейросети Kandinsky 3.1 смогли в начале апреля 2024 года дизайнеры, художники и блогеры. Мы получили много положительных отзывов и комментариев, которые помогли нам улучшить ее. Нейросеть позволяет любому человеку реализовать свой творческий потенциал, а для профессионалов — это инструмент для более эффективного развития в креативной индустрии. Изображения, которые генерирует новая версия, поражают своей реалистичностью, креативностью и яркостью. Как и прежние версии, модель абсолютно бесплатна и доступна на разных поверхностях, сказал Александр Ведяхин, первый заместитель Председателя Правления Сбербанка.
| |
Добавление функции улучшения запроса (бьютификации) упрощает процесс создания изображений. Теперь нет необходимости быть профессиональным промпт-инженером — данная функция помогает создать детальный промпт за пользователя: достаточно написать всего несколько слов описания желаемого изображения, остальное сделает встроенная в обновленную версию нейросети языковая модель GigaChat Pro — она расширяет и обогащает деталями промпт.
Также за счёт нового подхода к обучению и качественного датасета значительно улучшилась функция inpainting, которая позволяет редактировать отдельные части изображения.
Кроме того, у пользователей теперь есть возможность воспользоваться в основном Telegram-боте в том числе и быстрой моделью Kandinsky 3.1 Flash. Время генерации изображения c помощью этой версии модели по сравнению с базовой версией уменьшилось более чем в 10 раз.
Kandinsky 3.1 дообученая на увеличенном датасете изображений
Сбер усовершенствовал свою нейросеть, которая создаёт изображения по текстовому описанию на русском и английском языках. Об этом Сбер сообщил 4 апреля 2024 годаю. Обновлённая версия Kandinsky 3.1 дообучена на увеличенном датасете изображений, что позволило повысить качество генераций. Первым доступ к Kandinsky 3.1 получил ограниченный круг пользователей: художники, дизайнеры, блогеры.
| | Год назад вышла версия Kandinsky 2.1. За это время мы постоянно развивали нашу нейросеть, которая помогает людям создавать новые образы и даёт абсолютно каждому возможности для творчества. По сравнению с предыдущей моделью Kandinsky 3.1 стал ещё быстрее, удобнее и реалистичнее. Kandinsky 3.1 — это гибкий, многофункциональный и абсолютно бесплатный инструмент, который превратит любого человека в художника и творца. Скоро все желающие смогут протестировать новые возможности нейросети. Как и предыдущие версии, модель будет бесплатной и доступна на разных поверхностях, сказал Александр Ведяхин, первый заместитель Председателя Правления Сбербанка.
| |
Одной из ключевых особенностей версии стала более высокая скорость генерации картинок: время одной генерации сократилось почти в 10 раз, а разрешение генераций можно повысить до 4K. Также появилась возможность улучшения текстового запроса с помощью языковой модели. Пользователям снова будут доступны функции создания различных вариаций изображений, смешивание картинок и текста, создание стикерпаков и возможность вносить локальные изменения на картинке, не меняя всей композиции сцены (ControlNet).
Узнать технические детали о модели, подходах к обучению и посмотреть примеры генераций можно в статье на «Хабре».
Также в ближайшее время появится модель Kandinsky Video 1.1 для генерации видео по текстовым описаниям. Нашей команде удалось существенно повысить качество генераций за счет увеличения объема обучающего датасета пар «текст-видео» и архитектурных улучшений модели. Внесённые изменения также позволили повысить разрешение видео в два раза по сравнению с Kandinsky Video 1.0.
2023
Создание более 200 млн генераций по текстовым запросам
Сбер 18 января 2024 года подвел итоги работы генеративной модели Kandinsky в 2023 году. По данным разработчиков, нейросеть создала более 200 млн генераций по текстовым запросам, а ее аудитория превысила 12 млн уникальных пользователей. Модель заняла первое место по темпу роста и стала второй после Stable Diffusion по популярности среди разработчиков по версии AI-ресурса Hugging Face, где собраны лучшие open source-решения.
Kandinsky понимает запросы из большого списка тем более чем на 100 языках, пользователи могут создавать фотореалистичные изображения в неограниченном количестве, применяя самые разные стили. Модель также умеет менять отдельные объекты и целые области на картинке, смешивать несколько рисунков, дорисовывать изображение, создавать картины в режиме бесконечного полотна (inpainting/outpainting). Нейросеть хорошо знает отечественный культурный код: архитектурные достопримечательности, объекты и элементы народного искусства.
Кроме того, пользователи Kandinsky могут создавать четырёхсекундные анимационные ролики и полноценные видео длиной до восьми секунд. Таким образом, генеративная модель Сбера помогает реализовать практически любую творческую задумку.
Оценить возможности нейросети можно на платформе fusionbrain.ai, в Telegram- и в VK-ботах, на сайте rudalle.ru. Модель работает в сервисе GigaChat, доступна в мобильных приложениях СберБанк Онлайн и Салют, а также на умных устройствах Sber по голосовой команде «Запусти художника». Сгенерировать анимацию и видеоролики можно на платформе fusionbrain.ai и в Telegram-боте — для этого нужно оставить заявку на доступ.
Модель разработали и обучили исследователи Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices.
Внедрение в HR-платформу «Пульс»
В HR-платформу «Пульс» от Сбера внедрены сервис GigaChat и нейросеть Kandinsky, для корпоративных клиентов функционал этих решений будет доступен в первом полугодии 2024 года. Об этом Сбер сообщил 29 ноября 2023 года. Подробнее здесь.
Kandinsky 3.0
Сбер 22 ноября 2023 года представил следующую версию генеративной модели для творчества — Kandinsky 3.0, которая в сравнении с предыдущими лучше понимает текстовый запрос пользователя. Нейросеть теперь умеет создавать ещё более фотореалистичные изображения, генерировать полноценные художественные картины и арты со скетчами. Модель работает с запросами из широкого списка тем.
По словам разработчиков, Kandinsky 3.0 лучше предыдущих версий знает элементы отечественного культурного кода. Так, значительно улучшилось качество генерации российских и советских известных личностей и персонажей, архитектурных достопримечательностей, объектов культуры и элементов народного искусства России, например, гжельской росписи. Кроме того, у обновленной модели оптимизирована функция редактирования изображений и возможность их дорисовки в режиме бесконечного полотна (inpainting и outpainting).
Kandinsky 3.0 создаёт изображения с высоким разрешением — 1024 х 1024 пикселей, при этом может синтезировать картинки с выбранным соотношением сторон. Для обучения нейросети разработчики использовали обновлённый датасет в размере 1,5 млрд пар «текст — изображение», содержащий данные, которые прошли многоэтапные процедуры фильтрации, что в итоге привело к заметному повышению качества генераций.
Пользователи нейросети Kandinsky 3.0 также могут создавать видеоролики по текстовому описанию в режиме анимации. По одному запросу генерируется видео длиной в четыре секунды c выбранным эффектом анимации, с частотой 24 кадра в секунду и разрешением 640 x 640 пикселей. Синтез одной секунды видео в среднем занимает около 20 секунд. Для расширения возможностей базовой модели были реализованы разные виды анимации изображений, что позволило перемещать объекты, приближать и отдалять их, оживлять статику всеми возможными способами. В основе режимов анимации лежит функция перерисовки изображения по текстовому описанию (image2image).
Kandinsky 3.0 понимает запросы более чем на 100 языках, а пользователи могут создавать изображения в неограниченном количестве стилей. Модель разработали и обучили исследователи Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices.
Оценить возможности нейросети можно на платформе fusionbrain.ai, в Telegram- и в VK-ботах, на сайте rudalle.ru. Модель работает в сервисе GigaChat, доступна в мобильных приложениях СберБанк Онлайн и Салют, а также на умных устройствах Sber по голосовой команде «Запусти художника». Сгенерировать анимационные видеоролики можно в Telegram-боте — для этого нужно оставить заявку на доступ.
Возможность сгенерировать заставки в "СберБанк Онлайн"
В обновлении СберБанк Онлайн на Android-смартфонах можно реализовать свой творческий потенциал и сгенерировать заставки для входа в приложение с помощью нейросети Сбера Kandinsky. Об этом Сбер сообщил 22 ноября 2023 года. Подробнее здесь.
Представление Kandinsky Video — генеративной модели для создания полноценных видеороликов по тексту
Сбер представил нейросеть Kandinsky Video — первую в России генеративную модель для создания полноценных видеороликов по текстовому описанию. Об этом 22 ноября 2023 года TAdviser сообщили представители Сбера.
Архитектура Kandinsky Video состоит из двух ключевых блоков: первый отвечает за создание ключевых кадров, из которых складывается структура сюжета видео, а второй — за генерацию интерполяционных кадров, которые позволяют достичь плавности движений в финальном видео. В основе двух блоков лежит обновленная модель синтеза изображений по текстовым описаниям Kandinsky 3.0. Подробнее здесь.
Kandinsky 2.2 с возможностью создавать видеоролики по текстовому описанию в режиме анимации
У пользователей нейросети Сбера Kandinsky 2.2 появилась возможность создавать видеоролики по текстовому описанию в режиме анимации. По одному текстовому описанию генерируется 4-секундное видео c выбранным эффектом анимации, с частотой 24 кадра в секунду и разрешением 640x640 пикселей. Синтез одной секунды видео в среднем занимает около 20 секунд. Об этом Сбер сообщил 12 октября 2023 года.
Генерация анимационных видеороликов работает в тестовом режиме и доступна самым активным пользователям Kandinsky 2.2, которые получат приглашение в ближайшее время. До конца 2023 года оценить возможности нейросети смогут абсолютно все.
Для того чтобы сгенерировать видео в режиме анимации, нужно описать текстом то, что хочется увидеть. Далее бот предложит на выбор 16 вариантов анимации сцены, а после этого нейросеть сгенерирует анимированный видеоролик. Также доступна генерация составных сцен: пользователь может ввести несколько текстовых описаний (до трёх), затем выбрать для каждого свою механику анимации, а после этого модель создаст «мини-фильм».
| | С момента выхода модели Kandinsky 2.2 пользователи уже сгенерировали более 50 млн изображений. Теперь у них появилось ещё больше возможностей для творчества совершенно бесплатно. Запуск видео-функции в режиме анимации — это важный шаг в развитии нашей нейросети и для всей глобальной индустрии мультимодальных моделей искусственного интеллекта. Мы продолжим и дальше совершенствовать Kandinsky, и в следующих обновлениях качество будет только улучшаться, отметил Александр Ведяхин, первый заместитель Председателя Правления Сбербанка.
| |
Основой для синтеза видео является модель генерации изображений по текстовым описаниям Kandinsky 2.2. Для расширения её возможностей были реализованы разные виды анимации изображений, что позволило перемещать объекты, приближать и отдалять их, оживлять статику всеми возможными способами. В основе всех режимов анимации лежат функции image2image (перерисовка изображения по текстовому описанию) и inpainting/outpainting (дорисовка части изображения внутри и за его пределами), которые уже были реализованы в базовой модели.
Нейросеть разработали и обучили исследователи Sber AI совместно с учёными из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices.
2 млн уникальных пользователей за 6 дней
Kandinsky 2.1 — бесплатная генеративная модель от Сбера стала одним из самых быстрорастущих сервисов искусственного интеллекта (ИИ) в мире. Об этом Сбербанк сообщил 10 апреля 2023 года. По данным разработчиков, российской нейросети потребовалось всего четыре дня, чтобы достичь отметки в 1 миллион уникальных пользователей. Это быстрее результата сервиса ChatGPT от OpenAI, которому потребовалось на это пять дней.
С момента выхода Kandinsky 2.1 было сгенерировано уже более 10 млн изображений, а количество уникальных пользователей достигло 2 млн. Также Kandinsky 2.1. попала в топ-5 трендов мировых репозиториев по версии веб-сервиса GitHub.
Kandinsky 2.1 способна за несколько секунд генерировать изображения по их текстовому описанию на естественном языке. Модель знает 101 язык и открывает новые возможности для творчества: может смешать несколько рисунков, дорисовать изображение, создать картину в режиме бесконечного полотна (inpainting/outpainting).
Нейросеть унаследовала веса предыдущей версии, обученной на один миллиард пар «текст — изображение», и была дополнительно обучена на 170 млн пар «текст — изображение» высокого разрешения. Затем она дообучалась на отдельно собранном датасете из двух миллионов пар качественных изображений. В данный сет попали картинки с описаниями в таких традиционно сложных для нейросетей областях, как тексты и лица людей. Нейросеть также была усовершенствована за счёт новой обученной модели автоэнкодера, которая используется в том числе в качестве декодера векторных представлений изображений. Это кардинально улучшило генерацию изображений в высоком разрешении: лица, сложные объекты и так далее. Благодаря этому модель содержит 3,3 млрд параметров вместо двух миллиардов в Kandinsky 2.0.
1 млн уникальных пользователей
Всего за 4 дня после выхода обновленной версии генеративной модели Сбера Kandinsky 2.1 аудитория нейросети достигла 1 млн уникальных пользователей, которые уже сгенерировали свыше 5 миллионов изображений. В лидерах такие запросы как: «кот», «любовь», «космос» и «счастье». Об этом 7 апреля 2023 года сообщили в Сбербанке.
Протестировать нейросеть можно в Telegram-боте, на промостранице модели, на fusionbrain.ai и на платформе ML Space в хабе предобученных моделей и датасетов DataHub. Также оценить возможности Kandinsky 2.1 можно в мобильном приложении Салют и на умных устройствах Sber при помощи команды «Запусти художника».
Kandinsky 2.1 может сгенерировать изображения по их текстовому описанию на естественном языке за несколько секунд. Модель знает 101 язык и может дорисовывать части изображения, смешивать несколько рисунков, создавать картину в режиме бесконечного полотна.
Kandinsky 2.1 с возможностью смешивать несколько рисунков
Сбер 4 апреля 2023 года представил нейросеть Kandinsky 2.1, которая способна всего за несколько секунд создавать высококачественные изображения по их текстовому описанию на естественном языке. Она также может смешивать несколько рисунков, изменять их по текстовому описанию, генерировать изображения, похожие на заданное, дорисовывать недостающие части картинки и формировать изображения в режиме бесконечного полотна. Модель понимает запросы на 101 языке (включая русский и английский) и умеет рисовать в различных стилях.
Нейросеть разработали и обучили исследователи Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices.
Представленная модель Kandinsky 2.1 унаследовала веса предыдущей версии, обученной на 1 млрд пар «текст — изображение», и была дополнительно обучена на 170 млн пар «текст — изображение» высокого разрешения. Затем она дообучалась на отдельно собранном датасете из 2 млн пар качественных изображений. В данный сет попали картинки с описаниями в таких традиционно сложных для нейросетей областях, как тексты и лица людей.
Нейросеть также была усовершенствована за счёт обученной модели автоэнкодера, которая используется в том числе в качестве декодера векторных представлений изображений. Это кардинально улучшило генерацию изображений в высоком разрешении: лица, сложные объекты и так далее. Благодаря этому новая модель содержит 3,3 млрд параметров вместо 2 млрд в Kandinsky 2.0.
Кроме того, Kandinsky 2.1 использует не только закодированное текстовое описание, но и специальное представление изображения моделью CLIP. В таком виде нейросеть формирует представление картинки на основе текстовой информации и подаёт его на вход основной генеративной модели.
Модель умеет визуализировать любой контент и может применяться в различных отраслях. К примеру, в банковской сфере её можно использовать для создания персонализированных маркетинговых решений, ярких образов продуктов, привлечения и удержания внимания клиентов.
| |
Обучая Kandinsky 2.1, мы учли мнения пользователей и реализовали смелую гипотезу, изучив самые передовые концепции. В результате мы разработали мощное универсальное решение для большого круга задач на уровне лучших мировых аналогов. Оно открывает большие возможности как для бизнеса, так и для населения. По сути, это ещё один важный шаг к AGI — сильному искусственному интеллекту. Думаю, у каждого найдётся задача для Kandinsky 2.1, и поэтому улучшенная модель, как и её предыдущая версия, находится в открытом доступе: протестировать её может любой желающий, причём бесплатно. сказал Александр Ведяхин, первый заместитель председателя правления Сбербанка.
| |
Оценить возможности нейросети можно на промо-странице модели, при помощи команды «Запусти художника» на умных устройствах Sber и в мобильном приложении Салют и на платформе ML Space в хабе предобученных моделей и датасетов DataHub. Модель также доступна для использования на платформе Fusion Brain и в Telegram-боте.
2022
Kandinsky 2.0 — российская диффузионная модель для генерации изображений по тексту на разных языках
23 ноября 2022 года Сбер представил Kandinsky 2.0 — российскую мультиязычную диффузионную модель для генерации изображений по текстовому описанию с 2 млрд параметров. Нейросеть разработали и обучили исследователи Sber AI при партнёрской поддержке ученых из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и SberDevices из 1 млрд пар «текст — изображение». Увидеть, как она рисует можно при помощи команды «Запусти художника» на умных устройствах Sber и в мобильном приложении Салют.
В Kandinsky 2.0 разработчики использовали набирающий известность диффузионный подход, поскольку модели подобной архитектуры, в отличие от трансформеров, дают хорошие результаты почти во всех задачах генерации мультимедийного контента по текстовому описанию (синтез изображений, видео, 3D и аудио).
Модель способна одинаково быстро и качественно обрабатывать запросы на 101 языке. Среди них как распространённые русский и английский, так и более редкие, например, монгольский. Система поймёт задачу, даже если в одном запросе будут слова на разных языках.
Kandinsky 2.0 отличается от своего предшественника более сочной, глубокой и реалистичной картинкой и расширенными возможностями. На сайте FusionBrain изображения можно генерировать в 20 различных стилях, среди которых ренессанс, классицизм, мультипликация, Новый год и даже хохлома. В модели также реализованы функции inpainting (замена любой части изображения и любого объекта на изображении на сгенерированные нейросетью) и outpainting (возможность дорисовывать готовое изображение и фон вокруг картинки).
Кроме того, в Kandinsky 2.0 пользователи могут оценить, как одинаковые с точки зрения смысла лингвистические конструкции и понятия отличаются в зависимости от языка и культурной окраски. Например, если сформулировать запрос «национальное блюдо» на русском языке, нейросеть чаще всего рисует щи, а на японском это будет мисо суп и суши.
| | Сбербанк продолжает развивать решения для автоматической генерации изображений по описанию на естественном языке — так называемый креативный ИИ. Kandinsky 2.0, который пришёл на смену первой версии модели, — прорыв в этой сфере. Данная модель позволяет за несколько секунд получить особенную картинку под конкретную задачу и свободно распространять её без лицензии, что очень актуально для бизнеса. Генеративные модели развиваются очень быстро: ещё в 2018 году даже постановку такой задачи сложно было представить, а в 2022 году имеем работающую модель, которая понимает 101 язык и рисует реалистичные изображения, которые зачастую неотличимы от тех, что создают люди, отметил Александр Ведяхин, первый заместитель Председателя Правления Сбербанка.
| |
Представление модели генерации изображений по текстовому описанию
Сбер 14 июня 2022 года представил модель генерации изображений по текстовому описанию на русском языке — Kandinsky. Это улучшенная версия мультимодальной нейросети ruDALL-E, которая генерирует картинки по описанию на русском языке. Использовать её можно для создания любых видов изображений — иллюстраций, материалов для рекламы, архитектурного и промышленного дизайна и даже дизайна в области цифрового искусства.
В ноябре 2021 года была выпущена модель ruDALL-E XL, содержащая 1,3 млрд параметров. Её параметры и код были выложены в открытый доступ, и был разработан сервис генерации изображений. За полгода этим сервисом воспользовались 2 млн уникальных пользователей, которые суммарно сгенерировали 125 млн изображений. Также в ноябре была анонсирована, а в декабе опубликована в маркетплейсе AI Services платформы SberCloud ML Space эксклюзивная модель ruDALL-E XXL c 12 миллиардами параметров.
В 2022 году команды Sber AI и SberDevices смогли существенно улучшить качество работы этой модели, дообучив её на 179 млн изображений, снабжённых текстовыми описаниями, с помощью платформы SberCloud ML Space и суперкомпьютера Christofari Neo. Дообученная модель Kandinsky умеет генерировать изображения с произвольным соотношением сторон, а также может использовать особый способ повышения разрешения сгенерированных картинок на основе диффузионного процесса для изображений с соотношением сторон 1:1 (помимо стандартного подхода с использованием Real-ESRGAN). Теперь модель значительно лучше справляется с созданием реалистичных изображений, качественно передавая различные текстуры, тени и отражения.
Создание изображений при помощи модели Kandinsky происходит в три этапа. Сначала одна нейросеть (непосредственно Kandinsky), используя текстовое описание, генерирует заданное число изображений. Затем вторая (ruCLIP Large) выбирает наиболее удачные и максимально соответствующие заданному текстовому описанию картинки, а потом третья увеличивает их в размере (доступны как диффузионная модель, так и генеративно-состязательная модель Real-ESRGAN). Итогом работы модели является набор сгенерированных изображений высокого качества. Отличительным плюсом модели Kandinsky по сравнению с предыдущими версиями является более высокая степень детализации создаваемых изображений.
Модель доступна в мобильном приложении Салют, на умных устройствах Sber по запросу «Включи художника».
| |
Мы продолжаем развивать нейронные сети, которые следуют принципам трёх М — мультимодальности, мультизадачности и мультиязычности. Kandinsky — это мощный прорыв в этой сфере. Она способна точнее сравнивать и анализировать различные изображения, чтобы создавать настоящие живописные картины. Автоматическая генерация изображений открывает новые возможности для бизнеса, сказал Александр Ведяхин, первый заместитель Председателя Правления Сбербанка.
| |
| Название решения | Разработчик | Количество проектов | Технологии |
|---|---|---|---|
| Сбер Kandinsky Video Нейросеть для генерации полноценного видео | Сбербанк | 0 | Big Data |








