MERA (Multimodal Evaluation for Russian-language Architectures) Бенчмарк для оценки фундаментальных моделей

Продукт
Разработчики: Альянс в сфере искусственного интеллекта (AI-Russia Alliance)
Дата премьеры системы: 2023/11/22
Дата последнего релиза: 2025/07/21

Содержание

Основная статья: LLM (Большие языковые модели)

2025: Представление MERA Code

Альянс в сфере ИИ 21 июля 2025 года представил инструмент – MERA Code — комплексный открытый бенчмарк для оценки больших языковых моделей в прикладных задачах программирования на русском языке. В разработке бенчмарка принимали участие команды Сбера, Т-Банка, MWS AI (входит в МТС Web Services), Ростелекома, Университета Иннополис, ИТМО, Сколтеха, Центрального университета и компании «Сибирские нейросети».

С развитием больших языковых моделей разработчики все чаще используют искусственный интеллект для генерации кода, автоматизации рутинных задач и работы с документацией. Однако до сих пор не существовало единого способа оценить, насколько хорошо эти модели справляются с практическими задачами в русскоязычной среде. MERA Code — это важный шаг к стандартизации и объективности оценки больших языковых моделей в русскоязычной среде программирования. Он позволяет увидеть, насколько современные большие языковые модели действительно полезны и эффективны в реальных задачах локального рынка.

Ключевые особенности MERA Code:

  • Прозрачная методика оценки LLM для русского языка: впервые создан стандарт, учитывающий специфику постановки задач и документации на русском языке.
  • Задачи и методика оценки отражают типичные кейсы, с которыми сталкиваются программисты в русскоязычной среде.
  • 11 разнообразных задач в форматах text2code, code2text и code2code — на 8 языках программирования: Python, Java, C#, JavaScript, Go, C, C++ и Scala.
  • Честное тестирование — код запускается в изолированных средах, а не просто оценивается по тексту.
  • Открытая платформа со сквозной системой подсчёта баллов, рейтингом и удобным фреймворком для тестирования.
  • Анализ и результаты, охватывающие как открытые общие модели, так и проприетарные API для генерации кода.

Инструмент MERA Code будет полезен как разработчикам и инженерам в возможности выбирать наиболее эффективные модели для своих проектов, так и исследователям, которые смогут объективно сравнивать модели в единых условиях, и компаниям, получающим возможность принимать решения на основе открытых и прозрачных данных о качестве LLM.

2024: Поддержка API

Альянс в сфере искусственного интеллекта представил обновленную версию бенчмарка MERA: в нее вошли динамический лидерборд, обновленная кодовая база замеров, более совершенная система промптов и улучшенные датасеты, поддержка API, а также замеры десятков новых моделей, включая созданные OpenAI. Об этом Альянс сообщил 25 сентября 2024 года.

Обновленная версия бенчмарка включает в себя 15 основных задач, из которых строится рейтинг, и 8 открытых публичных датасетов.

С момента релиза первой версии бенчмарка им воспользовались десятки разработчиков моделей, отправивших свыше 1000 сабмитов. Совершенствование MERA стало возможно благодаря комментариям пользователей и обратной связи от участников NLP-сообщества. Дальнейшее развитие MERA предусматривает появление в нем задач для оценки распознавания изображений, аудио- и видеоматериалов. Как развивается рынок Open Source в России. Обзор TAdviser 12.9 т

2023: Анонс бенчмарка

22 ноября 2023 года Сбер предложил Альянсу в сфере ИИ концепцию независимого бенчмарка MERA для оценки фундаментальных моделей[1]. Он поможет объективно оценивать большие языковые модели, что особенно актуально с ростом их числа и возможностей.

Для тестирования моделей часто используют бенчмарки, которые представляют собой набор сложных задач, решение которых отражает способности моделей по различным доменам, задачам или модальностям. Благодаря такой оценке пользователи могут понять, как применять модель, а исследователи — получить объективную информацию для дальнейшего обучения, адаптации или развития языковых моделей.

Языковые модели, лежащие в основе таких сервисов, как GigaChat, ChatGPT и других, нуждаются в объективном сравнении и независимой оценке. Командой SberDevices, компании-партнёра Сбера, в коллаборации с партнерами из академического сообщества была разработана методология тестирования. В неё вошли 21 задача в инструктивном формате для тестирования фундаментальных моделей. Тесты охватывают вопросы знаний о мире, логику, причинно-следственные связи, этику искусственного интеллекта, память моделей и многое другое. В создании тестов участвовали команды из Sber AI, Skoltech AI, НИУ ВШЭ. Так появился открытый бенчмарк MERA: Multimodal Evaluation for Russian-language Architectures. Это концепция единого независимого лидерборда с фиксированными верифицированными экспертами задачами и стандартизированными конфигурациями промптов и параметров.

«
С каждым днем границы применения искусственного интеллекта расширяются. Нам как никогда важно иметь актуальное представление о реальных способностях языковых моделей. Набор тестов — это возможность для индустрии и академического сообщества исследовать способности фундаментальных моделей, объективно оценивать их, развить коллаборации как внутри РФ, так и на международной арене. Мы приглашаем другие компании, в том числе, участников Альянса в сфере ИИ присоединиться к обсуждению методологии и зафиксировать общепринятые отраслевые стандарты,
сказал Сергей Марков, руководитель Управления экспериментальных систем машинного обучения дивизиона общих сервисов «Салют» Сбербанка.
»

Примечания



СМ. ТАКЖЕ (1)