YTsaurus (YT)

Продукт
Разработчики: Яндекс (Yandex), Yandex B2B Tech
Отрасли: Информационные технологии
Технологии: Big Data

Содержание

Основная статья: Большие данные (Big Data)

2025: Запуск единой платформы обработки данных любого объема для бизнеса

Yandex B2B Tech открыла доступ бизнесу к платформе собственной разработки для хранения и обработки больших данных YTsaurus. Об этом разраотчик сообщил 28 мая 2025 года. С ее помощью можно анализировать эксабайты данных в компаниях и обучать сложные модели машинного обучения с миллиардами параметров. YTsaurus доступна в двух форматах поставки: в облаке и в инфраструктуре заказчика (on-premise). В облаке решение доступно как управляемый сервис, то есть поддержкой платформы будут полностью заниматься специалисты Яндекса.

В Яндексе YTsaurus разрабатывают с 2010 года – на май 2025 года ее используют для хранения данных большинства сервисов, обучения YandexGPT и других нейросетей, задач поискового индекса. Например, Яндекс.Маркет с помощью платформы разрабатывают систему промоакций, а автономный транспорт обрабатывают данные о поездках и улучшает алгоритмы. Ранее платформа была доступна в опенсорсе – ее уже применяют большие технологические компании в России и за рубежом.

YTsaurus подходит для обработки небольшого количества данных и для работы с миллионом CPU и десятками тысяч GPU. Платформу можно использовать как классическую MapReduce-систему, так и применять внутри платформы другие популярные решения для обработки данных, в том числе ClickHouse и Apache Spark. C помощью YTsaurus можно строить корпоративные хранилища данных, ETL-системы, обрабатывать как структурированные, так и неструктурированные или полуструктурированные данные, в том числе логи или финансовые транзакции.

«
Для нас важно, чтобы у компаний были сервисы и инструменты для работы с данными под любой сценарий. Для этого мы, с одной стороны – создаем и развиваем сервисы для облачной платформы на базе открытых решений. С другой – тестируем и адаптируем для бизнеса собственные наработки, такие как платформы YTsaurus, YDB, BI-решение DataLens, которые применяются во внутренней инфраструктуре компании, – рассказал Иван Пузыревский, CTO платформы Yandex Cloud.
»

2023: Публикация исходного кода

«Яндекс» раскрыл исходники своей главной платформы для работы с большими данными YTsaurus. Об этом пресс-служба компании сообщила 20 марта 2023 года.

Как рассказали в «Яндексе», платформа подходит для широкого круга задач, от аналитики до обучения сложных моделей с миллиардами параметров. Например, «Поиск» строит с помощью YTsaurus поисковый индекс, а беспилотные автомобили используют платформу, чтобы обрабатывать данные о поездках и улучшать свои алгоритмы. YTsaurus управляет суперкомпьютерами «Яндекса», распределяя нагрузку так, чтобы их вычислительные мощности использовались наиболее эффективно.

YTsaurus - это платформа Яндекса для работы с большими данными

К марту 2023 года в «Яндексе» платформа YTsaurus развернута на десятках тысяч серверов и обрабатывает экзабайты данных; с ней работает каждый второй сотрудник компании. YTsaurus можно использовать как классическую MapReduce-систему, но при этом она поддерживает и другие популярные подходы к обработке данных — например, у нее есть интеграции с ClickHouse и Apache Spark.

Исходный код и документация YTsaurus доступны на GitHub. Код распространяется под лицензией Apache 2.0. Использовать платформу или доработать ее под себя может любой желающий.

«
Яндекс ведет разработку YTsaurus — или YT, как мы называем ее внутри — с 2010 года. Мы начали строить собственную экосистему для больших данных, потому что ни одно из имевшихся на рынке решений не удовлетворяло всем нашим требованиям. Сейчас YTsaurus — один из ключевых элементов внутренней инфраструктуры «Яндекса». Над платформой работают десятки разработчиков, и ее возможности постоянно расширяются, — сказал руководитель отдела технологий распределенных вычислений Максим Бабенко, чьи слова приводит пресс-служба «Яндекса» 20 марта 2023 года.[1]
»

Примечания



СМ. ТАКЖЕ (4)


Подрядчики-лидеры по количеству проектов

За всю историю
2023 год
2024 год
2025 год
Текущий год

  БизнесАвтоматика НПЦ (123)
  Большая Тройка (46)
  Сбербанк (16)
  Умная Логистика (14)
  Доверенная среда (13)
  Другие (610)

  БизнесАвтоматика НПЦ (4)
  РИР (Росатом Инфраструктурные решения) (3)
  Marketing Logic (Маркетинг Лоджик) (2)
  Инфосистемы Джет (2)
  Яндекс.Облако (Yandex Cloud) (2)
  Другие (60)

  БизнесАвтоматика НПЦ (6)
  Сбер Бизнес Софт (3)
  Сбербанк (2)
  Синимекс (Cinimex) (2)
  Retail Rocket (Ритейл Рокет) (2)
  Другие (75)

  БизнесАвтоматика НПЦ (7)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (6)
  Ростелеком (3)
  Цифровые технологии и платформы (ЦТиП) (3)
  Luxms (2)
  Другие (94)

  Ростелеком Центр (ЦентрТелеком) Макрорегиональный филиал (1)
  Т1 (1)
  Триафлай (1)
  Другие (4)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2023 год
2024 год
2025 год
Текущий год

  БизнесАвтоматика НПЦ (3, 122)
  Большая Тройка (2, 46)
  Умная Логистика (2, 14)
  Триафлай (1, 14)
  Цифра (2, 12)
  Другие (321, 168)

  РИР (Росатом Инфраструктурные решения) (3, 4)
  БизнесАвтоматика НПЦ (1, 4)
  Сбербанк (2, 2)
  DataCatalog (ДатаКаталог) (1, 2)
  Цифра (1, 2)
  Другие (17, 18)

  БизнесАвтоматика НПЦ (1, 5)
  Сбербанк (3, 3)
  DataCatalog (ДатаКаталог) (1, 3)
  Luxms (1, 3)
  Ростелеком (1, 2)
  Другие (19, 22)

  БизнесАвтоматика НПЦ (1, 7)
  РИР (Росатом Инфраструктурные решения) (2, 2)
  Data Sapience (Дата Сапиенс) (1, 2)
  Цифра (1, 2)
  DataCatalog (ДатаКаталог) (1, 2)
  Другие (11, 12)

  Триафлай (1, 1)
  Другие (0, 0)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2023 год
2024 год
2025 год
Текущий год

  Visary BI Платформа бизнес-аналитики - 122
  Большая Тройка: АИС Редактор территориальных схем - 39
  Триафлай BI-платформа - 14
  ZIIoT Платформа для работы с промышленными данными - 12
  Luxms BI - 11
  Другие 161

  Visary BI Платформа бизнес-аналитики - 4
  Arenadata Catalog - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Росатом Цифровое теплоснабжение - 2
  CM.Expert Data Mining платформа - 2
  Другие 17

  Visary BI Платформа бизнес-аналитики - 5
  Arenadata Catalog - 3
  Luxms BI - 3
  Retail Rocket: Smart Placement Ads - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Другие 16

  Visary BI Платформа бизнес-аналитики - 7
  Luxms BI - 2
  Arenadata Catalog - 2
  Data Ocean Nova Платформа данных - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Другие 11

  Триафлай BI-платформа - 1
  Другие 0