Алгоритм Яндекса стал одним из самых востребованных в мировой науке

Фото GoogleDeepMind/pexels.com
Алгоритм CatBoost, разработанный Яндексом, стал одним из самых популярных инструментов машинного обучения в фундаментальной и прикладной науке — от медицины до инженерии. Об этом свидетельствует отчёт американского издания MarkTechPost по анализу 5000 научных статей журнала Nature за 2025 год.

CatBoost — единственная российская технология, которая попала в глобальный отчёт. Она оказалась в числе узкой группы неамериканских технологий, сумевших стать мировым научным стандартом. Всего в отчёте таких инструментов пять: помимо CatBoost, это Scikit-learn (Франция), U-Net (Германия), GAN и RNN (Канада), AlphaFold (Великобритания). Остальные 90% технологий, которые попали в отчёт, разработаны в США.

CatBoost применяется в каждой тридцатой научной работе и стоит в одном ряду с решениями от Google, Microsoft, Intel, Amazon и других крупных технологических компаний и научных институтов. Алгоритм Яндекса используют учёные в более чем 50 странах — это подтверждает, что российские технологии имеют мировое признание.

Среди стран лидером по числу упоминаний CatBoost в научных статьях журнала Nature стал Китай — на него пришлось 32% публикаций. Это лидерство можно объяснить тем, что в КНР активно развивается индустрия научных исследований на основе технологий машинного обучения. В частности, исследования там строятся на ансамблевых методах, в которых применяют несколько моделей для общего решения одной задачи, в том числе CatBoost. Также алгоритм пользуется заметной популярностью в Саудовской Аравии (19% статей) и Индии (18%).

В США алгоритм Яндекса конкурирует наравне с продуктами других крупных технологических компаний и используется ведущими научными центрами — например, учёными Гарвардского университета, Массачусетского технологического института, Стэнфордского университета. Среди всех научных статей в Nature за этот год, в которых упоминается CatBoost, 13% публикаций приходится на США. Для сравнения, примерно такие же доли статей приходятся на американские аналоги алгоритма Яндекса: XGBoost (15% публикаций, Вашингтонский университет), классический Gradient Boosting Model (12%, Стэнфордский университет) и LightGBM (10%, Microsoft).

CatBoost — это алгоритм машинного обучения, который Яндекс создал для решения задач Поиска, а сегодня применяет в самых разных сервисах — Погоде, Директе, Маркете, Музыке и других. Основная причина популярности CatBoost заключается в том, что большинство практических задач машинного обучения опираются на табличные данные, а алгоритм находит в таких таблицах сложные и неочевидные закономерности. Например, когда пользователь вводит запрос к Поиску, CatBoost обращается в большую таблицу, где строки — это варианты материалов для поисковой выдачи, а столбцы — тысячи характеристик: параметры и история запросов, регион пользователя, популярность сайтов, их актуальность и релевантность, а также комбинации признаков запроса и материалов. CatBoost точно ранжирует эти варианты, выбирая самые полезные. По такому же принципу алгоритм работает в других сервисах Яндекса. Так, параметры погодной модели — это столбцы с цифрами и категориями, по которым CatBoost рассчитывает прогноз, например вероятность дождя.

Главное преимущество алгоритма — он умеет корректно и эффективно работать с признаками разных категорий: например, с диагнозами пациентов, типами почвы или марками автомобилей. Обычно для анализа таких данных их нужно преобразовывать, а CatBoost понимает их сразу. Кроме того, алгоритм способен давать точные прогнозы без предварительной настройки — это экономит время и делает его универсальным инструментом. Поэтому его применяют не только в Яндексе, но и в глобальной науке, причём в самых разных сферах — от ранжирования страниц сайтов до диагностики заболеваний по анализам пациента.

Всего в отчёт MarkTechPost попали 188 статей с упоминанием CatBoost Яндекса. Например, исследователи рассказывают в них о том, как алгоритм помог добиться значимых результатов в прогнозировании рецидивов рака печени и обнаружении рака молочной железы, в ранней диагностике болезни Альцгеймера, а также в прогнозировании преждевременных родов. Алгоритм широко применяется и в других прикладных науках — так, CatBoost показал один из лучших результатов в прогнозировании индекса качества воды, использовался в сравнительном анализе методов прогнозирования спроса на зарядку электромобилей, показал высокую эффективность в выявлении фальшивых аккаунтов в соцсетях.