Llama 4: революция с оговорками

7 апреля 2025, 20:00

2 мин

Иллюстрация сгенерирована нейросетью Imagen 3

Meta* выпустила новое поколение своих ИИ-моделей — Llama 4, впервые применив в своей линейке архитектуру “mixture of experts” (MoE). Технология распределяет задачи между специализированными нейронными сетями, чтобы сэкономить ресурсы и повысить эффективность работы.

В линейку вошли две модели с 17 миллиардами активных параметров: компактная Scout с 16 экспертами и продвинутая Maverick со 128 экспертами. Meta* заявляет, что Maverick превосходит даже GPT-4o по некоторым метрикам, а Scout может похвастаться самым большим на данный момент контекстным окном в 10 миллионов токенов — достаточно для анализа целых книжных серий или больших кодовых баз.

При ближайшем рассмотрении открываются любопытные нюансы. Версия Maverick, показавшая высокие результаты на платформе LM Arena, оказалась «оптимизированной для бесед» и отличается от публично доступной версии по стилю речи и использованию эмодзи. Это наводит на мысль о целенаправленной «подгонке» под конкретные бенчмарки.

Ещё интереснее ситуация с «открытостью» лицензии. Несмотря на громкие заявления, использование и распространение моделей фактически запрещено для компаний из Европейского Союза (правда, из-за их собственного закона об ИИ, который обязывает компании соблюдать авторские права и вводит ряд ограничений). Крупным игрокам с аудиторией более 700 миллионов пользователей требуется специальное разрешение от Meta*. Насколько открытой можно считать модель с такими ограничениями?

Показательно и признание компании в том, что новые модели стали «значительно более сбалансированными» в политических и социальных вопросах. По сути, Meta* подтвердили критику о левом уклоне предыдущих версий Llama и изменили уклон в противоположную сторону после прихода администрации Трампа. Забавно вспоминать, как когда-то ругали DeepSeek за его предвзятость в ответах и отражение позиции КПК.

В придачу ко всему, на фоне релиза Meta* покидает Жоэль Пино, руководившая исследованиями в ИИ-направлении почти 8 лет. Это заметная кадровая перестановка в подразделении, отвечающем за разработку ключевых ИИ-технологий компании (включая Llama). Причины не разглашаются, но такая перестановка в разгар многомиллиардных инвестиций Meta в ИИ-инфраструктуру (до 65 миллиардов долларов в этом году) выглядит странно.

Что в итоге? Компании удалось добиться существенного прогресса по сравнению с предыдущей версией Llama и сделать одну из лучших моделей открытой и доступной всем желающим, повторив путь DeepSeek. Несмотря на ряд нюансов и оговорок, это очень интересный релиз, который в очередной раз подтолкнёт OpenAI делать действительно «открытые» модели. A Llama 4 будет особенно полезна для локального запуска и дообучения.

организация признана экстремистской на территории РФ.