Яндекс запустил двуязычную версию генератора текстов Балабоба — теперь он поддерживает и русский, и английский языки. Балабоба демонстрирует возможности семейства языковых моделей Яндекса YaLM, которые компания применяет более чем в 20 сервисах, включая Поиск и Алису.
Пользователю достаточно написать одно-два слова на русском или английском языках и выбрать один из стилей — и Балабоба создаст осмысленный текст на любую тему, похожий на тексты из интернета, на которых училась модель. Чтобы текст получился связным и грамматически правильным, модель генерирует его последовательно по словам и оценивает, насколько предсказанное слово корректно. Например, может ли после «Мама мыла…» идти слово «бегать» или слово «раму».
Балабоба может написать короткую историю, придумать рецепт, инструкцию или народную мудрость. А если ввести название фильма, Балабоба напишет к нему сюжет. Тексты можно использовать по своему усмотрению. Например, описать товары в интернет-магазине, найти вдохновение и идеи для рекламы или просто отправить друзьям в соцсети интересные примеры.
Балабоба генерирует тексты с помощью языковой модели Яндекса YaLM, которая решает задачи, связанные с обработкой естественного языка. Например, модели YaLM помогают Алисе поддерживать беседу, определяют темы вопросов в Кью, улучшают описания заказов на Услугах, генерируют карточки для быстрых ответов в Поиске. Также языковые модели YaLM ищут ключевые моменты видео, генерируют рекламные объявления и описания сайтов (сниппеты).
Запоминать правила языка и подбирать подходящие слова Балабобе позволяют заложенные внутри модели параметры, которые меняются в зависимости от того, правильно или неправильно предсказывается слово. В семействе языковых моделей YaLM может быть от 1 млрд до 100 млрд параметров.
Самую большую двуязычную модель YaLM 100B на 100 млрд параметров Яндекс недавно выложил в открытый доступ. В Балабобе используется её облегчённая версия на 3 млрд параметров. Модель обучалась на терабайтах текстов англоязычного и русскоязычного интернета в равной пропорции.