Яндекс научил ИИ-агентов продолжать работу даже при обрывах связи

Яндекс разработал отказоустойчивую платформу Agents Transport System (ATS), на которой теперь будет создавать всех своих ИИ-агентов. Она позволяет агенту как можно быстрее выполнять многошаговые задачи при потере связи или закрытии пользователем приложения — например, анализировать множество источников для развёрнутого ответа. Как только связь появляется снова, агент продолжает работу с того же шага, на котором остановился, а не запускается заново. Благодаря этому пользователь быстрее получает результат.
ATS актуальна для любых ИИ-агентов и особенно для тех, которые выполняют многошаговые задачи повышенной сложности, — например, как агент «Исследовать» в Алисе AI. Яндекс уже использует в нём новую платформу. На решение сложных задач у агента может уходить до получаса, и в процессе работы он множество раз обращается к моделям, инструментам, внешним сервисам. Если пропадёт интернет, то без ATS агент перестанет выполнять задачу, а после восстановления связи продолжит решать её не с того же шага, а с самого начала. Из-за этого пользователю придётся дольше ждать результата.
ATS решает проблему полных перезапусков. Через платформу проходит всё взаимодействие между агентами, инструментами и моделями. ATS сохраняет текущее состояние выполняемой агентом задачи и при сбоях восстанавливает его с последнего шага. При этом пользователь может видеть, как агент пошагово решает задачу: ответ показывается по мере генерации и без потери промежуточных результатов.
Яндексу новая платформа позволяет не только обеспечить отказоустойчивость ИИ-агентов, но и тратить на их работу меньше вычислительных и финансовых ресурсов: агенты не обращаются к моделям с повторными запросами при сбоях. Яндекс уже выпустил набор инструментов, с помощью которого разработчики компании могут создавать агентов на базе ATS.
Крупные IT-компании, в том числе OpenAI, имеют аналогичные устойчивые системы, но они предназначены для внутреннего использования. С ATS команда Яндекса теперь может сфокусироваться на создании самих агентов и не тратить время на разработку отказоустойчивой инфраструктуры. Программисту достаточно написать код, а за стабильность работы агента будет отвечать платформа.
Технические подробности про ATS — по ссылке.