Стартап учит ИИ понимать видео в реальном времени

Overshoot привлёк 2,5 миллиона долларов и вошёл в зимний набор Y Combinator. Фаундеры из Марокко создали API, который, по их заявлениям, позволяет подключить любой видеопоток — камеру, файл или захват экрана — к мультимодальной модели и получать ответы с задержкой, близкой к скорости реакции человека.

Overshoot взяли на себя инфраструктурный слой: стриминг, кодеки, инференс-движок, доставку результатов. Платформа поддерживает два режима: покадровый анализ (для OCR, детекции объектов) и клиповый — когда модели нужен временной контекст, чтобы понять движение или действие. Заявлена задержка около 300 мс для средних моделей линейки Qwen-VL, от 100 мс для лёгких.

Главная задача — избавиться от компромиссов, на которые обычно приходится идти разработчикам: либо использовать классическое компьютерное зрение с моделями без задержки, обученными под узкие задачи, либо отправлять видео в API нейросетей и ждать ответа несколько секунд. Запрос на скорость у индустрии есть: те же дроны из-за задержек в сигнале могут не успеть среагировать на препятствие или команду, а умная камера — тупить и реагировать с опозданием. На базе движка Overshoot, по их словам, уже собирают голосовых ИИ-компаньонов, устройства для слабовидящих и системы потоковой модерации.