«Турбо Облако» представляет платформу инференса ИИ-моделей с поминутной тарификацией и автоматическим масштабированием

29 апреля 2026, 13:28 🇷🇺 2 мин

Иллюстрация предоставлена пресс-службой Ростелекома

Российский облачный провайдер «Турбо Облако», входящий в коммерческий ИТ-кластер «Ростелекома», запустил Inference Platform[Решение для развертывания и обслуживания обученных моделей машинного обучения (ML), искусственного интеллекта (AI) и систем компьютерного зрения (CV) в продуктивной среде — платформу для развертывания и эксплуатации моделей искусственного интеллекта. В настоящее время новый продукт доступен для тестирования: компании могут оценить его возможности на собственных моделях.

Современные ИИ-проекты требуют не только доступа к вычислительным мощностям, но и значительных усилий по развертыванию и поддержке инфраструктуры. На практике это увеличивает нагрузку на команды и замедляет внедрение этих проектов. Новый продукт «Турбо Облака» закрывает эти задачи, предоставляя готовый сервис для работы с ИИ-моделями.

Inference Platform поддерживает различные типы моделей, включая open source[Модель разработки программного обеспечения, при которой исходный код доступен для просмотра, изменения и распространения всем желающим.] решения, широко используемые на российском рынке. Пользователи могут загружать собственные модели или использовать контейнерные образы, разворачивая их в облачной среде без дополнительных инфраструктурных настроек.

Сервис обеспечивает автоматическое масштабирование ресурсов (автоскейлинг) в зависимости от нагрузки: при росте количества запросов к модели ресурсы увеличиваются, при снижении — сокращаются вплоть до полной остановки вычислений. Такой подход позволяет оптимизировать использование графических процессоров (GPU) и снизить затраты при нерегулярной нагрузке. Дополнительным преимуществом является поминутная тарификация ресурсов, гарантирующая более точный контроль расходов по сравнению с почасовой оплатой.

Особое внимание уделено работе с ресурсоемкими задачами. Платформа поддерживает распределенный инференс, позволяя запускать модели объемом до одного триллиона параметров с размещением на нескольких вычислительных узлах. Для взаимодействия между узлами используется высокоскоростная сеть (InfiniBand) с минимальной задержкой, позволяющая объединять большое количество серверов и графических ускорителей для дообучения крупных моделей. Также доступно гибкое использование GPU-ресурсов, включая их дробление под задачи меньшего объема.

В основе Inference Platform — графические ускорители NVIDIA H200 SXM, обеспечивающие высокую производительность и необходимый объем видеопамяти для работы с ИИ-нагрузками.

Платформа объединяет работу с моделями разного масштаба — от компактных до ресурсоемких — в единой среде управления. В результате пользователь получает готовый сервис с доступом по URL, который можно интегрировать в существующие бизнес-приложения без изменения архитектуры.

Дмитрий Подшибякин, директор по продуктам компании «Турбо Облако»:
«Спрос на использование ИИ-моделей в бизнесе растет, но для многих компаний основным барьером остается не только развертывание, сопровождение и масштабирование инфраструктуры, но и высокая стоимость вычислительного оборудования. Наш новый сервис Inference Platform снимает эту нагрузку и позволяет сосредоточиться на прикладных задачах. Мы даем возможность работать с моделями как с сервисом — быстро запускать, масштабировать и интегрировать их в бизнес-процессы без построения собственной инфраструктуры».