VK Tech представил обновленный Диск VK WorkSpace VK Tech представил обновленный Диск VK WorkSpace В Тюмени трафик на образовательные ресурсы вырос более чем на 40% В Тюмени трафик на образовательные ресурсы вырос более чем на 40% Яндекс делает вид, что с Алисой AI все прекрасно Яндекс делает вид, что с Алисой AI все прекрасно «Ростелеком» подвел итоги пилотного проекта по внедрению цифровой платформы «Здоровье» «Ростелеком» подвел итоги пилотного проекта по внедрению цифровой платформы «Здоровье»

«Наносемантика» создала новую систему для голосового управления в робототехнике

🇷🇺 2 мин
Иллюстрация предоставлена пресс-службой «Наносемантика»

«Наносемантика», ведущий российский разработчик нейросетевых решений, завершила создание универсального программного комплекса, который позволяет управлять роботами с помощью естественной речи без требований к высокой мощности оборудования. В основе комплекса ‒ DialogOS: платформа обеспечивает голосовой интерфейс, распознает и синтезирует речь, интегрируется с внешними системами через API. Для внедрения достаточно устройства с микрофоном и динамиком.

Современные нейросети позволяют роботам воспринимать речь в том виде, в каком она звучит в обычном разговоре. Там, где раньше требовалось строгое соблюдение команд, система теперь корректно обрабатывает свободные формулировки, опираясь на смысл и интонации.

В комплекс включены собственные решения компании: диалоговая платформа DialogOS для создания голосовых и текстовых роботов, NLab Speech ASR для точного распознавания речи и NLab Speech TTS для её синтеза. Текущая версия DialogOS совместима с Gemini и отечественной генеративной моделью, при этом архитектура комплекса заранее рассчитана на подключение любых других LLM. «Наносемантика» протестировала все крупные LLM от ведущих разработчиков, и в зависимости от специфики задачи в комплекс может быть подключена наиболее актуальная модель.

Егор Кириллов, бизнес-аналитик, ООО «Лаборатория Наносемантика»:
«Ключевой задачей при разработке этого комплекса была модульность и независимость от аппаратной платформы. Мы реализовали клиент-серверную архитектуру, где на конечном устройстве ‒ будь то робот-собака или промышленный манипулятор ‒ запускается лишь ультралегкий клиент. Вся сложная обработка, включая KWS, VAD и интеграцию с LLM через DialogOS, происходит на сервере. Такой подход позволяет нам гарантировать высокую производительность и качество распознавания независимо от вычислительных мощностей самого робота, а также централизованно обновлять и масштабировать «мозг» всей системы».

Комплекс уже прошёл испытания на роботе-собаке. Она умеет поддерживать диалог, выполняет голосовые команды и откликается на своё имя ‒ «Квант». Для этого была настроена комбинация KWS и VAD, позволяющая роботу отслеживать обращение в реальном времени. «Квант» говорит синтезированным голосом «Лео» из библиотеки компании, хотя при необходимости можно подключить и сторонние варианты.


Сабина Спирина, генеральный директор, ООО «Лаборатория Наносемантика»:
«Мы видим устойчивый спрос на решения, которые позволяют компаниям быстрее внедрять роботизированные системы и снижать стоимость их интеграции. Новый комплекс делает голосовое управление стандартной функцией, а не дорогостоящей кастомной разработкой. Это открывает путь к масштабным внедрениям ‒ от логистики до сервисной робототехники ‒ и значительно ускоряет цифровую трансформацию наших клиентов».

Опробовать технологии можно на сайте «Наносемантики» ‒ в роли собеседника выступает цифровой аватар Лили, демонстрирующий работу комплекса в реальном диалоге. Лили ‒ уникальный эксперт по вселенной «Наносемантики»: она свободно ориентируется во всех продуктах, услугах и историях успеха клиентов компании. Пообщаться с аватаром текстом или голосом можно на главной странице сайта «Наносемантики».