Т2, российский оператор мобильной связи, совместно с ИТ-компанией «Инфосистемы Джет» спроектировал и внедрил геораспределенную отказоустойчивую систему мониторинга. Решение работает на базе российского продукта «Пульт» от «Лаборатории Числитель». Новая система обеспечивает непрерывный контроль распределенной инфраструктуры Т2 и гарантирует устойчивую работу даже при выходе из строя целых дата-центров. Теперь решение отслеживает и прогнозирует состояние более 30 тысяч объектов по всей стране. В результате запуска скорость реагирования на инциденты увеличилась в 2,7 раза.
Модернизировать мониторинг потребовалось из-за роста объемов данных и повышенных требований к надежности сервисов. Любые сбои в инфраструктуре напрямую влияют на миллионы абонентов, репутацию и выручку компании. Т2 требовалось зрелое вендорское решение, которое обеспечивает полную наблюдаемость инфраструктуры, высокую производительность и устойчивость к внешним воздействиям.
Разработка построена на базе российской системы «Пульт», в основе - ядро Zabbix. Геораспределенная архитектура охватывает три ЦОДа и 12 площадок. Решение отличается повышенной производительностью - система обрабатывает до 15 млн метрик. Сбор данных происходит через прокси-серверы, а гибридное хранение обеспечивается PostgreSQL и ClickHouse. Комбинирование технологий обеспечивает высокую скорость обработки данных и простую масштабируемость.
Ключевой результат проекта - увеличение скорости реагирования на инциденты в 2,7 раза. Архитектура выдерживает трехкратный рост количества данных и обеспечивает долгосрочное хранение до семи лет и анализ больших данных.
Проект получил премию Digital Leaders 2026 как «Решение года» в категории «ИТ-инфраструктура». Церемония награждения прошла 27 мая в Москве на форуме «Время цифры». Жюри высоко оценило архитектуру импортонезависимого решения.
Павел Ковальский, директор по стратегическому развитию сети Т2:
«Новая система демонстрирует стабильную работоспособность без деградации, готова к дальнейшему масштабированию и поддерживает рост нагрузки без необходимости архитектурных изменений. Модернизация и внедрение катастрофоустойчивого мониторинга позволили не только повысить скорость реакции на инциденты, но и перейти к проактивному управлению инфраструктурой. Сегодня мы уверены в устойчивости системы даже в самых сложных сценариях».
Алексей Акопян, руководитель направления мониторинга «Инфосистемы Джет»:
«Перед нами стояла задача федерального масштаба - создать распределенную архитектуру, которая сохраняет работоспособность даже при серьезных отказах. Мы спроектировали систему, сочетающую отказоустойчивость, масштабируемость и соответствие требованиям импортозамещения, с запасом на дальнейший рост. Она работает на основной и резервной площадках - и при отказе узлов или целого дата-центра сервисы продолжают работу автоматически».Дмитрий Унтила, СРО «Графини» и «Пульта»:
«Одним из ключевых преимуществ системы «Пульт» перед Zabbix являются наши доработки, которые позволяют ей стабильно и надежно работать при высоких нагрузках в enterprise-инфраструктуре и хранить большие объемы данных. В результате нам удалось в три раза увеличить мощности по сбору данных мониторинга и оптимизировать их хранение в 10 раз».