Amazon хочет стать новым Nvidia?

AWS переводит большую часть своего облачного сервиса Bedrock на собственные чипы Trainium. Trainium дешевле GPU Nvidia, поэтому маржа с каждого запроса растёт, а зависимость от единственного поставщика падает.

Trainium — не совсем GPU, а специализированный ускоритель для обучения и инференса моделей. Один чип выполняет триллионы операций в секунду, а AWS собирает их в UltraServers по 64 чипа в каждом, связанных высокоскоростными соединениями. Десятки тысяч UltraServers объединяются в UltraClusters. Один такой кластер — это Project Rainier, где почти полмиллиона чипов Trainium2 развернули меньше чем за год.

Anthropic уже обучает на них Claude. К концу 2025-го чипов будет больше миллиона, инфраструктура вырастет в пять раз по сравнению с той, на которой тренировали предыдущие версии модели. И AWS контролирует здесь весь стек — от дизайна чипа до софта и архитектуры дата-центра.

Компания ведёт активную экспансию, предлагая скидки клиентам, готовым перейти с Nvidia на Trainium, и обещая отсутствие очередей и задержек с масштабированием мощностей (пока мир стоит в очереди за GPU Nvidia). Возможно, чипы Trainium и не мощнее Nvidia, но большинству клиентов их оказалось достаточно для закрытия базовых задач. Стратегию копируют все крупные провайдеры вроде Google или Alibaba. Даже стартапы вроде Groq идут этим путём.

Пока единственная проблема в том, что замена работает для инференса, когда модель уже обучена и отвечает на запросы. Обучение же больших моделей требует мощности Nvidia, до которых альтернативы пока не дотягивают. Поэтому о каннибализации рынка Nvidia говорить рано — спрос на её карты растёт быстрее производства. AWS не пытается конкурировать с Nvidia, а скорее хочет снизить свои издержки и не зависеть от чужих поставщиков. И если в разработке своих LLM Amazon отстали от OpenAI, Anthropic или Google, то пока выигрывают гонку за контроль над инфраструктурой.

//Илья Власов