Рынок серверных процессоров может вырасти с 26 млрд долларов в 2025 году примерно до 60 млрд к 2030-му. На фоне гонки за GPU это звучит почти как ересь, но именно CPU для ИИ-агентов начинают превращаться из скучного «обвеса» в важный элемент всей AI-инфраструктуры. Для разработчиков, платформенных команд и IT-руководителей это простой сигнал: считать, что AI-стек заканчивается на ускорителе, уже рискованно и для производительности, и для бюджета.
Как пишет The New Stack, разговор об инфраструктуре ИИ долгое время крутился вокруг GPU и TPU, потому что именно они тянут обучение крупных моделей и массивный параллелизм. Но по мере того как рынок смещается от тренировки к промышленному inference, меняется и архитектурный центр тяжести. В материале The New Stack фигурирует Мохамед Авад, EVP of Cloud AI в Arm: его тезис в том, что ценность ИИ создаётся не в момент красивой демки с обучением модели, а в продакшене, когда модель непрерывно отвечает пользователям, ходит за данными, вызывает инструменты и живёт внутри бизнес-процессов. А это уже история не только про ускорители, но и про системный слой.
Разница особенно заметна на примере агентных систем. Обычный сценарий инференса у LLM относительно прямолинеен: запрос пришёл, модель на ускорителе сделала проход, система вернула ответ. У ИИ-агентов картина куда менее стерильная. Они дробят задачу на подзадачи, вызывают внешние сервисы, ходят в базы и хранилища, подтягивают контекст, координируют несколько моделей и пересобирают план действий на лету. И вот здесь CPU для ИИ-агентов становятся тем самым диспетчером, который не попадает на обложку, но без него весь оркестр начинает играть вразнобой. CPU управляет расписанием задач для GPU, следит за перемещением данных, обслуживает pre- и post-processing, помогает с памятью и key-value cache, а также связывает inference с векторными БД, сетевым стеком и системами хранения.
Это важный разворот ещё и потому, что агентные нагрузки хуже укладываются в старую логику «добавим побольше ускорителей и полетим». Когда система работает как постоянный сервис, а не как разовый запрос, ей нужно удерживать состояние, синхронизировать множество компонентов и делать это без провалов по латентности. ИИ-агент не живёт в вакууме: ему нужны API, память, оркестрация, сеть, доступ к данным и управление ресурсами. На таком фоне бутылочным горлышком становится не только математика внутри модели, но и то, насколько быстро и экономно вся система умеет координировать вычисления вокруг неё. Проще говоря, если GPU в стойке занят «умной» работой, кто-то должен без истерики и лишних ватт организовать всё остальное.
Отсюда и новая цена энергоэффективности. В материале подчёркивается, что современные rack-scale-системы становятся плотнее: в одну стойку помещают больше ускорителей, больше хост-процессоров и дополнительные DPU. При этом энергобюджет дата-центра не растёт с такой же щедростью, как аппетиты AI-команд. Поэтому производительность на ватт перестаёт быть красивой строчкой в презентации и превращается в инженерное ограничение. Чем больше в стойке CPU, отвечающих за orchestration layer, тем сильнее их эффективность влияет на совокупную стоимость системы, теплопакет и масштабируемость. На этом фоне Bloomberg Intelligence ожидает, что рынок inference обгонит рынок training к 2029 году, в том числе из-за роста reasoning-моделей и ИИ-агентов. Если этот прогноз сбудется, контрольный слой вокруг ускорителей станет не периферией, а критическим местом всей AI-экономики.
Рынок железа уже ведёт себя так, будто спор давно закончен. Гиперскейлеры выкатывают серверные CPU с более высокой плотностью ядер именно под растущие нагрузки оркестрации. У AWS актуальный Graviton масштабируется до 192 ядер, у Microsoft Cobalt 200 — до 132 ядер. NVIDIA в новых стойечных архитектурах также использует Arm-процессоры рядом с GPU, а в свежих системах Trainium от AWS координацию кластеров тоже берут на себя Arm-базированные Graviton. Это не означает, что GPU внезапно отходят на второй план. Наоборот: чем дороже и плотнее accelerator-кластер, тем болезненнее его недозагрузка из-за слабого CPU-слоя, сетевых задержек или неэффективного диспетчеринга. В такой конфигурации хороший серверный процессор становится не «дополнением к ускорителю», а страховкой от того, что дорогой GPU превращается в очень горячее украшение стойки.
Есть и ещё один практический вывод для команд, которые строят AI-продукты, а не презентации для совета директоров. Если ваша система движется в сторону multi-step inference, tool calling, retrieval, workflow automation и агентного исполнения задач, то профиль оптимизации меняется. Становится важнее не только выбрать модель и посчитать токены, но и понять, где у вас живут orchestration overhead, сетевые походы, блокировки на доступе к данным, контекстные переключения и CPU-bound-участки пайплайна. Для backend- и platform-инженеров это означает возврат старой доброй дисциплины: профилирование, observability, управление очередями, балансировка latency и throughput, а также расчёт TCO не только по GPU-часам. Для CIO и CTO вывод ещё прозаичнее: AI-инфраструктура всё сильнее похожа на гетерогенную систему, где победит не тот, кто купил больше ускорителей, а тот, кто лучше собрал связку из CPU, сети, памяти, хранения и софта.
На этом фоне показателен ещё один факт из материала: число развёрнутых дата-центровых ядер на базе Arm Neoverse уже превысило 1 млрд. Это не финальный приговор x86 и не повод устраивать новую религиозную войну архитектур. Но это вполне внятный намёк на то, куда смотрят гиперскейлеры, когда пытаются удержать баланс между производительностью, плотностью вычислений и энергопотреблением. Главный вопрос теперь не в том, останутся ли GPU королями AI-математики. Останутся. Вопрос в другом: кто лучше построит вокруг них системный слой, на котором ИИ-агенты смогут работать долго, дёшево и без привычного дата-центрового жанра под названием «вроде всё ускорили, а быстрее не стало».