Google Cloud ускорила создание узлов в Kubernetes кластерах GKE в 3 раза. Оптимизация затрагивает Node Auto Provisioning — функцию автоматического создания пулов узлов под требования конкретных подов.
Проблема масштабирования знакома каждому, кто работал с высоконагруженными кластерами. Когда приложению нужен узел с конкретными характеристиками — допустим, GPU для ML-модели — система должна обратиться к Compute Engine API, выделить ресурсы, настроить сеть и подключить узел к кластеру. В пиковые нагрузки этот процесс становился узким местом.
Что изменилось в архитектуре
Google оптимизировала взаимодействие между control plane GKE и вычислительной инфраструктурой. Ключевые улучшения:
- Пакетная обработка запросов к Compute Engine
- Сокращение накладных расходов при взаимодействии облачных сервисов
- Улучшенная логика приоритизации при одновременном подключении сотен узлов
«GKE node pool auto-creation теперь быстрее, чем когда-либо — время подготовки новых узлов для рабочих нагрузок значительно сократилось», — отмечают инженеры Google Каслин Филдс и Юрий Гофман.
Обновление напрямую конкурирует с Karpenter — open source инструментом от AWS, который славится быстрым созданием узлов за счёт обхода стандартных абстракций Kubernetes Cluster Autoscaler.
Зачем это разработчикам
Ускорение критично для нескольких сценариев:
- Serverless-архитектуры, где подам нужны ресурсы мгновенно
- Обучение больших AI-моделей, которые требуют сотни GPU одновременно
- Batch-обработка данных с непредсказуемыми пиками нагрузки
Google фокусируется на метрике Time to Ready — времени от назначения пода на узел до его фактического запуска. Для продакшн-сервисов каждая секунда задержки может означать потерянных пользователей или нарушение SLA.
Изменения уже разворачиваются в Google Cloud для всех пользователей GKE без необходимости миграции или дополнительной настройки.