РАЗРАБОТКА

OpenAI запустила Codex-Spark — модель на чипах Cerebras генерирует код в 15 раз быстрее

OpenAI впервые использует чипы Cerebras вместо GPU для модели Codex-Spark. Скорость генерации кода выросла в 15 раз до 1000 токенов/сек.

✍️ Редакция iTech News | 02.03.2026 | ⏱ 2 мин | 👁 5 | Источник: InfoQ
🛠

OpenAI впервые отказалась от GPU Nvidia в продакшене и запустила модель GPT-5.3-Codex-Spark на чипах Cerebras. Новая модель генерирует код со скоростью 1000 токенов в секунду — в 15 раз быстрее предыдущих версий.

Codex-Spark доступна пользователям ChatGPT Pro в режиме research preview. Компания оптимизировала модель специально под интерактивную работу с кодом — правки, рефакторинг логики и доработку интерфейсов теперь происходят в реальном времени.

Cerebras против Nvidia: битва за скорость

Это первый случай, когда OpenAI использует не GPU Nvidia для production-модели. Cerebras Wafer Scale Engine 3 показал преимущество в задачах с низкой латентностью — именно то, что нужно для живого программирования.

Компания подчеркивает: полного отказа от GPU не будет. «Cerebras можно комбинировать с GPU, чтобы получить лучшее из обеих архитектур», — заявили в OpenAI.

На бенчмарках SWE-Bench Pro и Terminal-Bench 2.0 Codex-Spark показала результаты между GPT-5.1-Codex-mini и GPT-5.3-Codex, но за долю времени.

Инфраструктурный рывок

OpenAI переписала ключевые части inference-стека, внедрила постоянные WebSocket-соединения и оптимизировала Responses API. Результат:

  • Накладные расходы клиент-сервер снизились на 80%
  • Время обработки токена — на 30%
  • Time-to-first-token — на 50%

Эти улучшения станут стандартом для всех моделей компании.

Скорость против качества

В сообществе разработчиков мнения разделились. На Reddit пользователи отмечают: «Если результат лучше, когда задача выполняется час — я готов ждать час». Другие указывают на скрытые затраты множественных итераций с быстрыми моделями.

Независимые тесты показали реальное ускорение в 1,37 раза против заявленных 15x. OpenAI объясняет разницу: цифра «15x» получена в сравнении с конфигурацией x-high, которая намеренно замедляется для повышения точности.

Практический вывод: Codex-Spark подойдет для быстрого прототипирования и итеративной разработки, где скорость отклика критичнее глубины анализа. Для сложных архитектурных решений лучше подождать полную версию GPT-5.3-Codex.

OpenAI планирует наращивать мощности датацентров Cerebras и адаптировать под новые чипы более крупные frontier-модели.

Поделиться: Telegram X LinkedIn