БИЗНЕС И ЦИФРОВИЗАЦИЯ

Kodik выпустил бенчмарк для проверки ИИ на воссоздание FFmpeg

Kodik запустил новый бенчмарк, проверяющий, насколько ИИ способны воссоздать приложения вроде FFmpeg. Итоги оказались неутешительными.

✍️ Редакция iTech News | 05.05.2026 | ⏱ 2 мин | 👁 3 | Источник: Habr / Новости
🏢

Kodik представил новый бенчмарк ProgramBench, который оценит способность искусственного интеллекта воссоздавать сложные приложения, такие как FFmpeg. Это важно для разработчиков, так как подобные тесты помогают понять, насколько ИИ могут быть полезны в реальных проектах.

Тестирование возможностей ИИ

ProgramBench использует нестандартный подход: модели получают бинарные файлы и документацию, после чего должны создать приложения с аналогичной функциональностью. При этом современные языковые модели (LLM) лишены доступа к интернету, что исключает возможность поиска решений онлайн. Авторы бенчмарка отмечают, что обычно тесты концентрируются на изолированных задачах, а не на создании программ с нуля, что и делает ProgramBench уникальным.

Результаты тестирования оказались неутешительными: Ни одна из моделей не смогла создать приложение, которое бы успешно проходило все тесты. Программа Opus 4.7 была единственной, которая достигла отметки 95% успешных тестов, но этот результат — лишь в 3% случаев. Все остальные модели продемонстрировали общую оценку 0% на лидерборде.

Проблемы и вызовы для ИИ

Комментаторы отмечают, что даже опытные разработчики с аналогичными условиями не смогли бы достичь высоких результатов. Авторы бенчмарка подчеркнули, что программа создана с намерением быть сложной, но решаемой. Это необходимо для того, чтобы избежать ситуации, когда старые бенчмарки перестают отражать реальные различия между моделями из-за их общего уровня исполнения.

Исторически сложилось так, что действующие механизмы тестирования перенасыщаются, когда новые модели начинают справляться с задачами, которые изначально казались сложными. Поэтому ProgramBench — шаг к разработке более требовательных и актуальных тестов в этой области.

Для чего это нужно разработчикам?

Для разработчиков программного обеспечения такая информация сулит значимые выводы. Понимание реальных навыков ИИ в программировании важно для оценки его применения в проектах. Если ваши команды рассматривают внедрение ИИ для автоматизации разработки или создания приложений, результаты исследовательского теста говорят о том, что рассчитывать на полный переход на ИИ еще рано.

В ближайшем будущем бенчмарки станут еще сложнее, чтобы поддерживать актуальность и различия в способности моделей. Это даст старт новым подходам к обучению и использованию ИИ в программировании.

Поделиться: Telegram X LinkedIn