Исследователи JD.com разработали новый метод обучения AI-моделей, который снижает вычислительную нагрузку и затраты на 50%. Это решение особенно актуально для компаний, которые не могут позволить себе дорогостоящие ресурсы для создания собственных моделей reasoning.
Актуальность нового подхода
Традиционные методы обучения AI, такие как Обучение с Подтверждаемыми Наградами (RLVR), сталкиваются с проблемами низкой эффективности, так как они предоставляют ограниченные сигналы обратной связи. Например, модель получает единую бинарную награду за всё обучение, что приводит к неэффективным результатам. По словам исследователя Ченксу Яна, это создает «проблему плотности сигналов».
Новый метод, называемый Обучением с Подтверждаемыми Наградами и Само-Дистилляцией (RLSD), сочетает в себе проверку эффективности и подробную обратную связь от модели. Это позволяет значительно сократить вычислительные ресурсы, необходимые для тренировки и улучшения моделей reasoning.
Как работает RLSD
RLSD позволяет избежать необходимости в громоздких дополнительных моделях-педагога, которые могли бы существенно увеличить вычислительные затраты. Вместо этого используется один и тот же алгоритм, где модель может учиться без зависимости от больших вспомогательных структур. В результате проще и дешевле создавать высококачественные модели, соответствующие специфическим задачам бизнеса.
Это особенно важно для малых и средних предприятий, которые могут не иметь больших бюджетов на облачные вычисления и обучения. С новым подходом можно значительно сократить затраты, что открывает новые возможности для инноваций в AI.
Практические выводы для бизнеса
Для российской аудитории это означает, что компании теперь могут использовать более доступные решения для создания AI-приложений с ориентированностью на свой бизнес. Снижение затрат на обучение моделей может составить до 50%, что делает AI-доступным для более широкой аудитории.
Следующий шаг — применение нового подхода в реальных коммерческих проектах, где будет видно, как он отвечает на актуальные бизнес-задачи и потребности.

