AI И НЕЙРОСЕТИ

Модель Prisma превосходит GPT-2 на 5 из 8 тестов с меньшими затратами

Новая модель AI Prisma обошла GPT-2 по 5 тестам, используя на 25% меньше данных для обучения.

✍️ Редакция iTech News | 07.03.2026 | ⏱ 2 мин | 👁 3 | Источник: Reddit r/MachineLearning
🎓

Модель AI Prisma достигла впечатляющих результатов, обогнав GPT-2 по 5 из 8 стандартных тестов, при этом затратив на 25% меньше обучающих данных. Этот факт подчеркивает ее потенциал для более эффективного обучения в области нейросетей.

Контекст: что такое Prisma

Prisma — это новая архитектура трансформеров, разработанная с акцентом на интерпретируемость. Она содержит 357 миллионов параметров и использует 30 миллиардов токенов для обучения. В отличие от GPT-2, который имеет 24 слоя, Prisma имеет 41 слой и 4 весовых набора на слой, что позволяет лучше организовывать эти и делиться весами между слоями.

Детали о производительности и сравнение с GPT-2

На тестах BoolQ и ARC-E модель показала результаты 0.620 и 0.548 соответственно, что конкурентоспособно с моделями, обученными на 10-100 раз большем объеме данных. Интересно, что Prisma использует токенизатор от Facebook, что также положительно сказывается на результатах.

После тестирования на нескольких выборках модель заняла место выше GPT-2, что учитывает необходимые аспекты предобученных эмбеддингов. Это открывает новые горизонты для применения подобной архитектуры в реальных задачах.

«И что мне с этого?»

Для разработчиков это сигнал к тому, что новая модель AI Prisma может стать отличной альтернативой существующим решениям. Учитывая ее эффективность и меньшие затраты на обучение, стоит обратить внимание на ее интеграцию в свои проекты.

Поделиться: Telegram X LinkedIn