AI И НЕЙРОСЕТИ

Google выпустила Gemma 4 12B для ноутбуков с 16 ГБ памяти

Gemma 4 12B, по заявлению Google, запускается на ноутбуках с 16 ГБ памяти и почти дотягивается до 26B-версии по качеству.

✍️ Редакция iTech News | 04.06.2026 | ⏱ 4 мин | Источник: Ars Technica
🎓

Gemma 4 12B Google позиционирует как редкий для 2026 года компромисс: модель на 12 млрд параметров, которая, по заявлению компании, может работать локально на ноутбуке с 16 ГБ оперативной памяти или VRAM. Для русскоязычных разработчиков и продуктовых команд это важный сигнал: запускать мультимодальный ИИ на своей машине становится реальнее не только для владельцев дорогих ускорителей, но и для тех, у кого обычный рабочий ноутбук.

Новая модель закрывает заметную дыру в линейке Gemma 4, сообщает Ars Technica. В апреле Google уже представила четыре модели семейства: две облегченные мобильные версии E2B и E4B, а также более тяжелые варианты для серьезных задач, 26B Mixture of Experts и 31B Dense. При этом между мобильным классом и «почти серверным» сегментом оставался пустой диапазон. Именно туда и поставили Gemma 4 12B: она заметно мощнее мобильных сборок, но не требует железа уровня дата-центра.

Главная ставка Google здесь не только на размер, но и на архитектурные трюки. Компания утверждает, что Gemma 4 12B по бенчмаркам почти догоняет 26B MoE-версию, хотя занимает примерно вдвое меньше памяти. Для локального ИИ это, пожалуй, главный KPI: пользователю не так важно, сколько там миллиардов параметров в пресс-релизе, если модель можно запустить без аренды облака и без охоты за дефицитной видеокартой. Вес модели для скачивания, правда, все равно немаленький: почти 18 ГБ. Но сама логика релиза понятна: Google пытается опустить порог входа в локальные мультимодальные сценарии.

Ключевое техническое отличие Gemma 4 12B — встроенная поддержка Multi-Token Prediction. Речь о механике, при которой модель заранее просчитывает вероятные будущие токены, используя незанятые вычислительные циклы. На практике это должно давать прирост скорости и эффективности. Для других моделей семейства Google тоже выпустила опциональные MTP-версии, но у 12B этот режим идет сразу «из коробки». Компания отдельно подчеркивает, что модель способна на сложные многошаговые рассуждения и агентные сценарии, которые раньше логичнее было поручать более крупным вариантам Gemma.

Второй важный момент — мультимодальность без лишнего багажа. Вся линейка Gemma 4 умеет принимать текст, изображения и аудио, но у большинства моделей для нетекстовых данных используется отдельный энкодер, который затем передает результат в языковую модель. Это привычная схема, но она стоит памяти и добавляет задержку. В Gemma 4 12B Google упростила путь для изображений: вместо массивного промежуточного энкодера используется более компактный модуль embedding с одним матричным умножением и positional embedding, чтобы сохранять пространственный контекст. Для аудио подход еще радикальнее: отдельного кодирования вообще нет, сырой сигнал проецируется в те же векторы, что и текстовые токены.

Для разработчиков это означает вполне практичную вещь: локальный мультимодальный стек становится не только дешевле, но и проще в эксплуатации. Если модель действительно уверенно работает в пределах 16 ГБ системной памяти или видеопамяти, это открывает больше вариантов для офлайн-инструментов, внутренних ассистентов, прототипирования агентных фич и экспериментов с мультимодальными интерфейсами без постоянной зависимости от облака. Особенно это актуально для команд, которым важны контроль над данными, предсказуемая стоимость инференса и возможность запускать модели в изолированной среде.

Для рынка открытых моделей релиз тоже показательный. В апреле Google перевела семейство Gemma 4 на более открытую лицензию Apache 2.0, и это был шаг не только имиджевый, но и тактический. Экосистема локального ИИ быстро растет вокруг Hugging Face, LM Studio, edge-инструментов и собственного железа пользователей. Если раньше Google чаще воспринималась как игрок большого облака и мобильного ИИ, то теперь компания явно хочет закрепиться и в нише «модель для разработчика на обычном ноутбуке». Сам факт, что Gemma 4 12B уже доступна через LM Studio, Google AI Edge Gallery, Kaggle и Hugging Face, показывает: речь не о лабораторной демке, а о продукте, который сразу отправляют в оборот.

Открытый вопрос теперь в другом: хватит ли одной только инженерной эффективности, чтобы 12B-класс стал новым стандартом для локального ИИ. Пользователи давно хотят модель, которая не унижает ноутбук, не ест весь бюджет на VRAM и при этом тянет не только чат, но и изображения, аудио, многошаговые задачи и агентные сценарии. Google предлагает именно такую формулу. Осталось проверить, где заканчивается красивый бенчмарк и начинается реальная рабочая нагрузка. Первоисточник с деталями релиза доступен в Ars Technica.

Поделиться: Telegram X LinkedIn