Google DeepMind har släppt DiffusionGemma, en experimentell språkmodell med ett alternativt tillvägagångssätt för textgenerering. I stället för en token i taget, som andra modeller, genererar DiffusionGemma 256 tokens simultant. Resultatet är upp till 4 gånger snabbare inferens på dedikerad GPU-hårdvara, och modellen är optimerad specifikt för lokal körning hos hemanvändare.
DiffusionGemma är en 26B Mixture-of-Experts-modell, men aktiverar bara 3,8B parametrar under inferens. Kvantiserad ryms den i 18 GB VRAM, vilket innebär att ett Geforce RTX 3090 räcker. På ett Geforce RTX 5090 uppges hastigheten landa på över 700 tokens per sekund.
DiffusionGemma inspireras av bildgeneratorer som Stable Diffusion: modellen börjar med en "tavla" av slumpmässiga tokens och förfinar sedan texten iterativt tills den mynnar ut i ett färdigt svar. Eftersom hela blocket genereras och utvärderas simultant kan modellen fånga upp och korrigera egna misstag i realtid, och hantera saker som inline-redigering och matematiska strukturer bättre än sekventiella modeller.
Google är tydliga med att DiffusionGemma är experimentell och inte en ersättare för Gemma 4 när det gäller output-kvalitet. Prioriteringen är hastighet, och det syns i resultaten. Modellen riktar sig till utvecklare och entusiaster som bygger realtidsapplikationer, experimenterar med lokal AI eller helt enkelt vill se vad som är möjligt med konsumenthårdvara.
Modellen är öppen och släppt under Apache 2.0-licens. Filerna finns på Hugging Face och stöd finns i dag för MLX, vLLM och Hugging Face Transformers. Stöd för llama.cpp är på väg.