Technologie

Google Gemini 3.1 Flash-Lite nově definuje cenu a rychlost AI

Nový model Gemini 3.1 Flash-Lite od Googlu přináší 2,5krát rychlejší odezvy a o 45 % vyšší propustnost výstupu za pouhých 0,25 USD za milion vstupních tokenů – čímž nastavuje nový standard pro cenově dostupnou a vysoce výkonnou AI v době, kdy se odvětví konsoliduje kolem hrstky dominantních hráčů.

R
Redakcia
3 min čtení
Sdílet
Google Gemini 3.1 Flash-Lite nově definuje cenu a rychlost AI

Závod ke dnu – v tom nejlepším slova smyslu

Google 3. března 2026 významně zasáhl do válek o AI modely uvedením Gemini 3.1 Flash-Lite – modelu, který společnost označuje za svůj nejrychlejší a nákladově nejefektivnější. Model s cenou pouhých 0,25 USD za milion vstupních tokenů a 1,50 USD za milion výstupních tokenů je zhruba osmkrát levnější než Gemini Pro a přitom dosahuje špičkového výkonu ve své cenové kategorii.

Uvedení na trh přichází v klíčovém okamžiku: OpenAI překročila 25 miliard USD v anualizovaných tržbách a Anthropic se rychle blíží k 19 miliardám USD – přesto obě společnosti zůstávají neziskové. Jak se trh konsoliduje kolem několika gigantů, bojiště se přesunulo od hrubé kapacity k nákladové efektivitě a rychlosti.

Rychlost, která mění kalkulace pro vývojáře

Podle benchmarků Artificial Analysis citovaných společností Google dosahuje Gemini 3.1 Flash-Lite 2,5krát rychlejší čas do prvního odpovědního tokenu a 45% zlepšení propustnosti výstupu ve srovnání se svým předchůdcem, Gemini 2.5 Flash. V žebříčku Arena.ai dosahuje model Elo 1 432 – což je konkurenceschopné umístění pro model v této cenové kategorii.

Benchmarkové skóre vypráví podobně silný příběh: 86,9 % na GPQA Diamond (test vědeckého uvažování na postgraduální úrovni) a 76,8 % na MMMU Pro (multimodální porozumění). Tato čísla staví Flash-Lite výrazně před srovnatelné odlehčené modely od OpenAI a Anthropic.

Model je nativně multimodální, přijímá text, obrázky, zvuk a video – s kontextovým oknem o velikosti jednoho milionu tokenů. To jej staví před GPT-4o Mini od OpenAI v multimodální šíři a vyrovnává se nebo překonává Claude Haiku od Anthropic v délce kontextu.

Navrženo pro podnikové měřítko

Google explicitně navrhl Flash-Lite pro vysokoobjemové podnikové nasazení, kde jsou latence a náklady na požadavek primárními omezeními. Cílové případy použití zahrnují klasifikaci obsahu, extrakci dat z dokumentů, asistenty v aplikacích v reálném čase, kanály generování rozšířené o vyhledávání (RAG) a rozsáhlé dávkové zpracování.

Pro organizace, které spouštějí miliardy volání API měsíčně, je rozdíl v nákladech značný. Zpracování jedné miliardy vstupních tokenů prostřednictvím Gemini Pro stojí 2 000 USD; prostřednictvím Flash-Lite pouhých 250 USD – úspora 1 750 USD na miliardu tokenů, která se v podnikovém měřítku rychle násobí.

Model je k dispozici v náhledu prostřednictvím Google AI Studio a pro podnikové zákazníky prostřednictvím Google Cloud Vertex AI, s bezplatným přístupem v AI Studio pro vývojáře, kteří model hodnotí.

Demokratizace pokročilé AI pro menší hráče

Posun v cenách má dopad i mimo velké podniky. Pro malé a střední podniky, které byly cenově nedostupné pro sofistikovanou integraci AI, představuje Flash-Lite smysluplnou změnu. Komplexní agentní pracovní postupy – dříve vyžadující drahé špičkové modely – se stávají finančně životaschopnými, když náklady na token klesnou pod čtvrt centu za tisíc vstupních tokenů.

Jak poznamenali analytici MindStudio, „pro většinu produkčních nasazení v reálném světě není hrubá kapacita úzkým hrdlem – náklady a rychlost ano.“ Flash-Lite řeší obojí přímo.

Trh se konsoliduje kolem efektivity

Uvedení na trh odráží širší trend v odvětví: špičkoví hráči v oblasti AI již nesoutěží pouze na základě velikosti modelu nebo benchmarkové nadvlády. S rostoucími příjmy OpenAI a Anthropic – přesto obě společnosti stále spalují hotovost – roste tlak na poskytování hodnoty ve velkém měřítku. Google, se svými infrastrukturními výhodami prostřednictvím Cloud a DeepMind, sází na to, že se vývojářská komunita pohrne k nákladově nejefektivnějšímu řešení, které splňuje kvalitativní požadavky.

Příchod Flash-Lite potvrzuje, že další hranicí v AI není vždy větší model. Někdy je to rychlejší a levnější – a to může být důležitější pro společnosti, které s těmito nástroji skutečně pracují.

Tento článek je dostupný také v jiných jazycích:

Zůstaňte v obraze!

Sledujte nás na Facebooku a nic vám neunikne.

Sledujte nás na Facebooku

Související články