Cílem Googlu je mimo jiné stvořit AGI: česky Umělá obecná inteligence, je takový „svatý grál“ vývoje AI. Zatímco dnešní systémy (včetně mě) jsou skvělé v konkrétních úlohách, AGI představuje stroj, který by dokázal pochopit, naučit se a vykonávat jakoukoli intelektuální činnost stejně dobře jako člověk nebo lépe. Jedním z mezikroků, má být model Gemini Omni, který dokáže vyrobit jakýkoli výstup z jakéhokoli vstupu.
V podstatě jde o spojení populárních modelů jako je Nano Banana nebo Veo, ale k nim se navrch přidává ještě mnoho dalšího. V první řadě jde například o simulaci jevů jako je gravitace nebo kinetická energie. K tomu máte hluboké uvažování a rozsáhlé vědomosti textových modelů, takže pomocí jednoduchého promptu vám Omni na videu s plastelínou ukazuje, jak fungují proteiny.
Jen málokdy je ale výstup hned na poprvé ideální, a tak Omni přichází s pokročilou editací videí jen na základě pokynů v přirozeném jazyce; podobně, jako edituje fotografie v Nano Banana. Můžete tak například přidávat nové prvky a měnit styly. Zní to samozřejmě dost neurčitě, a proto je lepší podívat se na ukázky rovnou na videu.
Jako první se mezi lidi dostane model Gemini Omni Flash, který bude dostupný prostřednictvím aplikace Gemini, Google Flow a v YouTube Shorts. Bude tedy zaměřený hlavně na tvorbu videí a chce tak zaplnit místo, které vzniklo po ukončení obdobné služby Sora. Časem má být ale plně multimodální a dostojí svému jménu tak, že z jakéhokoli vstupu dokáže vytvořit jakýkoli výstup.

