Google lanceert Gemini Omni AI-video-model: kan verbazingwekkende dingen doen

Het nieuwe Gemini Omni-artificiële intelligentie (AI) model van Google kan werkelijk van alles doen. De belangrijkste belofte van het model is om letterlijk alles te kunnen maken uit wat dan ook.

Google zegt dat zijn nieuwe Gemini Omni-model “alles kan creëren uit elke input,” waaronder audio, video, foto’s en tekst. Het model begint met videoproductie, waarna gebruikers het via een converserende tekst met Gemini kunnen bewerken. Dit eerste model, Gemini Omni Flash, wordt nu gelanceerd in de Gemini-app, Google Flow en YouTube Shorts.

Zoals Google uitlegt, is het bewerken van AI-gegenereerde video met tekst eenvoudig. Het model belooft ook de consist”entie te bewaren na bewerking, inclusief de personages, en Omni kan onthouden wat in voorgaande scènes zichtbaar was.

Prompt: Maak het beeldhouwwerk van zeepbellen.

Het bedrijf belooft zelfs dat Gemini Omni een “intuïtief begrip van fysica” kan gebruiken, waardoor de kloof tussen fotorealisme en zinvol vertellen wordt overbrugd.

Prompt: Een marmeren ballet rolt snel op een kettingreactie-achtige baan, continu soepele opname.

Gebruikers hebben al indrukwekkende resultaten behaald met Gemini Omni. Bijvoorbeeld, Bilawal Sidhu, voormalig productmanager bij Google, gaf Gemini Omni een foto met een schetsachtige drone-pad erop en liet door de AI drone-POV-beelden genereren.

The Verge’s Allison Johnson noemt Omni “wild” en liet de AI het knuffelbeest van haar kind, Buddy, tot leven brengen. Buddy maakte spectaculaire AI-avonturen mee, waaronder raften op wildwater en snowboarden.

“De resultaten zijn zo een gemengd geheel dat het verbijsterend is. Sommige waren erg goed — veel consistenter en dichter bij mijn prompt dan toen ik Veo vijf maanden geleden testte,” schrijft Johnson. “Maar zelfs de beste clip die Omni voor mij maakte, bevat nog AI-schrikelementen, zoals wanneer Buddy plots van richting verandert terwijl hij aan het skydiven is.”

Prompt: Zet dit om naar realistische beelden, gebruik de tekening alleen als leidraad voor beweging, toon de tekening niet in de finale video

Toen Johnson testte, schoot de grootste claim van Omni, namelijk het vermogen om een grote verscheidenheid aan invoermedia te combineren met AI-gegenereerde video, van technisch indrukwekkend naar potentieel gevaarlijk. Een van haar deepfakes wist zelfs haar man te overtuigen, “een man die mij in het echte leven bijna elke dag van het afgelopen decennium heeft gezien.”

Of dit nu knap of beangstigend is, hangt af van wie je het vraagt.

“Ik kan niet geloven dat dit niet ergens mee te maken heeft,” schrijft near_photography op Threads naar aanleiding van het bericht hierboven. “Er is geen netto voordeel voor de maatschappij van deze mogelijkheid.”

Prompt: Pas de houding en beweging uit de invoervideo toe op het opgegeven personage uit deze afbeelding. Pas de stijl toe op basis van de afbeeldingsreferentie in de nieuwe video

Zoals Google opmerkt, bevatten alle met Omni gegenereerde video’s de “onmerkbare SynthID-digitaal watermerk,” wat het voor gebruikers gemakkelijk maakt om te controleren of iets met de AI van Google is gemaakt binnen Gemini, Gemini in Chrome en Google Zoeken. Maar wat als iemand die platforms niet gebruikt?

Google brengt deze technologie rechtstreeks naar YouTube Shorts en YouTube Create, bijvoorbeeld, en het is onmogelijk te voorspellen wat mensen daar mee zullen doen.

Daan Vermeulen

Daan Vermeulen

Ik ben Daan Vermeulen, techjournalist en gepassioneerd door alles wat met beeld en geluid te maken heeft. Al meer dan tien jaar test ik camera’s, tv’s en audioapparatuur voor diverse Nederlandse media. Bij Beeldnet wil ik technologie begrijpelijk en eerlijk maken voor iedereen die zoekt naar kwaliteit.