Zo werken AI generated images en helpen ze u verder

De kracht van koppigheid

Als er een ding is dat ik weet over de mensheid, is dat we verdomd koppig zijn. En dat we ervan houden de regels te breken. Neem nu vliegtuigen – hoe hebben we dat in godsnaam voor elkaar gekregen? De uitleg is simpel. We keken naar boven, zagen vogels vliegen en dachten: “Als zij dat kunnen, waarom wij dan niet?” En na eeuwen ploeteren en testen, zijn we er geraakt. Meer zelfs: we namen de lucht over.

Dat is wat wetenschap doet. Het start met een idee, gevolgd door heel wat trial & error en koppig blijven doorgaan. Momenteel doen we er alles aan om de ultieme machine: het menselijke brein, te kopiëren. Laat me u meenemen in de wereld van AI Image Generation.

Stable Diffusion voor dummies

Eerst en vooral: ik ben geen AI-expert, maar ik ken wel de basics. Dus, hoe kan AI afbeeldingen creëren?

AI kent verschillende vormen en toepassingen, maar in het geval van door AI gegenereerde beelden, hebben we het over ‘machine learning’, wat sterk lijkt op de werking van het menselijke brein (neuraal netwerk). Net zoals studeren met steekkaartjes, kan je ook het machine learning-model voeden met informatie: problemen én bijhorende oplossingen. Door een bepaalde handeling een triljoen keer te maken – steeds met variatie, kan het model zelf feedback geven op het gegenereerde resultaat.

Dit betekent ook dat net als bij het menselijke brein, niemand weet hoe dit nu exact werkt. Het bestaat niet uit duizenden lijnen code, maar uit een neuraal netwerk dat problemen oplost door connecties te leggen. Nu, pas op – dit is misschien wat kort door de bocht. Maar het geeft al wel een idee van hoe het werkt.

Door deze methodologie toe te passen op AI generated images, kunnen we begrijpen hoe de technologie erachter ontstond (latent diffusion).

Tijd voor een voorbeeld

Stel dat je een foto hebt met daarover een laag ruis van 10% opacity (doorzichtigheid). Er zijn algoritmes die deze ruis met gemak verwijderen, dus laat u uw computer het werk doen. Eens uw computer weet hoe de ruis te verwijderen en u de afbeelding krijgt die u nodig heeft, maakt u het wat moeilijker. Nu gaan we voor 20% ruis. Slaagt uw computer erin dit ook weer te verwijderen? Dan drijft u het op tot u eindelijk aan 100% zit. Na een paar uur trial & error, zal het doorhebben hoe het een compleet nieuwe afbeelding kan maken.

A representation of AI Stable Diffusion: you let the computer remove the noise until you have a clean image.

Ok, nu er een model is dat afbeeldingen kan ‘uitvinden’, is het tijd om dit te combineren met ‘Contrastive Language-Image Pre-Training’ of in ‘t kort: CLIP. CLIP is een ander AI-model dat oordeelt hoe goed een tekst en afbeeldingen met elkaar matchen. Het stelt het latent difussion-model in staat te weten wat die moet creëren. Met de hulp van CLIP weet die wat een kat, banaan of gebouw is, en hoe dat eruit moet zien.

Het resultaat van deze samenwerking? Stable diffusion.

Bent u nog mee? We zijn er bijna. Om te begrijpen hoe verschillende types katten, gebouwen en auto’s er kunnen uitzien, moet het heel wat afbeeldingen leren kennen. En dat zijn er veel, zo’n 5 biljoen 512x512px afbeeldingen om exact te zijn. Allemaal met labels en URL-bronnen.

Het eindresultaat hiervan: één file die het hele visuele geheugen van de mensheid omvat in enkele gigabytes.

Knap trucje, niet? Het geeft ons de kans elke afbeelding te creëren die we maar willen, door gewoon enkele woorden te typen.

Wat gebeurt er momenteel op de markt?

Er zijn momenteel twee grote platformen waar iedereen met deze technologie kan starten: Dall-E 2 en Midjourney. Deze platformen gebruiken dezelfde ‘stable diffusion’, maar maakten het gebruiksvriendelijker en winstgevend. Het zijn ‘open sources’, wat betekent dat u het met de juiste hardware en knowhow kan implementeren in uw eigen systeem. En meer nog: het betekent ook dat duizenden developers wereldwijd het systeem voeden met nieuwe features. Daardoor ontwikkelen deze platformen zich sneller dan gedacht.

A picture of the Dall-E AI tool. It shows how the tool creates an image based on words we type in.

Maar moet ik nu vrezen voor mijn job?

In staat zijn om realistische beelden te genereren in een oogopslag is iets wat we ons nooit hadden kunnen voorstellen. Nu het zover is, overweldigt het ons. Maar laat ik u geruststellen en vertellen waarom ik vind dat we het moeten omarmen en kijken welke voordelen het ons brengt.

Het doel van video’s maken moet niet zijn: 5 dagen achter de computer zitten om bijvoorbeeld een VFX-shot van 1,5 seconde te maken van een instortend gebouw. Het doel zou moeten zijn: schrijf een prompt van ‘een gebouw stort in’ en krijg meteen 4 variaties van dat shot.

Dit is waar de discussie tussen believers en non-believers om gaat: een hele industrie is gebouwd op het maken van die VFX-shots. Ze vereisen jarenlange ervaring, beheersing van meerdere softwarepakketten en hard werken. En dat alles kan worden vervangen door een simpele tekst? Wie zou daar niet van schrikken?

Omarm AI

Maar zoals ik al eerder aanhaalde, het gaat om de mentaliteit. Hoe benadert u deze technologie? Ik zeg: omarm het, in plaats van bang te zijn dat het u zal vervangen. Geniet van de voordelen, laat het uw creativiteit aanwakkeren en gebruik het om u te helpen sneller en beter te werken. Want uiteindelijk is het gewoon een hulpmiddel. Een tool die getraind is op al ons werk. Het bedenkt zelf geen nieuwe stijlen – dat kan het niet. Het heeft menselijke kunst nodig om van te leren en het heeft menselijke input nodig om de juiste prompt te schrijven om het gewenste resultaat te krijgen (en geloof me, dat is moeilijker dan u denkt).

Wij mensen hebben altijd de grenzen opgezocht en gestreefd naar beter. We gingen van zweefvliegtuigen naar Space Shuttles. En dit is nog niet het einde, wees gerust. Nu we deze technologie hebben, zullen we alweer op 3 nieuwe problemen stoten en wie weet, wat volgt er daarna?

Meer weten over de mogelijkheden van AI? Wij helpen u graag verder!