swipegesture

GPT-4o: Vi nærmer os Hollywoods AI-fremtid

OpenAI's nye model GPT-4o kan bl.a. besvare audio og video input i realtid. Den er ikke kun tilgængelig for betalende brugere af ChatGPT, men frit tilgængelig for alle.

Artikel
af Niclas Randgaard - den 16. maj 2024

Forestil dig et samfund hvor teknologien er dybt integreret i hverdagen, hvor kunstig intelligens og digitale assistenter er en naturlig del af menneskers liv.

Menneskelige interaktioner er i stigende grad erstattet af kommunikationer gennem skærme, og personlige relationer er blevet mere sjældne. Bylandskabet er domineret af skærme og avancerede gadgets, der konstant er i brug.

Folk lever isoleret i deres egne verdener, hvor de søger bekræftelse og fællesskab gennem teknologiske enheder, som tilpasser sig deres behov og ønsker. Dette samfund er præget af en næsten sømløs integration mellem menneske og maskine, hvor grænserne mellem det virkelige og det virtuelle bliver stadig mere udvisket.

For nogle lyder dette måske som en dystopisk fremtid. Måske minder det allerede om vores samfund i dag. Det er dog beskrivelsen af filmen ’Her’ (2013). I filmen kæmper hovedpersonen, Theodore (Joaquin Phoenix), med ensomhed og isolation efter en skilsmisse. Han erhverver sig en ny AI-assistent, Samantha (Scarlett Johansson), som hurtigt udvikler sig til intim og romantisk relation.

Hvor vil jeg hen med denne beskrivelse af en mere end 10 år gammel film?

Foruden at være en fremragende og anbefalelsesværdig film, så giver den måske et indblik i en ikke så fjern måde at interagere med teknologi og AI.

Mandag d. 13. maj 2024 annoncerede OpenAI deres nyeste model – GPT-4o. O’et står for omni, som lader til at referere til modellens multimodale evner. GPT-4o er på niveau med GPT-4 Turbo i både tekst, lyd og billede.

Det vil sige, at man nu kan vise ChatGPT ens omgivelser og snakke frem og tilbage med den i real tid. Sam Altman skriver i sin egen blog:

”It feels like AI from the movies; and it’s still a bit surprising to me that it’s real”.

Det er et imponerende skridt i retning af en måde at interagere med AI, som vi ellers kun kender fra film. I december demonstrerede Google deres nye Gemini-modeller, og her var verbal og visuel interaktion også en prominent feature.

Det viste sig dog, at Googles demonstration var iscenesat med bagvedliggende prompts, redigeret responstid og deslige. Hvilket OpenAI lader til at drille Google med ved at skrive ”All videos on this page are at 1x real time.” på forsiden af annonceringen.Læs om Googles demonstration af Gemini.

Mulighederne forbundet med dette teknologiske skridt er mange. OpenAI selv har en række forslag, som de demonstrerer i en række videoer.

Jeg vil klart anbefale at tjekke dem ud selv, men blandt dem kan nævnes en privat matematik tutor, en live oversætter, som oversætter en samtale mellem to der taler forskellige sprog og en sparringspartner der bidrager med råd og støtte inden en jobsamtale.

Har du en lille halv time kan du se optagelsen af en imponerende live præsentation i et studie.

Selvom GPT-4o allerede er tilgængelig er det desværre ikke alle features der følger med. Evnen til at interagere med lyd og billede uden forsinkelse er endnu ikke tilgængelig. I øjeblikket bliver den testet af OpenAI's red team, og vil blive gjort tilgængelig på et ubestemt senere tidspunkt.

Bringer open tilbage til OpenAI

Siden februar 2023, da ChatGPT Plus abonnementer blev lanceret, har stort set alle nye features og modeller kun været tilgængelige for betalende brugere.

Dette er dog ikke tilfældet med GPT-4o, der allerede er tilgængelig for alle brugere af ChatGPT.

Det betyder, at alle nu kan opleve GPT-4 niveau intelligens, få svar fra både modellen og internettet-søgninger, analysere data og lave diagrammer, dele fotos, de tager, uploade filer, samt opdage og bruge Custom GPT’er fra GPT Store.

Ydermere, har GPT-4o modellen viden om verden helt frem til oktober 2023.

Det er en markant beslutning at gøre GPT-4o frit tilgængelig. Sam Altman skriver i sin blog, at det er i overenstemmelse med OpenAI’s mission at give folk brugbare AI-værktøjer enten gratis eller til en god pris:

First, a key part of our mission is to put very capable AI tools in the hands of people for free (or at a great price). (…) We are a business and will find plenty of things to charge for, and that will help us provide free, outstanding AI service to (hopefully) billions of people”. 

Det lyder meget nobelt, men det svært at undgå tanker om måske mere forretningsmæssige årsager.

Prøver OpenAI at skabe et winner-take-all scenarie ved at gøre ChatGPT til en markedstandard Eller står OpenAI måske snart klar med en endnu bedre model til betalende kunder?

De første spæde skridt ind i AI-æraen er unægteligt fyldt med spekulationer.