Google melder sig ind i AI-kapløbet
Ved udgangen af 2023 – et år der gjorde sig bemærket ved både udviklingen og udbredelsen af AI – har Google endelig vist, at de er en af verdens største tech-virksomheder. Google taget et gigantisk spring fremad med lanceringen af Gemini.
Denne nye serie af AI-modeller lover ikke blot at forandre vores nuværende forståelse af kunstig intelligens, men også at omdefinere, hvordan vi interagerer med og udnytter denne banebrydende teknologi. Læs mere
En Multimodal Familie
Gemini er ikke blot en enkeltstående model, men en hel familie af AI-modeller, der spænder over en bred vifte af kapabiliteter og anvendelser. Fra den kraftfulde Ultra-model, der er sat til lancering i det kommende år, til Pro- og Nano-modellerne, der allerede er ved at forme vores interaktion med AI, spænder Gemini's rækkevidde vidt.
Ultra-modellen står som en direkte konkurrent til OpenAI's GPT-4, men med forbedringer, der strækker sig ud over ren tekstforståelse.
Gemini Ultra er designet til at være mere end blot en forbedring af eksisterende modeller. Denne model repræsenterer en evolution inden for AI, med en overlegen forståelse og fortolkning af både visuelle og auditive data. Dens evne til at analysere billeder og videoer overgår GPT-4, hvilket indikerer en dybere forståelse af vores visuelt drevne verden.
Ifølge Google opnår Gemini Ultra bedre benchmarks end nogen anden model når det kommer til multimodaliteten. De rapporterer ni ud af ni på billede forståelse, seks ud af seks på video forståelse, og fem ud af fem på sprog genkendelse og oversættelse.
Gemini's potentiale strækker sig langt ud over de traditionelle anvendelsesområder for AI. I uddannelsessektoren kan Gemini tilbyde tilpassede forklaringer og øvelser, hvilket gør det til et uvurderligt værktøj for både studerende og undervisere. Inden for softwareudvikling åbner AlphaCode 2 nye døre ved at assistere og forbedre kodningsprocesser, hvilket kan accelerere udviklingen af nye programmer og applikationer.
På sprogfronten har Gemini Ultra vist sig at være en mester i maskinoversættelse, hvilket antyder en hidtil uset flersproget ydeevne. Dette er ikke kun en teknologisk bedrift, men også et skridt mod at overvinde globale sprogbarrierer. Ydermere, har AlphaCode 2, baseret på Gemini Pro, revolutioneret programmeringsverdenen ved at løse komplekse kodningsopgaver, der overgår 99,5% af konkurrenceprogrammører.
- Ultra-Modellen: Gemini Ultra, som er den mest avancerede i serien, er sat til at blive frigivet tidligt næste år. Denne model er designet til at være en direkte konkurrent til OpenAI's GPT-4, med forbedringer i flere modaliteter.
- Pro og Nano: Pro-modellen er en opgradering fra GPT-3.5, mens Nano-modellen er designet til mobile enheder, hvilket bringer AI-kapabiliteter direkte til brugerens håndflade.
Demis Hassabis fra Google DeepMind har antydet, at fremtidige versioner af Gemini kan integrere yderligere sanser som berøring og fysisk interaktion.
Dette peger mod en fremtid, hvor AI ikke kun forstår vores verden gennem tekst og billeder, men også gennem fysisk interaktion.
En sådan udvikling kunne revolutionere områder som robotteknologi og automatisering, hvor en dybere forståelse af fysisk interaktion er afgørende.
Smokes and mirrors
Med lanceringen af Gemini kom en imponerende videodemonstration af hvor godt Gemini klarer forskellige opgaver. I videoen kan Gemini hurtigt genkende fx tegninger, sjove videoer og et par hænder der spiller sten/saks/papir. Med lanceringen følger også et skema, der viser hvordan Gemini klarer sig i forhold til andre modeller – primært GPT-4.
Google fortæller stolt om, hvor godt Gemini præsterer, men hvor meget af det kan man stole på?
Gemini Ultra modellen er efter sigende den første model, der overgår menneskelige eksperter i MMLU (Massive Multitask Language Understanding), som bruger en kombination af 57 emner som matematik, fysik, historie, jura, medicin og etik til at teste både verdenskendskab og problemløsningsevner.
Her scorer modellen 90,0%, hvor GPT-4 scorer 86,4%. Det menneskelige ekspertniveau ligger på 89,8%.
Det lyder umiddelbart som om Google har slået OpenAI og lavet en bedre model, men sammenligningsgrundlaget er forkert.
Google har målt Gemini’s score ud fra CoT@32, men OpenAI har målt GPT-4 ud fra 5-shot. Det betyder, at GPT-4 har fået fem eksempler at lære fra, og Gemini har fået 32. Dykker man ned i Googles tekniske rapport, fremgår det, at GPT-4 klarer sig bedre end Gemini givet CoT@32.
Ydermere kommer Gemini kun op på 90,0% når der er tale om ”uncertainty-routed chain-of-thought”. Det betyder, at modellen får mulighed for at tænke sig ekstra om, inden den vælger et svar – modsat den typiske ”greedy sampling”, som er en metode der fokuserer på at finde den mest lovende løsning hurtigt uden at overveje alle mulighederne dybtgående. Læs mere om rapporten.
Det er også værd at nævne, at MMLU er baseret på multiple choice spørgsmål, hvilket man typisk ikke ville måle en reel ”ekspert” ud fra. Hvorfor det kan argumenteres, at ingen model endnu kan måle sig med menneskelige eksperter.
Demonstrationsvideoen var også lidt for god til at være sand. Google har efterfølgende indrømmet, at de har snydt med videoen for at få den til at se bedre ud.
I videoen ser man hvordan Gemini kan interagere og forstå forskellige billeder og videoer uden forsinkelse. Det viser sig dog, at det i flere tilfælde har taget op mod et halvt minut for Gemini at generere et svar. Ydermere, har det været nødvendigt at prompte modellen og give tips til løsningen.
I eksemplet hvor Gemini genkender håndtegnene fra sten/saks/papir var det nødvendigt at vise alle tre håndtegn på én gang, og hjælpe yderligere med: ”Hint: It’s a game.”. Den tale-interaktion der fremgår af videoen, er også blevet skabt via tekst-prompts og efterfølgende blevet læst op.
Tilbage står spørgsmålet: Hvis Gemini er så god, som Google påstår, hvorfor er det så nødvendigt at snyde med demonstrationen?
Goliat og Goliat
Gemini er endnu ikke tilgængelig og bliver det først i starten af 2024 – endnu senere i Europa som følge af EU-regulering. Det er derfor svært at sige, hvor meget bedre Gemini Ultra er overfor GPT-4.
Google har været dygtige i deres markedsføring og givet indtrykket af, at vi nu ser et helt nyt teknologisk niveau. I realiteten har Google nok meldt sig ind i AI-kapløbet, og potentielt taget førertrøjen på, men det er svært at se det store teknologiske kvantespring.
Alligevel er der god grund til at tage lanceringen alvorligt. AI-kapløbet handler om, hvem der kan opnå den bedste AI-teknologi – måske Artificial General Intelligence (AGI), men det handler i høj grad også om, hvem der kan gøre sin teknologi til en markedsstandard.
Den slags kræver enorme resurser, erfaring og eksisterende infrastruktur. Det er noget OpenAI ikke selv besidder, hvorfor de har indgået et partnerskab med Microsoft. GPT-4 modellen, eller fremtidige modeller fra OpenAI, kommer ikke til at blive udbredt af OpenAI selv. Det kommer til at ske gennem Microsoft – noget vi allerede ser i Microsoft 365 Copilot.
Google besidder i særdeleshed både resurserne, erfaringen og infrastrukturen til at udfordre OpenAI og Microsoft.
Microsoft er verdens næststørste virksomhed og har fordelen ved at levere styresystemet (Windows) til 69,5% af verdens computere, samt det nødvendige software (Office) for langt de fleste virksomheder.
På trods af disse fordele og dominerende position har Google også sine fordele. Alphabet (Google) er verdens fjerdestørste virksomhed og sidder tungt på det mobile marked, hvor 70,3% af verdens mobiltelefoner kører på Googles styresystem, Android.
Googles mobiltelefon Pixel 8 Pro er allerede designet til at køre Gemini Nano. Ydermere har Google siden opkøbet af DeepMind Technologies i 2014 haft stor succes med forskning og udviklingen af AI.
Uanset om det er Google, OpenAI eller en anden aktør, der leder an, er det den kollektive fremgang og anvendelsen af AI i positiv retning, som vil definere æraen for kunstig intelligens.