swipegesture

ChatGPT, Bard og Bing - Hvilken chatbot er bedst i test?

OpenAI var først med ChatGPT, men siden er Google og Bing kommet med hver deres bud på en AI Chatbot, der kan hjælpe dig. Vi har testet de tre forskellige modeller.

Artikel
af Niclas Randgaard - den 30. august 2023

Siden OpenAI med ChatGPT viste det store teknologiske potentiale og fremskridt på AI området, har flere andre spillere meldt sig på banen.

Google har lanceret Bard og Microsoft er kommet på markedet med Bing Chat, som begge er konkurrenter til ChatGPT.

Men hvad er forskellen? Det har vi undersøgt med et par tests, som viser hvilke styrker og svagheder de tre chatbots hver især har. Først en kort beskrivelse og efterfølgende en række test. 

Kort beskrivelse af de tre AI Chatbots

Gratis i research preview. Betalt adgang via alle browsere, samt app til Android og iOS 

ChatGPT var den første af de tre, der blev gjort tilgængelig for offentligheden i november 2022.

ChatGPT er baseret på OpenAI’s GPT-model.

Gratis-udgaven ChatGPT er baseret på GPT-3.5 modellen, mens ChatGPT Plus koster 25 USD om måneden, er baseret på GPT-4 modellen.

De to modeller er trænet på hhv. 175 milliarder parametre og 1 billion parametre.

ChatGPT tilbyder Custom Instructions, der giver brugeren mulighed for at give informationer, som ChatGPT skal vide i forbindelse med alle fremtidige chats.

Det er også nemt at få et link og dele en chat man har haft med ChatGPT.

Med ChatGPT Plus får man adgang til tredjepart plugins, som gør ChatGPT i stand til at interagere med andre platforme, løse kompliceret matematik, søge på nettet og meget mere.

ChatGPT Plus giver også adgang til Code Interpreter, som giver ChatGPT evnen til at modtage filer, skrive og køre kode, udføre opgaver som beregninger og data visualisering. 

Gratis Adgang via Edge-browser, samt app til Android og iOS 

Microsoft’s Bing Chat er baseret på OpenAI’s GPT-4 model. Bing Chat giver en ekstra brugervenlighed i form af tre forskellige samtale-stile.

Man kan vælge om Bing Chat skal svare mere kreativt, mere balanceret eller mere præcist.

Med Bing Chat kan man også uploade et billede.

Udover chatbotten, kan Bing Chat også skrive meddelelser for en ved at

  • beskrive formålet,
  • vælge tone (professionel, afslappet, entusiastisk etc.),
  • format (afsnit, mail, blogindlæg eller idéer) og længde (kort, mellem eller lang).

Når Bing Chat har genereret meddelelsen, vil den forslå nogle ændringer, som man kan vælge imellem. Det kunne fx være at ændre overskriften, tilføje flere detaljer, gøre det kortere etc.

Tilsvarende vil Bing Chat også komme med forslag til, hvordan man kan fortsætte en samtale med chatbotten.

Modsat ChatGPT har Bing Chat adgang til internettet via Bing søgninger. Det giver også Bing Chat mulighed for at oplyser kilder i sine svar. 

Gratis beta-adgang via alle browser 

Bard er Google’s rival til ChatGPT og er baseret på deres egen LaMDA model (137 milliarder parametre), men overgår til deres større model PaLM (540 milliarder parametre).

Bard blev gjort tilgængelig som betaversion i USA d. 15. marts og i EU d. 11. august, og er endnu i betafasen. Google har valgt at give mulighed for at vælge mellem forskellige kladder eller svar, som Bard kunne komme med.

Det er også muligt at få læst svar op med et enkelt klik. I samme stil som Bing Chat, har Bard adgang til internettet via Google søgninger.  

Hvordan klarer de tre chatbots forskellige opgaver 

For at teste hvad de tre chatbots kan, har de hver især f��et de samme prompts, for at se hvordan de løser de samme opgaver. 

Opsummering af artikel 

Lad os først se hvordan de hver især kan hjælpe med at læse artikler. Jeg har valgt en nyhed fra august 2023 om, at Pelle Dragsted overtager rollen som politisk ordfører i Enhedslisten.

Jeg gav derfor hver af de tre chatbotter den samme artikel og bad dem opsummere indholdet. 

Bard lagde ud med to korte sætninger om, at Dragsted overtager rollen og hvem han overtager rollen fra Mai Villadsen. Det er lige kort nok, men ganske rigtigt.

Desværre fortalte Bard også, at Villadsen har været politisk ordfører siden 2019, og det er forkert: Villadsen har siddet i Folketinget siden 2019, men blev først politisk ordfører i 2021.

Bard giver muligheden for at vælge mellem forskellige svar (kladder), og de to andre var heldigvis mere omfattende end den første.

Med flere sætninger medfølger desværre også flere faktuelle fejl. Det er vigtigt at huske, at formålet med disse modeller er at genere et svar, og det vil de gøre uanset om de har den nødvendige information eller ej.

Når modellerne kommer med forkerte svar, kaldes det hallucination. Det er ikke helt korrekt at sige, at de lyver, fordi de ikke er klar over, at det de genererer, er forkert. 

Bing klarer sig markant bedre, og beskriver fint indholdet i artiklen. Bing kildehenviser også og  foreslår links for at få mere at vide om emnet. 

Med ChatGPT var det nødvendigt at teste ved hjælp af plugins. Årsagen er, at ChatGPT ikke har adgang til internettet medmindre den får støtte af fx plugins. I dette tilfælde brugte jeg pluginnet WebPilot.

Med ChatGPT 3.5 (gratis) blev svaret opdigtet udfra URL’en (linket) og eksisterende viden modellen har fået som følge af dens træning.

Det betød faktuelle fejl som fx, at Dragsted overtager rollen efter Johanne Schmidt-Nielsen (hun har ikke været politisk ordfører siden 2016).

ChatGPT 4 (betalt) med WebPilot pluginnet gav til gengæld et langt bedre resultat. Her lignede svaret det vi fik fra Bing, men ChatGPT supplerede sit svar med tre tankevækkende spørgsmål.

Det er relevante spørgsmål, som imponerende nok, i større eller mindre grad, blev stillet af journalisten Søren Lippert i TV2 magasinet Lippert efterfølgende. 

Matematik og logik 

Nu har vi set på kreativitet og præcision, men hvad med matematiske regler og logik.

Jeg præsenterede de tre chatbotter for først en simple udregning og efterfølgende en logisk gåde.

Udregningen jeg valgte var -1 * -1 * -1. Det korrekte resultat er -1, men det var ikke alle chatbotter der kom frem til dette.

Bard og ChatGPT 3.5 kom frem til at resultatet måtte være 1.

Bing kom frem til det korrekte resultat, og det gjorde ChatGPT 4 også med hjælp fra pluginnet Wolfram

For at teste de logiske evner gav jeg dem hver følgende gåde: 

Michael er en 31-årig mand fra Amerika. Han er på det virkelig berømte museum i Frankrig og ser på dets mest berømte maleri. Men kunstneren, der lavede dette maleri, får Michael bare til at tænke på sin yndlingstegneseriefigur fra hans barndom. Hvad var oprindelseslandet for den ting, som tegneseriefiguren normalt holder i hånden? 

 

Denne gåde udmærker sig ved, at svaret ikke direkte har noget at gøre med indholdet i gåden.
Det kræver altså både en bred viden og en abstrakt tankeproces at løse den.

Hverken Bard, Bing og ChatGPT 3.5 kunne løse gåden.

Bard kom frem til hvilket maleri der er tale om og hvem der har malet det. Leonardo da Vinci var italiensk, så (noget stereotypt) gættede Bard på pizza, pasta eller en vespa.

Bing  og ChatGPT 3.5 opgav begge på forhånd og efterspurgte hjælp for at kunne løse gåden.

ChatGPT 4 derimod kunne identificere nøgleoplysninger i gåden og kom frem til at svaret på gåden måtte være, at

  • Det mest berømte museum i Frankrig er Louvre.
  • Det mest berømte billede i Louvre er Mona Lisa, malet af Leonardo da Vinci.
  • Leonardo er også navnet på Teenage Mutant Ninja Turtle tegneseriefigur.
  • Leonardos våben er en ninjago, som er et traditionelt japansk våben.
  • Så det korrekte svar er Japan

Simpel forklaring 

For at teste evnen til at korrigerer sprog og forklaringsevne efter en given målgruppe, bad jeg dem forklarer den danske flexicurity model til et barn.

Flexicurity er et relativt kompliceret emne der indbefatter historie, makroøkonomi, samfund, arbejdsmarked etc. Alt sammen noget et barn sjældent har et tilstrækkeligt fundament for at kunne forstå.

Bard formåede at beskrive nogenlunde simpelt og kortfattet, men, efter min vurdering, langt fra egnet til at barn.

Bing beskrev kort og simpelt og brugte en trampolin-metafor for at imødekomme barnet.

ChatGPT 3.5 gav et længere svar og gik i detaljer med relevante begreber. Alt sammen uden at gå på kompromis med målgruppen, ved at opbygge en eventyrlig fortælling omkring beskrivelsen. 

Billedanalyse og databehandling

Her kan Bard ikke være med. Men både ChatGPT og Bing giver mulighed for at uploade filer, dog med hver deres begrænsning. 

Bing kan kun modtage billeder.

ChatGPT kan modtage en lang række filtyper, men kun hvis man har den betalte version.

Jeg har først testet deres evner til at analysere billeder og efterfølgende deres evne til at analysere data.

ChatGPT 4 og og Bing bruger den samme model (OpenAI’s GPT-4), som er multimodal og derfor kan genkende indhold på billeder.

Det er derfor lidt sært, at ChatGPT ikke kunne give mig et svar på hvilken race min hund er da jeg gav den et billede af den.

I stedet svarede den: ”Desværre har jeg ikke evnen til direkte billedgenkendelse…”.

Bing derimod kunne genkende en hund på billedet og fortælle mig, at det er en Golden Retriever. Jeg testede med flere forskellige billeder, og i de fleste tilfælde kunne Bing genkende racen, men en enkelt gang var dens bud Chihuahua.

Ser vi derimod på andre filtyper, som fx en Excel-fil med data, så kan Bing ikke være mere længere.

Det er ikke muligt at uploade sådan en filtype i hverken Bing eller Bard.

Det kan man derimod til ChatGPT hvis man vælger Advanced Data Analysis.

For at teste dens evner til at analysere data, gav jeg den resultaterne fra en survey vedrørende CA’s AI Update, en nyhedsmail om AI.

Det er 100% anonyme data, men hvis ikke dette havde været tilfældet ville jeg have anonymiseret filen først.

Jeg uploadede Excel-filen og bad ChatGPT om at lave grafer der demonstrer filens data.

ChatGPT forklarer og viser sit arbejde løbende, hvilket du kan se her i dens chat med mig.

  • Det første den viste var et kort Python script til at indlæse data fra Excel-filen.
  • Så fik jeg forevist resultatet i form af et overblik,
  • samt tre forslag til hvilke aspekter der kunne være mest interessante at se på.

Jeg valgte to af de tre, og ChatGPT generede to grafer med tilhørende beskrivelser, hvor I kan se den ene her:

Programmering 

Som en sidste test bad jeg de tre chatbotter skrive et simpelt Python script til mig.

Jeg ville have at scriptet skulle fungere som en normal terning, og have en simpel GUI (graphical user interface) i form af et vindue med en knap og resultatet af terningkastet. 

Alle tre skrev hurtigt et kort script på 20-30 linjer.

ChatGPT lavede en god beskrivelse af hvordan scriptet fungerer og hvad jeg skulle være opmærksom på.

Bing fortalte hvordan jeg kunne køre scriptet, men kom ikke med en beskrivelse. Bing havde til gengæld tilføjet beskrivende kommentarer direkte i scriptets kode.

Både ChatGPT og Bings terningkast script fungerede som ønsket med et lille vindue med en knap.

Bards svar havde en beskrivelse af scriptet ligesom ChatGPT og havde ligesom Bing også inkluderet beskrivende kommentarer direkte ind i koden.

Desværre fungerede scriptet ikke.

Jeg fik et korrekt vindue frem, men der kom intet resultat når jeg klikkede på knappen ’Kast’.

Jeg kan ikke udelukke, at der måske er en nem løsning på dette, men da jeg ikke er programmør, er Bards umiddelbare svar desværre ikke brugervenligt nok i denne test. 

Konklusion 

Det er svært at sige hvilken chatbot der er den bedste. De udmærker sig på forskellige måder.

Det er lidt nemmere at sige hvilken af de tre, der ikke er den bedste.

I min optik, efter at have afprøvet den og testet på forskellige måder, er Google’s Bard stadig underlegen i forhold til Bing og ChatGPT.

Det er dog vigtigt at pointere, at Bard er den nyeste af de tre og endnu er i beta. Det kan slet ikke udelukkes, at Google formår at komme op på siden af konkurrenterne eller måske overhale dem. 

Både ChatGPT og Bing er effektive værktøjer.

En klar fordel ved Bing er, at den er gratis og kan tilgå internettet via Bing søgninger.

Jeg vil derfor give Bing fordelen, så længe man ikke ønsker at have penge op af lommen.

Ønsker man derimod at have adgang til den til dato mest avancerede model der kan modtage datafiler og analyserer dem, og ikke har noget imod at betale de 25 USD det koster, så får man med ChatGPT-4 en AI-schweizerkniv uden lige. 

Få nyheder om AI

Tilmeld dig CA's nyhedsbrev om AI og modtag inspirationen direkte i din mailboks.

Tilmeld dig her