ChatGPT beheerst de media. Veel gebruikers hebben de dienst uitgeprobeerd en zijn verbaasd over de mogelijkheden. ChatGPT is geweldig in het maken van taal die leest alsof deze door een mens is geschreven.
Dit artikel geeft je geen prompts of tips voor het gebruik van ChatGPT, maar inzicht in de werking van de kunstmatige intelligentie die ChatGPT gebruikt en hoe het komt dat de teksten zo menselijk zijn geschreven. OpenAI legt een beetje uit hoe ChatGPT is getraind. In dit artikel tilt Joop Snijder (area lead Data & AI) de motorkap op en laat hij zien hoe ChatGPT werkt.

Woord voor woord voorspellen

ChatGPT werkt met prompts, dit zijn vragen of commando’s die je als gebruiker ingeeft. Deze prompts zijn het startpunt voor ChatGPT om teksten af te maken, antwoorden te geven of taken uit te voeren. Een voorbeeld van een taak is het schrijven van teksten of programmeercode.
ChatGPT heeft geen begrip van de teksten die het schrijft. Met dezelfde zekerheid schrijft het totale onzin of juist hele correcte teksten. Dit heeft te maken met de manier waarop het gemaakt is. Het model voorspelt woord voor woord de tekst. Bijvoorbeeld bij de tekst ‘De hond gaat in de mand …’, zal het waarschijnlijk het woord ‘liggen’ voorspellen. Eigenlijk voorspelt ChatGPT niet eens woord voor woord, maar token voor token. Eerst wordt de tekst in stukjes gesneden op basis van de spaties tussen de delen (dit zijn niet noodzakelijkerwijs woorden, het kunnen cijfers zijn of iets anders). Door het aan elkaar knopen van tokens kunnen lange woorden worden gemaakt.
Het unieke van ChatGPT is dat het context bewaart. Het model heeft een tijdelijk geheugen en onthoudt de gegeven antwoorden tijdens het gesprek. Om het volgende woord te voorspellen, maakt ChatGPT gebruik van dit geheugen. Als ChatGPT weet dat de hond een pup is die onzindelijk is, is het waarschijnlijker dat het volgende woord ‘plassen’ is.

De voorganger van ChatGPT

ChatGPT werkt op basis van GPT-3. Dit is de voorganger van ChatGPT en is in bèta sinds de zomer van 2020. ChatGPT is gebouwd met de kennis die is opgedaan met GPT-3. Dit model is getraind met grote hoeveelheden internettekst. De capaciteit van modellen als GPT-3 wordt uitgedrukt in het aantal parameters. Hoe meer parameters een model heeft, hoe beter het complexe patronen in data kan vinden. GPT-3 heeft 175 miljard parameters.
Over het algemeen geldt: hoe meer parameters een model heeft, hoe meer gegevens er nodig zijn om het model te trainen. Volgens de makers is het GPT-3-model getraind met ongeveer 45 TB tekstgegevens uit meerdere bronnen, waaronder Wikipedia en boeken.
Ongeveer 3% van de data waarop GPT-3 is getraind, komt van Wikipedia, zo’n 16% uit boeken en het overige is van internet opgezogen.

Menselijk klinkende antwoorden

Op veel prompts antwoordt ChatGPT verrassend menselijk. Het is soms moeilijk te zeggen of een tekst door een mens of een machine is geschreven. Ik heb meer dan een jaar ervaring met GPT-3 en heb ook teksten als code geschreven met ChatGPT als assistent. Het verbaasde me hoe menselijk de uitkomsten klonken. Dus vroeg ik me af: ‘Hoe hebben ze dat gedaan?’.
ChatGPT klinkt menselijk, omdat menselijke kennis is toegevoegd aan het model. Dat is getraind in grofweg drie stappen, waarbij veel menselijke kennis wordt gebruikt. Zo worden mensen ingezet om kenmerken toe te voegen aan gegevens of om de uitkomsten van een model te beoordelen. Deze mensen worden labelers genoemd

Training in drie stappen

OpenAI traint ChatGPT in drie stappen, waarbij ze voor de eerste stap een voorgetraind model gebruiken. In het geval van ChatGPT is dat GPT-3. Prompts worden ingegeven en mensen labelen de uitkomsten. Kort gezegd geven ze aan of de uitkomst past bij de prompt. Met deze nieuwe kennis wordt een eerste versie van het nieuwe model getraind.

In de tweede stap worden menselijke voorkeuren gesimuleerd. Uit het nieuwe model wordt een lijst van prompts geselecteerd en de labeler krijgt meerdere uitkomsten van de prompt te zien, ergens tussen de 4 en 9 voor iedere prompt. De labelers rangschikken de uitkomsten van beste naar slechtste. Zo bouw je nieuwe kennis op, waarmee een volgende versie van het model getraind kan worden.

In de derde en laatste stap wordt het model geoptimaliseerd door langdurige training. Deze laatste stap gebruikt Proximal Policy Optimization (PPO). Dit is een manier voor een computer om te leren hoe je een taak uitvoert. Net zoals een mens nieuwe dingen leert, moet de computer verschillende dingen proberen en leren van zijn fouten. PPO is een speciale manier waarmee de computer sneller en beter leert.

Zie het als het spelen van een spel waarbij je over obstakels moet springen. In het begin spring je misschien te ver of niet ver genoeg. Maar naarmate je meer speelt, word je steeds beter in het springen van precies de juiste afstand om de obstakels te overwinnen. PPO helpt de computer het spel te spelen en er sneller beter in te worden door strafpunten te geven bij fouten en een goede score bij juiste antwoorden. Hierdoor leert het model tekst te maken die grammaticaal correcter is en waarbij het een grotere verscheidenheid aan woorden gebruikt.

Human Data Team

Grammaticaal correct en een grote woordenschat laat een machine echter niet direct menselijk klinken. En dat is nu wat zo interessant is aan ChatGPT.
OpenAI heeft veel tijd en energie gestoken in het toevoegen van nieuwe kennis. Het heeft een zogenaamd Human Data Team met domeinexperts om zowel prompts als de bijbehorende uitkomsten te schrijven.
Zelf schrijven ze daarover: “Het Human Data Team richt zich op het in staat stellen van AI-trainers om de modellen van OpenAl te trainen in het oplossen van complexe problemen en zo waarde te bieden aan de mensheid. We zijn van mening dat deskundige AI-trainers de sleutel zijn om het potentieel van onze modellen te ontsluiten en net zo nauwkeurig en behulpzaam te zijn als experts. We bouwen een systeem dat gebruikmaakt van de begeleiding van experts om onze modellen te leren moeilijke vragen te begrijpen en complexe instructies uit te voeren. Dit bevordert de samenwerking tussen AI en mensen die aansluit bij onze gedeelde visie en waarden.”

“OpenAI is de eerste die het aandurfde om z’n model open te stellen aan gebruikers wereldwijd.”

OpenAI toont lef

De onderliggende technologie van ChatGPT is bedacht door een team van Google Brain in 2017 . Sinds die tijd hebben bedrijven als Meta, Microsoft en dus ook OpenAI steeds grotere modellen getraind. OpenAI is de eerste die het aandurfde om haar model open te stellen aan gebruikers wereldwijd.
Met deze lef legt OpenAI verantwoordelijkheid bij de gebruikers van ChatGPT. Sam Altman , CEO van OpenAI zegt namelijk: “ChatGPT is ongelooflijk beperkt, maar in sommige dingen goed genoeg om een misleidende indruk van grootsheid te wekken. Het is een vergissing om er op dit moment op te vertrouwen voor iets belangrijks. Het is een voorproefje van de voortgang; we hebben veel werk te doen op het gebied van robuustheid en waarheidsgetrouwheid.”
De CEO is voorzichtig en het klopt dat je uitkomsten van ChatGPT niet klakkeloos moet overnemen. Want het kan zowel het medisch examen in Amerika halen , als totale onzin uitkramen en eenvoudige berekeningen fout hebben.

Conclusie

ChatGPT klinkt natuurlijk en menselijk, omdat het getraind is op teksten geschreven door mensen en omdat mensen helpen bij het trainen en controleren van de teksten. Onder de motorkap wordt gebruikgemaakt van bekende technologie en deze wordt op een zeer grote schaal gebruikt. Ondanks dat ChatGPT niet op elk gebied correcte antwoorden geeft, biedt het kansen. Generatieve AI-tools kunnen binnen enkele seconden een breed scala aan correcte code schrijven, documenteren en testen. Kortom, iedere Info Supporter kan hiervan profiteren!