Waarom GPT niet kan denken zoals wij

21 februari 2025

Kunstmatige intelligentie (AI) wordt steeds beter in het oplossen van complexe problemen, maar hoe goed begrijpt een AI-model eigenlijk de logica achter zijn antwoorden? Nieuw onderzoek testte de ‘analogievaardigheden’ van GPT-modellen—oftewel hun vermogen om patronen en verbanden te herkennen en toe te passen op nieuwe situaties. GPT-modellen schieten tekort als de problemen worden aangepast, wat belangrijke zwakheden in hun redeneercapaciteiten blootlegt.

Analogisch redeneren is het vermogen om een vergelijking te trekken tussen twee verschillende dingen op basis van hun overeenkomsten in bepaalde aspecten. Het is een van de meest voorkomende methoden waarmee mensen proberen de wereld te begrijpen en beslissingen te nemen. Een voorbeeld van analoog redeneren: een kopje is tot koffie wat soep is tot ??? (het antwoord is: kom).

Kunnen AI-modellen echt redeneren?

Grote taalmodellen zoals GPT-4 presteren goed op allerlei tests, waaronder die waarbij analoog redeneren belangrijk is. Maar kunnen deze AI-modellen écht redeneren, of herkennen ze simpelweg patronen uit hun trainingsdata? Zijn ze net zo flexibel en robuust als mensen bij het maken van analogieën?

Taal- en AI-experts Martha Lewis (Institute for Logic, Language and Computation aan de Universiteit van Amsterdam) en Melanie Mitchell (Santa Fe Institute) zochten antwoord op deze vragen. ‘Dat is belangrijk, omdat AI steeds vaker wordt ingezet voor besluitvorming en probleemoplossing in de echte wereld’, stelt Lewis.

AI versus mensen

Lewis en Mitchell vergeleken de prestaties van mensen en GPT-modellen op drie verschillende soorten analogieproblemen:

Letterreeksen – patronen in letters herkennen en correct aanvullen.
Cijfermatrices – getallenreeksen analyseren en het ontbrekende getal invullen.
Verhaal-analogieën – begrijpen welke van twee verhalen het best overeenkomt met een gegeven voorbeeldverhaal.

Een systeem dat analogieën echt begrijpt, zou zelfs bij deze variaties hoog moeten presteren

Daarbij testten ze niet alleen of GPT-modellen het originele probleem konden oplossen, maar ook hoe goed ze presteerden als de problemen op subtiele manieren werden aangepast. ‘Een systeem dat analogieën echt begrijpt, zou zelfs bij deze variaties hoog moeten presteren’, stellen de auteurs in hun artikel.

GPT worstelt met variaties

Mensen bleven goed presteren op aangepaste versies van de problemen, terwijl GPT-modellen wel goed presteerden op standaardanalogieproblemen, maar moeite hadden met kleine variaties. ‘Dit betekent dat AI-modellen vaak minder flexibel redeneren dan mensen, en dat het redeneren minder gaat over echt abstract begrip en meer over patroonherkenning', legt Lewis uit.

Bij cijfermatrices lieten GPT-modellen een sterke daling in prestaties zien wanneer de positie van het ontbrekende getal veranderde. Mensen hadden hier geen moeite mee. In verhaalanalogieën had GPT-4 de neiging om het eerste gegeven antwoord vaker als correct te selecteren, terwijl mensen niet werden beïnvloed door de volgorde van antwoorden. Bovendien waren GPT-modellen gevoeliger voor kleine wijzigingen in formulering dan mensen.

Bij eenvoudigere analogietaken presteerden GPT-modellen beduidend minder bij variaties, terwijl mensen consistent bleven. Bij complexere analoge redeneertaken hadden echter zowel mensen als AI moeite.

Zwakker dan menselijke cognitie

Hoewel AI-modellen indrukwekkende prestaties laten zien, betekent dit niet dat ze écht begrijpen wat ze doen concluderen Lewis en Mitchell. ‘Ons onderzoek toont aan dat GPT-modellen vaak afhangen van oppervlakkige patronen in plaats van diep inzicht. Dit is een waarschuwing voor het gebruik van AI bij belangrijke beslissingen, zoals in het onderwijs, de rechtspraak of de gezondheidszorg. AI kan een krachtig hulpmiddel zijn, maar het is nog geen vervanging voor menselijk denken en redeneren.’

Details artikel

Martha Lewis and Melanie Mitchell, 2025, ‘Evaluating the Robustness of Analogical Reasoning in Large Language Models’, In: Transactions on Machine Learning Research.