21 februari 2025
Analogisch redeneren is het vermogen om een vergelijking te trekken tussen twee verschillende dingen op basis van hun overeenkomsten in bepaalde aspecten. Het is een van de meest voorkomende methoden waarmee mensen proberen de wereld te begrijpen en beslissingen te nemen. Een voorbeeld van analoog redeneren: een kopje is tot koffie wat soep is tot ??? (het antwoord is: kom).
Grote taalmodellen zoals GPT-4 presteren goed op allerlei tests, waaronder die waarbij analoog redeneren belangrijk is. Maar kunnen deze AI-modellen écht redeneren, of herkennen ze simpelweg patronen uit hun trainingsdata? Zijn ze net zo flexibel en robuust als mensen bij het maken van analogieën?
Taal- en AI-experts Martha Lewis (Institute for Logic, Language and Computation aan de Universiteit van Amsterdam) en Melanie Mitchell (Santa Fe Institute) zochten antwoord op deze vragen. ‘Dat is belangrijk, omdat AI steeds vaker wordt ingezet voor besluitvorming en probleemoplossing in de echte wereld’, stelt Lewis.
Lewis en Mitchell vergeleken de prestaties van mensen en GPT-modellen op drie verschillende soorten analogieproblemen:
Een systeem dat analogieën echt begrijpt, zou zelfs bij deze variaties hoog moeten presteren
Daarbij testten ze niet alleen of GPT-modellen het originele probleem konden oplossen, maar ook hoe goed ze presteerden als de problemen op subtiele manieren werden aangepast. ‘Een systeem dat analogieën echt begrijpt, zou zelfs bij deze variaties hoog moeten presteren’, stellen de auteurs in hun artikel.
Mensen bleven goed presteren op aangepaste versies van de problemen, terwijl GPT-modellen wel goed presteerden op standaardanalogieproblemen, maar moeite hadden met kleine variaties. ‘Dit betekent dat AI-modellen vaak minder flexibel redeneren dan mensen, en dat het redeneren minder gaat over echt abstract begrip en meer over patroonherkenning', legt Lewis uit.
Bij cijfermatrices lieten GPT-modellen een sterke daling in prestaties zien wanneer de positie van het ontbrekende getal veranderde. Mensen hadden hier geen moeite mee. In verhaalanalogieën had GPT-4 de neiging om het eerste gegeven antwoord vaker als correct te selecteren, terwijl mensen niet werden beïnvloed door de volgorde van antwoorden. Bovendien waren GPT-modellen gevoeliger voor kleine wijzigingen in formulering dan mensen.
Bij eenvoudigere analogietaken presteerden GPT-modellen beduidend minder bij variaties, terwijl mensen consistent bleven. Bij complexere analoge redeneertaken hadden echter zowel mensen als AI moeite.
Hoewel AI-modellen indrukwekkende prestaties laten zien, betekent dit niet dat ze écht begrijpen wat ze doen concluderen Lewis en Mitchell. ‘Ons onderzoek toont aan dat GPT-modellen vaak afhangen van oppervlakkige patronen in plaats van diep inzicht. Dit is een waarschuwing voor het gebruik van AI bij belangrijke beslissingen, zoals in het onderwijs, de rechtspraak of de gezondheidszorg. AI kan een krachtig hulpmiddel zijn, maar het is nog geen vervanging voor menselijk denken en redeneren.’
Martha Lewis and Melanie Mitchell, 2025, ‘Evaluating the Robustness of Analogical Reasoning in Large Language Models’, In: Transactions on Machine Learning Research.