15 maart 2021
Er is veel research gedaan met Natural Language Processing (NLP) van generieke teksten, zoals blogs en literatuur. NLP is een vorm van AI waarbij algoritmen tekst en gesproken woorden begrijpen. Voor juridische teksten zoals contracten is NLP vooralsnog niet zo geschikt omdat modellen hier simpelweg (nog) niet voor zijn geoptimaliseerd. Toch kunnen modellen hier veel betekenen. Advocaten hebben vandaag de dag nog steeds veel ouderwets ‘handwerk’ bij het doen van onderzoek voor hun zaken. Denk aan het zoeken naar relevante wetsartikelen, maar ook naar uitspraken die betrekking kunnen hebben op hun zaak.
Het onderzoek van Rossi, onder begeleiding van prof. dr. Evangelos Kanoulas (Faculty of Science, Informatics Institute) begon in 2018. Hij gebruikt het in dat jaar gelanceerde NLP-model BERT als uitgangspunt. Kenmerkend voor dit soort modellen is de ‘pre-training’ ervan met grote hoeveelheden tekstdata. Dat dit niet met juridische documenten is gebeurd, maakt ze bepaald niet kant-en-klaar voor dit doel. Het zelf van de grond af aan ontwikkelen van een model is echter geen optie. 'Om de pre-training te reproduceren, is een grote financiële capaciteit nodig. Ga maar na: Het pre-trainen van BERT heeft de makers ervan ongeveer 8.000 euro gekost. Bij GPD2 van OpenAI, een krachtiger model, was het al 250.000 euro. En bij GPD3 waarschijnlijk nog meer. Je hebt het dan over honderden miljarden parameters. Het mooie is dat je deze modellen gratis kunt gebruiken en je vervolgens na kunt denken over het verbeteren ervan. Dit gebeurt overigens niet alleen met juridische teksten, er zijn ook projecten rondom medische teksten waar we met veel interesse naar kijken.'
Krachtige NLP-modellen, zoals BERT en het door OpenAI ontwikkelde GPD3, zijn niet zomaar toe te passen in dit werk. 'Er zijn een aantal uitdagingen', legt Rossi uit. 'Zelfs als de teksten uit de datasets waarop zij zijn getraind in dezelfde taal geschreven zijn als juridische documenten, dan nog is juridische taal anders. Deze documenten bevatten lange zinnen, complexe structuren, woorden die een andere lading kunnen hebben of zelfs ergens anders niet gebruikt worden. Ook is de context waarin zinnen staan, bepalend voor de uitleg ervan.'
Rossi traint zijn model met extra juridische teksten, waaronder uitspraken van Canadese rechtbanken. Waarom geen Nederlandse? 'Engels is een taal die veel meer mensen spreken en de beschikbare datasets zijn veel groter. Voor een nieuw deel van het onderzoek gebruik ik ook een complete dataset van alle gerechtelijke beslissingen in de Verenigde Staten over een periode van enkele jaren. Het is ruw materiaal dat we moeten voorbereiden, vervolgens zoeken we naar interessante problemen die we ermee kunnen oplossen en dan kijken we hoe we dit kunnen vertalen naar een werkend product.'
De uitdagingen waar Rossi tegenaan loopt, zijn soms onverwacht. 'BERT kan bijvoorbeeld alleen teksten van maximaal 500 woorden verwerken. Maar de meeste documenten waarmee we werken hebben er minstens 5 keer zoveel. Dan moet je een tekst opknippen in delen, maar tegelijkertijd heb je wel te maken met een gezamenlijke context. Dus alle resultaten die je over 1 deel vindt, moeten wel rekening houden met de uitkomsten van de andere delen. En dan moet je ook nog realistisch zijn in wat je wilt bereiken. Elke keer wanneer je de hoeveelheid data verdubbeld, verdubbelt namelijk ook de tijd die het kost om deze te berekenen. Zelfs met toegang tot specifieke hardware is niet alles mogelijk binnen een korte periode. Sommige berekeningen kosten nu dagen, maanden of zelfs eeuwen.'
Rossi heeft zelf een achtergrond als software developer en IT-manager. Zo was hij onder meer betrokken bij de ontwikkeling van de OV-chipkaart. Nadat hij een MBA-programma over big data afrondde aan de Amsterdam Business School werd hij uitgenodigd om er les te geven en tegelijkertijd onderzoek te doen naar AI. 'Mijn doel was vanaf het begin om te werken met NLP. Bovendien vond ik het een uitdaging om te werken met juridische teksten, omdat er op dit gebied nog zoveel winst te behalen valt. We hebben onder andere samengewerkt met de Faculteit der Rechten van de UvA.Case law retrieval, het doorzoeken van documenten van relevante zaken om je eigen pleidooi te versterken, is een taak waar advocaten overal ter wereld veel tijd aan besteden. Dat is iets waar we met een model als dit veel kunnen betekenen.'