21 september 2021
Bhattacharya wordt begeleid door Edo Roos Lindgreen en mede-onderzoeker Ana Micovic assisteert hem. In zijn onderzoek gebruikt hij 10-K-rapporten. Dit zijn rapporten die publiekelijk verhandelde Amerikaanse bedrijven ieder jaar verplicht moeten uitbrengen. Anders dan de traditionele manier van fraudedetectie, die vooral uitgaat van kwantitatief onderzoek, gebruikt de ABS-onderzoeker een machine learning-model om de diepere betekenis van teksten te achterhalen aan de hand van contextuele informatie.
'Boekhoudfraude is een wijdverbreid probleem dat grote schade aanricht in economische markten', vertelt de onderzoeker. 'Bekende voorbeelden daarvan zijn het Enron-schandaal in 2001 en het WorldCom-schandaal in 2002. Onderzoekers lichten bedrijven waarvan zij vermoeden dat er iets mee aan de hand is grondig door. Het bepalen op welke bedrijven zij hun inspanningen moeten richten is daarbij wel een uitdaging. Er zijn duizenden publiekelijk verhandelde bedrijven, terwijl er ieder jaar bij misschien 10 bedrijven iets ernstigs aan de hand is. Welke onderzoek je dan? Om daar een goed antwoord op te vinden, werken wij aan een AI-model dat beter moet presteren dan andere huidige benchmark-modellen uit de economische literatuur.'
Bhattacharya, die de Indiase nationaliteit heeft, werkte hiervoor als data scientist voor Razorthink en als risk analyst voor McKinsey. 'Een van de redenen om naar de Amsterdam Business School te komen is dat ik meer vrijheid zocht om onderzoek te doen, voornamelijk naar machine learning-algoritmes en de toepassing ervan voor audits bij bedrijven. In de accountancywereld zijn talloze uitdagingen waar machine learning uitkomst biedt, waaronder fraudedetectie.'
Aanwijzingen voor boekhoudsignalen zijn (uiteraard) te vinden in financiële cijfers, maar er zijn ook signalen te vinden in zakelijke teksten. 'Frauderende managers zijn sneller geneigd bepaalde bewoordingen te gebruiken, waarbij de context waarin zij schrijven ook een rol speelt.' Hoe dit werkt, illustreert Bhattacharya aan de hand van een voorbeeld: 'Stel dat je regelmatig mailt met 2 collega's, maar op een dag zie je een tekst waarvan je niet direct weet van wie deze afkomstig is: collega A of collega B? In zo'n geval kun je aan de schrijfstijl waarschijnlijk toch herkennen wie het geschreven heeft. Je hersenen werken nu eenmaal zo.'
In zijn onderzoek maakt de PhD-student gebruik van Natural Language Processing. Dit is een vorm van machine learning waarbij computers tekst en gesproken woorden herkennen op eenzelfde manier als mensen. Bhattacharya gebruikt het BERT NLP-model dat oorspronkelijk is ontwikkeld door Google AI. 'Het begrijpt Engels en is in staat de context van teksten snel te leren. Het is getraind op miljarden teksten. Aan de hand van bijvoorbeeld een tekst over het reserveren van fondsen, kan het voorspellen wat de meest waarschijnlijke volgende regels zullen zijn. Wij trainen het model verder op specifieke 10-K-teksten om fraude te herkennen.'
Een van de nadelen van modellen zoals BERT is dat ze erg zwaar zijn. 'Wanneer je zo'n model traint op een nieuwe dataset, ben je miljoenen parameters aan het optimaliseren. Je hebt dus veel computerkracht nodig. Gelukkig geeft de UvA toegang tot de LISA-supercomputer. Maar zelfs met deze high-end apparatuur duurt het steeds 2 tot 3 dagen om de resultaten van elk experiment door te berekenen. Dat maakt het een tijdrovend onderzoek.' Behalve technische complexiteit is een ander nadeel van machine learning het gebrek aan uitlegbaarheid. 'Waarom doet een model wat het doet? Er is geen duidelijke richtlijn die aangeeft wat het model ziet en doet. In een streng gereguleerde omgeving met grote economische belangen, zoals de financiële wereld, is dat een uitdaging. We moeten dus echt laten zien dat ons model beter is dan de huidige benchmarks aan de hand van concrete resultaten.'
Bhattacharya is in ieder geval overtuigd van de meerwaarde van het model. 'We hebben gezien dat het werkt. We hebben er veel vertrouwen in dat ons werk van nut is voor auditors, aandeelhouders en controlerende instellingen bij het ontdekken en onderzoeken van frauduleuze bedrijven. We publiceren hier op den duur ook een paper over, maar het is nu nog work in progress. Uiteindelijk willen we het model op de markt brengen, maar ook daarna is er nog veel tuning en optimalisatie nodig. Tegelijkertijd is de accountancywereld nog niet echt vertrouwd met machine learning. Ik hoop dat ik daarin de komende jaren een rol kan blijven spelen, door obstakels weg te nemen en het gebruik van geavanceerde modellen te onderzoeken en aan te moedigen. Want er liggen talloze mogelijkheden op verschillende gebieden. Niet alleen fraudedetectie, maar ook bijvoorbeeld het voorspellen van omzetcijfers.'
Naast zijn onderzoek als PhD-student aan de Amsterdam Business School is Indranil Bhattacharya een Kaggle-expert die regelmatig meedoet aan codeercompetities.