7 juni 2022
Eerder onderzoek van Yi He richtte zich voornamelijk op statistische vraagstukken. Vandaag de dag focust hij zich meer op datawetenschap. Hij is uiteindelijk meer een datawetenschapper dan een wiskundige, geeft hij toe. Wat in zijn ogen het voornaamste verschil is? 'Ik baseer mijn ideeën en theorieën op werkelijke situaties en gebeurtenissen. Wiskundigen doen op een veel hoger abstractieniveau onderzoek', aldus de ASE-docent.
He begint te glunderen wanneer hij vertelt over discussies die hij met collega’s voert, over datawetenschappelijke denk- en werkwijzen. 'Veel datawetenschappers gebruiken hele inzichtelijke, begrijpelijke wiskundige oplossingen om antwoorden te vormen op concrete financiële vraagstukken. Maar wanneer je goed naar die wiskundige oplossingen kijkt, zie je dat ze eigenlijk erg simpel zijn. Té simpel zelfs om een betrouwbaar antwoord mee te formuleren. Daarom stel ik die oplossingen ter discussie. Want dáár draait datawetenschap voor mij om: data op de beste manier gebruiken om vragen mee te beantwoorden. En ik ben van mening dat we daarvoor van de gebaande paden moeten treden. Ik vind het echt geweldig om daar onderzoek naar te doen.'
Hij houdt zich onder meer bezig met het ‘big data-probleem’, zoals hij het noemt. He legt uit: 'We verzamelen vaak binnen een zeer kort tijdbestek heel veel individuele data over heel veel personen. Maar de wereld van vandaag ziet er alweer anders uit dan gisteren. Doordat we die data van gisteren gebruiken om iets over vandaag of morgen te zeggen, creëren we illusies. Het zijn hele fraaie, begrijpelijke antwoorden, maar ze kloppen niet. Omdat de data die ervoor wordt gebruikt alweer is verouderd. En doordat de tools die we daarvoor gebruiken, de data niet doorgronden, maar slechts voor waarheid aannemen.'
De docent vervolgt: 'We werken heel vaak met gemiddelden, want dat is eenvoudig en overzichtelijk. Maar ieder gemiddelde heeft een kleine foutmarge. Breng je grote datasets terug tot een groot aantal gemiddelden, dan zijn de foutmarges uiteindelijk gigantisch. Gebruik je deze ‘foute’ gemiddelden weer om voorspellingen mee te doen? Dan neemt die foutmarge alleen maar verder toe. En creëren we dus nóg foutere antwoorden. Dat zijn die illusies, waar ik het eerder over had.'
Er zijn dus nieuwe werkwijzen binnen de datawetenschap nodig volgens He. 'Maar wat de beste methode is, is weer afhankelijk van je dataset en het vraagstuk.' He geeft een voorbeeld. 'Binnen de econometrie maakt men bijvoorbeeld veel gebruik van weging. Bijvoorbeeld om te bepalen wat de beste beleggingsstrategieën zijn. Aan de hand van die weging investeer je in het ene beleggingsobject meer dan in het andere. Maar die weging wordt weer gebaseerd op eerder uitgevoerde data-analyses. Die minimale – maar wel relevante – foutmarges bevatten. Waardoor weging in sommige gevallen helemaal niet de beste beleggingsstrategie oplevert. Sterker nog: in sommige gevallen blijkt het juist economisch verstandiger om in alle beleggingsobjecten evenveel te investeren!'
In andere gevallen blijkt weging wél een verstandige techniek om toe te passen. Wanneer moet je als datawetenschapper welke methode gebruiken? Daar doet He momenteel onderzoek naar.
Natuurlijk, in alle voorspellingen zitten foutmarges, erkent He. Maar in sommige gevallen werken complexere methoden beter, en in andere gevallen geldt simplicity is king. 'Welke methode pas je toe op welke dataset? Dát vraagstuk proberen we nu op te lossen.' Aan de hand van een nieuwe wiskundige theorie die He momenteel ontwikkelt. 'Het draait immers niet alleen om het "hoe", maar net zo goed om het "waarom". Snappen wáárom de ene keer complexe datamodellen de beste voorspellingen opleveren, en de ander keer niet. Daarmee besparen we onszelf veel tijd. Én illusies', concludeert de docent.