Voor de beste ervaring schakelt u JavaScript in en gebruikt u een moderne browser!
Je gebruikt een niet-ondersteunde browser. Deze site kan er anders uitzien dan je verwacht.
Deep learning-netwerken liggen aan de basis van veel hedendaagse AI-toepassingen, zoals beeldherkenning. Die netwerken kunnen nog flink de mist in gaan als ze een object, zoals een dier, moeten benoemen. Volgens UvA-onderzoeker Pascal Mettes kunnen wiskundige principes uit de hyperbolische geometrie helpen om de netwerken beter te laten presteren.
© P. Mettes

Dat computers zo goed zijn geworden in beeldherkenning, is grotendeels te danken aan een AI-techniek genaamd deep learning. Daardoor weet een computer behoorlijk goed een kat van een hond te onderscheiden. Maar nu beeldherkenning steeds meer toegepast gaat worden, bijvoorbeeld in zelfrijdende auto’s, worden de eisen die aan de nauwkeurigheid worden gesteld steeds hoger. Zo is het voor een zelfrijdende auto wellicht niet zo belangrijk om een kat van een hond te kunnen onderscheiden, maar wel een fatbike van een gewone fiets, vanwege het snelheidsverschil. Maar daarin laat deep learning het nog een beetje afweten, en daar ligt een fundamenteel wiskundig probleem aan ten grondslag, aldus Pascal Mettes, universitair docent bij het Video & Image Sense Lab (VIS Lab) bij het Informatica Instituut van de UvA.

Fouten in objectherkenning

‘Als een mens een foto van een lynx ziet, en die zegt: dat is een kat, dan snap je die fout, want die dieren lijken op elkaar. Maar als die zegt: dat is een olifant, dan denk je: die snapt er echt helemaal niks van, en dan vraag je diegene nooit meer iets over dieren. Je vertrouwt dan niet meer op de kennis van die persoon.’ Deep learning-algoritmes maken momenteel dezelfde fout: ze kunnen de plank finaal misslaan bij objectherkenning en dat maakt ze minder betrouwbaar. Dat komt door de manier waarop deze algoritmes objecten classificeren en de hiërarchie die ze daarin aanbrengen. Die wijkt af van de manier waarop mensen dat doen. Wij doen dat bijvoorbeeld als volgt: appelboom – fruitboom – boom – flora – levend organisme. Deep learning netwerken hebben zichzelf op een heel andere manier aangeleerd hoe ze een appelboom moeten classificeren, en die indeling is onbekend voor mensen.

Een voorbeeld van Euclidische embeddings van hiërarchieën van verschillende dieptes. Wat opvalt is dat de groene en roze punten naar elkaar groeien met meer diepte, terwijl ze juist uit elkaar moeten groeien. Door hiërarchieën in hyperbolische ruimte te plaatsen wordt het mogelijk om ze correct te embedden. ©Bachmann et al ICML 2020
Een voorbeeld van Euclidische embeddings van hiërarchieën van verschillende dieptes. Wat opvalt is dat de groene en roze punten naar elkaar groeien met meer diepte, terwijl ze juist uit elkaar moeten groeien. Door hiërarchieën in hyperbolische ruimte te plaatsen wordt het mogelijk om ze correct te embedden. ©Bachmann et al ICML 2020

Euclidische ruimte

Daar komt nog eens bij dat het netwerk is opgebouwd in een abstracte wereld die computerwetenschappers een ‘latente ruimte’ noemen. Hierin ontstaat als vanzelf een nabijheid tussen objecten die in dezelfde categorie vallen, maar er is soms ook een grote afstand tussen objecten die eigenlijk dichter bij elkaar horen, zoals een kat en een lynx. En dat heeft ermee te maken dat deze netwerken gerepresenteerd worden in een Euclidische ruimte. ‘De principes van de Euclidische ruimte leer je bij wiskunde op de middelbare school. Bijvoorbeeld dat het kortste pad tussen twee punten een rechte lijn is, en dat de som van de drie hoeken in een driehoek 180 graden is. Maar in de echte wereld gelden deze principes niet altijd. Als ik jou vraag wat de kortste afstand van hier naar New York is, dan is dat een gebogen lijn, want anders zou je door de aarde heen moeten.’ Kort gezegd: de hiërarchieën die deep learning gebruikt werken exponentieel (je begint met één hoofdcategorie en daar komen exponentieel veel subcategorieën bij), terwijl de Euclidische ruimte waarin het netwerk zich bevindt lineair groeit. ‘Dat schuurt. Je moet eigenlijk een ruimte hebben die exponentieel meegroeit.’

Hyperbolische geometrie presteert beter

Om nauwkeurigere classificaties te maken zou een hyperbolische geometrie dan ook een uitkomst kunnen zijn. Dat betekent niet dat het gehele deep learning-netwerk op zijn schop zou moeten, denkt Mettes. ‘Alleen het laatste en meest fijnmazige gedeelte, waarin je bijvoorbeeld een ondersoort benoemt, zou je hyperbolisch kunnen doen.’ In een proof-of-concept hebben Mettes en collega’s al aangetoond dat netwerken op basis van een hyperbolische geometrie beter presteren in het maken van een hiërarchische classificatie dan normale netwerken.

Mettes wil deze aangepaste netwerken in eerste instantie in het biologische domein gaan toepassen. ‘Zeker daar geldt dat er soms weinig voorbeelden zijn. Foto’s van herdershonden zijn er genoeg op internet, maar niet van een wilde tijger of een zeldzame plant. Een traditioneel deep learning-netwerk heeft dan grote moeite om zo’n object goed in te delen.’ Ook verwacht Mettes dat hyperbolische geometrie een uitkomst kan zijn in wetenschappelijk onderzoek. ‘Denk aan medicijnonderzoek of het herkennen van nieuwe moleculen in de chemie. Een algoritme zou snel kunnen achterhalen of een bepaalde combinatie van moleculen giftig is of niet.’ Niet alleen de semantiek, de benaming van een object, kan hierbij hiërarchisch zijn, maar ook het object zelf, zoals een molecuul dat uit verschillende atomen is opgebouwd. Ook taalmodellen, zoals ChatGPT, zouden beter kunnen presteren met behulp van een hyperbolische geometrie, denkt Mettes, en zouden dan ook minder fouten maken.

Het zou me heel blij maken als dit over vijf jaar is geïntegreerd in deep learning. Dat een softwareontwikkelaar in de code alleen maar hyperbolische geometrie hoeft aan te vinken, en dat het dan onder de motorkap geregeld wordt. Pascal Mettes

Breed toepasbaar

Mettes, zelf geen wiskundige maar opgeleid als informaticus, beseft dat zijn vakgebied nog erg kleinschalig is. Wereldwijd zijn er maar enkele teams bezig met het toepassen van hyperbolische geometrie op deep learning. ‘Een paar jaar geleden dacht iedereen nog: wat ben jij aan het keutelen. Maar de laatste jaren is een aantal wetenschappelijke papers verschenen waardoor het vakgebied nu wat serieuzer wordt genomen. Ook wordt steeds duidelijker dat het breed toepasbaar is, dus niet alleen op het gebied van beeldherkenning. Maar ik merk wel dat ik eraan moet blijven trekken. Zo geef ik tutorials tijdens conferenties en nodig ik buitenlandse onderzoekers uit om een tijdje gezamenlijk onderzoek te doen.’

Overigens is Mettes vooral geïnteresseerd in de toepassing van de achterliggende wiskunde voor deep learning, en niet in de fijne details van wiskundige geniën zoals Euclides en Poincaré. Net als de Nederlandse kunstenaar MC Escher, die met bijvoorbeeld Cirkel Limiet IV de hyperbolische meetkunde visualiseerde, maar de uitleg van wiskundige Coxeter niet begreep. Wat Mettes betreft is dat voor degenen die zijn aangepaste netwerken later gaan toepassen in bijvoorbeeld een biologische of chemische database ook geen vereiste. ‘Het zou me heel blij maken als dit over vijf jaar is geïntegreerd in deep learning. Dat een softwareontwikkelaar in de code alleen maar hyperbolische geometrie hoeft aan te vinken, en dat het dan onder de motorkap geregeld wordt.’

Video & Image Sense Lab (VIS Lab) van de UvA