20 oktober 2020
Omdat er zoveel potentiële toepassingen zijn voor geautomatiseerd video-inzicht – bijvoorbeeld in zelfrijdende auto’s, in winkels zonder caissières of voor contentmoderatie op sociale media – werken onderzoekers over de hele wereld hard aan de optimalisatie van deze technologieën, die steeds vaker hun weg vinden naar ons dagelijks leven. Bij de UvA werken Snoek en zijn team momenteel aan diverse projecten die illustreren hoe deze technologieën in de praktijk kunnen worden gebruikt.
Bij het project ‘zorg’ van het team is het bedrijf Kepler Vision Technologies, een spin-off van de UvA, betrokken. Kepler maakt gebruik van ‘s werelds eerste lichaamstaalherkenningssoftware. De software analyseert videostreams en kan de lichaamstaal, houdingen en handelingen van een mens herkennen. Kepler gebruikt deze mogelijkheid om toepassingen te produceren voor gebruik in de ouderenzorg. De ouderenzorg is intensief voor verpleegkundigen, en goed opgeleide medewerkers zijn vaak behoorlijk overwerkt. De software van Kepler helpt door de cliënten te monitoren en vervolgens te herkennen wanneer ze zorg nodig hebben. Zo kan de Kepler Night Nurse bijvoorbeeld herkennen wanneer een cliënt problemen heeft of niet uit bed kan komen, of wanneer een cliënt zorgwekkend lang in de badkamer blijft. Het systeem kan ook onderscheid maken tussen iemand die op de grond ligt door een val en iemand die op een bank ligt om uit te rusten. Als de Night Nurse een van deze potentiële problemen waarneemt, stuurt het systeem een melding. Op deze manier kunnen de verpleegkundigen in het verzorgingshuis onnodige controlerondes vermijden. In de toekomst zal de software ook in staat zijn om te controleren of iemand genoeg eet en drinkt en of iemand het risico loopt om sociaal geïsoleerd te raken.
‘Deep machine learning’
Veel van de vooruitgang die tot nu toe op het gebied van beeldherkenning is geboekt, was gebaseerd op het zogenaamde ‘deep machine learning’. Diepe neurale netwerken, losjes geïnspireerd op het menselijk brein, leren pixels te associëren met labels, om zo te voorspellen wat er gebeurt in eerder ongeziene pixels. Toch is ook duidelijk geworden dat ‘deep learning’ de grenzen van de bruikbaarheid voor het begrijpen van video’s nadert, omdat het sterk afhankelijk is van gelabelde voorbeelden – in het ergste geval per-pixel-labeling – en van enorme hoeveelheden rekenkracht. Snoek: ‘Het probleem is dat naarmate het video-inzicht specifieker wordt, het steeds moeilijker wordt om voorbeelden te vinden om de systemen nieuwe activiteiten aan te leren. Denk aan een persoon die een fiets steelt. Dit is een veel voorkomend verschijnsel in Amsterdam, maar niet een verschijnsel dat vaak wordt gefilmd. Dus zelfs als je de mankracht had om honderden video’s te labelen en in het systeem in te voeren, zou je een probleem hebben omdat de video’s simpelweg niet bestaan.’
Veiligheid op Schiphol
Hoewel op ‘deep learning’ gebaseerde systemen kunnen leren om één oudere cliënt op één locatie te monitoren, wordt labeltoezicht dus vrijwel onmogelijk als je de activiteiten in de video’s vermenigvuldigt met duizenden mensen die allerlei activiteiten uitvoeren. De kennisbank van het systeem moet dus van een andere bron komen. Het project ‘veiligheid’ van het team, dat op Schiphol plaatsvindt, is daar een goed voorbeeld van.
In tegenstelling tot wat vaak wordt gedacht, mede door wat we in films en op tv zien, zijn de videobewakingssystemen van tegenwoordig nog steeds afhankelijk van dure, lastige en foutgevoelige handmatige inspectie. Automatisering is een uitdaging, omdat relevante activiteiten zeldzaam zijn, scènes overvol zijn en er enorme eisen aan de computer worden gesteld.
Bij ons project op Schiphol bestuderen we deze onderzoeksuitdagingen door AI-tactieken te verkennen die minder veeleisend zijn tegenover gelabelde voorbeelden. Ze kunnen bijvoorbeeld gebruik maken van spraakcommando’s in plaats van pixellabels, of leren van met computergraphics gegenereerde voorbeelden. We gaan ook nieuwe ‘high-performance computing’-architecturen bestuderen die schaalbaar zijn, die de privacy waarborgen en die zekerheid bieden qua videoverwerkingscapaciteit. Al onze onderzoeksresultaten zullen uiteindelijk worden geïntegreerd in een realtime videobewakingszoekmachine ter ondersteuning van de menselijke operators in de meldkamer op Schiphol.Professor Cees Snoek
Een derde project van het team gebruikt hele andere manieren om het systeem genoeg informatie te geven. Hun project ‘social distancing’ maakt gebruik van een multidisciplinaire aanpak om de effectiviteit van de Covid-19-maatregelen van de overheid te monitoren. Het instrument dat het team heeft ontwikkeld, combineert op unieke wijze objectieve metingen van anderhalvemetergedrag (vastgelegd met behulp van videobewaking en AI-technologieën) met mediacontent en analyse van enquêtes over sociale opvattingen over de maatregelen. Dit maakt het mogelijk om de maatregelen tegen corona dynamisch te volgen en te optimaliseren, en dat kan nuttig zijn voor beleidsmakers, volksgezondheidsambtenaren en wetenschappers die zich bezighouden met ziektesimulatie.
Snoek: ‘Ons monitoringsysteem kan zowel internationaal als in Nederland eenvoudig worden toegepast, in principe in elke openbare of semi-openbare omgeving waar bewakingscamera’s zijn geïnstalleerd. Wij denken dat dit uiterst nuttig kan zijn bij het sturen van beleidsbeslissingen van de overheid, niet alleen in de huidige pandemie, maar ook in eventuele soortgelijke noodsituaties in de toekomst.’