Interview met ABS-onderzoeker Ujjwal Sharma
19 October 2020
‘Semantic Path-Based Learning for Review Volume Production’ kwam tot stand als interdisciplinair project. ‘In essentie hebben we geprobeerd marketingvraagstukken op te lossen met ‘free flowing data’ in de vorm van reviews op TripAdvisor’, vertelt Ujjwal Sharma. ‘Tegelijkertijd vonden we het heel interessant machine learning-technieken te gebruiken in combinatie met data waarop veel ruis zit.’
Traditioneel vertrouwen marketeers op vragenlijsten om in beeld te krijgen waarom een consument voor een bepaalde eetgelegenheid kiest. ‘Het probleem is dat het lastig is veel data te verzamelen. Op TripAdvisor.com is juist veel data beschikbaar, waaronder reviews, foto’s, informatie over de kaart, locatie, enzovoort. Wij keken naar al deze factoren en vergeleken restaurants met overeenkomende eigenschappen.’
Op basis van de gevonden verbanden was het mogelijk het aantal reviews te voorspellen. Verschillende marketingstudies wijzen uit dat dit de belangrijkste graadmeter is voor de populariteit van eetgelegenheden. Het netwerkmodel dat het resultaat is van het onderzoek is multimodaal. ‘Wat we daarmee bedoelen is dat een centrale set van core nodes - de restaurants - verbonden kan worden met verschillende relaties. Zo kunnen 2 zaken op verschillende plekken in een stad verbonden zijn doordat ze allebei Turks eten serveren.’
Uit de studie blijkt dat het effect van locatie en keuken heel belangrijk is. ‘Ook viel ons op dat de aanwezigheid van bepaalde restaurants weer andere met dezelfde eigenschappen aantrekt.’ Het verkrijgen van inzichten uit foto’s en reviewteksten bleek lastiger. ‘We zijn nog steeds bezig met het matchen van woorden in de Engelstalige reviews. We zijn alleen al 10 manieren tegengekomen waarop mensen het woord ‘atmosphere’ verkeerd schrijven. Een andere uitdaging is dat men soms praat over zaken zoals een slechte bediening, zonder dat die woorden in de tekst voorkomen.’
Het multidisciplinaire onderzoek is op verschillende manieren waardevol. ‘Voor de computerwetenschappen wilden we demonstreren dat je een multimodale grafiek kunt maken met veel verschillende nodes, op basis van noisy data. Dat is ons zeker gelukt.’ Voor marketingdoeleinden is het model een basis voor verder onderzoek. ‘De bruikbaarheid ervan in de praktijk is op dit moment nog beperkt. Maar dat verandert misschien als we ook foto’s en beelden beter leren interpreteren.’
Het begrijpen van de sfeer van een restaurant en het effect van foto’s op TripAdvisor is onderdeel van verder onderzoek door Sharma. Dit is ook onderdeel van zijn PhD-traject. ‘Dit werk is nog in volle gang, maar we weten dat mensen aannames doen over de kwaliteit van een zaak op basis van slechts een paar beelden. De uitdaging is om te definiëren wat een betere sfeer dan visueel inhoudt.’
Dat laatste is lastig, want sfeer is subjectief. ‘Neem het Nederlandse woord ‘gezellig’’, zegt de uit Delhi afkomstige wetenschapper, die sinds 4 jaar in Diemen woont. Jullie Nederlanders gebruiken het voortdurend, maar wat is nu eigenlijk gezellig? Iedereen heeft er een ander idee bij. Dat is interessant, zeker in combinatie met het visuele systeem van mensen. We letten altijd op bepaalde details en negeren andere informatie. Mijn doel is om dat onder te brengen in een model om daarmee de populariteit van een restaurant te kunnen voorspellen.’