15 januari 2019
Computergestuurde vertaalmachines, zoals de bekende website Google Translate, worden steeds beter. Dat komt doordat de algoritmes achter deze vertaalmachines steeds geavanceerder worden. Een van de uitdagingen van de industrie die zich bezig houdt met digitaal vertalen is: welke databronnen gebruik je? Voor een goede vertaling is het nodig de vertaalmachine te trainen met betrouwbare bronnen die een relevante woordenschat bevatten. Het vertalen van bijvoorbeeld een beleidsdocument of wettekst vraagt om een heel andere woordenschat en een ander type vertaling dan bijvoorbeeld een krantenbericht.
In 2013 kreeg een project genaamd DatAptor, geleid door professor Khalil Sima’an van het UvA Institute for Logic, Language and Computation, een omvangrijke subsidie van technologiestichting STW om zich met dit probleem bezig te houden. En met succes. Onderzoeksresultaten van het DatAptor project zijn nu geïmplementeerd door TAUS, een belangrijke denktank op het gebied van machine translation. Zij bieden de nieuwe techniek nu aan onder de naam Matching Data.
Op het weblog van TAUS laat Sima’an weten: ‘Onze ultieme droom was om het volledige wereldwijde web de bron van alle gegevensselecties te maken. Maar we besloten om bescheidener te beginnen, met de zeer uitgebreide verzameling datasets van TAUS. In DatAptor hebben we geleerd dat elk domein een combinatie is van vele subdomeinen. De combinatoriek van subdomeinen in een zeer grote repository herbergt een schat aan nieuwe, nog niet aangeboorde selecties. Met een goede query zal de Matching Data-methode waarschijnlijk een geschikte selectie vinden in de TAUS repository, die aansluit bij het specifieke vakgebied.’