De wens om automatische spraakherkenning in te zetten om audiovisuele archieven beter doorzoekbaar te maken is niet van gisteren. Samen met archieven in Nederland werken al zo’n twintig jaar computer- en geesteswetenschappers hieraan. De recente aandacht voor ‘kunstmatige intelligentie’ (AI) heeft deze wens weer eens extra op de agenda gezet. Want naast dat spraakherkenning op zichzelf al interessant is, kan het ook als motor dienen voor andere ‘intelligente’ toepassingen. De Werelddag van de Stem is een mooie aanleiding om hieronder verslag te doen van hoe het er in Nederland voorstaat.
Nederlands audiovisueel erfgoed is een schat voor onderzoekers. De ‘stoffige’ archieven van weleer hebben de afgelopen jaren belangrijke stappen gezet naar ‘digitale depots’ om erfgoed te bewaren en beter toegankelijk te maken. Naast digitalisering en mogelijkheden om content online beschikbaar te stellen, is het kunnen zoeken in de data een belangrijke voorwaarde: er is metadata nodig om gebruikers te kunnen verwijzen naar items die ze interessant zouden kunnen vinden.
Het creëren van deze metadata was altijd de verantwoordelijkheid van archivarissen of documentalisten. Maar dit veelal handmatige proces staat onder druk door de toestroom van digitale data door digitalisering en de creatie van nieuwe, ‘digital born’ content. Daar komt bij dat gebruikers behoefte hebben aan tijd-gecodeerde metadata om ook binnen collectie-items te kunnen zoeken. Dit geldt met name in het audiovisuele domein waar je niet zomaar met ‘control-F’ door tekst kan springen, maar een item zal moeten bekijken en afluisteren om te vinden waar je naar op zoek bent. Doordat dit soort uitgebreide, beschrijvende metadata meestal maar beperkt aanwezig zijn, is de schat aan informatie in de digitale archieven ook maar beperkt toegankelijk. Sterker nog, vaak is de aanwezigheid van pareltjes volledig onbekend.