WP2: Techniek
Werkpakket 2 richt zich op de algemene en overkoepelende technologie zoals authenticatie en datasynchronisatie en op onderliggende tools zoals een containerplatform.
WP2 Technologische resources
We ontwikkelen technische tools die niet rechtstreeks door onderzoekers gebruikt worden, maar in plaats daarvan het bouwen van robuuste software vergemakkelijken, zoals:
- Een hosting platform op basis van kubernetes
- Een SQL Backend as a Service
- Een uitwisselingsprotocol voor RDF data met versiebeheer
- Een oplossing voor het verzamelen van technisch (log) data en gebruiksdata
- Een authenticatie omgeving op basis van SAML en OIDC
- Een systeem voor het automatisch archiveren van resultaten zoals die door de software op het platform wordt gegenereerd en voor het later weer hydrateren van archiefdata zodat er verder mee gewerkt kan worden
We ontwikkelen ook een aantal componenten die wel direct door onderzoekers gebruikt kunnen worden, maar die zich niet tot een specifiek veld beperken, zoals:
- Een pipeline om afbeeldingen met tekst te interpreteren en om te zetten naar een voor de computer verwerkbaar formaat (OCR / HTR op basis van Transkribus)
- Een tool om de gemeenschappelijke records in de wat grote datasets (10.000 - 1.000.000 records) kan vinden. Waarbij gemeenschappelijk niet per se een exacte overlap hoeft te zijn, maar waarbij rekening wordt gehouden met spellingvariaties of andere vormen van vieze data.
- Tooling voor het aanmaken en verwerken van annotaties op basis van het Web annotation format.
Daarnaast stimuleert WP2 het implementeren van bestaande standaarden binnen de CLARIAH werkpakketten.