Skip to content

Beeldverwerking

Onze grootste expertise op het gebied van beeldbewerking ligt bij het creëren van doorzoekbare full-text transcripten van zowel manuscripten als gedrukte bronnen. We hebben niet alleen ervaring in tekstherkenning, maar ook in het analyseren van visuele kenmerken van documenten. Daarmee dragen we bij aan andere onderzoekstaken, zoals het bepalen van auteurschap, het dateren en lokaliseren waar een tekst is geschreven, het identificeren van entiteiten als personen, plaatsen en data in een tekst, en het classificeren van afbeeldingen.

Bij het converteren van ingescande pagina's met getypte of geprinte tekst naar machineleesbare tekst (OCR) maken we vaak gebruik van open source-software als Tesseract, in combinatie met onze eigen op maat gemaakt pre- en postprocessing methoden. In het geval van manuscripten (HTR) maken we ook gebruik van commerciële software zoals Transkribus. Voor sommige onderzoeksprojecten is het echter belangrijk om meer controle over delen van de HTR-pijplijn te hebben, van lay-out analyse tot spellingcorrectie. Hiervoor hebben we een set open source tools ontwikkeld die onderzoekers helpen bij het automatisch classificeren en clusteren van verschillende typen documenten (zoals testamenten, contracten, brieven) op basis van hun layout en structuur, en bij het zoeken op basis van visueel vergelijkbare onderdelen van een document, zoals watermerken, briefhoofden of familiewapens.

Contact

Rutger van Koert, Lead developer for Team Images (Pure, ACM)

Verwante Onderzoeksprojecten

  • Republic (Huygens Instituut) staat voor REsolutions PUBLished In a Computational environment. Dit project heeft als doel om alle handgeschreven en geprinte resoluties van de Nederlandse Staten Generaal (1576-1796) vrij online beschikbaar te stellen als full text en pagina-afbeeldingen. Het werk aan Republic is in 2019 begonnen en zal eind 2024 worden afgerond. Voor Republic verbeterden we de lay-out-analyse voor het detecteren van tekstregels en regio's in 16e- tot en met 18e-eeuws handgeschreven en gedrukt materiaal.
  • Globalise (Huygens Instituut). Met zo'n vijfentwintig miljoen pagina's bieden de archieven van de Vereenigde Oostindische Compagnie (VOC) een unieke kijk op de interacties tussen Europese en niet-Europese spelers in Azië in de zeventiende en achttiende eeuw. Onderzoek doen op basis van deze verzameling handgeschreven documenten is echter zeer uitdagend. Globalise ontwikkelt een online infrastructuur waarin de VOC-rapporten eenvoudig toegankelijk zijn voor geavanceerde nieuwe onderzoeksmethoden. Voor Globalise voeren we HTR uit op handgeschreven materialen uit de 16e-18e eeuw, die voornamelijk afkomstig zijn van de VOC en verschillende voormalige Nederlandse Oost-Aziatische koloniën.
  • TRIADO (KNAW Humanities Cluster) Na de Tweede Wereldoorlog ondergingen ruim 300.000 Nederlanders de zogeheten bijzondere rechtspleging. Zij werden beschuldigd van samenwerking met de Duitse bezetter, verraad, NSB-lidmaatschap of het in dienst treden bij het Duitse leger. Van al deze mensen is een dossier aanwezig in het CABR. Het doel van het TRIADO-project is om de volledige CABR-collectie doorzoekbaar en toegankelijk te maken. Voor dit project voeren wij type-classificatie, OCR, named entity recognition en topic modeling uit.

Layout Analyse
Layout Analyse

Publicaties en Presentaties