Skip to content

Tekstanalyse

We hebben ruime ervaring met het publiceren van verschillende typen wetenschappelijke tekstcollecties. Deze omvatten zowel literaire tekstedities, historische manuscripten, taalkundige collecties en met name ook grote collecties met teksten uit OCR of automatische handschriftherkenning. Onze gepubliceerde tekstcollecties zijn doorgaans verrijkt met beschrijvende metadata en andere soorten verrijkingen, zoals links naar gestructureerde data en diverse soorten annotaties. Daarnaast zijn onze tekst vaak gekoppeld aan de gescande afbeeldingen van de originele pagina's.

We bieden onderzoekers verschillende manieren om complexe zoekopdrachten uit te voeren - bijvoorbeeld met behulp van zoekfacetten, 'fuzzy' tekstpatronen, het vinden van semantisch gerelateerde passages of door teksten te filteren op basis van verrijkingen met gestructureerde data, zoals de personen en plaatsen die in de tekst genoemd worden. Ook bieden we de noodzakelijke kennis en software waarmee projectteams hun tekstcollecties kunnen beheren, bewerken en visualiseren, online publiceren en onderbrengen in een gecertificeerd archief om het behoud en de toegang op de lange termijn veilig te stellen.

Voor al onze projecten, die op verrijkte teksten zijn gebaseerd, proberen we ruwe tekst en verrijkingen daarop strikt te scheiden. Teksten, in alle variaties en versies, slaan we op en maken we beschikbaar in onze open source text repository. Verrijkingen vinden in de vorm van gestandardiseerde Web Annotaties een plek in onze annotatie repository. Ieder willekeurig tekstfragment in de text repository is daarbij rechtstreeks online opvraagbaar of annoteerbaar, onafhankelijk van het originele tekstformaat. Applicaties zoals een web-frontend of een editor kunnen gebruik maken van de APIs van deze twee systemen. Zo bouwen we bijvoorbeeld zelf een generieke webomgeving voor visualiseren en doorzoeken van digitale tekstedities. Maar onze APIs zijn ook rechtstreeks bruikbaar voor wie onze collectiedata rechtstreeks wil opvragen of eigen applicaties wil bouwen.

Contact

Hennie Brugman, Lead Developer voor Team Text (Research Gate, LinkedIn, Pure).

Verwante Onderzoeksprojecten

  • Nederlab (Meertens Instituut) is een online portal voor historisch onderzoek naar Nederlandse taal, literatuur en cultuur. Op de site kunnen onderzoekers miljoenen Nederlandse teksten doorzoeken, bekijken en analyseren.
  • Republic (Huygens Instituut) staat voor REsolutions PUBLished In a Computational environment. Het doel van het project is om alle handgeschreven en gedrukte resoluties van de Nederlandse Staten-Generaal (1576-1796) vrij online beschikbaar te maken als volledige teksten en pagina-afbeeldingen.
  • Globalise (Huygens Instituut). Het door NWO Groot gefinancierde project Globalise zal een online infrastructuur ontwikkelen die de sleutelreeks van VOC-verslagen (ca. 4,7M pagina's) ontsluit voor geavanceerde nieuwe onderzoeksmethoden. Het project gebruikt onze repository infrastructuur als een hub om het verzamelen, verrijken en cureren van historische tekst transcripties te synchroniseren en ontsluiten voor het team en de wereld.
  • CLARIAH Plus. We leveren diverse bijdragen aan dit infrastructuurproject, in het bijzonder met betrekking tot NLP tools en formaten (LaMachine, FoLiA) en software voor maken, publiceren en delen van annotaties op online collecties.
  • Suriano (Huygens Instituut). We passen onze software-stack toe op de briefwisseling van Christofforo Suriano. We ontwikkelen een semi-automatische workflow voor het vinden en annoteren van named entities. Het Suriano project is een voorbeeld van hoe we digitale tekstedities technisch ondersteunen en publiceren.
  • eDITem (Huygens Instituut). Het project eDITEM werkt aan innovatie van digitale tekstedities. In de meeste edities keren veel vergelijkbare onderdelen terug. Het is daarom efficiënter om generieke templates te ontwikkelen voor toekomstige edities. Huygens onderzoekers en DI werken samen aan een template-gebaseerd ecosysteem van tools voor bouwen, publiceren en gebruiken zulke digitale tekstedities.

Software en Data

  • Text Repository is een backend repository systeem om tekstcorpora met metadata en versies op te slaan en te delen.
  • LaMachine is een uniforme softwaredistributie voor Natural Language Processing. Het integreert talrijke open-source NLP-tools, programmeerbibliotheken, web-services en web-applicaties in een enkele virtuele onderzoeksomgeving die op een grote verscheidenheid aan machines kan worden geïnstalleerd.
  • analiticcl is een systeem voor spellingcorrectie, normalisatie of post-OCR-correctie.
  • TextAnnoViz is een flexibele en aanpasbare webapplicatie voor het doorzoeken en visualiseren van digitale (wetenschappelijke) tekstedities.
  • AnnoRepo is onze repository voor opslaan en aanbieden van W3C Web Annotaties. AnnoRepo houdt zich aan de W3C standaarden en biedt daarnaast nog extra zoekmogelijkheden.
  • Dexter is een web applicatie die we bouwen binnen CLARIAH Plus. Onderzoekers kunnen Dexter gebruiken om autonoom hun eigen, virtuele, onderzoekscollecties te bouwen, annoteren en delen.
  • Text-Fabric is een instrument om tekstcorpora plus (grote) hoeveelheden annotaties te verwerken. Het dient als brug tussen onderzoeker en datawetenschapper.
  • STAM is een standalone data model voor stand-off annotatie van tekst. Het stelt je in staat annotaties op teksten te beschrijven in je eigen termen. STAM schrijft geen specifiek vocabulaire voor. Het is beschikbaar samen met praktische low-level tools en biedt een fundament waarop software applicaties voor tekst-annotatie kunnen worden gebouwd.

Publicaties en Presentaties