Subject: Re: Re: leken-oogst middeleeuwse woorden
Beste transcribent,
de annotatie op woordniveau (dwz, niet de regeltranscriptie)
zal voor U nog opvallende bijzonderheden vertonen. Immers,
de klassen die worden vastgelegd hebben een uniek 'label'.
Indien 'ende' (voluit) en 'en@' (met krul) beide als 'ende'
zouden worden gelabeld haalt dit het herkenningspercentage
omlaag: immers, twee vormen worden nu in dezelfde bak van
woordvormen gegooid. Tabel 1. maakt duidelijk hoe
Monk tegen woordbeelden, woordcodes en tekstweergave
aankijkt:
Tabel 1. Monk maakt onderscheid tussen woordbeeld, woordcode en woordtekst
Beeld (Image) | Code | Text |
[woordvormklasse] ↔ |
[uniek Monk woordlabel] ↔ |
[voorkeursweergave bij gebruikers] |
|
@ende_en |
ende |
Hiervoor is een oplossing: bijzondere codes worden voorafgegaan
door '@'. Zo zal 2 1/2 als @2_en_een_half kunnen worden geannoteerd,
als de vrijwilligers dit met elkaar afspreken of elkaar hierin
navolgen. De bijzondere diacritische vorm voor 1/2 (die ik op mijn systeem
nog niet zo gemakkelijk kan invoeren) is nog steeds geen standaard.
De codes zullen verschillen tussen Apple, Microsoft, Linux,
tekstverwerkers en de verschillende internet browsers. Daarom staat Monk toe
dat annotatoren een eigen systematiek ontwikkelen, volledig met
ASCII codes die zeker nog honderd jaar te ontleden zijn, in tegenstelling
tot de huidige coderingen UTF, Unicode etc. die nog steeds in ontwikkeling zijn.
Zolang @35_en_een_kwart maar uniek is, is het altijd te herleiden
tot interne binaire codering in Unicode, UTF, iso_latin, of TEI (etc. etc.).
Voor zeer veel vormen die we in het materiaal tegenkomen is ook
gewoonweg nog geen internationaal aanvaardde code. Daarom stelt Monk
(dwz. de gemeenschap van Monk transcribenten) zijn eigen standaard.
Zo zie ik ook dat U al een hedendaagse vertaling doet van de
hoofdletters in eigennamen en plaatsnamen. Voor de regeltranscriptie
is dit geen probleem (deze is vooral voor menselijk gebruik).
Voor de woord-labeling is dit echter een probleem! als de hoofdletter
er niet staat, zal het in de toekomst niet mogelijk zijn om
woordvorm-modellen met hoofdletters uit de collectie af te scheiden
van woord-vorm-modellen (afbeelding) zonder de hoofdletter.
Op woordvorm-niveau (en dat is waarin Monk 'denkt'), is er een
groot verschil tussen de afbeelding voor [jansen] en [Jansen]. In principe
tikt men wat er staat, niet wat men denkt dat er staat of wat men
als norm vermoedt. Ook in de Scheepsjournalen blijkt dat de kapiteins,
heel onhanding, eigennamen niet met hoofdletters schrijven.
[dit probleem is later opgelost met het scherm: woordvormcodificatie]
Een vergelijkbaar probleem is de contractie Derich soin ==> Derichsoin.
Ook dit is voor de herkenner op woordniveau een groot probleem.
De contractie zal op basis van regels uit het domein moeten gebeuren
als naverwerking (post processing). Als er een grote spatie staat
is Derich_soin een beter label dan 'Derichsoin', en
het is geen probleem om de afzonderlijke Derich
en soin te splitsen t.b.v. een nette transcriptie.
In de toekomst kan Monk proberen de combinatie te splitsen, in het beeld.
Wij hebben inmiddels veel ervaring met de verschillende invalshoeken van labeling/annotatie.
Bij een bijeenkomst van archivarissen bleek dat men het begreep
toen ik zei: al labelen jullie een woordklasse met de code 'XJ765', wanneer
je dit maar consistent doet kan Monk de weergave van een woord op scherm of printer
altijd weer laten construeren op basis van de weergaveregels voor 'XJ765'.
Een dergelijke omvorming van een code naar een specifieke tekstweergave is huis- tuin-
en keuken-informatica, dit i.t.t. de patroonherkenning- en beeldbewerkingsmethoden
van Monk. De woordvormcodificatie laat toe om de weergave van de code met een
andere tekst te realiseren.
De twee disciplines, patroonherkenning en geschiedkundigen kijken op een verschillende manier naar dit materiaal:
voor patroonherkenningsonderzoek zijn de pixels, de krulletjes en de witte ruimtes van belang.
Voor geschiedkundigen is het meestal van belang om naar de inhoud te gaan, onvolkomenheden
weg te werken en zorgvuldig de diacritica uit te zoeken.
Naarmate er meer bekend is over een collectie groeit de systematiek in beide werelden
wat naar elkaar toe, hebben gemerkt in de samenwerking met archieven en transcribenten.
De belangen van de paleografen liggen op een aantal punten dichter bij de belangen van
de patroonherkenners: beide partijen gaat het om de vormdetails.
Vriendelijke groeten,
Lambert Schomaker