Monk - Instructie - transcriptie probleemwoorden

NWO/Catch - Scratch
ALICE/University of Groningen,Nationaal Archief/Den Haag

Welkom bij de publieke Monk website voor de transcriptie van probleemwoorden: woorden waarmee de handschriftherkenner van Monk moeite had. Monk is een soort Google, maar dan voor handgeschreven woorden in afbeeldingen (scans) van historische documenten. Monk moet dit kunstje leren en heeft hierbij voorbeelden nodig. Een voorbeeld is een 'ingetikt stukje tekst behorend bij een beelduitsnede'. Om te kunnen lezen moeten er eerst voldoende voorbeelden zijn geleverd. Hierbij kun jij helpen!

Naar de woordtranscriptie-pagina

Instructie

  Voorbeeld van een scherm (niet aanklikbaar):

'Druk op de knop totdat je een handgeschreven woord duidelijk kunt lezen.
Tik dat woord in en druk op de knop .
Je mening wordt vergeleken met de mening van anderen en gebruikt om het Monk programma te trainen.

Meer details

  1. Druk op om een ander woord te zien als het huidige woord niet te lezen is, als het bestaat uit krabbels, te weinig of teveel woorden, etc.

  2. De handgeschreven regel tekst bovenaan bevat de problematische woordzone, gemarkeerd op ongeveer de juiste positie. Hierbij is de aparte beelduitsnede maatgevend voor de labeling. Voor eigennamen en plaatsnamen mag je echter een compleet woord intikken dat 1 letter links of rechts verschilt van de gekleurde markering. Zo zullen zoekende gebruikers blij zijn met een ingetikt 'Parijs' voor handgeschreven 'Parij', en een 'Rotterdam' voor 'Rotterdam k'. Ook bij andere betekenisrijke woorden is het niet erg als er dan een ongelabelde handgeschreven letter of krabbel in het woordvak staat. Druk op als het er allemaal te lelijk uitziet.

  3. Bij middeleeuwse teksten zijn er al afspr(ake)n over transcriptiestandaarden. Als je die kent, kun je ze gebruiken. Het heeft pas effect als andere vrijwilligers die interpretatie ondersteunen met hun mening.

  4. Sommige mensen verbazen zich over de rare woordinterpretaties die al ingevuld staan. Dit kan een mening van Monk zijn, of een mening van een andere vrijwilliger. Aan de middeleeuwse tekstvoorbeelden uit de Leuvense Schepenbank (1421) kun je zien dat het ook voor mensen behoorlijk lastig is om oud handschrift te lezen. Zo weet je hoe Monk 'zich voelt'!

  5. Binnen Monk gelden eigen afspraken: De uniciteit van het woordlabel staat voorop. De tekstuele weergave kan nl. altijd worden aangepast, voor zoekopdrachten bijv. In feite gaat het om woordvormcodificatie van een visueel handgeschreven patroon (Zie expert-site). Dat is een ander niveau dan dat van de tekst, zoals deze bijvoorbeeld in de regeltranscripties verschijnt. Afspraken:

    • De spatie wordt intern vervangen door '_' (underscore)
    • De dubbele punt ':' wordt een '='
    • De schuine streep '/' wordt intern vervangen door een '_SLASH_'
    • De @ aan het begint geeft aan dat je niet de letterlijke tekst gebruikt als 'label' maar een zelfgekozen redelijke benaming waarvan je verwacht dat anderen die zullen bevestigen. Bijvoorbeeld: @KAFT_LINKS, @HORIZONTALE_LIJN, of @HANDTEKENING.

  6. Als je een mening intikt die een andere vrijwilliger ook had, krijg je een smiley kado .

  7. Monk geeft je automatisch een naam bestaande uit twee latijnse 'monniksnamen', zoals 'Jacomus-Marcellus'. Dit gebeurt op basis van je ip-nummer en browserkenmerken (geen cookie, geen inloggen nodig). Als nadeel kan het gebeuren dat verschillende gebruikers op hetzelfde ip-nummer met een identieke browser dezelfde monniksnaam krijgen. Die monnik verdient dus snel punten. Als Uw internet-provider met DHCP werkt krijgt U regelmatig een ander ip-nummer, dus ook een nieuwe naam, en de telling begint dan weer bij nul.

      Voorbeeld van een scherm (niet aanklikbaar):

  8. De 'meningen' worden geturfd en in principe gelden de meeste stemmen, automatisch. Er is echter menselijke redactie op verzamellijsten om te voorkomen dat e.e.a. ontspoort.

  9. Instructie 'per knop' krijg je op de website te zien als je er met de muis op blijft hangen. Tip: doe dit op het woord Topscores en je ziet niet de top-vier maar de top-twintig van best scorende monniken.

Vragen:

  • Als ik niks geef kan ik toch 'winnen'! Ik druk alleen op [Ander woord] en verzamel zo mijn punten!
    Dat klopt voor een tijdje. Op een gegeven moment zijn echter alle meningen al aan de beurt geweest en wordt scoren voor iedereen moeilijk. Dit is alleen op te lossen door zelf ook weer nieuwe woordinterpretaties (meningen) bij te dragen. Wie geeft, zal ontvangen.

  • Hoe groot is Monk?
    Antwoord: In maart 2011 zijn er: 62 miljoen ongevalideerde woordzones; 180 duizend gevalideerde woordzones; 10 duizend meningen; over 7 duizend ongevalideerde woordzones; 26 boeken of delen van boeken; en meer dan 9 duizend pagina's. Het aantal unieke zoektermen is op dit moment 16 duizend.

  • Wat leert Monk hiervan? Welke woorden zijn nuttig?
    Monk leert op twee manieren: (a) nieuwe termen, liefst eigennamen of plaatsnamen, krijgen een plekje in de lijst van zoektermen en een eigen interne representatie van de visuele vorm. Dit noemen we verbreding. (b) De tweede manier van leren betreft de bevestiging van een bestaande term die al verwacht werd. Dit noemen we verdieping. Beide vormen van leren zijn nodig. Een woordherkenner heeft minstens vijf voorbeelden nodig om nuttig te worden.

  • Welke browsers worden ondersteund?
    De Monk trainer is een 'technische' site, geen commercieel systeem. Browser-ondersteuning in volgorde van afnemende voorkeur: Chrome, Firefox4, Firefox3, IE9, Konqueror, IE8, IE7.
Naar de woordtranscriptie-pagina

Of probeer de Monk zoekmachine


Copyright 2008,2009,2010 Lambert Schomaker