Categorieën
INT

Begrippenlijst

Uitleg bij vaktermen die op ivdnt.org gebruikt worden.

annotatie: verrijking van tekst met extra informatie

annoteren: verrijken van tekst met extra informatie

antroponymisch: met betrekking tot persoonsnamen

applicatie: computerprogramma voor eindgebruikers

artesteksten: genre van praktische en informatieve Middelnederlandse teksten, waarin kennisoverdracht centraal staat

attestatie: bewijs (in een tekst of een spraakbestand) voor het bestaan van een woord

attestatiemateriaal: bron die gebruikt wordt om bewijzen te vinden voor het bestaan van een woord

bron(nen)materiaal: teksten die als basis dienen voor het maken van woordenboeken, corpora en lexica

complementatiepatroon: vaste set syntactische combinatiemogelijkheden bij een woord

computationeel: met behulp van een computer (gemaakt)

corpus: grote verzameling geschreven of gesproken teksten, gemaakt om een taal te bestuderen en te beschrijven

corpusapplicatie: computerprogramma waarmee in tekstverzamelingen of in één specifieke tekstverzameling kan worden gezocht

diachroon: gericht op of m.b.t. de historische ontwikkeling; niet beperkt tot één periode

entry: trefwoord; ingang in een woordenboek of lexicon

entrylijst: lijst trefwoorden; lijst ingangen in een woordenboek of lexicon

equivalent: (woord) met een gelijke betekenis

etymologie: de herkomst van een woord of, meer in het algemeen, de studie van de herkomst van woorden

etymologisch: met betrekking tot de herkomst van een woord of van woorden

geannoteerd: verrijkt met extra informatie

getranscribeerd: overgebracht van een handgeschreven of gedrukte tekst, een tekstafbeelding of een geluidsfragment naar een digitaal (tekst)bestand, bijv. door overtypen

glos(se): verklarende aantekening of vertaling van een woord tussen de regels of in de marge (van een middeleeuws handschrift)

hiërarchisch: op basis van verschillende rangen (geordend)

hoofdtrefwoord: hoofdvorm van een woord; trefwoord waaronder je de betekenis, vertaling of spelling van een woord in bijv. een woordenboek kunt opzoeken

infrastructuur: geheel van voorzieningen, bijv. een speciaal ingerichte webomgeving waardoor het mogelijk is gezamenlijk aan een project te werken

lemma: hoofdvorm van een woord; trefwoord waaronder je de betekenis, vertaling of spelling van een woord in bijv. een woordenboek kunt opzoeken

lexicografie: beschrijving van de woordenschat door het maken van o.a. woordenboeken

lexicologie: wetenschap die de woordenschat bestudeert

lexicon: gestructureerde dataset met lemma’s (hoofdvormen van woorden) en allerlei taalkundige informatie over die woorden, bijv. woordsoort, mogelijke woordvormen en uitspraak

manueel geverifieerd: handmatig gecontroleerd

metadata: extra gegevens die bij (taalkundige) data worden vermeld; ‘data over data’, bijv. datering, auteursnaam, locatie

morfeem: kleinste woordeenheid met een zelfstandige betekenis of betekenisbepalende functie

morfologie: leer van de woordvorming en woordstructuur; bestudering van de vormen, verbuigingen, vervoegingen en afleidingen van woorden

morfologisch: m.b.t. de woordvorming en woordstructuur

morfosyntactisch: m.b.t. woorddelen en hun functie in zinsverband

morfosyntaxis: leer van de woorddelen m.b.t. hun functie in zinsverband

n-gram: reeks opeenvolgende woorden in een lopende tekst, waarbij n voor het aantal woorden staat

named entities: begrippen die worden aangeduid met een eigennaam en die bijv. een persoon, plaats of organisatie vertegenwoordigen

named entity recognition: automatische herkenning van eigennamen

named entity recognizer: computerprogramma voor automatische herkenning van eigennamen

OCR: Optical Character Recogniton of optische tekenherkenning; methode om een afbeelding van tekst om te zetten in digitale, bewerkbare tekst

OCR-postcorrectie: correctie, vaak m.b.v. een slimme tool, van tekst die automatisch is gegenereerd met optische tekenherkenning

onomasiologisch: m.b.t. de verschillende woorden die er voor één begrip (concept) bestaan

paradigma: grammaticaal geheel van de vervoegde of verbogen vormen van een bepaald woord

parser: computerprogramma dat de syntactische structuur van zinnen of de morfologische structuur van woorden ontleedt

parseren: syntactisch ontleden

part of speech: woordsoort

PoS: part of speech; woordsoort

PoS-tag: digitaal label dat van een woordvorm de woordsoort aangeeft

PoS-tagging: het aanbrengen van digitale labels die per woordvorm de woordsoort aangeven

semantiek: betekenisleer; wetenschap die zich bezighoudt met de betekenis van woorden

semantisch: m.b.t. de betekenis(leer)

semasiologisch: m.b.t. de verschillende betekenissen die één woord kan hebben

synchroon: gelijktijdig; gericht op hetzelfde tijdvak, zonder te kijken naar de historische ontwikkeling

synoniem: (woord) met dezelfde betekenis

synoniemdefinitie: definitie die bestaat uit een of meer woorden met dezelfde betekenis, i.p.v. een omschrijving; bijv. rijwiel = ‘fiets’

synoniemrelatie: verband tussen woorden op grond van gelijke betekenis

syntactisch: m.b.t. de opbouw en structuur van zinsdelen en zinnen

syntaxis: (bestudering van de) opbouw en structuur van zinsdelen en zinnen; zinsleer

taalkundig verrijkt: voorzien van taalkundige informatie, zoals woordsoort en lemma, d.m.v. codes of tags

taalkundige verrijking: het toevoegen van taalkundige informatie aan (woorden in) een tekst, bijv. informatie over de woordsoort, meestal d.m.v. bepaalde codes of tags

taalmaterialen: bronnen, data en tools voor taalkundig onderzoek en taal- en spraaktechnologie, zoals tekstverzamelingen, woordenlijsten, wetenschappelijke woordenboeken, spraakcorpora en taal- en spraaktechnologische software

tag: digitaal label met taalkundige informatie

taggen: van digitale labels met taalkundige informatie (bijv. woordsoort of lemma) voorzien

tagging: het voorzien van teksten met digitale labels met taalkundige informatie (bijv. woordsoort of lemma)

terminologie: studie naar (het gebruik van) vakspecialistische woorden of woordgroepen

token: in een tekst aangetroffen combinatie van karakters die een eenheid vormen

tool: computerprogramma dat gebruikt wordt om digitale bestanden te bewerken of te analyseren

toponymisch: m.b.t. plaatsnamen en andere eigennamen van geografische eenheden

transcriberen: een handgeschreven of gedrukte tekst, een tekstafbeelding of een geluidsfragment naar een digitaal (tekst)bestand overbrengen, bijv. door overtypen

transcriptie: het overbrengen van een handgeschreven of gedrukte tekst, een tekstafbeelding of een geluidsfragment naar een digitaal (tekst)bestand, bijv. door overtypen

trefwoord: ingang (hoofdwoord) in een woordenboek

valentie-informatie: geheel van verbindingsmogelijkheden van een bepaald woord om met dat woord afleidingen en samenstellingen te vormen en om met andere woorden woordgroepen en zinnen te vormen

verrijken: van extra (taalkundige) informatie voorzien

verrijking: het digitaal voorzien van extra (taalkundige) informatie

volksetymologie: verandering van een onbegrepen woord onder invloed van vermeende etymologische verwantschap met een bekend woord

volksetymologisch: door volksetymologie tot stand gekomen

woordenboekapplicatie: online versie van een woordenboek

woordindices: registers waarin aangetroffen woorden worden opgetekend

woordsoort: soort of categorie waartoe een woord behoort, bijv. zelfstandig naamwoord, bijvoeglijk naamwoord of werkwoord