Strojno označevanje slovenskih besedil: Kako daleč smo?

Avtorji

  • Birte LÖNNEKER

Ključne besede:

slovenščina, korusno jezikoslovje, TreeTagger, Nova Beseda, lematizacija, Slovene language, corpus linguistics, lemmatization

Povzetek

Članek obravnava oblikoslovno označevanje in lematizacijo slovenskih besedil. Prvo poglavje razlaga izvedbo teh postopkov. Drugo poglavje predstavi rezultate poskusov strojnega označevanja slovenskih besedil z uporabo milijonskega že označenega učnega korpusa. Za slovenščino prilagojen strojni označevalnik TreeTagger je dosegel točnost okoli 85 % in označil ter lematiziral 100 milijonov besed slovenskega korpusa Nova Beseda.

Prenosi

Objavljeno

2005-02-15

Kako citirati

LÖNNEKER, B. (2005) „Strojno označevanje slovenskih besedil: Kako daleč smo?“, Slavistična revija, 53(2), str. 193–210. Dostopno na: https://srl.si/ojs/srl/article/view/COBISS_ID-30090594 (Pridobljeno: 20 april 2024).

Številka

Rubrike

RAZPRAVE