Strojno označevanje slovenskih besedil: Kako daleč smo?
Ključne besede:
slovenščina, korusno jezikoslovje, TreeTagger, Nova Beseda, lematizacija, Slovene language, corpus linguistics, lemmatizationPovzetek
Članek obravnava oblikoslovno označevanje in lematizacijo slovenskih besedil. Prvo poglavje razlaga izvedbo teh postopkov. Drugo poglavje predstavi rezultate poskusov strojnega označevanja slovenskih besedil z uporabo milijonskega že označenega učnega korpusa. Za slovenščino prilagojen strojni označevalnik TreeTagger je dosegel točnost okoli 85 % in označil ter lematiziral 100 milijonov besed slovenskega korpusa Nova Beseda.Prenosi
Objavljeno
2005-02-15
Kako citirati
LÖNNEKER, B. (2005) „Strojno označevanje slovenskih besedil: Kako daleč smo?“, Slavistična revija, 53(2), str. 193–210. Dostopno na: https://srl.si/ojs/srl/article/view/COBISS_ID-30090594 (Pridobljeno: 23 november 2024).
Številka
Rubrike
RAZPRAVE
Licenca
Slavistična revija (http://www.srl.si) is distributed under
Creative Commons, attribution 4.0 international.
Slavistična revija publishes fully open access journals, which means that all articles are available on the internet to all users immediately upon publication. Non-commercial use and distribution in any medium is permitted, provided the author and the journal are properly credited.