Slovnični označevalnik slovenskih besedil
Označevalnik CJVT je spletni vmesnik za avtomatsko slovnično označevanje slovenskih besedil, ki temelji na orodju CLASSLA-Stanza.
Trenutna različica orodja CLASSLA-Stanza je 2.1.
Datum zadnje posodobitve orodja: 8. 8. 2023.
Programska koda orodja CLASSLA-Stanza je dostopna v repozitoriju Clarin.si pod licenco Creative Commons Priznanje avtorstva - Deljenje pod enakimi pogoji 4.0.
Označevalnik CJVT je spletni vmesnik za strojno slovnično označevanje besedil v slovenščini, ki besedam na površini pripiše oblikoslovne, skladenjske in pomenske lastnosti. Tako označena besedila bistveno olajšajo nadaljnjo analizo, saj omogočajo hitrejši priklic relevantnih jezikovnih pojavov, denimo za potrebe znanstvenih raziskav, podatkovnega rudarjenja ali razvoja kompleksnejših jezikovnih tehnologij.
Spletni vmesnik temelji na označevalnem orodju CLASSLA-Stanza, ki svoje znanje o slovničnih lastnostih sodobne standardne slovenščine gradi na podlagi različnih jezikovnih virov, kot so učni korpus SUK, leksikon besednih oblik Sloleks, besedne vložitve CLARIN.SI in pravila orodij Obeliks in ReLDI. Spletni vmesnik Označevalnik CJVT je usklajen z zadnjo različico orodja CLASSLA-Stanza in vrača povsem enake rezultate, a ponuja še dodatne možnosti nastavitev in prikaza rezultatov.
Uporaba označevalnika je razmeroma preprosta: vnesemo ali naložimo besedilo, izberemo ravni označevanja, ki nas zanimajo, nato pa si po kliku na gumb Označi rezultate ogledamo ali shranimo v enem izmed štirih ponujenih načinov prikaza.
Označevalnik vneseno besedilo razdeli na odstavke, povedi in pojavnice ter slednjim glede na izbrane osnovne nastavitve pripiše oznake v skladu z navedenimi označevalnimi shemami:
Označevalno shemo in jezik določenih oznak lahko podrobneje spreminjamo v dodatnih nastavitvah, pri čemer se izbrane nastavitve shranijo in so vidne tudi ob naslednjem obisku. Med dodatnimi nastavitvami je tudi možnost izbire modela za nestandardno slovenščino, če želimo označiti besedila, kot so pogovorni zapisi na družbenih omrežjih.
V podporo različnim vrstam uporabnikov označevalnik omogoča preklapljanje med štirimi različnimi načini prikaza rezultatov. Poleg standarda CONLL-U, kakršnega privzeto vrača tudi orodje CLASSLA-Stanza, ti vključujejo še rezultate v obliki razpredelnice, v kateri so oblikoskladenjske oznake JOS razvezane s polnimi poimenovanji atributov in vrednosti; rezultate v formatu TEI XML, ki je med pogosteje uporabljenimi standardi v slovenskem prostoru, in rezultate v obliki vizualizacije orodja Q-CAT, kakršne so lahko v pomoč zlasti pri analizi skladenjsko ali pomensko razčlenjenih povedi.
V vseh štirih načinih prikaza lahko rezultate tudi shranimo v obliki datotek .conllu, .csv, .xml oz. .png, ki jih je mogoče za nadaljnjo analizo in obdelavo neposredno uvoziti v številna druga računalniška orodja.
Kot pri vseh računalniških orodjih za obdelavo naravnih jezikov se lahko tudi med pripisanimi oznakami orodja CLASSLA-Stanza pojavljajo napake. Evalvacije natančnosti različice 2.1 kažejo, da orodje pri procesiranju standardne slovenščine po metriki F1 dosega natančnost približno 99 % za določanje lem in besednih vrst, 98 % za določanje vseh oblikoslovnih lastnosti, 91 % za skladenjsko razčlenjevanje, 88 % za prepoznavanje imenskih entitet in 76 % za določanje udeleženskih vlog.
Spletni vmesnik na orodja.cjvt.si
Zbirka Orodja CJVT
Ljubljana, 2024
Delo je dostopno pod licenco Creative Commons:
Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna.
Izdelava spletnega vmesnika
Kaja Dobrovoljc
Leon Noe Jovan
Mihael Šinkec
Razvoj orodja CLASSLA-Stanza
Nikola Ljubešić
Marko Robnik Šikonja
Luka Krsnik
Kaja Dobrovoljc
Mihael Šinkec
Simon Krek
Oblikovanje vmesnika
Gašper Uršič
(Studio Kruh)
Uredniški odbor
Kaja Dobrovoljc
Špela Arhar Holdt
Jaka Čibej
Tomaž Erjavec
Polona Gantar
Nikola Ljubešić
Iztok Kosem
Simon Krek
Marko Robnik Šikonja
Izdajatelj
Center za jezikovne vire in tehnologije, Univerza v Ljubljani
Citiranje
Označevalnik CJVT, orodja.cjvt.si/oznacevalnik, dostop 23. 11. 2024.
Različica
Označevalnik CJVT 2.1
Datum izdaje posodobitve orodja: 8. 8. 2023
Datum zadnje posodobitve vmesnika: 11. 3. 2024
Različica
Označevalnik CJVT 1.2.0
Datum izdaje posodobitve orodja: 29. 6. 2022
Datum zadnje posodobitve vmesnika: 12. 7. 2022