O orodju

Označevalnik CJVT je spletni vmesnik za strojno slovnično označevanje besedil v slovenščini, ki besedam na površini pripiše oblikoslovne, skladenjske in pomenske lastnosti. Tako označena besedila bistveno olajšajo nadaljnjo analizo, saj omogočajo hitrejši priklic relevantnih jezikovnih pojavov, denimo za potrebe znanstvenih raziskav, podatkovnega rudarjenja ali razvoja kompleksnejših jezikovnih tehnologij.

Spletni vmesnik temelji na označevalnem orodju CLASSLA-Stanza, ki svoje znanje o slovničnih lastnostih sodobne standardne slovenščine gradi na podlagi različnih jezikovnih virov, kot so učni korpus SUK, leksikon besednih oblik Sloleks, besedne vložitve CLARIN.SI in pravila orodij Obeliks in ReLDI. Spletni vmesnik Označevalnik CJVT je usklajen z zadnjo različico orodja CLASSLA-Stanza in vrača povsem enake rezultate, a ponuja še dodatne možnosti nastavitev in prikaza rezultatov.

Uporaba označevalnika je razmeroma preprosta: vnesemo ali naložimo besedilo, izberemo ravni označevanja, ki nas zanimajo, nato pa si po kliku na gumb Označi rezultate ogledamo ali shranimo v enem izmed štirih ponujenih načinov prikaza.

Nastavitve

Označevalnik vneseno besedilo razdeli na odstavke, povedi in pojavnice ter slednjim glede na izbrane osnovne nastavitve pripiše oznake v skladu z navedenimi označevalnimi shemami:

  • Leme: osnovne oblike besed po shemi JOS (npr. miza za obliko mize)
  • Oblikoslovno oznako: besedne vrste in druge oblikoskladenjske lastnosti po shemi JOS ali UD (npr. samostalnik ženskega spola v rodilniku ednine)
  • Skladenjske relacije: skladenjske vloge besed v povedi z vidika odvisnostne strukturne skladnje po shemi JOS ali UD (npr. osebek)
  • Udeleženske vloge: pomenske vloge besed v povedi z vidika pomenske skladnje po shemi SRL (npr. vršilec dejanja)
  • Imenske entitete: pojavljanje besede znotraj lastnih imen različnih vrst po shemi JANES (npr. osebno lastno ime)

Označevalno shemo in jezik določenih oznak lahko podrobneje spreminjamo v dodatnih nastavitvah, pri čemer se izbrane nastavitve shranijo in so vidne tudi ob naslednjem obisku. Med dodatnimi nastavitvami je tudi možnost izbire modela za nestandardno slovenščino, če želimo označiti besedila, kot so pogovorni zapisi na družbenih omrežjih.

Prikaz rezultatov

V podporo različnim vrstam uporabnikov označevalnik omogoča preklapljanje med štirimi različnimi načini prikaza rezultatov. Poleg standarda CONLL-U, kakršnega privzeto vrača tudi orodje CLASSLA-Stanza, ti vključujejo še rezultate v obliki razpredelnice, v kateri so oblikoskladenjske oznake JOS razvezane s polnimi poimenovanji atributov in vrednosti; rezultate v formatu TEI XML, ki je med pogosteje uporabljenimi standardi v slovenskem prostoru, in rezultate v obliki vizualizacije orodja Q-CAT, kakršne so lahko v pomoč zlasti pri analizi skladenjsko ali pomensko razčlenjenih povedi.

V vseh štirih načinih prikaza lahko rezultate tudi shranimo v obliki datotek .conllu, .csv, .xml oz. .png, ki jih je mogoče za nadaljnjo analizo in obdelavo neposredno uvoziti v številna druga računalniška orodja.

Natančnost označevanja

Kot pri vseh računalniških orodjih za obdelavo naravnih jezikov se lahko tudi med pripisanimi oznakami orodja CLASSLA-Stanza pojavljajo napake. Evalvacije natančnosti različice 2.1 kažejo, da orodje pri procesiranju standardne slovenščine po metriki F1 dosega natančnost približno 99 % za določanje lem in besednih vrst, 98 % za določanje vseh oblikoslovnih lastnosti, 91 % za skladenjsko razčlenjevanje, 88 % za prepoznavanje imenskih entitet in 76 % za določanje udeleženskih vlog.

Kolofon

Označevalnik

Spletni vmesnik na orodja.cjvt.si
Zbirka Orodja CJVT

Ljubljana, 2024

Delo je dostopno pod licenco Creative Commons:
Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna.

Izdelava spletnega vmesnika
Kaja Dobrovoljc
Leon Noe Jovan
Mihael Šinkec

Razvoj orodja CLASSLA-Stanza
Nikola Ljubešić
Marko Robnik Šikonja
Luka Krsnik
Kaja Dobrovoljc
Mihael Šinkec
Simon Krek

Oblikovanje vmesnika
Gašper Uršič
(Studio Kruh)

Uredniški odbor
Kaja Dobrovoljc
Špela Arhar Holdt
Jaka Čibej
Tomaž Erjavec
Polona Gantar
Nikola Ljubešić
Iztok Kosem
Simon Krek
Marko Robnik Šikonja

Izdajatelj
Center za jezikovne vire in tehnologije, Univerza v Ljubljani

Citiranje
Označevalnik CJVT, orodja.cjvt.si/oznacevalnik, dostop 21. 12. 2024.

Različice

Različica
Označevalnik CJVT 2.1

Datum izdaje posodobitve orodja: 8. 8. 2023
Datum zadnje posodobitve vmesnika: 11. 3. 2024


Različica
Označevalnik CJVT 1.2.0

Datum izdaje posodobitve orodja: 29. 6. 2022
Datum zadnje posodobitve vmesnika: 12. 7. 2022