O orodju

Označevalnik CJVT je spletni vmesnik za strojno slovnično označevanje besedil v slovenščini, ki besedam na površini pripiše različne oblikoslovne, skladenjske in pomenske lastnosti. Tako označena besedila bistveno olajšajo nadaljnjo analizo, saj omogočajo hitrejši priklic relevantnih jezikovnih pojavov, denimo za potrebe znanstvenih raziskav, podatkovnega rudarjenja ali razvoja kompleksnejših jezikovnih tehnologij.

Spletni vmesnik temelji na označevalnem orodju CLASSLA-Stanza, ki uporablja najsodobnejše metode strojnega učenja na temelju globokih nevronskih mrež, svoje znanje o slovničnih lastnostih sodobne standardne slovenščine pa gradi na podlagi različnih jezikovnih virov, kot so učni korpus ssj500k, leksikon besednih oblik Sloleks, besedne vložitve CLARIN.SI in pravila orodja Obeliks. Označevalnik CJVT je usklajen z zadnjo različico orodja CLASSLA-Stanza in vrača povsem enake rezultate, a ima nekoliko ožji nabor možnih nastavitev.

Uporaba označevalnika je razmeroma preprosta – vnesemo ali naložimo besedilo, izberemo ravni označevanja, ki nas zanimajo, nato pa si po kliku na gumb Označi rezultate ogledamo ali shranimo v enem izmed štirih ponujenih načinov prikaza.

Nastavitve

Označevalnik vneseno besedilo razdeli na odstavke, povedi in pojavnice ter slednjim glede na izbrane osnovne nastavitve pripiše oznake v skladu z navedenimi označevalnimi shemami:

  • Leme: osnovne oblike besed po shemi JOS (npr. miza za obliko mize)
  • Oblikoslovno oznako: besedne vrste in druge oblikoskladenjske lastnosti po shemi JOS ali UD (npr. samostalnik ženskega spola v rodilniku ednine)
  • Skladenjske relacije: skladenjske vloge besed v povedi z vidika odvisnostne strukturne skladnje po shemi JOS ali UD (npr. osebek)
  • Udeleženske vloge: pomenske vloge besed v povedi z vidika pomenske skladnje po shemi SRL (npr. vršilec dejanja)
  • Imenske entitete: pojavljanje besede znotraj lastnih imen različnih vrst po shemi JANES (npr. osebno lastno ime)

Označevalno shemo in jezik določenih oznak lahko podrobneje spreminjamo v dodatnih nastavitvah, pri čemer se izbrane nastavitve shranijo in so vidne tudi ob naslednjem obisku. Med dodatnimi nastavitvami za naprednejše uporabnike sta še izbira modela za nestandardno slovenščino, če želimo označiti besedila, kot so pogovorni zapisi na družbenih omrežjih, in izbira vhodnega besedila v formatu CONLL-U, če želimo ohraniti že obstoječo segmentacijo besedila in orodje uporabiti zgolj za pripis zgoraj navedenih slovničnih oznak.

Prikaz rezultatov

V podporo različnim vrstam uporabnikov označevalnik omogoča preklapljanje med štirimi različnimi načini prikaza rezultatov. Poleg standarda CONLL-U, kakršnega privzeto vrača tudi orodje CLASSLA-Stanza, ti vključujejo še rezultate v obliki razpredelnice, v kateri so oblikoskladenjske oznake JOS razvezane s polnimi poimenovanji atributov in vrednosti; rezultate v formatu TEI XML, ki je med pogosteje uporabljenimi standardi v slovenskem prostoru, in rezultate v obliki vizualizacije orodja Q-CAT, kakršne so lahko v pomoč zlasti pri analizi skladenjsko ali pomensko razčlenjenih povedi.

V vseh štirih načinih prikaza lahko rezultate tudi shranimo v obliki datotek .conllu, .csv, .xml oz. .png, ki jih je mogoče za nadaljnjo analizo in obdelavo neposredno uvoziti v številna druga računalniška orodja.

Natančnost označevanja

Kot pri vseh računalniških orodjih za obdelavo naravnih jezikov se lahko tudi med pripisanimi oznakami orodja CLASSLA-Stanza pojavljajo napake. Okvirne izmere natančnosti trenutne različice kažejo, da orodje pri procesiranju standardne slovenščine dosega natančnost od približno 80 % (F1 za udeleženske vloge) do 99 % (F1 za lematizacijo), pri čemer je natančnost orodja za specifične oznake lahko tudi bistveno višja ali nižja. Glede na to, da bodo ob zaključku projekta RSDO na voljo novi učni podatki za vse naštete ravni in nova različica leksikona Sloleks, lahko pričakujemo, da se bo natančnost orodja v kratkem še izboljšala.

Kolofon

Označevalnik

Spletni vmesnik na orodja.cjvt.si
Zbirka Orodja CJVT

Ljubljana, 2022

Delo je dostopno pod licenco Creative Commons:
Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna.

Razvoj orodja CLASSLA-Stanza
Nikola Ljubešić
Marko Robnik Šikonja
Luka Krsnik
Kaja Dobrovoljc
Mihael Šinkec
Simon Krek

Izdelava spletnega vmesnika
Kaja Dobrovoljc
Leon Noe Jovan
Mihael Šinkec

Oblikovanje vmesnika
Gašper Uršič
(Studio Kruh)

Uredniški odbor
Kaja Dobrovoljc
Špela Arhar Holdt
Jaka Čibej
Tomaž Erjavec
Polona Gantar
Nikola Ljubešić
Iztok Kosem
Simon Krek
Marko Robnik Šikonja

Izdajatelj
Center za jezikovne vire in tehnologije, Univerza v Ljubljani

Citiranje
Označevalnik CJVT, orodja.cjvt.si/oznacevalnik, dostop 23. 03. 2023.

Različice

Različica
Označevalnik CJVT 1.2.0

Datum izdaje posodobitve orodja: 29. 6. 2022
Datum zadnje posodobitve vmesnika: 12. 7. 2022