Dostopnost
Vejicar je dostopen v repozitoriju CLARIN.SI.
To delo je dostopno pod licenco
Creative Commons Priznanje avtorstva-
Deljenje pod enakimi pogoji 4.0.
O orodju Vejice 1.0
Izhodiščna verzija orodja je bila izdelana v okviru diplomskega dela Martina Božiča “Globoke nevronske mreže za postavljanje vejic v slovenskem jeziku” na Fakulteti za računalništvo in informatiko UL, pod mentorstvom prof. Marka Robnika Šikonje.
Spletno orodje preverja postavitev vejic v slovenskih besedilih s pomočjo jezikovnega modela BERT, izpopolnjenega za problem postavljanja vejic. Za izpopolnjevanje modela je bila zgrajena učna množica iz dela besedil korpusa sodobne standardne slovenščine Gigafida 2.0. Učna množica je obsegala 907.870 stavkov, ki so v povprečju vsebovali vsak po dve vejici.
Orodje za strojno preverjanje postavitve vejic je zasnovano kot pomoč pri postavljanju vejic in ni nadomestek za lektorski pregled besedil. Orodje opozarja na manjkajoče vejice s sivo barvo in na odvečne vejice z modro barvo. Glede na teste program trenutno deluje uspešno v 94 odstotkih primerov.
Publikacije
BOŽIČ, Martin (avtor), ROBNIK ŠIKONJA, Marko (mentor).
Globoke nevronske mreže za postavljanje vejic v slovenskem jeziku.
Diplomsko delo/naloga. Fakulteta za računalništvo in informatiko Univerze v Ljubljani.
https://repozitorij.uni-lj.si/Dokument.php?id=133688&lang=slv
ULČAR, Matej, ROBNIK ŠIKONJA, Marko.
Finest BERT and CroSlo-Engual BERT: less is more in multilingual models.
arXiv preprint. 2020.
https://arxiv.org/abs/2006.07890
KREK, Simon, ARHAR HOLDT, Špela, ERJAVEC, Tomaž, ČIBEJ, Jaka, REPAR, Andraž, GANTAR, Polona, LJUBEŠIĆ, Nikola, KOSEM, Iztok, DOBROVOLJC, Kaja.
Gigafida 2.0: The Reference Corpus of Written Standard Slovene.
V: Proceedings of the 12th Language Resources and Evaluation Conference" 2020. European Language Resources Association", str. 3340--3345".
https://www.aclweb.org/anthology/2020.lrec-1.409
HOLOZAN, Peter. Zbirka primerov rabe vejice Vejica 1.3. V: FIŠER, Darja (ur.), PANČUR, Andrej (ur.).
Zbornik konference Jezikovne tehnologije in digitalna humanistika, 20.-21. september 2018, Ljubljana, Slovenija.
Ljubljana: Znanstvena založba Filozofske fakultete. 2018, str. 99–105.
http://www.sdjt.si/wp/wp-content/uploads/2018/09/JTDH-2018_Holozan_Zbirka-primerov-rabe-vejice-Vejica-1-3.pdf
http://hdl.handle.net/11356/1185
Pogoji uporabe
Upravitelj orodja za postavljanje vejic, ki je javno dostopno na naslovu: https://orodja.cjvt.si/vejice/home je Center za jezikovne vire in tehnologije Univerze v Ljubljani, Fakulteta za računalništvo in informatiko, Večna pot 113, 1000 Ljubljana. Orodje za postavljanje vejic deluje tako, da uporabniki v prazno polje vnesejo besedilo po svoji izbiri in kliknejo na gumb, s katerim zaženejo orodje. Tako dobijo besedilo s predlogi za odpravo napak pri postavitvi vejic. Orodje za postavljanje vejic je zasnovano kot pomoč pri postavljanju vejic in ni nadomestek za slovnico, pravopis ali lektorski pregled besedil. Upravitelj orodja ne odgovarja za morebitne nepravilnosti, ki so posledica uporabe orodja ali za kakršnokoli škodo, ki bi uporabnikom nastala zaradi nepravilnosti, ki so posledica avtomatizirane obdelave besedil s pomočjo orodja.
Soglasje za obdelavo in hrambo besedil
Uporabniki orodja za postavljanje vejic v aplikacijo vnašajo besedila prostovoljno in razumejo ter soglašajo s tem, da upravitelj orodja vnesena besedila lahko hrani in obdeluje in sicer za potrebe statistične in jezikovne analize delovanja orodja in razvoja in izboljšav metodologije oziroma modela orodja.
Če besedila, ki jih uporabniki vnesejo v orodje, vsebujejo osebne podatke, uporabniki z vnosom besedil soglašajo tudi s hrambo in obdelavo teh osebnih podatkov, ki bodo uporabljeni zgolj za analizo in razvoj orodja za postavljanje vejic.
Uporabniki, ki ne želijo hrambe in obdelave osebnih podatkov za namene analize in razvoja orodja za postavljanje vejic, naj pred vnosom besedila v orodje take podatke odstranijo.
Besedila, ki jih uporabniki vnesejo v orodje, bodo dostopna samo upravitelju orodja in osebam, ki ga razvijajo, ne bodo pa posredovana tretjim osebam ali dostopna javnosti.
Vsa vnesena besedila upravitelj orodja lahko obdeluje in hrani do 3 leta, po preteku tega obdobja pa jih trajno izbriše.