Vejice

Orodje za strojno postavljanje vejic
Automated comma placement tool

Trenutna različica

1.0

Datum izdaje posodobitve:
13. 12. 2020

Dostopnost

Vejicar je dostopen v repozitoriju CLARIN.SI.

To delo je dostopno pod licenco
Creative Commons Priznanje avtorstva-
Deljenje pod enakimi pogoji 4.0.

O orodju Vejice 1.0

Izhodiščna verzija orodja je bila izdelana v okviru diplomskega dela Martina Božiča “Globoke nevronske mreže za postavljanje vejic v slovenskem jeziku” na Fakulteti za računalništvo in informatiko UL, pod mentorstvom prof. Marka Robnika Šikonje.

Spletno orodje preverja postavitev vejic v slovenskih besedilih s pomočjo jezikovnega modela BERT, izpopolnjenega za problem postavljanja vejic. Za izpopolnjevanje modela je bila zgrajena učna množica iz dela besedil korpusa sodobne standardne slovenščine Gigafida 2.0. Učna množica je obsegala 907.870 stavkov, ki so v povprečju vsebovali vsak po dve vejici.

Orodje za strojno preverjanje postavitve vejic je zasnovano kot pomoč pri postavljanju vejic in ni nadomestek za lektorski pregled besedil. Orodje opozarja na manjkajoče vejice s sivo barvo in na odvečne vejice z modro barvo. Glede na teste program trenutno deluje uspešno v 94 odstotkih primerov.

Publikacije

BOŽIČ, Martin (avtor), ROBNIK ŠIKONJA, Marko (mentor). Globoke nevronske mreže za postavljanje vejic v slovenskem jeziku. Diplomsko delo/naloga. Fakulteta za računalništvo in informatiko Univerze v Ljubljani.
https://repozitorij.uni-lj.si/Dokument.php?id=133688&lang=slv

ULČAR, Matej, ROBNIK ŠIKONJA, Marko. Finest BERT and CroSlo-Engual BERT: less is more in multilingual models. arXiv preprint. 2020.
https://arxiv.org/abs/2006.07890

KREK, Simon, ARHAR HOLDT, Špela, ERJAVEC, Tomaž, ČIBEJ, Jaka, REPAR, Andraž, GANTAR, Polona, LJUBEŠIĆ, Nikola, KOSEM, Iztok, DOBROVOLJC, Kaja. Gigafida 2.0: The Reference Corpus of Written Standard Slovene. V: Proceedings of the 12th Language Resources and Evaluation Conference" 2020. European Language Resources Association", str. 3340--3345".
https://www.aclweb.org/anthology/2020.lrec-1.409

HOLOZAN, Peter. Zbirka primerov rabe vejice Vejica 1.3. V: FIŠER, Darja (ur.), PANČUR, Andrej (ur.). Zbornik konference Jezikovne tehnologije in digitalna humanistika, 20.-21. september 2018, Ljubljana, Slovenija. Ljubljana: Znanstvena založba Filozofske fakultete. 2018, str. 99–105.
http://www.sdjt.si/wp/wp-content/uploads/2018/09/JTDH-2018_Holozan_Zbirka-primerov-rabe-vejice-Vejica-1-3.pdf
http://hdl.handle.net/11356/1185

Pogoji uporabe

Upravitelj orodja za postavljanje vejic, ki je javno dostopno na naslovu: https://orodja.cjvt.si/vejice/home je Center za jezikovne vire in tehnologije Univerze v Ljubljani, Fakulteta za računalništvo in informatiko, Večna pot 113, 1000 Ljubljana. Orodje za postavljanje vejic deluje tako, da uporabniki v prazno polje vnesejo besedilo po svoji izbiri in kliknejo na gumb, s katerim zaženejo orodje. Tako dobijo besedilo s predlogi za odpravo napak pri postavitvi vejic. Orodje za postavljanje vejic je zasnovano kot pomoč pri postavljanju vejic in ni nadomestek za slovnico, pravopis ali lektorski pregled besedil. Upravitelj orodja ne odgovarja za morebitne nepravilnosti, ki so posledica uporabe orodja ali za kakršnokoli škodo, ki bi uporabnikom nastala zaradi nepravilnosti, ki so posledica avtomatizirane obdelave besedil s pomočjo orodja.

Soglasje za obdelavo in hrambo besedil

Uporabniki orodja za postavljanje vejic v aplikacijo vnašajo besedila prostovoljno in razumejo ter soglašajo s tem, da upravitelj orodja vnesena besedila lahko hrani in obdeluje in sicer za potrebe statistične in jezikovne analize delovanja orodja in razvoja in izboljšav metodologije oziroma modela orodja. Če besedila, ki jih uporabniki vnesejo v orodje, vsebujejo osebne podatke, uporabniki z vnosom besedil soglašajo tudi s hrambo in obdelavo teh osebnih podatkov, ki bodo uporabljeni zgolj za analizo in razvoj orodja za postavljanje vejic. Uporabniki, ki ne želijo hrambe in obdelave osebnih podatkov za namene analize in razvoja orodja za postavljanje vejic, naj pred vnosom besedila v orodje take podatke odstranijo. Besedila, ki jih uporabniki vnesejo v orodje, bodo dostopna samo upravitelju orodja in osebam, ki ga razvijajo, ne bodo pa posredovana tretjim osebam ali dostopna javnosti. Vsa vnesena besedila upravitelj orodja lahko obdeluje in hrani do 3 leta, po preteku tega obdobja pa jih trajno izbriše.

Vejice 1.0 Automated comma placement tool

TERMS OF USE

The application Vejice 1.0 (Automated comma placement tool) which is publicly accessible at: https://orodja.cjvt.si/vejice/home is operated by Centre for Language Resources and Technologies at the University of Ljubljana, Faculty of Computer and Information Science, Večna pot 113, 1000 Ljubljana, Slovenia (hereinafter: CJVT). Users may upload any text of their choice into the empty frame and click on the marked button. By clicking the button users initiate the tool to start its operation. The result of this procedure will be a text marked with suggestions for proper comma usage. The application Vejice 1.0 (Automated comma placement tool) is conceived as a help tool for comma usage and is not a substitute for a grammar, spelling, proofreading or language editing. CJVT is not responsible for any mistakes or irregularities, which are suggested by the tool and shall not be liable in any way for damages arising from or cost incurred by the incorrect suggestions, which are the consequence of automatic processing of the texts uploaded into the tool.

DATA PROCESSING CONSENT

Users of Vejice 1.0 (Automated comma placement tool) upload the texts into the tool voluntarily and understand and consent to processing and retention of such texts by CVTJ. CVTJ shall process and retain such texts solely for the purposes of statistical and linguistic analysis of the tool operation and for development and upgrades of methodology or operation model of the tool. By uploading the texts containing any personal data into the tool, users consent to retention and processing of such personal data, which shall only be used for analysis and further development of the tool. Users who do not allow such retention and processing of personal data for the purposes of analysis and further development of the tool, shall remove any such data from the texts before uploading the texts into the tool. The texts uploaded into the tool by users shall only be available to CVTJ and to developers of the tool and shall not be transmitted to any third party and shall not be made available to the public. CVTJ may process and retain texts uploaded into the tool by users for up to 3 years from the moment of upload. After such period expires, CVTJ shall permanently delete all such texts.