O orodju
STARK je vsestransko orodje za analizo slovničnih in leksikalnih pojavov v skladenjsko razčlenjenih besedilnih korpusih (drevesnicah), ki z luščenjem različnih tipov skladenjskih struktur (skladenjskih dreves) jezikoslovcem ponuja vpogled v nabor skladenjskih struktur v jeziku ter njihov statistični opis z vidika pogostosti rabe in drugih priljubljenih korpusnojezikoslovnih metrik.

Orodje je bilo prvotno zasnovano za procesiranje korpusov, razčlenjenih po medjezikovno primerljivi shemi Universal Dependencies, uporablja pa se lahko tudi za druge odvisnostne drevesnice v formatu CONLL-U. Orodje kot rezultat vrača tabelarično datoteko s frekvenčnim seznamom vseh dreves, ki ustrezajo uporabniškim nastavitvam, njihova fleksibilnost pa omogoča izvedbo širokega nabora raziskav: od široko zasnovanih luščenj vseh možnih besednih zvez (npr. luščenje vseh samostalniških dreves) do usmerjenih poizvedb po posameznih tipih zvez (npr. luščenje povedkov z najmanj dvema predmetoma).

Orodje so razvili Kaja Dobrovoljc, Luka Krsnik in Marko Robnik Šikonja v okviru razpisa CLARIN.SI 2019 in raziskovalnega projekta SPOT: Na drevesnici temelječ pristop k raziskavam govorjene slovenščine (ARIS št. Z6-4617). S podporo CJVT UL je bil za predstavitev funkcionalnosti programa STARK širšemu občinstvu razvit tudi pričujoči spletni vmesnik, ki pa ima v primerjavi z izhodiščnim orodjem ukazne vrstice (https://github.com/clarinsi/STARK) nekoliko poenostavljen nabor nastavitev.

Za dodatna vprašanja ali pomoč pri uporabi orodja se obrnite na kaja.dobrovoljc@ff.uni-lj.si.