To so moje besede

Z jezikovnimi modeli je pač tako, da je velikost pomembna: več besedil bo model med treniranjem videl, bolje bo stvar delovala. Na zbiralski strani je Univerza v Ljubljani oziroma njen Center za jezikovne vire in tehnologije, na potencialni darovalski pa dejansko vsakdo, ki je kdajkoli napisal kaj v slovenščini in je ohranil avtorske pravice na svojem besedilu.

Prva dilema je verjetno varnost podatkov. Ugodna okoliščina za obe stranki je dejstvo, da za treniranje slovenskega modela ni treba, da bi besedila kdorkoli kdajkoli zares videl, razen nekaj računalniških strokovnjakov, ki jih bodo predelali v obliko, primerno za treniranje modela, in jih spravili do superračunalnika Vega. Tam se bodo nahajala v času treniranja modela in v obliki, ki je v resnici zelo neugodna za potencialne tatove podatkov. To pomeni, da je pri vprašanju varnosti ključno zaupanje darovalca v kompetentnost zbiralca, da bo znal zagotoviti varno dolgoročno kriptirano hrambo besedil v izvorni obliki. Ker je zaupanje plaha ptica in ker med ljudmi velja, da so pri tem najbolj povedni precedenčni primeri oziroma dosedanje obnašanje stranke, je dobro vedeti, da se manjši jezikovni modeli že zdaj trenirajo na korpusu besedil Gigafida, v katerem so avtorskopravno varovana besedila, ki v petindvajsetih letih niso bila zlorabljena, ta isti korpus pa je pod različnimi imeni skupaj z nekaterimi drugimi v vseh teh........

© Dnevnik