Available theses topics

Proste teme

Information Extraction Captcha

Razvijte storitev - "widget", ki bo delovala kot zaščita spletnih obrazcev - "captcha". Zelo uspešna storitev reCaptcha se uporablja za bolj natančno digitalizacijo knjig. V osnovi deluje tako, da bralcu prikaže dva niza, pri katerem sistem za enega pozna rešitev, za drugega ne. Uporabnik mora oba niza vpisati v vnosno polje. Sistem nato preko več odgovorov ugotovi, kakšna je pravilna digializacija neznanega niza. Znano je, da so včasih nizi zelo nerazločni (še posebej sistemu znani nizi so še dodatno izmaličeni), zato uporabniki zelo neradi vpisujejo te nize. Pri ekstrakciji besedil obstaja mnogo problemov, med katerimi so najbolj znani - ekstrakcija entitet, povezav, koreferenc, in so za ljudi enostavno rešljivi. Kandidat naj razvije reCaptcha-i podobno rešitev, ki bo avtomatsko povečevala učno množico za izbran problem. Pri tem naj upošteva tudi večjezičnost in uporabi orodja, podatkovne množice, ki so trenutno javno dostopne. Pri tem naj kandidat pregleda tudi sorodna dela, ki se nanašajo na implementacijo in težave takšnega preverjanja z orodjem captcha.

Ključne besede: ekstrakcija informacij, gradnja podatkovnih množic, preverjanje vnosov

Primerjava jezikov

Za primerjavo jezikov obstajajo že uveljavljene metode, s katerimi se lahko primerja, kdaj sta si jezika sorodna, enaka oz. kako različna sta si. Kandidat naj v okviru zaključnega dela primerja besedila novic iz področja Slovenije z besedili novic zamejskih Slovencev ali izseljencev. Primeri novic izseljencev so na primer novice.at (Avstrija), Novi list (Argentina), ipd., pri čemer naj kandidat najde tudi druge primerne vire. Po primerjavi teh množic naj kandidat primerja besedila v slovenščini še z novicami podobnih slovanskih jezikov (npr. hrvaščina) ter ugotovi, kakšna je jezikovna različnost med takšnimi pari v primerjavi z zamejsko slovenščino.

Ključne besede: slovenščina, primerjava besedil, novice

Analiza sentimenta do objektov v besedilih

Sentiment se navadno ugotavlja za določen del besedila oz. celotno besedilo naenkrat. Velikokrat se v novicah pojavi mnogo entitet, do katerih ima lahko pisec različen sentiment. V okviru zaključnega dela naj kandidat pridobi korpus novic, v okviru katerih naj prepozna določen tip entitet (npr. osebe) in njihove omenitve, do katerih naj za posamezno novico avtomatsko ugotovi sentiment.

Ključne besede: analiza sentimenta, prepoznavanje imenskih entitet, odkrivanje koreferenčnosti

Ostale možne tematike

Kandidat si lahko zamisli svoj lasten problem iz področja iskanja in ekstrakcije vsebin is spleta ali procesiranja naravnega jezika ter ga uskladi z mentorjem. Tematike se lahko dotikajo tudi analize in uporabe odprtokodnih sistemov (npr. Solr, Lucene, ...), ki so morda trenutno aktualne, uporabe in analize odprtih podatkov (npr. iz portala OPSI). Prav tako vsako leto na področju analize besedil potekajo tekmovanja z zanimivimi tematikami, s katerimi se lahko lahko spoprime: