Available theses topics: Difference between revisions

Revision as of 22:24, 4 August 2022

Proste teme

Evalvacija in produktivizacija orodja TextCaptcha

Martin Čebular je v okviru svoje magistrske naloge razvil orodje TextCaptcha - Preprečevanje neželenih komentarjev za spletne novice s pomočjo tehnik za procesiranje naravnega jezika (Martin Čebular). Ideja za orodje izhaja iz storitve reCaptcha, ki se uporablja za bolj natančno digitalizacijo knjig. V osnovi deluje tako, da bralcu prikaže npr. dva niza, pri katerem sistem za enega pozna rešitev, za drugega ne. Uporabnik mora oba niza vpisati v vnosno polje. Sistem nato preko več odgovorov ugotovi, kakšna je pravilna digializacija neznanega niza.

Izdelano orodje je že bilo validirano in kot Javascript vtičnik na spletnih straneh [rtvslo.si]. Namen magistrske naloge bi bil (a) izdelati natančno metodologijo uporabe orodja TextCaptcha za namene zbiranja označenih korpusov v slovenskem jeziku, (b) prikazati smiselne primere uporabe in (c) evalvirati orodje na realnih primerih.

Ključne besede: ekstrakcija informacij, gradnja podatkovnih množic, preverjanje vnosov

Tip zaključnega dela: Magistrsko delo

Primerjava standardne slovenščine v Sloveniji in izzven nje

Za primerjavo jezikov obstajajo že uveljavljene metode, s katerimi se lahko primerja, kdaj sta si jezika sorodna, enaka oz. kako različna sta si. V okviru zaključnega dela naj se primerja besedila novic iz področja Slovenije z besedili novic zamejskih Slovencev ali izseljencev. Primeri novic izseljencev so na primer novice.at (Avstrija), Novi list (Argentina), ipd., pri čemer naj se pregleda možnosti za pridobitev tudi drugih primernih virov. Izdela naj se referenčni korpus, katerega se bo primerjalo z referenčnim korpusom standardne slovenščine v Sloveniji (vir bo zagotovljen). Množice je potrebno nato primerjati in ugotoviti jezikovne različnosti (npr. raba besed v različnih kontekstih, pojavljanje starih/novih besed, vpliv tujega jezika, vrstni red besed).

Ključne besede: slovenščina, primerjava besedil, novice

Tip zaključnega dela: Magistrsko delo

Ostale možne tematike

Kandidat si lahko zamisli svoj lasten problem iz področja iskanja in ekstrakcije vsebin is spleta ali procesiranja naravnega jezika ter ga uskladi z mentorjem. Tematike se lahko dotikajo tudi analize in uporabe odprtokodnih sistemov (npr. Solr, Lucene, ...), ki so morda trenutno aktualne, uporabe in analize odprtih podatkov (npr. iz portala OPSI). Prav tako vsako leto na področju analize besedil potekajo tekmovanja z zanimivimi tematikami, s katerimi se lahko lahko spoprime:

Naslov: Analiza orodij za hranjenje in poizvedovanje nad semantično opisanimi podatki

Pred leti je bila napisana sledeča diplomska: http://eprints.fri.uni-lj.si/1961/. V času od teda se je zgodilo marsikaj, tako da predlagam, da se preveri grafovske baze, ki podpirajo SPARQL (=poizvedovalni jezik za podatke, opisane z ontologijami, kot je na primer DBPedia): https://en.wikipedia.org/wiki/List_of_SPARQL_implementations. Poleg teh je pomembna še https://www.ontotext.com/products/graphdb/.

Ostale grafovske pa so npr https://janusgraph.org/ ali neo4j (https://neo4j.com/blog/neo4j-rdf-graph-database-reasoning-engine/).

Ideja bi bila, da se opiše podatkovne baze, njihove funkcionalnosti. Nato pa se npr. vzame LUBM podatke in izvede performančne teste, da se ugotovi, kako delujejo.

Predmet NLP: https://ucilnica.fri.uni-lj.si/course/view.php?id=224

Cilj: Pregled obstoječih podatkovnih baz grafovske baze -> SPARQL --->primerjalna tabela baz --> odločitev za test Opis testnih scenarijev in podatkov LUBM test set Performančna analiza velikost baze/poraba CPU-pomnilnika/ čas izvajanja poizvedb čas uvažanja podatkov, ...

Unsupervised NER using BERT: https://towardsdatascience.com/unsupervised-ner-using-bert-2d7af5f90b8a Open IE: triplets based on POS->SRL (see stanford’s models) Primerjava novic besedil zamejskih Slovencev s nacionalnimi besedili

- Produktivizacija modelov globokega učenja (npr. Nvidia Triton, JS, Mobile) - Implementacija podpore za slovenski jezik (Apache Solr) - Primerjava sistemov za informacijsko poizvedovanje (Apache Solr, Elasticsearch, Milvus, ...)

--- - Sistem za procesiranje jezika - CAPTCHA nadgradnja - OpenIE nadgradnja - Solr (uporaba slovenskega vtičnika in testiranje)

@@ Line 4: / Line 4: @@
 === Evalvacija in produktivizacija orodja TextCaptcha ===
-Martin Čebular je v okviru svoje magistrske naloge razvil orodje TextCaptcha - [[Master_theses|Preprečevanje neželenih komentarjev za spletne novice s pomočjo tehnik za procesiranje naravnega jezika (Martin Čebular)]]
+:Martin Čebular je v okviru svoje magistrske naloge razvil orodje TextCaptcha - [[Master_theses|Preprečevanje neželenih komentarjev za spletne novice s pomočjo tehnik za procesiranje naravnega jezika (Martin Čebular)]]. Ideja za orodje izhaja iz storitve [http://recaptcha.net reCaptcha], ki se uporablja za bolj natančno digitalizacijo knjig. V osnovi deluje tako, da bralcu prikaže npr. dva niza, pri katerem sistem za enega pozna rešitev, za drugega ne. Uporabnik mora oba niza vpisati v vnosno polje. Sistem nato preko več odgovorov ugotovi, kakšna je pravilna digializacija neznanega niza.
-Razvijte storitev - "widget", ki bo delovala kot zaščita spletnih obrazcev - "captcha". Zelo uspešna storitev [http://recaptcha.net reCaptcha] se uporablja za bolj natančno digitalizacijo knjig. V osnovi deluje tako, da bralcu prikaže dva niza, pri katerem sistem za enega pozna rešitev, za drugega ne. Uporabnik mora oba niza vpisati v vnosno polje. Sistem nato preko več odgovorov ugotovi, kakšna je pravilna digializacija neznanega niza.
+:Izdelano orodje je že bilo validirano in kot Javascript vtičnik na spletnih straneh [rtvslo.si]. Namen magistrske naloge bi bil (a) izdelati natančno metodologijo uporabe orodja TextCaptcha za namene zbiranja označenih korpusov v slovenskem jeziku, (b) prikazati smiselne primere uporabe in (c) evalvirati orodje na realnih primerih.
-Znano je, da so včasih nizi zelo nerazločni (še posebej sistemu znani nizi so še dodatno izmaličeni), zato uporabniki zelo neradi vpisujejo te nize. Pri ekstrakciji besedil obstaja mnogo problemov, med katerimi so najbolj znani - ekstrakcija entitet, povezav, koreferenc, in so za ljudi enostavno rešljivi. Kandidat naj razvije reCaptcha-i podobno rešitev, ki bo avtomatsko povečevala učno množico za izbran problem. Pri tem naj upošteva tudi večjezičnost in uporabi orodja, podatkovne množice, ki so trenutno javno dostopne. Pri tem naj kandidat pregleda tudi sorodna dela, ki se nanašajo na implementacijo in težave takšnega preverjanja z orodjem captcha.
 :;Ključne besede:
@@ Line 15: / Line 14: @@
 ::Magistrsko delo
-=== Primerjava jezikov ===
+=== Primerjava standardne slovenščine v Sloveniji in izzven nje ===
-Za primerjavo jezikov obstajajo že uveljavljene metode, s katerimi se lahko primerja, kdaj sta si jezika sorodna, enaka oz. kako različna sta si. Kandidat naj v okviru zaključnega dela primerja besedila novic iz področja Slovenije z besedili novic zamejskih Slovencev ali izseljencev. Primeri novic izseljencev so na primer [http://www.novice.at/ novice.at] (Avstrija), Novi list (Argentina), ipd., pri čemer naj kandidat najde tudi druge primerne vire. Po primerjavi teh množic naj kandidat primerja besedila v slovenščini še z novicami podobnih slovanskih jezikov (npr. hrvaščina) ter ugotovi, kakšna je jezikovna različnost med takšnimi pari v primerjavi z zamejsko slovenščino.
+:Za primerjavo jezikov obstajajo že uveljavljene metode, s katerimi se lahko primerja, kdaj sta si jezika sorodna, enaka oz. kako različna sta si. V okviru zaključnega dela naj se primerja besedila novic iz področja Slovenije z besedili novic zamejskih Slovencev ali izseljencev. Primeri novic izseljencev so na primer [http://www.novice.at/ novice.at] (Avstrija), Novi list (Argentina), ipd., pri čemer naj se pregleda možnosti za pridobitev tudi drugih primernih virov. Izdela naj se referenčni korpus, katerega se bo primerjalo z referenčnim korpusom standardne slovenščine v Sloveniji (vir bo zagotovljen). Množice je potrebno nato primerjati in ugotoviti jezikovne različnosti (npr. raba besed v različnih kontekstih, pojavljanje starih/novih besed, vpliv tujega jezika, vrstni red besed).
-Ključne besede: slovenščina, primerjava besedil, novice
+:;Ključne besede:
+::slovenščina, primerjava besedil, novice
-=== Analiza sentimenta do objektov v besedilih ===
+:;Tip zaključnega dela:
-Sentiment se navadno ugotavlja za določen del besedila oz. celotno besedilo naenkrat. Velikokrat se v novicah pojavi mnogo entitet, do katerih ima lahko pisec različen sentiment. V okviru zaključnega dela naj kandidat pridobi korpus novic, v okviru katerih naj prepozna določen tip entitet (npr. osebe) in njihove omenitve, do katerih naj za posamezno novico avtomatsko ugotovi sentiment.
+::Magistrsko delo
-Ključne besede: analiza sentimenta, prepoznavanje imenskih entitet, odkrivanje koreferenčnosti
 === Ostale možne tematike ===