Available theses topics: Difference between revisions

From Slavko Zitnik's research wiki
No edit summary
No edit summary
Line 46: Line 46:
::Diplomsko ali magistrsko delo
::Diplomsko ali magistrsko delo


-----
=== Baza znanja na podlagi odprte ekstrakcije informacij ===
:Miha Bogataj je izdelal diplomsko delo [[Diploma_theses|Odprta ekstrakcija informacij za slovenski jezik]], v okviru katerega je definiral pravila in pridobil povezave na podlagi odprte ekstrakcije informacij za slovenski jezik. Poleg starejših pristopov, ki temeljijo na hevristikah, in so bili uporabljeni v tem delu (npr. TextRunner, ReVerb ali Ollie), so bili pre kratkim predlagani tudi novejši pristopi. Namen zaključnega dela bi bil, da se pregleda področje odprte ekstrakcije informacij in prilagodi enega izmed najboljših modelov za uporabo v slovenskem jeziku ([https://paperswithcode.com/task/open-information-extraction seznam člankov]).


:;Možne druge variacije zaključnega dela
::(a) Izdelava spletnega mesta za pregledovanje rezultatov, ki jih generira sistem za odprto ekstrakcijo informacij. Primer: [https://openie.allenai.org].


Unsupervised NER using BERT: https://towardsdatascience.com/unsupervised-ner-using-bert-2d7af5f90b8a
:;Ključne besede
Open IE: triplets based on POS->SRL (see stanford’s models)
::odprta ekstrakcija informacij, trojice, nenadzorovano učenje
Primerjava novic besedil zamejskih Slovencev s nacionalnimi besedili
 
:;Tip zaključnega dela
::Diplomsko ali magistrsko delo
 
=== Produktivizacija modelov globokega učenja ===
V zadnjem času se globoki modeli nevronskih mrež čedalje bolj uporabljajo v praksi. Seveda je možno implementirati lastno infrastrukturo, ki bo služila namenu, da bodo rezultati našega modela dostopni uporabnikom, vendar za ta namen obstajajo tudi specifična orodja ali ogrodja. V okviru zaključnega dela naj se pregleda in primerja platforme, ki to omogočajo (npr. Nvidia Triton). Izbrano platformo naj se tudi preskusi in prikaže delovanje na praktičnem primeru (npr. produktivizacija obstoječega globokega modela).
 
:;Možne druge variacije zaključnega dela
::(a) Pregled in preskus platforme za zaganjanje globokih modelov v brskalniku (npr. [https://www.tensorflow.org/js]).
::(b) Pregled in preskus platforme za zaganjanje globokih modelov na mobilnih napravah (npr. [https://www.tensorflow.org/lite/android Tensorflow Android], [https://www.tensorflow.org/lite/guide/ios Tensorflow iOS], [https://developer.apple.com/documentation/coreml Apple CoreML]).
 
:;Ključne besede
::globoko učenje, ogrodja za umetno inteligenco, produktivizacija
 
:;Tip zaključnega dela
::Diplomsko ali magistrsko delo


-----


- Produktivizacija modelov globokega učenja (npr. Nvidia Triton, JS, Mobile)
- Implementacija podpore za slovenski jezik (Apache Solr)
- Implementacija podpore za slovenski jezik (Apache Solr)
- Primerjava sistemov za informacijsko poizvedovanje (Apache Solr, Elasticsearch, Milvus, ...)


---
- Sistem za procesiranje jezika
- Sistem za procesiranje jezika
- CAPTCHA nadgradnja
- CAPTCHA nadgradnja

Revision as of 22:13, 4 August 2022

Na tej strani so naštete proste teme za izdelavo zaključnih del pod mojim mentorstvom.

Evalvacija in produktivizacija orodja TextCaptcha

Martin Čebular je v okviru svoje magistrske naloge razvil orodje TextCaptcha - Preprečevanje neželenih komentarjev za spletne novice s pomočjo tehnik za procesiranje naravnega jezika (Martin Čebular). Ideja za orodje izhaja iz storitve reCaptcha, ki se uporablja za bolj natančno digitalizacijo knjig. V osnovi deluje tako, da bralcu prikaže npr. dva niza, pri katerem sistem za enega pozna rešitev, za drugega ne. Uporabnik mora oba niza vpisati v vnosno polje. Sistem nato preko več odgovorov ugotovi, kakšna je pravilna digializacija neznanega niza.
Izdelano orodje je že bilo validirano in kot Javascript vtičnik na spletnih straneh [rtvslo.si]. Namen magistrske naloge bi bil (a) izdelati natančno metodologijo uporabe orodja TextCaptcha za namene zbiranja označenih korpusov v slovenskem jeziku, (b) prikazati smiselne primere uporabe in (c) evalvirati orodje na realnih primerih.
Ključne besede
ekstrakcija informacij, gradnja podatkovnih množic, preverjanje vnosov
Tip zaključnega dela
Magistrsko delo

Primerjava standardne slovenščine v Sloveniji in izzven nje

Za primerjavo jezikov obstajajo že uveljavljene metode, s katerimi se lahko primerja, kdaj sta si jezika sorodna, enaka oz. kako različna sta si. V okviru zaključnega dela naj se primerja besedila novic iz področja Slovenije z besedili novic zamejskih Slovencev ali izseljencev. Primeri novic izseljencev so na primer novice.at (Avstrija), Novi list (Argentina), ipd., pri čemer naj se pregleda možnosti za pridobitev tudi drugih primernih virov. Izdela naj se referenčni korpus, katerega se bo primerjalo z referenčnim korpusom standardne slovenščine v Sloveniji (vir bo zagotovljen). Množice je potrebno nato primerjati in ugotoviti jezikovne različnosti (npr. raba besed v različnih kontekstih, pojavljanje starih/novih besed, vpliv tujega jezika, vrstni red besed).
Ključne besede
slovenščina, primerjava besedil, novice
Tip zaključnega dela
Magistrsko delo

Analiza in primerjava podatkovnih baz za hranjenje podatkov v grafih

Obstaja mnogo primerov, ko se lahko podatke hrani v grafih, ali ko tudi že poizvedba predstavlja podgraf. Namen zaključnega dela je identifikacija in opis domen, kjer se uporabljajo grafovski podatkovni modeli. Temu naj nato sledi pregled najbolj znanih podatkovnih baz na tem področju, skupaj z njihovo primerjavo. Primera baz iz tega področja sta na primer Janus Graph ali Neo4J. Na podlagi primerjalne tabele naj se izbere eno ali dve najbolj primerni implementaciji in prikaže delovanje podatkovne baze. Prikaz naj zajema (a) namestitev, (b) uvoz podatkov, (c) poizvedovanje in (d) performančne lastnosti.
Ključne besede
podatkovne baze, predstavitev v obliki grafa, povezave
Tip zaključnega dela
Diplomsko ali magistrsko delo

Pregled in analiza semantičnih (SPARQL) podatkovnih baz

V letu 2012 je Simeon Puntar izdelal diplomsko nalogo Pregled in primerjava triplestore podatkovnih baz. Od tedaj se je na področju semantičnega spleta zgodilo marsikaj.
Semantične podatkovne baze morajo biti sposobne hraniti podatke, ki so opisani s pomočjo ontologij (npr. v jeziku RDF(S), OWL). Za poizvedovanje nad takšnimi shemami je bil zasnovan protokol in poizvedovalni jezik SPARQL, ki ga podpirajo nekatere podatkovne baze. V zaključnem delu naj se pregleda področje grafovskih podatkovnih baz, ki podpirajo poizvedovanje z jezikom SPARQL. Nepopoln seznam je na voljo na Wikipediji. Trenutno (v letu 2022) so morda najbolj aktualne baze OntoText GraphDB, Amazon Neptune ali Oracle Graph Database. Performančno analizo se lahko izvede s pomočjo predpripravljenih podatkov - Lehigh University Benchmark (LUBM)
Možne druge variacije zaključnega dela
(a) Opis, primerjava in implementacije poizvedovalnih jezikov nad grafi (npr. Cypher, openCypher, SPARQL, Gremlin, Apache TinkerPop).
(b) Izbira specifične podatkovne baze in podrobnejša analiza le nje.
Ključne besede
podatkovne baze, semantični splet, ontologije, SPARQL
Tip zaključnega dela
Diplomsko ali magistrsko delo

Baza znanja na podlagi odprte ekstrakcije informacij

Miha Bogataj je izdelal diplomsko delo Odprta ekstrakcija informacij za slovenski jezik, v okviru katerega je definiral pravila in pridobil povezave na podlagi odprte ekstrakcije informacij za slovenski jezik. Poleg starejših pristopov, ki temeljijo na hevristikah, in so bili uporabljeni v tem delu (npr. TextRunner, ReVerb ali Ollie), so bili pre kratkim predlagani tudi novejši pristopi. Namen zaključnega dela bi bil, da se pregleda področje odprte ekstrakcije informacij in prilagodi enega izmed najboljših modelov za uporabo v slovenskem jeziku (seznam člankov).
Možne druge variacije zaključnega dela
(a) Izdelava spletnega mesta za pregledovanje rezultatov, ki jih generira sistem za odprto ekstrakcijo informacij. Primer: [1].
Ključne besede
odprta ekstrakcija informacij, trojice, nenadzorovano učenje
Tip zaključnega dela
Diplomsko ali magistrsko delo

Produktivizacija modelov globokega učenja

V zadnjem času se globoki modeli nevronskih mrež čedalje bolj uporabljajo v praksi. Seveda je možno implementirati lastno infrastrukturo, ki bo služila namenu, da bodo rezultati našega modela dostopni uporabnikom, vendar za ta namen obstajajo tudi specifična orodja ali ogrodja. V okviru zaključnega dela naj se pregleda in primerja platforme, ki to omogočajo (npr. Nvidia Triton). Izbrano platformo naj se tudi preskusi in prikaže delovanje na praktičnem primeru (npr. produktivizacija obstoječega globokega modela).

Možne druge variacije zaključnega dela
(a) Pregled in preskus platforme za zaganjanje globokih modelov v brskalniku (npr. [2]).
(b) Pregled in preskus platforme za zaganjanje globokih modelov na mobilnih napravah (npr. Tensorflow Android, Tensorflow iOS, Apple CoreML).
Ključne besede
globoko učenje, ogrodja za umetno inteligenco, produktivizacija
Tip zaključnega dela
Diplomsko ali magistrsko delo


- Implementacija podpore za slovenski jezik (Apache Solr)

- Sistem za procesiranje jezika - CAPTCHA nadgradnja - OpenIE nadgradnja - Solr (uporaba slovenskega vtičnika in testiranje)

Ostale možne tematike

Kandidat si lahko zamisli svoj lasten problem iz področja iskanja in ekstrakcije vsebin is spleta ali procesiranja naravnega jezika ter ga uskladi z mentorjem. Tematike se lahko dotikajo tudi analize in uporabe odprtokodnih sistemov (npr. Solr, Lucene, ...), ki so morda trenutno aktualne, uporabe in analize odprtih podatkov (npr. iz portala OPSI). Prav tako vsako leto na področju analize besedil potekajo tekmovanja z zanimivimi tematikami, s katerimi se lahko lahko spoprime: