Available theses topics

From Slavko Zitnik's research wiki
Jump to navigation Jump to search

Na tej strani so naštete proste teme za izdelavo zaključnih del pod mojim mentorstvom. Pri izbiri prosim sledite navodilom, ki so opisana na strani glede metodologije priprave zaključnega dela.

MLOps

To complete a successful machine learning project, understanding machine learning theory and concepts is essential, but you need engineering capabilities as well. Effectively developing and deploying machine learning models requires competencies more commonly found in technical fields such as software engineering and DevOps. Within the thesis, the idea is to cover the follwing aspects: (a) how to plan, (b) build, and (c) maintain a machine learning project. In contrast with the standard machine learning cycle, models in production need to integrate with other services or applications, need to run continuously with maximum performance and minimal cost, and have an ability to handle evolving data and business requirements. In this hands-on course you will become familiar with challenges, patterns and well-established tools for doing this effectively.
The idea is to review MLOps in general and then focus on a specific topic - e.g. data versioning (DVC), MLFlow, business perspective and visualizations, pipelines and packaging, deployment and CI/CD, monitoring, regulation compliance tools, ...
Ključne besede
MLOps, DevOps, produktivizacija, razvoj orodij umetne inteligence
Tip zaključnega dela
Diplomsko delo ali Magistrska naloga

Vključevanje strukturiranega znanja v jezikovne modele

Jezikovni modeli vsebujejo splošno znanje, saj so bili izpostavljeni ogromnim količinam besedil. Lahko se jih prilagodi za posamezne domene, vendar ostaja problem osveževanja modela z novimi podatki. Dodatno znanje je v model možno vstavljati na različne načine (npr. na vhodu ali kasneje - tehnika RAG).
V okviru naloge se pričakuje, da bo kandidat raziskal možnosti vstavljanja dodatnega znanja v jezikovni model. Dodatno znanje se lahko nahaja na spletu, v bazi znanja (npr. grafu, ontologiji, ...) ali dodatnih besedilnih virih. Glede na izbran način bo kandidat tudi implementiral iskanje dodatnih vsebin (npr. s tehnikami RAG). Delo bo vrednoteno glede na izbrano domeno (npr. reševanje težav študentskega referata FRI, ugotavljanje razumevanje slovenske slovnice, ...)
Ključne besede
jezikovni modeli, slovenščina, RAG, baze znanja
Tip zaključnega dela
Diplomsko delo ali Magistrska naloga

Portali odprtih podatkov - deljenje, objava, ponovna uporaba

Evropska unija želi ustvariti okolje za boljšo podatkovno ekonomijo. Že pred leti so zato članice EU začele vzpostavljati portale odprtih podatkov, ki večinoma temeljijo na odprtokodnem ogrodju CKAN. Tudi v Sloveniji imamo v tem smislu vzpostavljen portal [1].
Za boljšo ponovno uporabo podatkov morajo biti le ti bolje (avtomatsko) dostopni in ponujeni preko vmesnikov. Projekt Podatkovni zemljevid je omogočil enostavno iskanje in pretvorbo v semantično obliko, kar mora biti še integrirano. Možnosti za inovativnost je še mnogo ...
V okviru naloge se pričakuje podroben pregled izbranega (pod)področja/ogrodja, primerjava obstoječih rešitev in implementacija prototipa s pomočjo odprtokodnih orodij. Prototip je lahko izboljšava/avtomatizacija posameznega dela Podatkovnega zemljevida ali vključitev napredne obdelave naravnega jezika za ponujanje podatkov (npr. iskanje, povzemanje, ...).
Ključne besede
odprti podatki, OPSI, repozitoriji
Tip zaključnega dela
Diplomsko delo ali Magistrska naloga

Evropski podatkovni prostori - infrastruktura

Podatkovni prostori (angl. Dataspaces) predstavljajo abstrakcijo upravljanja podatkov, kjer je osredni cilj odprava težav, ki se pojavijo pri integraciji podatkov. Osrednji namen podatkovnih prostorov je zmanjšati napor, ki je potreben za vzpostavitev sistema za integracijo podatkov, kjer uporabimo obstoječe tehnike ujemanj in preslikav ter vpeljava plačila po uporabi. Na ravni EU je prisotnih veliko aktivnosti, kjer je na voljo številno gradivo:
V okviru naloge se pričakuje podroben pregled izbranega (pod)področja/ogordja, primerjava obstoječih rešitev in implementacija prototipa s pomočjo odprtokodnih orodij.
Ključne besede
podatkovni prostori, semantika, spletne tehnologije
Tip zaključnega dela
Diplomsko delo ali Magistrska naloga

Evropski podatkovni prostor za jezik (Language Data Space)

Podatkovni prostori (angl. Dataspaces) predstavljajo abstrakcijo upravljanja podatkov, kjer je osredni cilj odprava težav, ki se pojavijo pri integraciji podatkov. Osrednji namen podatkovnih prostorov je zmanjšati napor, ki je potreben za vzpostavitev sistema za integracijo podatkov, kjer uporabimo obstoječe tehnike ujemanj in preslikav ter vpeljava plačila po uporabi. Glejte tudi zgornje gradivo.
V okviru naloge se pričakuje podroben pregled stanja in razvoja Evropskega podatkovnega prostora za jezik. Izvede naj se primerjava z drugimi podatkovnimi prostori (predvsem glede izbire infrastrukture). Implementira naj se prototip, ki bi omogočil vključitev in/ali uporabo podatkov iz podatkovnega prostora.
Ključne besede
podatkovni prostori, semantika, jezikovne tehnologije
Tip zaključnega dela
Diplomsko delo ali Magistrska naloga

Izdelava Sociogramov - sedežni red

Sociometrija je tehnika iz socialne psihologije in sociologije, ki se uporablja za merjenje družbenih odnosov v skupinah (npr. ekipe, razredi v šolah, ...). Z njo se opredeli povezanost skupine ter vlogo posameznika v tej skupini (npr. izločen, priljubljen, vodja, ...). Vodji skupine (npr. trenerju, učitelju, socialnemu pedagogu) tehnika pomaga razumeti latentne odnose v skupinah in jim omogoča učinkovitejše ter ustreznejše delo s skupino.
V okviru projekta se pričakuje:
  • Nadgradnja obstoječe aplikacije Sociogram (sedežni red ali oddaljeno izpolnjevanje sociogramov). Uporaba tehnologij Java 18+, Python/Django, React (ali drugo ogrodje) in MariaDB.
  • Sodelovanje s študentkami/študenti iz Fakultete za šport (FSP) in podjetjem MikroGrafArt d.o.o..
  • Predvidenih 80 ur dela, plačanih po postavki 11,30 EUR bruto bruto.
  • Čas sodelovanja v obdobju od aprila do septembra 2024.
Delo se lahko nadgradi in uporabi tudi v okviru predmetov RvP/OSD ali se jih prilagodi v zaključno delo (npr. diplomska naloga)
Predlaganje sedežnega reda v učilnicah glede na rezultat Sociograma: Na podlagi rezultatov medsebojnih odnosov in dinamike pri pouku se bo pregledalo teoretične vidike in predlagalo metodologije za izdelavo sedežnih redov na podlagi sociometrije (študent FSP). Metodologije bodo nato implementirane v dodatnem modulu programa Sociogram, ki bo omogočal avtomatsko izdelavo sedežnega reda za poljubno vnešen tloris učilnice (študent FRI). Rezultat bo omogočil kakovostnejše izobraževanje, zmanjšanje neenakosti in večjo integracijo skupin.
Ključne besede
sociogram, psihologija, delo v skupinah, namizna aplikacija, spletne storitve
Tip zaključnega dela
Diplomsko delo

Izdelava Sociogramov - oddaljen način

Sociometrija je tehnika iz socialne psihologije in sociologije, ki se uporablja za merjenje družbenih odnosov v skupinah (npr. ekipe, razredi v šolah, ...). Z njo se opredeli povezanost skupine ter vlogo posameznika v tej skupini (npr. izločen, priljubljen, vodja, ...). Vodji skupine (npr. trenerju, učitelju, socialnemu pedagogu) tehnika pomaga razumeti latentne odnose v skupinah in jim omogoča učinkovitejše ter ustreznejše delo s skupino.
V okviru projekta se pričakuje
  • Nadgradnja obstoječe aplikacije Sociogram (sedežni red ali oddaljeno izpolnjevanje sociogramov). Uporaba tehnologij Java 18+, Python/Django, React (ali drugo ogrodje) in MariaDB.
  • Sodelovanje s študentkami/študenti iz Fakultete za šport (FSP) in podjetjem MikroGrafArt d.o.o..
  • Predvidenih 80 ur dela, plačanih po postavki 11,30 EUR bruto bruto.
  • Čas sodelovanja v obdobju od aprila do septembra 2024.
Delo se lahko nadgradi in uporabi tudi v okviru predmetov RvP/OSD ali se jih prilagodi v zaključno delo (npr. diplomska naloga).
Izdelava Sociograma na oddaljen način: Trenutno se Sociogram printa na liste, od koder se nato rezultate vnese v program. Potrebno je preveriti in izdelati varen protokol (študent FSP) in implementirati avtomatske mehanizme za oddaljeno izpolnjevanje sociograma preko e-pošte ali drugih kanalov, pri čemer je potrebno zagotavljati varnost in anonimnost (študent FRI). Rezultat bo bolj učinkovito anketiranje in bolj trajnostna izdelava sociogramov brez potrebe printanja.
Ključne besede
sociogram, psihologija, delo v skupinah, namizna aplikacija, spletne storitve
Tip zaključnega dela
Diplomsko delo

Evalvacija in produktivizacija orodja TextCaptcha

Martin Čebular je v okviru svoje magistrske naloge razvil orodje TextCaptcha - Preprečevanje neželenih komentarjev za spletne novice s pomočjo tehnik za procesiranje naravnega jezika (Martin Čebular). Ideja za orodje izhaja iz storitve reCaptcha, ki se uporablja za bolj natančno digitalizacijo knjig. V osnovi deluje tako, da bralcu prikaže npr. dva niza, pri katerem sistem za enega pozna rešitev, za drugega ne. Uporabnik mora oba niza vpisati v vnosno polje. Sistem nato preko več odgovorov ugotovi, kakšna je pravilna digializacija neznanega niza.
Izdelano orodje je že bilo validirano in kot Javascript vtičnik na spletnih straneh [rtvslo.si]. Namen magistrske naloge bi bil (a) izdelati natančno metodologijo uporabe orodja TextCaptcha za namene zbiranja označenih korpusov v slovenskem jeziku, (b) prikazati smiselne primere uporabe in (c) evalvirati orodje na realnih primerih.
Ključne besede
ekstrakcija informacij, gradnja podatkovnih množic, preverjanje vnosov
Tip zaključnega dela
Magistrsko delo

Primerjava standardne slovenščine v Sloveniji in izzven nje

Za primerjavo jezikov obstajajo že uveljavljene metode, s katerimi se lahko primerja, kdaj sta si jezika sorodna, enaka oz. kako različna sta si. V okviru zaključnega dela naj se primerja besedila novic iz področja Slovenije z besedili novic zamejskih Slovencev ali izseljencev. Primeri novic izseljencev so na primer novice.at (Avstrija), Novi list (Argentina), ipd., pri čemer naj se pregleda možnosti za pridobitev tudi drugih primernih virov. Izdela naj se referenčni korpus, katerega se bo primerjalo z referenčnim korpusom standardne slovenščine v Sloveniji (vir bo zagotovljen). Množice je potrebno nato primerjati in ugotoviti jezikovne različnosti (npr. raba besed v različnih kontekstih, pojavljanje starih/novih besed, vpliv tujega jezika, vrstni red besed).
Uporabne povezave
Lexical distance map among languages
Ključne besede
slovenščina, primerjava besedil, novice
Tip zaključnega dela
Magistrsko delo

Produktivizacija modelov globokega učenja

V zadnjem času se globoki modeli nevronskih mrež čedalje bolj uporabljajo v praksi. Seveda je možno implementirati lastno infrastrukturo, ki bo služila namenu, da bodo rezultati našega modela dostopni uporabnikom, vendar za ta namen obstajajo tudi specifična orodja ali ogrodja. V okviru zaključnega dela naj se pregleda in primerja platforme, ki to omogočajo (npr. Nvidia Triton). Izbrano platformo naj se tudi preskusi in prikaže delovanje na praktičnem primeru (npr. produktivizacija obstoječega globokega modela).
Možne druge variacije zaključnega dela
(a) Pregled in preskus platforme za zaganjanje globokih modelov v brskalniku (npr. www.tensorflow.org/js).
(b) Pregled in preskus platforme za zaganjanje globokih modelov na mobilnih napravah (npr. Tensorflow Android, Tensorflow iOS, Apple CoreML).
Ključne besede
globoko učenje, ogrodja za umetno inteligenco, produktivizacija
Tip zaključnega dela
Magistrsko delo

Izdelava ogrodja za demokratizacijo obdelave naravnega jezika

V okviru projekta Razvoj slovenščine v digitalnem okolju smo pregledali možnosti za izdelavo orodja za procesiranje naravnega jezika po vzoru obstoječih orodij - GATE, UIMA, Orange3 (Text mining Addon, Textable). Poleg tega smo pripravili tudi zasnovo splošnega podatkovnega modela, arhitekturo orodja in definirali programske vmesnike za komunikacijo med vsebniki Docker.
Namen zaključnega dela je implementirati predlagano orodja in pokazati možnosti za izvedljivost projekta ter uporabo orodja v praksi. Končna specifikacija kmalu na voljo javnosti.
Ključne besede
Docker, procesiranje naravnega jezika, podatkovni model, programski vmesniki
Tip zaključnega dela
Diplomsko delo delo

Ostale možne tematike

Kandidat si lahko zamisli svoj lasten problem iz področja iskanja in ekstrakcije vsebin is spleta ali procesiranja naravnega jezika ter ga uskladi z menoj. Tematike se lahko dotikajo tudi analize in uporabe odprtokodnih sistemov, ki so morda trenutno aktualne, uporabe in analize odprtih podatkov (npr. iz portala OPSI) ali izdelave speficičnih orodij za obdelavo podatkov (ETL, informacijski sistemi, ipd.).
Prav tako vsako leto na področju procesiranja naravnega jezika potekajo tekmovanja z zanimivimi tematikami, ki lahko predstavljajo zaključno delo. Največkrat so to delavnice (angl., workshops) na konferencah ACL, CoNLL, BSNLP, EMNLP, ipd.