Available theses topics: Difference between revisions

Latest revision as of 21:55, 2 October 2025

Na tej strani so naštete proste teme za izdelavo zaključnih del pod mojim mentorstvom. Pri izbiri prosim sledite navodilom, ki so opisana na strani glede metodologije priprave zaključnega dela.

Language Technology Tools Catalogue

You may be familiar with catalogs such as HuggingFace or Clarin.si. These catalogues contain datasets, (large) language models, language technologies tools, scripts, repositories, ...

The goal of the thesis would be to implement efficient search mechanisms over such repositories. Currently, within the EU project LLMs4EU, we are building a catalogue the will be connected to the European Language Data Space and you could prototype search capabilities for the new catalogue. Apart from traditional search, you might be interested into proposing an Agent-based search, where you would "talk with an agent," that would eventually propose you a resource that you might need.

Ključne besede: LLMs, Agents, information retrieval

Tip zaključnega dela: Diplomsko delo ali Magistrska naloga

Uvedba agentnega sistema za odgovarjanje na vprašanja javnosti

Agencija za komunikacijska omrežja in storitve RS (AKOS) regulira več različnih področij, pripravlja regulacijo, prispeva k zakonodaji, pripravlja poročila, ... Odgovarjati mora na mnogo novinarskih vprašanj (https://www.akos-rs.si/medijsko-sredisce/novinarska-vprasanja-in-odgovori) in pogosto voditi javna posvetovanja in diskusije. Med drugim je tudi organ, ki ščiti potrošnike, posreduje v morebitnih sporih in jim odgovarja na vprašanja (https://www.akos-rs.si/uporabniki-storitev/raziscite/vprasajte-nas).

Trenutno uporabniki odloženo čakajo na odziv Agencije, kar obremenjuje kader na Agenciji, poleg tega pa uporabniki storitev dalj časa čakajo na odgovore na enostavnejša vprašanja. Cilj je, da bi s trenutnimi možnostmi uporabe umetne inteligence razbremenili zaposlene in zainteresirani javnosti omogočili hitrejši in učinkovitejši dostop do informacij.

Namen projekta je zato vzpostavitev infrastrukturne in podatkovne platforme za implementacijo pogovornega agentnega sistema za zunanje deležnike. Sistem bo moral biti zmožen odgovarjati na pisna vprašanja javnosti in svoje odgovore generirati na podlagi obstoječe baze dokumentov in novic javno objavljenih na spletni strani AKOS.

Osnovna ideja je, da bo sistem hitreje in učinkoviteje odgovarjal na odprta vprašanja splošne javnosti, pri čemer bomo naslovili tudi zagotavljanje varnostnih in etičnih vidikov. Na projektu bodo študenti obravnavali tudi ločene vidike pogovornega robota, ki bodo poleg tehničnih izzivov tudi pravni in ekonomski.

V okviru projekta bo na voljo študentsko delo (4 študenti), pri čemer boste imeli mentorja na FRI (jaz) in na AKOS-u.

Ključne besede: Agent, odgovarjanje na vprašanja

Tip zaključnega dela: Diplomsko delo ali Magistrska naloga

SloBench: Slovenski vrednotnik metod za obdelavo naravnega jezika

Z nedavno priljubljenostjo modelov obdelave naravnega jezika, ki temeljijo na arhitekturi transformer, in njihove najsodobnejše zmogljivosti pri številnih nalogah NLP, je vse večja potreba po objektivnem ocenjevanju teh orodij in omogočanju njihove primerjave. Obstajajo številni nabori podatkov in meril za NLP naloge, ki pa večinoma temeljijo na angleškem jeziku. V diplomski nalogi kandidat opiše razvoj prve slovenske platforme za avtomatsko primerjavo NLP modelov - SloBench, skupaj z njenim razširljivim in od sistemske arhitekture neodvisnim ogrodjem za evalvacijo sistemov. Nato kritično oceni projekt, ga primerja z obstoječimi merili uspešnosti NLP in poda nekaj idej za prihodnje razširitve platforme.

Evalvacija nalog procesiranja naravnega jezika (NLP) je bistven del raziskav in napredka na tem področju. Zagotavlja objektiven standard za uspešnost in primerjavo sistemov pri določeni nalogi. Podamo pregled nedavnih javnih lestvic za najboljše sisteme in trendov njihovega ocenjevanja s poudarkom na avtomatskem vrednotenju sistemov. Nato predlagamo, implementiramo in dokumentiramo splošno, razširljivo in od sistemske arhitekture neodvisno ogrodje za evalvacijo sistemov, skupaj s prvo spletno platformo za avtomatsko vrednotenje NLP nalog v slovenščini z javnimi lestvicami, ki prikazujejo rezultate objavljenih sistemov.

Cilj vašega dela bo nadgradnja ogrodja SloBench z dodatnimi funkcionalnostmi. Najprej boste pregledali ostale obstoječe vrednotnike, nato se bomo odločili za implementacijo dodatnih funkcionalnosti (npr. parameter za spreminjanje tipa metrike, vizualizacija rezultatov, avtomatska analiza napak).

Ključne besede: procesiranje naravnega jezika, vrednotenje, lestvica najboljših, strojno učenje, spletna platforma

Tip zaključnega dela: Diplomsko delo ali Magistrska naloga

MLOps / AI Workflows

To complete a successful machine learning project, understanding machine learning theory and concepts is essential, but you need engineering capabilities as well. Effectively developing and deploying machine learning models requires competencies more commonly found in technical fields such as software engineering and DevOps. Within the thesis, the idea is to cover the follwing aspects: (a) how to plan, (b) build, and (c) maintain a machine learning project. In contrast with the standard machine learning cycle, models in production need to integrate with other services or applications, need to run continuously with maximum performance and minimal cost, and have an ability to handle evolving data and business requirements. In this hands-on course you will become familiar with challenges, patterns and well-established tools for doing this effectively.

The idea is to review MLOps in general and then focus on a specific topic - e.g. data versioning (DVC), MLFlow, business perspective and visualizations, pipelines and packaging, deployment and CI/CD, monitoring, regulation compliance tools, ...

Ključne besede: MLOps, DevOps, produktivizacija, razvoj orodij umetne inteligence

Tip zaključnega dela: Diplomsko delo ali Magistrska naloga

Vključevanje strukturiranega znanja v jezikovne modele

Jezikovni modeli vsebujejo splošno znanje, saj so bili izpostavljeni ogromnim količinam besedil. Lahko se jih prilagodi za posamezne domene, vendar ostaja problem osveževanja modela z novimi podatki. Dodatno znanje je v model možno vstavljati na različne načine (npr. na vhodu ali kasneje - tehnika RAG).

V okviru naloge se pričakuje, da bo kandidat raziskal možnosti vstavljanja dodatnega znanja v jezikovni model. Dodatno znanje se lahko nahaja na spletu, v bazi znanja (npr. grafu, ontologiji, ...) ali dodatnih besedilnih virih. Glede na izbran način bo kandidat tudi implementiral iskanje dodatnih vsebin (npr. s tehnikami RAG). Delo bo vrednoteno glede na izbrano domeno (npr. reševanje težav študentskega referata FRI, ugotavljanje razumevanje slovenske slovnice, ...)

Ključne besede: jezikovni modeli, slovenščina, RAG, baze znanja

Tip zaključnega dela: Diplomsko delo ali Magistrska naloga

Portali odprtih podatkov - deljenje, objava, ponovna uporaba

Evropska unija želi ustvariti okolje za boljšo podatkovno ekonomijo. Že pred leti so zato članice EU začele vzpostavljati portale odprtih podatkov, ki večinoma temeljijo na odprtokodnem ogrodju CKAN. Tudi v Sloveniji imamo v tem smislu vzpostavljen portal [1].

Za boljšo ponovno uporabo podatkov morajo biti le ti bolje (avtomatsko) dostopni in ponujeni preko vmesnikov. Projekt Podatkovni zemljevid je omogočil enostavno iskanje in pretvorbo v semantično obliko, kar mora biti še integrirano. Možnosti za inovativnost je še mnogo ...

V okviru naloge se pričakuje podroben pregled izbranega (pod)področja/ogrodja, primerjava obstoječih rešitev in implementacija prototipa s pomočjo odprtokodnih orodij. Prototip je lahko izboljšava/avtomatizacija posameznega dela Podatkovnega zemljevida ali vključitev napredne obdelave naravnega jezika za ponujanje podatkov (npr. iskanje, povzemanje, ...).

Ključne besede: odprti podatki, OPSI, repozitoriji

Tip zaključnega dela: Diplomsko delo ali Magistrska naloga

Evropski podatkovni prostori - infrastruktura

Podatkovni prostori (angl. Dataspaces) predstavljajo abstrakcijo upravljanja podatkov, kjer je osredni cilj odprava težav, ki se pojavijo pri integraciji podatkov. Osrednji namen podatkovnih prostorov je zmanjšati napor, ki je potreben za vzpostavitev sistema za integracijo podatkov, kjer uporabimo obstoječe tehnike ujemanj in preslikav ter vpeljava plačila po uporabi. Na ravni EU je prisotnih veliko aktivnosti, kjer je na voljo številno gradivo:

V okviru naloge se pričakuje podroben pregled izbranega (pod)področja/ogordja, primerjava obstoječih rešitev in implementacija prototipa s pomočjo odprtokodnih orodij.

Ključne besede: podatkovni prostori, semantika, spletne tehnologije

Tip zaključnega dela: Diplomsko delo ali Magistrska naloga

Evropski podatkovni prostor za jezik (Language Data Space)

Podatkovni prostori (angl. Dataspaces) predstavljajo abstrakcijo upravljanja podatkov, kjer je osredni cilj odprava težav, ki se pojavijo pri integraciji podatkov. Osrednji namen podatkovnih prostorov je zmanjšati napor, ki je potreben za vzpostavitev sistema za integracijo podatkov, kjer uporabimo obstoječe tehnike ujemanj in preslikav ter vpeljava plačila po uporabi. Glejte tudi zgornje gradivo.

V okviru naloge se pričakuje podroben pregled stanja in razvoja Evropskega podatkovnega prostora za jezik. Izvede naj se primerjava z drugimi podatkovnimi prostori (predvsem glede izbire infrastrukture). Implementira naj se prototip, ki bi omogočil vključitev in/ali uporabo podatkov iz podatkovnega prostora.

Ključne besede: podatkovni prostori, semantika, jezikovne tehnologije

Tip zaključnega dela: Diplomsko delo ali Magistrska naloga

Izdelava Sociogramov - sedežni red

Sociometrija je tehnika iz socialne psihologije in sociologije, ki se uporablja za merjenje družbenih odnosov v skupinah (npr. ekipe, razredi v šolah, ...). Z njo se opredeli povezanost skupine ter vlogo posameznika v tej skupini (npr. izločen, priljubljen, vodja, ...). Vodji skupine (npr. trenerju, učitelju, socialnemu pedagogu) tehnika pomaga razumeti latentne odnose v skupinah in jim omogoča učinkovitejše ter ustreznejše delo s skupino.

V okviru projekta se pričakuje:

Nadgradnja obstoječe aplikacije Sociogram (sedežni red ali oddaljeno izpolnjevanje sociogramov). Uporaba tehnologij Java 18+, Python/Django, React (ali drugo ogrodje) in MariaDB.
Sodelovanje s študentkami/študenti iz Fakultete za šport (FSP) in podjetjem MikroGrafArt d.o.o..
Predvidenih 80 ur dela, plačanih po postavki 11,30 EUR bruto bruto.
Čas sodelovanja v obdobju od aprila do septembra 2024.

Delo se lahko nadgradi in uporabi tudi v okviru predmetov RvP/OSD ali se jih prilagodi v zaključno delo (npr. diplomska naloga)

Predlaganje sedežnega reda v učilnicah glede na rezultat Sociograma: Na podlagi rezultatov medsebojnih odnosov in dinamike pri pouku se bo pregledalo teoretične vidike in predlagalo metodologije za izdelavo sedežnih redov na podlagi sociometrije (študent FSP). Metodologije bodo nato implementirane v dodatnem modulu programa Sociogram, ki bo omogočal avtomatsko izdelavo sedežnega reda za poljubno vnešen tloris učilnice (študent FRI). Rezultat bo omogočil kakovostnejše izobraževanje, zmanjšanje neenakosti in večjo integracijo skupin.

Ključne besede: sociogram, psihologija, delo v skupinah, namizna aplikacija, spletne storitve

Tip zaključnega dela: Diplomsko delo

Izdelava Sociogramov - oddaljen način

Sociometrija je tehnika iz socialne psihologije in sociologije, ki se uporablja za merjenje družbenih odnosov v skupinah (npr. ekipe, razredi v šolah, ...). Z njo se opredeli povezanost skupine ter vlogo posameznika v tej skupini (npr. izločen, priljubljen, vodja, ...). Vodji skupine (npr. trenerju, učitelju, socialnemu pedagogu) tehnika pomaga razumeti latentne odnose v skupinah in jim omogoča učinkovitejše ter ustreznejše delo s skupino.

V okviru projekta se pričakuje

Nadgradnja obstoječe aplikacije Sociogram (sedežni red ali oddaljeno izpolnjevanje sociogramov). Uporaba tehnologij Java 18+, Python/Django, React (ali drugo ogrodje) in MariaDB.
Sodelovanje s študentkami/študenti iz Fakultete za šport (FSP) in podjetjem MikroGrafArt d.o.o..
Predvidenih 80 ur dela, plačanih po postavki 11,30 EUR bruto bruto.
Čas sodelovanja v obdobju od aprila do septembra 2024.

Delo se lahko nadgradi in uporabi tudi v okviru predmetov RvP/OSD ali se jih prilagodi v zaključno delo (npr. diplomska naloga).

Izdelava Sociograma na oddaljen način: Trenutno se Sociogram printa na liste, od koder se nato rezultate vnese v program. Potrebno je preveriti in izdelati varen protokol (študent FSP) in implementirati avtomatske mehanizme za oddaljeno izpolnjevanje sociograma preko e-pošte ali drugih kanalov, pri čemer je potrebno zagotavljati varnost in anonimnost (študent FRI). Rezultat bo bolj učinkovito anketiranje in bolj trajnostna izdelava sociogramov brez potrebe printanja.

Ključne besede: sociogram, psihologija, delo v skupinah, namizna aplikacija, spletne storitve

Tip zaključnega dela: Diplomsko delo

Evalvacija in produktivizacija orodja TextCaptcha

Martin Čebular je v okviru svoje magistrske naloge razvil orodje TextCaptcha - Preprečevanje neželenih komentarjev za spletne novice s pomočjo tehnik za procesiranje naravnega jezika (Martin Čebular). Ideja za orodje izhaja iz storitve reCaptcha, ki se uporablja za bolj natančno digitalizacijo knjig. V osnovi deluje tako, da bralcu prikaže npr. dva niza, pri katerem sistem za enega pozna rešitev, za drugega ne. Uporabnik mora oba niza vpisati v vnosno polje. Sistem nato preko več odgovorov ugotovi, kakšna je pravilna digializacija neznanega niza.

Izdelano orodje je že bilo validirano in kot Javascript vtičnik na spletnih straneh [rtvslo.si]. Namen magistrske naloge bi bil (a) izdelati natančno metodologijo uporabe orodja TextCaptcha za namene zbiranja označenih korpusov v slovenskem jeziku, (b) prikazati smiselne primere uporabe in (c) evalvirati orodje na realnih primerih.

Ključne besede: ekstrakcija informacij, gradnja podatkovnih množic, preverjanje vnosov

Tip zaključnega dela: Magistrsko delo

Primerjava standardne slovenščine v Sloveniji in izzven nje

Za primerjavo jezikov obstajajo že uveljavljene metode, s katerimi se lahko primerja, kdaj sta si jezika sorodna, enaka oz. kako različna sta si. V okviru zaključnega dela naj se primerja besedila novic iz področja Slovenije z besedili novic zamejskih Slovencev ali izseljencev. Primeri novic izseljencev so na primer novice.at (Avstrija), Novi list (Argentina), ipd., pri čemer naj se pregleda možnosti za pridobitev tudi drugih primernih virov. Izdela naj se referenčni korpus, katerega se bo primerjalo z referenčnim korpusom standardne slovenščine v Sloveniji (vir bo zagotovljen). Množice je potrebno nato primerjati in ugotoviti jezikovne različnosti (npr. raba besed v različnih kontekstih, pojavljanje starih/novih besed, vpliv tujega jezika, vrstni red besed).

Uporabne povezave: Lexical distance map among languages

Ključne besede: slovenščina, primerjava besedil, novice

Tip zaključnega dela: Magistrsko delo

Produktivizacija modelov globokega učenja

V zadnjem času se globoki modeli nevronskih mrež čedalje bolj uporabljajo v praksi. Seveda je možno implementirati lastno infrastrukturo, ki bo služila namenu, da bodo rezultati našega modela dostopni uporabnikom, vendar za ta namen obstajajo tudi specifična orodja ali ogrodja. V okviru zaključnega dela naj se pregleda in primerja platforme, ki to omogočajo (npr. Nvidia Triton). Izbrano platformo naj se tudi preskusi in prikaže delovanje na praktičnem primeru (npr. produktivizacija obstoječega globokega modela).

Možne druge variacije zaključnega dela: (a) Pregled in preskus platforme za zaganjanje globokih modelov v brskalniku (npr. www.tensorflow.org/js).; (b) Pregled in preskus platforme za zaganjanje globokih modelov na mobilnih napravah (npr. Tensorflow Android, Tensorflow iOS, Apple CoreML).

Ključne besede: globoko učenje, ogrodja za umetno inteligenco, produktivizacija

Tip zaključnega dela: Magistrsko delo

Izdelava ogrodja za demokratizacijo obdelave naravnega jezika

V okviru projekta Razvoj slovenščine v digitalnem okolju smo pregledali možnosti za izdelavo orodja za procesiranje naravnega jezika po vzoru obstoječih orodij - GATE, UIMA, Orange3 (Text mining Addon, Textable). Poleg tega smo pripravili tudi zasnovo splošnega podatkovnega modela, arhitekturo orodja in definirali programske vmesnike za komunikacijo med vsebniki Docker.

Namen zaključnega dela je implementirati predlagano orodja in pokazati možnosti za izvedljivost projekta ter uporabo orodja v praksi. Končna specifikacija kmalu na voljo javnosti.

Ključne besede: Docker, procesiranje naravnega jezika, podatkovni model, programski vmesniki

Tip zaključnega dela: Diplomsko delo delo

Ostale možne tematike

Kandidat si lahko zamisli svoj lasten problem iz področja iskanja in ekstrakcije vsebin is spleta ali procesiranja naravnega jezika ter ga uskladi z menoj. Tematike se lahko dotikajo tudi analize in uporabe odprtokodnih sistemov, ki so morda trenutno aktualne, uporabe in analize odprtih podatkov (npr. iz portala OPSI) ali izdelave speficičnih orodij za obdelavo podatkov (ETL, informacijski sistemi, ipd.).

Prav tako vsako leto na področju procesiranja naravnega jezika potekajo tekmovanja z zanimivimi tematikami, ki lahko predstavljajo zaključno delo. Največkrat so to delavnice (angl., workshops) na konferencah ACL, CoNLL, BSNLP, EMNLP, ipd.

@@ Line 1: / Line 1: @@
-== Proste teme ==
+__NOTOC__
+Na tej strani so naštete proste teme za izdelavo zaključnih del pod mojim mentorstvom. Pri izbiri prosim sledite navodilom, ki so opisana na [[Thesis_preparation_instructions|strani glede metodologije priprave zaključnega dela]].
-=== Information Extraction Captcha ===
+=== Language Technology Tools Catalogue ===
-Razvijte storitev - "widget", ki bo delovala kot zaščita spletnih obrazcev - "captcha". Zelo uspešna storitev [http://recaptcha.net reCaptcha] se uporablja za bolj natančno digitalizacijo knjig. V osnovi deluje tako, da bralcu prikaže dva niza, pri katerem sistem za enega pozna rešitev, za drugega ne. Uporabnik mora oba niza vpisati v vnosno polje. Sistem nato preko več odgovorov ugotovi, kakšna je pravilna digializacija neznanega niza.
+:You may be familiar with catalogs such as [https://huggingface.co/models HuggingFace] or [https://www.clarin.si/repository/xmlui/ Clarin.si]. These catalogues contain datasets, (large) language models, language technologies tools, scripts, repositories, ...
-Znano je, da so včasih nizi zelo nerazločni (še posebej sistemu znani nizi so še dodatno izmaličeni), zato uporabniki zelo neradi vpisujejo te nize. Pri ekstrakciji besedil obstaja mnogo problemov, med katerimi so najbolj znani - ekstrakcija entitet, povezav, koreferenc, in so za ljudi enostavno rešljivi. Kandidat naj razvije reCaptcha-i podobno rešitev, ki bo avtomatsko povečevala učno množico za izbran problem. Pri tem naj upošteva tudi večjezičnost in uporabi orodja, podatkovne množice, ki so trenutno javno dostopne. Pri tem naj kandidat pregleda tudi sorodna dela, ki se nanašajo na implementacijo in težave takšnega preverjanja z orodjem captcha.
-Ključne besede: ekstrakcija informacij, gradnja podatkovnih množic, preverjanje vnosov
+:The goal of the thesis would be to implement efficient search mechanisms over such repositories. Currently, within the EU project LLMs4EU, we are building a catalogue the will be connected to the European Language Data Space and you could prototype search capabilities for the new catalogue. Apart from traditional search, you might be interested into proposing an Agent-based search, where you would "talk with an agent," that would eventually propose you a resource that you might need.
-=== Primerjava jezikov ===
+:;Ključne besede
-Za primerjavo jezikov obstajajo že uveljavljene metode, s katerimi se lahko primerja, kdaj sta si jezika sorodna, enaka oz. kako različna sta si. Kandidat naj v okviru zaključnega dela primerja besedila novic iz področja Slovenije z besedili novic zamejskih Slovencev ali izseljencev. Primeri novic izseljencev so na primer [http://www.novice.at/ novice.at] (Avstrija), Novi list (Argentina), ipd., pri čemer naj kandidat najde tudi druge primerne vire. Po primerjavi teh množic naj kandidat primerja besedila v slovenščini še z novicami podobnih slovanskih jezikov (npr. hrvaščina) ter ugotovi, kakšna je jezikovna različnost med takšnimi pari v primerjavi z zamejsko slovenščino.
+::LLMs, Agents, information retrieval
-Ključne besede: slovenščina, primerjava besedil, novice
+:;Tip zaključnega dela
+::Diplomsko delo ali Magistrska naloga
-=== Analiza sentimenta do objektov v besedilih ===
+=== Uvedba agentnega sistema za odgovarjanje na vprašanja javnosti ===
-Sentiment se navadno ugotavlja za določen del besedila oz. celotno besedilo naenkrat. Velikokrat se v novicah pojavi mnogo entitet, do katerih ima lahko pisec različen sentiment. V okviru zaključnega dela naj kandidat pridobi korpus novic, v okviru katerih naj prepozna določen tip entitet (npr. osebe) in njihove omenitve, do katerih naj za posamezno novico avtomatsko ugotovi sentiment.
+:Agencija za komunikacijska omrežja in storitve RS (AKOS) regulira več različnih področij, pripravlja regulacijo, prispeva k zakonodaji, pripravlja poročila, ... Odgovarjati mora na mnogo novinarskih vprašanj (https://www.akos-rs.si/medijsko-sredisce/novinarska-vprasanja-in-odgovori) in pogosto voditi javna posvetovanja in diskusije. Med drugim je tudi organ, ki ščiti potrošnike, posreduje v morebitnih sporih in jim odgovarja na vprašanja (https://www.akos-rs.si/uporabniki-storitev/raziscite/vprasajte-nas).
-Ključne besede: analiza sentimenta, prepoznavanje imenskih entitet, odkrivanje koreferenčnosti
+:Trenutno uporabniki odloženo čakajo na odziv Agencije, kar obremenjuje kader na Agenciji, poleg tega pa uporabniki storitev dalj časa čakajo na odgovore na enostavnejša vprašanja. Cilj je, da bi s trenutnimi možnostmi uporabe umetne inteligence razbremenili zaposlene in zainteresirani javnosti omogočili hitrejši in učinkovitejši dostop do informacij.
-=== Ostale možne tematike ===
+:Namen projekta je zato vzpostavitev infrastrukturne in podatkovne platforme za implementacijo pogovornega agentnega sistema za zunanje deležnike. Sistem bo moral biti zmožen odgovarjati na pisna vprašanja javnosti in svoje odgovore generirati na podlagi obstoječe baze dokumentov in novic javno objavljenih na spletni strani AKOS.
-Kandidat si lahko zamisli svoj lasten problem iz področja iskanja in ekstrakcije vsebin is spleta ali procesiranja naravnega jezika ter ga uskladi z mentorjem. Tematike se lahko dotikajo tudi analize in uporabe odprtokodnih sistemov (npr. Solr, Lucene, ...), ki so morda trenutno aktualne, uporabe in analize odprtih podatkov (npr. iz portala [https://podatki.gov.si/ OPSI]). Prav tako vsako leto na področju analize besedil potekajo tekmovanja z zanimivimi tematikami, s katerimi se lahko lahko spoprime:
+:Osnovna ideja je, da bo sistem hitreje in učinkoviteje odgovarjal na odprta vprašanja splošne javnosti, pri čemer bomo naslovili tudi zagotavljanje varnostnih in etičnih vidikov. Na projektu bodo študenti obravnavali tudi ločene vidike pogovornega robota, ki bodo poleg tehničnih izzivov tudi pravni in ekonomski.
+:V okviru projekta bo na voljo študentsko delo (4 študenti), pri čemer boste imeli mentorja na FRI (jaz) in na AKOS-u.
+:;Ključne besede
+::Agent, odgovarjanje na vprašanja
+:;Tip zaključnega dela
+::Diplomsko delo ali Magistrska naloga
+=== SloBench: Slovenski vrednotnik metod za obdelavo naravnega jezika ===
+:Z nedavno priljubljenostjo modelov obdelave naravnega jezika, ki temeljijo na arhitekturi transformer, in njihove najsodobnejše zmogljivosti pri številnih nalogah NLP, je vse večja potreba po objektivnem ocenjevanju teh orodij in omogočanju njihove primerjave. Obstajajo številni nabori podatkov in meril za NLP naloge, ki pa večinoma temeljijo na angleškem jeziku. V diplomski nalogi kandidat opiše razvoj prve slovenske platforme za avtomatsko primerjavo NLP modelov - SloBench, skupaj z njenim razširljivim in od sistemske arhitekture neodvisnim ogrodjem za evalvacijo sistemov. Nato kritično oceni projekt, ga primerja z obstoječimi merili uspešnosti NLP in poda nekaj idej za prihodnje razširitve platforme.
+:Evalvacija nalog procesiranja naravnega jezika (NLP) je bistven del raziskav in napredka na tem področju. Zagotavlja objektiven standard za uspešnost in primerjavo sistemov pri določeni nalogi. Podamo pregled nedavnih javnih lestvic za najboljše sisteme in trendov njihovega ocenjevanja s poudarkom na avtomatskem vrednotenju sistemov. Nato predlagamo, implementiramo in dokumentiramo splošno, razširljivo in od sistemske arhitekture neodvisno ogrodje za evalvacijo sistemov, skupaj s prvo spletno platformo za avtomatsko vrednotenje NLP nalog v slovenščini z javnimi lestvicami, ki prikazujejo rezultate objavljenih sistemov.
+:Cilj vašega dela bo nadgradnja ogrodja [https://slobench.cjvt.si SloBench] z dodatnimi funkcionalnostmi. Najprej boste pregledali ostale obstoječe vrednotnike, nato se bomo odločili za implementacijo dodatnih funkcionalnosti (npr. parameter za spreminjanje tipa metrike, vizualizacija rezultatov, avtomatska analiza napak).
+:;Ključne besede
+::procesiranje naravnega jezika, vrednotenje, lestvica najboljših, strojno učenje, spletna platforma
+:;Tip zaključnega dela
+::Diplomsko delo ali Magistrska naloga
+=== MLOps / AI Workflows ===
+:To complete a successful machine learning project, understanding machine learning theory and concepts is essential, but you need engineering capabilities as well. Effectively developing and deploying machine learning models requires competencies more commonly found in technical fields such as software engineering and DevOps. Within the thesis, the idea is to cover the follwing aspects: (a) how to plan, (b) build, and (c) maintain a machine learning project. In contrast with the standard machine learning cycle, models in production need to integrate with other services or applications, need to run continuously with maximum performance and minimal cost, and have an ability to handle evolving data and business requirements. In this hands-on course you will become familiar with challenges, patterns and well-established tools for doing this effectively.
+:The idea is to review MLOps in general and then focus on a specific topic - e.g. data versioning (DVC), MLFlow, business perspective and visualizations, pipelines and packaging, deployment and CI/CD, monitoring, regulation compliance tools, ...
+:;Ključne besede
+::MLOps, DevOps, produktivizacija, razvoj orodij umetne inteligence
+:;Tip zaključnega dela
+::Diplomsko delo ali Magistrska naloga
+=== Vključevanje strukturiranega znanja v jezikovne modele ===
+:Jezikovni modeli vsebujejo splošno znanje, saj so bili izpostavljeni ogromnim količinam besedil. Lahko se jih prilagodi za posamezne domene, vendar ostaja problem osveževanja modela z novimi podatki. Dodatno znanje je v model možno vstavljati na različne načine (npr. na vhodu ali kasneje - tehnika RAG).
+:V okviru naloge se pričakuje, da bo kandidat raziskal možnosti vstavljanja dodatnega znanja v jezikovni model. Dodatno znanje se lahko nahaja na spletu, v bazi znanja (npr. grafu, ontologiji, ...) ali dodatnih besedilnih virih. Glede na izbran način bo kandidat tudi implementiral iskanje dodatnih vsebin (npr. s tehnikami RAG). Delo bo vrednoteno glede na izbrano domeno (npr. reševanje težav študentskega referata FRI, ugotavljanje razumevanje slovenske slovnice, ...)
+:;Ključne besede
+::jezikovni modeli, slovenščina, RAG, baze znanja
+:;Tip zaključnega dela
+::Diplomsko delo ali Magistrska naloga
+=== Portali odprtih podatkov - deljenje, objava, ponovna uporaba ===
+:Evropska unija želi ustvariti okolje za boljšo podatkovno ekonomijo. Že pred leti so zato članice EU začele vzpostavljati portale odprtih podatkov, ki večinoma temeljijo na odprtokodnem ogrodju [https://ckan.org/ CKAN]. Tudi v Sloveniji imamo v tem smislu vzpostavljen portal [https://podatki.gov.si/].
+:Za boljšo ponovno uporabo podatkov morajo biti le ti bolje (avtomatsko) dostopni in ponujeni preko vmesnikov. Projekt [https://github.com/FRI-MDP/Podatkovni-zemljevid-2023 Podatkovni zemljevid] je omogočil enostavno iskanje in pretvorbo v semantično obliko, kar mora biti še integrirano. Možnosti za inovativnost je še mnogo ...
+:V okviru naloge se pričakuje podroben pregled izbranega (pod)področja/ogrodja, primerjava obstoječih rešitev in implementacija prototipa s pomočjo odprtokodnih orodij. Prototip je lahko izboljšava/avtomatizacija posameznega dela Podatkovnega zemljevida ali vključitev napredne obdelave naravnega jezika za ponujanje podatkov (npr. iskanje, povzemanje, ...).
+:;Ključne besede
+::odprti podatki, OPSI, repozitoriji
+:;Tip zaključnega dela
+::Diplomsko delo ali Magistrska naloga
+=== Evropski podatkovni prostori - infrastruktura ===
+:Podatkovni prostori (angl. Dataspaces) predstavljajo abstrakcijo upravljanja podatkov, kjer je osredni cilj odprava težav, ki se pojavijo pri integraciji podatkov. Osrednji namen podatkovnih prostorov je zmanjšati napor, ki je potreben za vzpostavitev sistema za integracijo podatkov, kjer uporabimo obstoječe tehnike ujemanj in preslikav ter vpeljava plačila po uporabi. Na ravni EU je prisotnih veliko aktivnosti, kjer je na voljo številno gradivo:
+:* [https://data.europa.eu/en/news-events/news/european-strategy-data Evropska podatkovna strategija],
+:* [https://nio.gov.si/nio/asset/strategija+digitalnih+javnih+storitev Strategija digitalnih javnih storitev 2030 (SDJU 2030)],
+:* [https://eu-skladi.si/sl/po-2020/nacrt-za-okrevanje-in-krepitev-odpornosti Načrt za okrevanje in odpornost (NOO)],
+:* [https://digital-strategy.ec.europa.eu/en/library/staff-working-document-data-spaces Usmeritve Evropske komisije],
+:* [https://docs.internationaldataspaces.org/knowledge-base International Data Spaces],
+:* [https://mydata.org/participate/declaration/ MyData Principles],
+:* [https://solidproject.org/about SOLID Intiative],
+:* [https://gaia-x.eu/ GAIA-X],
+:* [https://oceanprotocol.com/ OCEAN protocol].
+:V okviru naloge se pričakuje podroben pregled izbranega (pod)področja/ogordja, primerjava obstoječih rešitev in implementacija prototipa s pomočjo odprtokodnih orodij.
+:;Ključne besede
+::podatkovni prostori, semantika, spletne tehnologije
+:;Tip zaključnega dela
+::Diplomsko delo ali Magistrska naloga
+=== Evropski podatkovni prostor za jezik (Language Data Space) ===
+:Podatkovni prostori (angl. Dataspaces) predstavljajo abstrakcijo upravljanja podatkov, kjer je osredni cilj odprava težav, ki se pojavijo pri integraciji podatkov. Osrednji namen podatkovnih prostorov je zmanjšati napor, ki je potreben za vzpostavitev sistema za integracijo podatkov, kjer uporabimo obstoječe tehnike ujemanj in preslikav ter vpeljava plačila po uporabi. Glejte tudi zgornje gradivo.
+:V okviru naloge se pričakuje podroben pregled stanja in razvoja [https://language-data-space.ec.europa.eu/index_en Evropskega podatkovnega prostora za jezik]. Izvede naj se primerjava z drugimi podatkovnimi prostori (predvsem glede izbire infrastrukture). Implementira naj se prototip, ki bi omogočil vključitev in/ali uporabo podatkov iz podatkovnega prostora.
+:;Ključne besede
+::podatkovni prostori, semantika, jezikovne tehnologije
+:;Tip zaključnega dela
+::Diplomsko delo ali Magistrska naloga
+=== Izdelava Sociogramov - sedežni red ===
+:Sociometrija je tehnika iz socialne psihologije in sociologije, ki se uporablja za merjenje družbenih odnosov v skupinah (npr. ekipe, razredi v šolah, ...). Z njo se opredeli povezanost skupine ter vlogo posameznika v tej skupini (npr. izločen, priljubljen, vodja, ...). Vodji skupine (npr. trenerju, učitelju, socialnemu pedagogu) tehnika pomaga razumeti latentne odnose v skupinah in jim omogoča učinkovitejše ter ustreznejše delo s skupino.
+:V okviru projekta se pričakuje:
+:* Nadgradnja obstoječe aplikacije Sociogram (sedežni red ali oddaljeno izpolnjevanje sociogramov). Uporaba tehnologij Java 18+, Python/Django, React (ali drugo ogrodje) in MariaDB.
+:* Sodelovanje s študentkami/študenti iz Fakultete za šport (FSP) in podjetjem MikroGrafArt d.o.o..
+:* Predvidenih 80 ur dela, plačanih po postavki 11,30 EUR bruto bruto.
+:* Čas sodelovanja v obdobju od aprila do septembra 2024.
+:Delo se lahko nadgradi in uporabi tudi v okviru predmetov RvP/OSD ali se jih prilagodi v zaključno delo (npr. diplomska naloga)
+:Predlaganje sedežnega reda v učilnicah glede na rezultat Sociograma: Na podlagi rezultatov medsebojnih odnosov in dinamike pri pouku se bo pregledalo teoretične vidike in predlagalo metodologije za izdelavo sedežnih redov na podlagi sociometrije (študent FSP). Metodologije bodo nato implementirane v dodatnem modulu programa Sociogram, ki bo omogočal avtomatsko izdelavo sedežnega reda za poljubno vnešen tloris učilnice (študent FRI). Rezultat bo omogočil kakovostnejše izobraževanje, zmanjšanje neenakosti in večjo integracijo skupin.
+:;Ključne besede
+::sociogram, psihologija, delo v skupinah, namizna aplikacija, spletne storitve
+:;Tip zaključnega dela
+::Diplomsko delo
+=== Izdelava Sociogramov - oddaljen način ===
+:Sociometrija je tehnika iz socialne psihologije in sociologije, ki se uporablja za merjenje družbenih odnosov v skupinah (npr. ekipe, razredi v šolah, ...). Z njo se opredeli povezanost skupine ter vlogo posameznika v tej skupini (npr. izločen, priljubljen, vodja, ...). Vodji skupine (npr. trenerju, učitelju, socialnemu pedagogu) tehnika pomaga razumeti latentne odnose v skupinah in jim omogoča učinkovitejše ter ustreznejše delo s skupino.
+:V okviru projekta se pričakuje
+:* Nadgradnja obstoječe aplikacije Sociogram (sedežni red ali oddaljeno izpolnjevanje sociogramov). Uporaba tehnologij Java 18+, Python/Django, React (ali drugo ogrodje) in MariaDB.
+:* Sodelovanje s študentkami/študenti iz Fakultete za šport (FSP) in podjetjem MikroGrafArt d.o.o..
+:* Predvidenih 80 ur dela, plačanih po postavki 11,30 EUR bruto bruto.
+:* Čas sodelovanja v obdobju od aprila do septembra 2024.
+:Delo se lahko nadgradi in uporabi tudi v okviru predmetov RvP/OSD ali se jih prilagodi v zaključno delo (npr. diplomska naloga).
+:Izdelava Sociograma na oddaljen način: Trenutno se Sociogram printa na liste, od koder se nato rezultate vnese v program. Potrebno je preveriti in izdelati varen protokol (študent FSP) in implementirati avtomatske mehanizme za oddaljeno izpolnjevanje sociograma preko e-pošte ali drugih kanalov, pri čemer je potrebno zagotavljati varnost in anonimnost (študent FRI). Rezultat bo bolj učinkovito anketiranje in bolj trajnostna izdelava sociogramov brez potrebe printanja.
+:;Ključne besede
+::sociogram, psihologija, delo v skupinah, namizna aplikacija, spletne storitve
+:;Tip zaključnega dela
+::Diplomsko delo
+=== Evalvacija in produktivizacija orodja TextCaptcha ===
+:Martin Čebular je v okviru svoje magistrske naloge razvil orodje TextCaptcha - [[Master_theses|Preprečevanje neželenih komentarjev za spletne novice s pomočjo tehnik za procesiranje naravnega jezika (Martin Čebular)]]. Ideja za orodje izhaja iz storitve [http://recaptcha.net reCaptcha], ki se uporablja za bolj natančno digitalizacijo knjig. V osnovi deluje tako, da bralcu prikaže npr. dva niza, pri katerem sistem za enega pozna rešitev, za drugega ne. Uporabnik mora oba niza vpisati v vnosno polje. Sistem nato preko več odgovorov ugotovi, kakšna je pravilna digializacija neznanega niza.
+:Izdelano orodje je že bilo validirano in kot Javascript vtičnik na spletnih straneh [rtvslo.si]. Namen magistrske naloge bi bil (a) izdelati natančno metodologijo uporabe orodja TextCaptcha za namene zbiranja označenih korpusov v slovenskem jeziku, (b) prikazati smiselne primere uporabe in (c) evalvirati orodje na realnih primerih.
+:;Ključne besede
+::ekstrakcija informacij, gradnja podatkovnih množic, preverjanje vnosov
+:;Tip zaključnega dela
+::Magistrsko delo
+=== Primerjava standardne slovenščine v Sloveniji in izzven nje ===
+:Za primerjavo jezikov obstajajo že uveljavljene metode, s katerimi se lahko primerja, kdaj sta si jezika sorodna, enaka oz. kako različna sta si. V okviru zaključnega dela naj se primerja besedila novic iz področja Slovenije z besedili novic zamejskih Slovencev ali izseljencev. Primeri novic izseljencev so na primer [http://www.novice.at/ novice.at] (Avstrija), Novi list (Argentina), ipd., pri čemer naj se pregleda možnosti za pridobitev tudi drugih primernih virov. Izdela naj se referenčni korpus, katerega se bo primerjalo z referenčnim korpusom standardne slovenščine v Sloveniji (vir bo zagotovljen). Množice je potrebno nato primerjati in ugotoviti jezikovne različnosti (npr. raba besed v različnih kontekstih, pojavljanje starih/novih besed, vpliv tujega jezika, vrstni red besed).
+:;Uporabne povezave
+::[https://alternativetransport.wordpress.com/2015/05/04/how-much-does-language-change-when-it-travels/ Lexical distance map among languages]
-* [http://www.conll.org/ CoNLL]
+:;Ključne besede
-* [http://alt.qcri.org/semeval2019/index.php?id=tasks SemEval]
+::slovenščina, primerjava besedil, novice
-* [http://bsnlp.cs.helsinki.fi/shared_task.html BSNLP Challenge]
-Naslov: Analiza orodij za hranjenje in poizvedovanje nad semantično opisanimi podatki
+:;Tip zaključnega dela
+::Magistrsko delo
-Pred leti je bila napisana sledeča diplomska: http://eprints.fri.uni-lj.si/1961/. V času od teda se je zgodilo marsikaj, tako da predlagam, da se preveri grafovske baze, ki podpirajo SPARQL (=poizvedovalni jezik za podatke, opisane z ontologijami, kot je na primer DBPedia): https://en.wikipedia.org/wiki/List_of_SPARQL_implementations. Poleg teh je pomembna še https://www.ontotext.com/products/graphdb/.
+=== Produktivizacija modelov globokega učenja ===
+:V zadnjem času se globoki modeli nevronskih mrež čedalje bolj uporabljajo v praksi. Seveda je možno implementirati lastno infrastrukturo, ki bo služila namenu, da bodo rezultati našega modela dostopni uporabnikom, vendar za ta namen obstajajo tudi specifična orodja ali ogrodja. V okviru zaključnega dela naj se pregleda in primerja platforme, ki to omogočajo (npr. Nvidia Triton). Izbrano platformo naj se tudi preskusi in prikaže delovanje na praktičnem primeru (npr. produktivizacija obstoječega globokega modela).
-Ostale grafovske pa so npr https://janusgraph.org/ ali neo4j (https://neo4j.com/blog/neo4j-rdf-graph-database-reasoning-engine/).
+:;Možne druge variacije zaključnega dela
+::(a) Pregled in preskus platforme za zaganjanje globokih modelov v brskalniku (npr. [https://www.tensorflow.org/js www.tensorflow.org/js]).
+::(b) Pregled in preskus platforme za zaganjanje globokih modelov na mobilnih napravah (npr. [https://www.tensorflow.org/lite/android Tensorflow Android], [https://www.tensorflow.org/lite/guide/ios Tensorflow iOS], [https://developer.apple.com/documentation/coreml Apple CoreML]).
-Ideja bi bila, da se opiše podatkovne baze, njihove funkcionalnosti. Nato pa se npr. vzame LUBM podatke in izvede performančne teste, da se ugotovi, kako delujejo.
+:;Ključne besede
+::globoko učenje, ogrodja za umetno inteligenco, produktivizacija
-Predmet NLP: https://ucilnica.fri.uni-lj.si/course/view.php?id=224
+:;Tip zaključnega dela
+::Magistrsko delo
-Cilj:
+=== Izdelava ogrodja za demokratizacijo obdelave naravnega jezika ===
-Pregled obstoječih podatkovnih baz
+:V okviru projekta [https://slovenscina.eu Razvoj slovenščine v digitalnem okolju] smo pregledali možnosti za izdelavo orodja za procesiranje naravnega jezika po vzoru obstoječih orodij - [https://gate.ac.uk GATE], [https://uima.apache.org UIMA], [https://orangedatamining.com Orange3] ([https://github.com/biolab/orange3-text Text mining Addon], [http://textable.io Textable]). Poleg tega smo pripravili tudi zasnovo splošnega podatkovnega modela, arhitekturo orodja in definirali programske vmesnike za komunikacijo med vsebniki Docker.
-grafovske baze -> SPARQL
---->primerjalna tabela baz
---> odločitev za test
-Opis testnih scenarijev in podatkov
-LUBM test set
-Performančna analiza
-velikost baze/poraba CPU-pomnilnika/ čas izvajanja poizvedb
-čas uvažanja podatkov, ...
------
+:Namen zaključnega dela je implementirati predlagano orodja in pokazati možnosti za izvedljivost projekta ter uporabo orodja v praksi. Končna specifikacija kmalu na voljo javnosti.
+:;Ključne besede
+::Docker, procesiranje naravnega jezika, podatkovni model, programski vmesniki
-Unsupervised NER using BERT: https://towardsdatascience.com/unsupervised-ner-using-bert-2d7af5f90b8a
+:;Tip zaključnega dela
-Open IE: triplets based on POS->SRL (see stanford’s models)
+::Diplomsko delo delo
-Primerjava novic besedil zamejskih Slovencev s nacionalnimi besedili
------
+=== Ostale možne tematike ===
+:Kandidat si lahko zamisli svoj lasten problem iz področja iskanja in ekstrakcije vsebin is spleta ali procesiranja naravnega jezika ter ga uskladi z menoj. Tematike se lahko dotikajo tudi analize in uporabe odprtokodnih sistemov, ki so morda trenutno aktualne, uporabe in analize odprtih podatkov (npr. iz portala [https://podatki.gov.si/ OPSI]) ali izdelave speficičnih orodij za obdelavo podatkov (ETL, informacijski sistemi, ipd.).
-- Produktivizacija modelov globokega učenja (npr. Nvidia Triton, JS, Mobile)
+:Prav tako vsako leto na področju procesiranja naravnega jezika potekajo tekmovanja z zanimivimi tematikami, ki lahko predstavljajo zaključno delo. Največkrat so to delavnice (angl., workshops) na konferencah ACL, CoNLL, BSNLP, EMNLP, ipd.
-- Implementacija podpore za slovenski jezik (Apache Solr)
-- Primerjava sistemov za informacijsko poizvedovanje (Apache Solr, Elasticsearch, Milvus, ...)