Slavko Zitnik's research wiki - User contributions [en]

Available theses topics

2025-10-02T19:55:08Z

Slavkoz:

__NOTOC__
Na tej strani so naštete proste teme za izdelavo zaključnih del pod mojim mentorstvom. Pri izbiri prosim sledite navodilom, ki so opisana na [[Thesis_preparation_instructions|strani glede metodologije priprave zaključnega dela]].

=== Language Technology Tools Catalogue ===
:You may be familiar with catalogs such as [https://huggingface.co/models HuggingFace] or [https://www.clarin.si/repository/xmlui/ Clarin.si]. These catalogues contain datasets, (large) language models, language technologies tools, scripts, repositories, ...

:The goal of the thesis would be to implement efficient search mechanisms over such repositories. Currently, within the EU project LLMs4EU, we are building a catalogue the will be connected to the European Language Data Space and you could prototype search capabilities for the new catalogue. Apart from traditional search, you might be interested into proposing an Agent-based search, where you would "talk with an agent," that would eventually propose you a resource that you might need.

:;Ključne besede
::LLMs, Agents, information retrieval

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Uvedba agentnega sistema za odgovarjanje na vprašanja javnosti ===
:Agencija za komunikacijska omrežja in storitve RS (AKOS) regulira več različnih področij, pripravlja regulacijo, prispeva k zakonodaji, pripravlja poročila, ... Odgovarjati mora na mnogo novinarskih vprašanj (https://www.akos-rs.si/medijsko-sredisce/novinarska-vprasanja-in-odgovori) in pogosto voditi javna posvetovanja in diskusije. Med drugim je tudi organ, ki ščiti potrošnike, posreduje v morebitnih sporih in jim odgovarja na vprašanja (https://www.akos-rs.si/uporabniki-storitev/raziscite/vprasajte-nas).

:Trenutno uporabniki odloženo čakajo na odziv Agencije, kar obremenjuje kader na Agenciji, poleg tega pa uporabniki storitev dalj časa čakajo na odgovore na enostavnejša vprašanja. Cilj je, da bi s trenutnimi možnostmi uporabe umetne inteligence razbremenili zaposlene in zainteresirani javnosti omogočili hitrejši in učinkovitejši dostop do informacij.

:Namen projekta je zato vzpostavitev infrastrukturne in podatkovne platforme za implementacijo pogovornega agentnega sistema za zunanje deležnike. Sistem bo moral biti zmožen odgovarjati na pisna vprašanja javnosti in svoje odgovore generirati na podlagi obstoječe baze dokumentov in novic javno objavljenih na spletni strani AKOS.

:Osnovna ideja je, da bo sistem hitreje in učinkoviteje odgovarjal na odprta vprašanja splošne javnosti, pri čemer bomo naslovili tudi zagotavljanje varnostnih in etičnih vidikov. Na projektu bodo študenti obravnavali tudi ločene vidike pogovornega robota, ki bodo poleg tehničnih izzivov tudi pravni in ekonomski.

:V okviru projekta bo na voljo študentsko delo (4 študenti), pri čemer boste imeli mentorja na FRI (jaz) in na AKOS-u.

:;Ključne besede
::Agent, odgovarjanje na vprašanja

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== SloBench: Slovenski vrednotnik metod za obdelavo naravnega jezika ===
:Z nedavno priljubljenostjo modelov obdelave naravnega jezika, ki temeljijo na arhitekturi transformer, in njihove najsodobnejše zmogljivosti pri številnih nalogah NLP, je vse večja potreba po objektivnem ocenjevanju teh orodij in omogočanju njihove primerjave. Obstajajo številni nabori podatkov in meril za NLP naloge, ki pa večinoma temeljijo na angleškem jeziku. V diplomski nalogi kandidat opiše razvoj prve slovenske platforme za avtomatsko primerjavo NLP modelov - SloBench, skupaj z njenim razširljivim in od sistemske arhitekture neodvisnim ogrodjem za evalvacijo sistemov. Nato kritično oceni projekt, ga primerja z obstoječimi merili uspešnosti NLP in poda nekaj idej za prihodnje razširitve platforme.

:Evalvacija nalog procesiranja naravnega jezika (NLP) je bistven del raziskav in napredka na tem področju. Zagotavlja objektiven standard za uspešnost in primerjavo sistemov pri določeni nalogi. Podamo pregled nedavnih javnih lestvic za najboljše sisteme in trendov njihovega ocenjevanja s poudarkom na avtomatskem vrednotenju sistemov. Nato predlagamo, implementiramo in dokumentiramo splošno, razširljivo in od sistemske arhitekture neodvisno ogrodje za evalvacijo sistemov, skupaj s prvo spletno platformo za avtomatsko vrednotenje NLP nalog v slovenščini z javnimi lestvicami, ki prikazujejo rezultate objavljenih sistemov.

:Cilj vašega dela bo nadgradnja ogrodja [https://slobench.cjvt.si SloBench] z dodatnimi funkcionalnostmi. Najprej boste pregledali ostale obstoječe vrednotnike, nato se bomo odločili za implementacijo dodatnih funkcionalnosti (npr. parameter za spreminjanje tipa metrike, vizualizacija rezultatov, avtomatska analiza napak).

:;Ključne besede
::procesiranje naravnega jezika, vrednotenje, lestvica najboljših, strojno učenje, spletna platforma

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== MLOps / AI Workflows ===
:To complete a successful machine learning project, understanding machine learning theory and concepts is essential, but you need engineering capabilities as well. Effectively developing and deploying machine learning models requires competencies more commonly found in technical fields such as software engineering and DevOps. Within the thesis, the idea is to cover the follwing aspects: (a) how to plan, (b) build, and (c) maintain a machine learning project. In contrast with the standard machine learning cycle, models in production need to integrate with other services or applications, need to run continuously with maximum performance and minimal cost, and have an ability to handle evolving data and business requirements. In this hands-on course you will become familiar with challenges, patterns and well-established tools for doing this effectively.

:The idea is to review MLOps in general and then focus on a specific topic - e.g. data versioning (DVC), MLFlow, business perspective and visualizations, pipelines and packaging, deployment and CI/CD, monitoring, regulation compliance tools, ...

:;Ključne besede
::MLOps, DevOps, produktivizacija, razvoj orodij umetne inteligence

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Vključevanje strukturiranega znanja v jezikovne modele ===
:Jezikovni modeli vsebujejo splošno znanje, saj so bili izpostavljeni ogromnim količinam besedil. Lahko se jih prilagodi za posamezne domene, vendar ostaja problem osveževanja modela z novimi podatki. Dodatno znanje je v model možno vstavljati na različne načine (npr. na vhodu ali kasneje - tehnika RAG).

:V okviru naloge se pričakuje, da bo kandidat raziskal možnosti vstavljanja dodatnega znanja v jezikovni model. Dodatno znanje se lahko nahaja na spletu, v bazi znanja (npr. grafu, ontologiji, ...) ali dodatnih besedilnih virih. Glede na izbran način bo kandidat tudi implementiral iskanje dodatnih vsebin (npr. s tehnikami RAG). Delo bo vrednoteno glede na izbrano domeno (npr. reševanje težav študentskega referata FRI, ugotavljanje razumevanje slovenske slovnice, ...)

:;Ključne besede
::jezikovni modeli, slovenščina, RAG, baze znanja

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Portali odprtih podatkov - deljenje, objava, ponovna uporaba ===
:Evropska unija želi ustvariti okolje za boljšo podatkovno ekonomijo. Že pred leti so zato članice EU začele vzpostavljati portale odprtih podatkov, ki večinoma temeljijo na odprtokodnem ogrodju [https://ckan.org/ CKAN]. Tudi v Sloveniji imamo v tem smislu vzpostavljen portal [https://podatki.gov.si/].
:Za boljšo ponovno uporabo podatkov morajo biti le ti bolje (avtomatsko) dostopni in ponujeni preko vmesnikov. Projekt [https://github.com/FRI-MDP/Podatkovni-zemljevid-2023 Podatkovni zemljevid] je omogočil enostavno iskanje in pretvorbo v semantično obliko, kar mora biti še integrirano. Možnosti za inovativnost je še mnogo ...

:V okviru naloge se pričakuje podroben pregled izbranega (pod)področja/ogrodja, primerjava obstoječih rešitev in implementacija prototipa s pomočjo odprtokodnih orodij. Prototip je lahko izboljšava/avtomatizacija posameznega dela Podatkovnega zemljevida ali vključitev napredne obdelave naravnega jezika za ponujanje podatkov (npr. iskanje, povzemanje, ...).

:;Ključne besede
::odprti podatki, OPSI, repozitoriji

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Evropski podatkovni prostori - infrastruktura ===
:Podatkovni prostori (angl. Dataspaces) predstavljajo abstrakcijo upravljanja podatkov, kjer je osredni cilj odprava težav, ki se pojavijo pri integraciji podatkov. Osrednji namen podatkovnih prostorov je zmanjšati napor, ki je potreben za vzpostavitev sistema za integracijo podatkov, kjer uporabimo obstoječe tehnike ujemanj in preslikav ter vpeljava plačila po uporabi. Na ravni EU je prisotnih veliko aktivnosti, kjer je na voljo številno gradivo:
:* [https://data.europa.eu/en/news-events/news/european-strategy-data Evropska podatkovna strategija],
:* [https://nio.gov.si/nio/asset/strategija+digitalnih+javnih+storitev Strategija digitalnih javnih storitev 2030 (SDJU 2030)],
:* [https://eu-skladi.si/sl/po-2020/nacrt-za-okrevanje-in-krepitev-odpornosti Načrt za okrevanje in odpornost (NOO)],
:* [https://digital-strategy.ec.europa.eu/en/library/staff-working-document-data-spaces Usmeritve Evropske komisije],
:* [https://docs.internationaldataspaces.org/knowledge-base International Data Spaces],
:* [https://mydata.org/participate/declaration/ MyData Principles],
:* [https://solidproject.org/about SOLID Intiative],
:* [https://gaia-x.eu/ GAIA-X],
:* [https://oceanprotocol.com/ OCEAN protocol].

:V okviru naloge se pričakuje podroben pregled izbranega (pod)področja/ogordja, primerjava obstoječih rešitev in implementacija prototipa s pomočjo odprtokodnih orodij.

:;Ključne besede
::podatkovni prostori, semantika, spletne tehnologije

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Evropski podatkovni prostor za jezik (Language Data Space) ===
:Podatkovni prostori (angl. Dataspaces) predstavljajo abstrakcijo upravljanja podatkov, kjer je osredni cilj odprava težav, ki se pojavijo pri integraciji podatkov. Osrednji namen podatkovnih prostorov je zmanjšati napor, ki je potreben za vzpostavitev sistema za integracijo podatkov, kjer uporabimo obstoječe tehnike ujemanj in preslikav ter vpeljava plačila po uporabi. Glejte tudi zgornje gradivo.

:V okviru naloge se pričakuje podroben pregled stanja in razvoja [https://language-data-space.ec.europa.eu/index_en Evropskega podatkovnega prostora za jezik]. Izvede naj se primerjava z drugimi podatkovnimi prostori (predvsem glede izbire infrastrukture). Implementira naj se prototip, ki bi omogočil vključitev in/ali uporabo podatkov iz podatkovnega prostora.

:;Ključne besede
::podatkovni prostori, semantika, jezikovne tehnologije

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Izdelava Sociogramov - sedežni red ===
:Sociometrija je tehnika iz socialne psihologije in sociologije, ki se uporablja za merjenje družbenih odnosov v skupinah (npr. ekipe, razredi v šolah, ...). Z njo se opredeli povezanost skupine ter vlogo posameznika v tej skupini (npr. izločen, priljubljen, vodja, ...). Vodji skupine (npr. trenerju, učitelju, socialnemu pedagogu) tehnika pomaga razumeti latentne odnose v skupinah in jim omogoča učinkovitejše ter ustreznejše delo s skupino.

:V okviru projekta se pričakuje:
:* Nadgradnja obstoječe aplikacije Sociogram (sedežni red ali oddaljeno izpolnjevanje sociogramov). Uporaba tehnologij Java 18+, Python/Django, React (ali drugo ogrodje) in MariaDB.
:* Sodelovanje s študentkami/študenti iz Fakultete za šport (FSP) in podjetjem MikroGrafArt d.o.o..
:* Predvidenih 80 ur dela, plačanih po postavki 11,30 EUR bruto bruto.
:* Čas sodelovanja v obdobju od aprila do septembra 2024.
:Delo se lahko nadgradi in uporabi tudi v okviru predmetov RvP/OSD ali se jih prilagodi v zaključno delo (npr. diplomska naloga)

:Predlaganje sedežnega reda v učilnicah glede na rezultat Sociograma: Na podlagi rezultatov medsebojnih odnosov in dinamike pri pouku se bo pregledalo teoretične vidike in predlagalo metodologije za izdelavo sedežnih redov na podlagi sociometrije (študent FSP). Metodologije bodo nato implementirane v dodatnem modulu programa Sociogram, ki bo omogočal avtomatsko izdelavo sedežnega reda za poljubno vnešen tloris učilnice (študent FRI). Rezultat bo omogočil kakovostnejše izobraževanje, zmanjšanje neenakosti in večjo integracijo skupin.

:;Ključne besede
::sociogram, psihologija, delo v skupinah, namizna aplikacija, spletne storitve

:;Tip zaključnega dela
::Diplomsko delo

=== Izdelava Sociogramov - oddaljen način ===
:Sociometrija je tehnika iz socialne psihologije in sociologije, ki se uporablja za merjenje družbenih odnosov v skupinah (npr. ekipe, razredi v šolah, ...). Z njo se opredeli povezanost skupine ter vlogo posameznika v tej skupini (npr. izločen, priljubljen, vodja, ...). Vodji skupine (npr. trenerju, učitelju, socialnemu pedagogu) tehnika pomaga razumeti latentne odnose v skupinah in jim omogoča učinkovitejše ter ustreznejše delo s skupino.

:V okviru projekta se pričakuje
:* Nadgradnja obstoječe aplikacije Sociogram (sedežni red ali oddaljeno izpolnjevanje sociogramov). Uporaba tehnologij Java 18+, Python/Django, React (ali drugo ogrodje) in MariaDB.
:* Sodelovanje s študentkami/študenti iz Fakultete za šport (FSP) in podjetjem MikroGrafArt d.o.o..
:* Predvidenih 80 ur dela, plačanih po postavki 11,30 EUR bruto bruto.
:* Čas sodelovanja v obdobju od aprila do septembra 2024.
:Delo se lahko nadgradi in uporabi tudi v okviru predmetov RvP/OSD ali se jih prilagodi v zaključno delo (npr. diplomska naloga).

:Izdelava Sociograma na oddaljen način: Trenutno se Sociogram printa na liste, od koder se nato rezultate vnese v program. Potrebno je preveriti in izdelati varen protokol (študent FSP) in implementirati avtomatske mehanizme za oddaljeno izpolnjevanje sociograma preko e-pošte ali drugih kanalov, pri čemer je potrebno zagotavljati varnost in anonimnost (študent FRI). Rezultat bo bolj učinkovito anketiranje in bolj trajnostna izdelava sociogramov brez potrebe printanja.

:;Ključne besede
::sociogram, psihologija, delo v skupinah, namizna aplikacija, spletne storitve

:;Tip zaključnega dela
::Diplomsko delo

=== Evalvacija in produktivizacija orodja TextCaptcha ===
:Martin Čebular je v okviru svoje magistrske naloge razvil orodje TextCaptcha - [[Master_theses|Preprečevanje neželenih komentarjev za spletne novice s pomočjo tehnik za procesiranje naravnega jezika (Martin Čebular)]]. Ideja za orodje izhaja iz storitve [http://recaptcha.net reCaptcha], ki se uporablja za bolj natančno digitalizacijo knjig. V osnovi deluje tako, da bralcu prikaže npr. dva niza, pri katerem sistem za enega pozna rešitev, za drugega ne. Uporabnik mora oba niza vpisati v vnosno polje. Sistem nato preko več odgovorov ugotovi, kakšna je pravilna digializacija neznanega niza.

:Izdelano orodje je že bilo validirano in kot Javascript vtičnik na spletnih straneh [rtvslo.si]. Namen magistrske naloge bi bil (a) izdelati natančno metodologijo uporabe orodja TextCaptcha za namene zbiranja označenih korpusov v slovenskem jeziku, (b) prikazati smiselne primere uporabe in (c) evalvirati orodje na realnih primerih.

:;Ključne besede
::ekstrakcija informacij, gradnja podatkovnih množic, preverjanje vnosov

:;Tip zaključnega dela
::Magistrsko delo

=== Primerjava standardne slovenščine v Sloveniji in izzven nje ===
:Za primerjavo jezikov obstajajo že uveljavljene metode, s katerimi se lahko primerja, kdaj sta si jezika sorodna, enaka oz. kako različna sta si. V okviru zaključnega dela naj se primerja besedila novic iz področja Slovenije z besedili novic zamejskih Slovencev ali izseljencev. Primeri novic izseljencev so na primer [http://www.novice.at/ novice.at] (Avstrija), Novi list (Argentina), ipd., pri čemer naj se pregleda možnosti za pridobitev tudi drugih primernih virov. Izdela naj se referenčni korpus, katerega se bo primerjalo z referenčnim korpusom standardne slovenščine v Sloveniji (vir bo zagotovljen). Množice je potrebno nato primerjati in ugotoviti jezikovne različnosti (npr. raba besed v različnih kontekstih, pojavljanje starih/novih besed, vpliv tujega jezika, vrstni red besed).

:;Uporabne povezave
::[https://alternativetransport.wordpress.com/2015/05/04/how-much-does-language-change-when-it-travels/ Lexical distance map among languages]

:;Ključne besede
::slovenščina, primerjava besedil, novice

:;Tip zaključnega dela
::Magistrsko delo

=== Produktivizacija modelov globokega učenja ===
:V zadnjem času se globoki modeli nevronskih mrež čedalje bolj uporabljajo v praksi. Seveda je možno implementirati lastno infrastrukturo, ki bo služila namenu, da bodo rezultati našega modela dostopni uporabnikom, vendar za ta namen obstajajo tudi specifična orodja ali ogrodja. V okviru zaključnega dela naj se pregleda in primerja platforme, ki to omogočajo (npr. Nvidia Triton). Izbrano platformo naj se tudi preskusi in prikaže delovanje na praktičnem primeru (npr. produktivizacija obstoječega globokega modela).

:;Možne druge variacije zaključnega dela
::(a) Pregled in preskus platforme za zaganjanje globokih modelov v brskalniku (npr. [https://www.tensorflow.org/js www.tensorflow.org/js]).
::(b) Pregled in preskus platforme za zaganjanje globokih modelov na mobilnih napravah (npr. [https://www.tensorflow.org/lite/android Tensorflow Android], [https://www.tensorflow.org/lite/guide/ios Tensorflow iOS], [https://developer.apple.com/documentation/coreml Apple CoreML]).

:;Ključne besede
::globoko učenje, ogrodja za umetno inteligenco, produktivizacija

:;Tip zaključnega dela
::Magistrsko delo

=== Izdelava ogrodja za demokratizacijo obdelave naravnega jezika ===
:V okviru projekta [https://slovenscina.eu Razvoj slovenščine v digitalnem okolju] smo pregledali možnosti za izdelavo orodja za procesiranje naravnega jezika po vzoru obstoječih orodij - [https://gate.ac.uk GATE], [https://uima.apache.org UIMA], [https://orangedatamining.com Orange3] ([https://github.com/biolab/orange3-text Text mining Addon], [http://textable.io Textable]). Poleg tega smo pripravili tudi zasnovo splošnega podatkovnega modela, arhitekturo orodja in definirali programske vmesnike za komunikacijo med vsebniki Docker.

:Namen zaključnega dela je implementirati predlagano orodja in pokazati možnosti za izvedljivost projekta ter uporabo orodja v praksi. Končna specifikacija kmalu na voljo javnosti.

:;Ključne besede
::Docker, procesiranje naravnega jezika, podatkovni model, programski vmesniki

:;Tip zaključnega dela
::Diplomsko delo delo

=== Ostale možne tematike ===
:Kandidat si lahko zamisli svoj lasten problem iz področja iskanja in ekstrakcije vsebin is spleta ali procesiranja naravnega jezika ter ga uskladi z menoj. Tematike se lahko dotikajo tudi analize in uporabe odprtokodnih sistemov, ki so morda trenutno aktualne, uporabe in analize odprtih podatkov (npr. iz portala [https://podatki.gov.si/ OPSI]) ali izdelave speficičnih orodij za obdelavo podatkov (ETL, informacijski sistemi, ipd.).

:Prav tako vsako leto na področju procesiranja naravnega jezika potekajo tekmovanja z zanimivimi tematikami, ki lahko predstavljajo zaključno delo. Največkrat so to delavnice (angl., workshops) na konferencah ACL, CoNLL, BSNLP, EMNLP, ipd.

Available theses topics

2025-10-02T19:54:37Z

Slavkoz:

__NOTOC__
Na tej strani so naštete proste teme za izdelavo zaključnih del pod mojim mentorstvom. Pri izbiri prosim sledite navodilom, ki so opisana na [[Thesis_preparation_instructions|strani glede metodologije priprave zaključnega dela]].

=== Language Technology Tools Catalogue ===
:You may be familiar with catalogs such as [https://huggingface.co/models HuggingFace] or [https://www.clarin.si/repository/xmlui/ Clarin.si]. These catalogues contain datasets, (large) language models, language technologies tools, scripts, repositories, ...

:The goal of the thesis would be to implement efficient search mechanisms over such repositories. Currently, within the EU project LLMs4EU, we are building a catalogue the will be connected to the European Language Data Space and you could prototype search capabilities for the new catalogue. Apart from traditional search, you might be interested into proposing an Agent-based search, where you would "talk with an agent," that would eventually propose you a resource that you might need.

:;Ključne besede
::LLMs, Agents, information retrieval

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Uvedba agentnega sistema za odgovarjanje na vprašanja javnosti ===
:Agencija za komunikacijska omrežja in storitve RS (AKOS) regulira več različnih področij, pripravlja regulacijo, prispeva k zakonodaji, pripravlja poročila, ... Odgovarjati mora na mnogo novinarskih vprašanj (https://www.akos-rs.si/medijsko-sredisce/novinarska-vprasanja-in-odgovori) in pogosto voditi javna posvetovanja in diskusije. Med drugim je tudi organ, ki ščiti potrošnike, posreduje v morebitnih sporih in jim odgovarja na vprašanja (https://www.akos-rs.si/uporabniki-storitev/raziscite/vprasajte-nas).

:Trenutno uporabniki odloženo čakajo na odziv Agencije, kar obremenjuje kader na Agenciji, poleg tega pa uporabniki storitev dalj časa čakajo na odgovore na enostavnejša vprašanja. Cilj je, da bi s trenutnimi možnostmi uporabe umetne inteligence razbremenili zaposlene in zainteresirani javnosti omogočili hitrejši in učinkovitejši dostop do informacij.

:Namen projekta je zato vzpostavitev infrastrukturne in podatkovne platforme za implementacijo pogovornega agentnega sistema za zunanje deležnike. Sistem bo moral biti zmožen odgovarjati na pisna vprašanja javnosti in svoje odgovore generirati na podlagi obstoječe baze dokumentov in novic javno objavljenih na spletni strani AKOS.

:Osnovna ideja je, da bo sistem hitreje in učinkoviteje odgovarjal na odprta vprašanja splošne javnosti, pri čemer bomo naslovili tudi zagotavljanje varnostnih in etičnih vidikov. Na projektu bodo študenti obravnavali tudi ločene vidike pogovornega robota, ki bodo poleg tehničnih izzivov tudi pravni in ekonomski.

:V okviru projekta bo na voljo študentsko delo (4 študenti), pri čemer boste imeli mentorja na FRI (jaz) in na AKOS-u.

:;Ključne besede
::Agent, odgovarjanje na vprašanja

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== SloBench: Slovenski vrednotnik metod za obdelavo naravnega jezika ===
:Z nedavno priljubljenostjo modelov obdelave naravnega jezika, ki temeljijo na arhitekturi transformer, in njihove najsodobnejše zmogljivosti pri številnih nalogah NLP, je vse večja potreba po objektivnem ocenjevanju teh orodij in omogočanju njihove primerjave. Obstajajo številni nabori podatkov in meril za NLP naloge, ki pa večinoma temeljijo na angleškem jeziku. V diplomski nalogi kandidat opiše razvoj prve slovenske platforme za avtomatsko primerjavo NLP modelov - SloBench, skupaj z njenim razširljivim in od sistemske arhitekture neodvisnim ogrodjem za evalvacijo sistemov. Nato kritično oceni projekt, ga primerja z obstoječimi merili uspešnosti NLP in poda nekaj idej za prihodnje razširitve platforme.

:Evalvacija nalog procesiranja naravnega jezika (NLP) je bistven del raziskav in napredka na tem področju. Zagotavlja objektiven standard za uspešnost in primerjavo sistemov pri določeni nalogi. Podamo pregled nedavnih javnih lestvic za najboljše sisteme in trendov njihovega ocenjevanja s poudarkom na avtomatskem vrednotenju sistemov. Nato predlagamo, implementiramo in dokumentiramo splošno, razširljivo in od sistemske arhitekture neodvisno ogrodje za evalvacijo sistemov, skupaj s prvo spletno platformo za avtomatsko vrednotenje NLP nalog v slovenščini z javnimi lestvicami, ki prikazujejo rezultate objavljenih sistemov.

:Cilj vašega dela bo nadgradnja ogrodja [https://slobench.cjvt.si SloBench] z dodatnimi funkcionalnostmi. Najprej boste pregledali ostale obstoječe vrednotnike, nato se bomo odločili za implementacijo dodatnih funkcionalnosti (npr. parameter za spreminjanje tipa metrike, vizualizacija rezultatov, avtomatska analiza napak).

:;Ključne besede
::procesiranje naravnega jezika, vrednotenje, lestvica najboljših, strojno učenje, spletna platforma

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== TODO ===
:OPIS1

:OPIS2

:;Ključne besede
::BESEDE

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== TODO ===
:OPIS1

:OPIS2

:;Ključne besede
::BESEDE

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== MLOps / AI Workflows ===
:To complete a successful machine learning project, understanding machine learning theory and concepts is essential, but you need engineering capabilities as well. Effectively developing and deploying machine learning models requires competencies more commonly found in technical fields such as software engineering and DevOps. Within the thesis, the idea is to cover the follwing aspects: (a) how to plan, (b) build, and (c) maintain a machine learning project. In contrast with the standard machine learning cycle, models in production need to integrate with other services or applications, need to run continuously with maximum performance and minimal cost, and have an ability to handle evolving data and business requirements. In this hands-on course you will become familiar with challenges, patterns and well-established tools for doing this effectively.

:The idea is to review MLOps in general and then focus on a specific topic - e.g. data versioning (DVC), MLFlow, business perspective and visualizations, pipelines and packaging, deployment and CI/CD, monitoring, regulation compliance tools, ...

:;Ključne besede
::MLOps, DevOps, produktivizacija, razvoj orodij umetne inteligence

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Vključevanje strukturiranega znanja v jezikovne modele ===
:Jezikovni modeli vsebujejo splošno znanje, saj so bili izpostavljeni ogromnim količinam besedil. Lahko se jih prilagodi za posamezne domene, vendar ostaja problem osveževanja modela z novimi podatki. Dodatno znanje je v model možno vstavljati na različne načine (npr. na vhodu ali kasneje - tehnika RAG).

:V okviru naloge se pričakuje, da bo kandidat raziskal možnosti vstavljanja dodatnega znanja v jezikovni model. Dodatno znanje se lahko nahaja na spletu, v bazi znanja (npr. grafu, ontologiji, ...) ali dodatnih besedilnih virih. Glede na izbran način bo kandidat tudi implementiral iskanje dodatnih vsebin (npr. s tehnikami RAG). Delo bo vrednoteno glede na izbrano domeno (npr. reševanje težav študentskega referata FRI, ugotavljanje razumevanje slovenske slovnice, ...)

:;Ključne besede
::jezikovni modeli, slovenščina, RAG, baze znanja

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Portali odprtih podatkov - deljenje, objava, ponovna uporaba ===
:Evropska unija želi ustvariti okolje za boljšo podatkovno ekonomijo. Že pred leti so zato članice EU začele vzpostavljati portale odprtih podatkov, ki večinoma temeljijo na odprtokodnem ogrodju [https://ckan.org/ CKAN]. Tudi v Sloveniji imamo v tem smislu vzpostavljen portal [https://podatki.gov.si/].
:Za boljšo ponovno uporabo podatkov morajo biti le ti bolje (avtomatsko) dostopni in ponujeni preko vmesnikov. Projekt [https://github.com/FRI-MDP/Podatkovni-zemljevid-2023 Podatkovni zemljevid] je omogočil enostavno iskanje in pretvorbo v semantično obliko, kar mora biti še integrirano. Možnosti za inovativnost je še mnogo ...

:V okviru naloge se pričakuje podroben pregled izbranega (pod)področja/ogrodja, primerjava obstoječih rešitev in implementacija prototipa s pomočjo odprtokodnih orodij. Prototip je lahko izboljšava/avtomatizacija posameznega dela Podatkovnega zemljevida ali vključitev napredne obdelave naravnega jezika za ponujanje podatkov (npr. iskanje, povzemanje, ...).

:;Ključne besede
::odprti podatki, OPSI, repozitoriji

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Evropski podatkovni prostori - infrastruktura ===
:Podatkovni prostori (angl. Dataspaces) predstavljajo abstrakcijo upravljanja podatkov, kjer je osredni cilj odprava težav, ki se pojavijo pri integraciji podatkov. Osrednji namen podatkovnih prostorov je zmanjšati napor, ki je potreben za vzpostavitev sistema za integracijo podatkov, kjer uporabimo obstoječe tehnike ujemanj in preslikav ter vpeljava plačila po uporabi. Na ravni EU je prisotnih veliko aktivnosti, kjer je na voljo številno gradivo:
:* [https://data.europa.eu/en/news-events/news/european-strategy-data Evropska podatkovna strategija],
:* [https://nio.gov.si/nio/asset/strategija+digitalnih+javnih+storitev Strategija digitalnih javnih storitev 2030 (SDJU 2030)],
:* [https://eu-skladi.si/sl/po-2020/nacrt-za-okrevanje-in-krepitev-odpornosti Načrt za okrevanje in odpornost (NOO)],
:* [https://digital-strategy.ec.europa.eu/en/library/staff-working-document-data-spaces Usmeritve Evropske komisije],
:* [https://docs.internationaldataspaces.org/knowledge-base International Data Spaces],
:* [https://mydata.org/participate/declaration/ MyData Principles],
:* [https://solidproject.org/about SOLID Intiative],
:* [https://gaia-x.eu/ GAIA-X],
:* [https://oceanprotocol.com/ OCEAN protocol].

:V okviru naloge se pričakuje podroben pregled izbranega (pod)področja/ogordja, primerjava obstoječih rešitev in implementacija prototipa s pomočjo odprtokodnih orodij.

:;Ključne besede
::podatkovni prostori, semantika, spletne tehnologije

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Evropski podatkovni prostor za jezik (Language Data Space) ===
:Podatkovni prostori (angl. Dataspaces) predstavljajo abstrakcijo upravljanja podatkov, kjer je osredni cilj odprava težav, ki se pojavijo pri integraciji podatkov. Osrednji namen podatkovnih prostorov je zmanjšati napor, ki je potreben za vzpostavitev sistema za integracijo podatkov, kjer uporabimo obstoječe tehnike ujemanj in preslikav ter vpeljava plačila po uporabi. Glejte tudi zgornje gradivo.

:V okviru naloge se pričakuje podroben pregled stanja in razvoja [https://language-data-space.ec.europa.eu/index_en Evropskega podatkovnega prostora za jezik]. Izvede naj se primerjava z drugimi podatkovnimi prostori (predvsem glede izbire infrastrukture). Implementira naj se prototip, ki bi omogočil vključitev in/ali uporabo podatkov iz podatkovnega prostora.

:;Ključne besede
::podatkovni prostori, semantika, jezikovne tehnologije

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Izdelava Sociogramov - sedežni red ===
:Sociometrija je tehnika iz socialne psihologije in sociologije, ki se uporablja za merjenje družbenih odnosov v skupinah (npr. ekipe, razredi v šolah, ...). Z njo se opredeli povezanost skupine ter vlogo posameznika v tej skupini (npr. izločen, priljubljen, vodja, ...). Vodji skupine (npr. trenerju, učitelju, socialnemu pedagogu) tehnika pomaga razumeti latentne odnose v skupinah in jim omogoča učinkovitejše ter ustreznejše delo s skupino.

:V okviru projekta se pričakuje:
:* Nadgradnja obstoječe aplikacije Sociogram (sedežni red ali oddaljeno izpolnjevanje sociogramov). Uporaba tehnologij Java 18+, Python/Django, React (ali drugo ogrodje) in MariaDB.
:* Sodelovanje s študentkami/študenti iz Fakultete za šport (FSP) in podjetjem MikroGrafArt d.o.o..
:* Predvidenih 80 ur dela, plačanih po postavki 11,30 EUR bruto bruto.
:* Čas sodelovanja v obdobju od aprila do septembra 2024.
:Delo se lahko nadgradi in uporabi tudi v okviru predmetov RvP/OSD ali se jih prilagodi v zaključno delo (npr. diplomska naloga)

:Predlaganje sedežnega reda v učilnicah glede na rezultat Sociograma: Na podlagi rezultatov medsebojnih odnosov in dinamike pri pouku se bo pregledalo teoretične vidike in predlagalo metodologije za izdelavo sedežnih redov na podlagi sociometrije (študent FSP). Metodologije bodo nato implementirane v dodatnem modulu programa Sociogram, ki bo omogočal avtomatsko izdelavo sedežnega reda za poljubno vnešen tloris učilnice (študent FRI). Rezultat bo omogočil kakovostnejše izobraževanje, zmanjšanje neenakosti in večjo integracijo skupin.

:;Ključne besede
::sociogram, psihologija, delo v skupinah, namizna aplikacija, spletne storitve

:;Tip zaključnega dela
::Diplomsko delo

=== Izdelava Sociogramov - oddaljen način ===
:Sociometrija je tehnika iz socialne psihologije in sociologije, ki se uporablja za merjenje družbenih odnosov v skupinah (npr. ekipe, razredi v šolah, ...). Z njo se opredeli povezanost skupine ter vlogo posameznika v tej skupini (npr. izločen, priljubljen, vodja, ...). Vodji skupine (npr. trenerju, učitelju, socialnemu pedagogu) tehnika pomaga razumeti latentne odnose v skupinah in jim omogoča učinkovitejše ter ustreznejše delo s skupino.

:V okviru projekta se pričakuje
:* Nadgradnja obstoječe aplikacije Sociogram (sedežni red ali oddaljeno izpolnjevanje sociogramov). Uporaba tehnologij Java 18+, Python/Django, React (ali drugo ogrodje) in MariaDB.
:* Sodelovanje s študentkami/študenti iz Fakultete za šport (FSP) in podjetjem MikroGrafArt d.o.o..
:* Predvidenih 80 ur dela, plačanih po postavki 11,30 EUR bruto bruto.
:* Čas sodelovanja v obdobju od aprila do septembra 2024.
:Delo se lahko nadgradi in uporabi tudi v okviru predmetov RvP/OSD ali se jih prilagodi v zaključno delo (npr. diplomska naloga).

:Izdelava Sociograma na oddaljen način: Trenutno se Sociogram printa na liste, od koder se nato rezultate vnese v program. Potrebno je preveriti in izdelati varen protokol (študent FSP) in implementirati avtomatske mehanizme za oddaljeno izpolnjevanje sociograma preko e-pošte ali drugih kanalov, pri čemer je potrebno zagotavljati varnost in anonimnost (študent FRI). Rezultat bo bolj učinkovito anketiranje in bolj trajnostna izdelava sociogramov brez potrebe printanja.

:;Ključne besede
::sociogram, psihologija, delo v skupinah, namizna aplikacija, spletne storitve

:;Tip zaključnega dela
::Diplomsko delo

=== Evalvacija in produktivizacija orodja TextCaptcha ===
:Martin Čebular je v okviru svoje magistrske naloge razvil orodje TextCaptcha - [[Master_theses|Preprečevanje neželenih komentarjev za spletne novice s pomočjo tehnik za procesiranje naravnega jezika (Martin Čebular)]]. Ideja za orodje izhaja iz storitve [http://recaptcha.net reCaptcha], ki se uporablja za bolj natančno digitalizacijo knjig. V osnovi deluje tako, da bralcu prikaže npr. dva niza, pri katerem sistem za enega pozna rešitev, za drugega ne. Uporabnik mora oba niza vpisati v vnosno polje. Sistem nato preko več odgovorov ugotovi, kakšna je pravilna digializacija neznanega niza.

:Izdelano orodje je že bilo validirano in kot Javascript vtičnik na spletnih straneh [rtvslo.si]. Namen magistrske naloge bi bil (a) izdelati natančno metodologijo uporabe orodja TextCaptcha za namene zbiranja označenih korpusov v slovenskem jeziku, (b) prikazati smiselne primere uporabe in (c) evalvirati orodje na realnih primerih.

:;Ključne besede
::ekstrakcija informacij, gradnja podatkovnih množic, preverjanje vnosov

:;Tip zaključnega dela
::Magistrsko delo

=== Primerjava standardne slovenščine v Sloveniji in izzven nje ===
:Za primerjavo jezikov obstajajo že uveljavljene metode, s katerimi se lahko primerja, kdaj sta si jezika sorodna, enaka oz. kako različna sta si. V okviru zaključnega dela naj se primerja besedila novic iz področja Slovenije z besedili novic zamejskih Slovencev ali izseljencev. Primeri novic izseljencev so na primer [http://www.novice.at/ novice.at] (Avstrija), Novi list (Argentina), ipd., pri čemer naj se pregleda možnosti za pridobitev tudi drugih primernih virov. Izdela naj se referenčni korpus, katerega se bo primerjalo z referenčnim korpusom standardne slovenščine v Sloveniji (vir bo zagotovljen). Množice je potrebno nato primerjati in ugotoviti jezikovne različnosti (npr. raba besed v različnih kontekstih, pojavljanje starih/novih besed, vpliv tujega jezika, vrstni red besed).

:;Uporabne povezave
::[https://alternativetransport.wordpress.com/2015/05/04/how-much-does-language-change-when-it-travels/ Lexical distance map among languages]

:;Ključne besede
::slovenščina, primerjava besedil, novice

:;Tip zaključnega dela
::Magistrsko delo

=== Produktivizacija modelov globokega učenja ===
:V zadnjem času se globoki modeli nevronskih mrež čedalje bolj uporabljajo v praksi. Seveda je možno implementirati lastno infrastrukturo, ki bo služila namenu, da bodo rezultati našega modela dostopni uporabnikom, vendar za ta namen obstajajo tudi specifična orodja ali ogrodja. V okviru zaključnega dela naj se pregleda in primerja platforme, ki to omogočajo (npr. Nvidia Triton). Izbrano platformo naj se tudi preskusi in prikaže delovanje na praktičnem primeru (npr. produktivizacija obstoječega globokega modela).

:;Možne druge variacije zaključnega dela
::(a) Pregled in preskus platforme za zaganjanje globokih modelov v brskalniku (npr. [https://www.tensorflow.org/js www.tensorflow.org/js]).
::(b) Pregled in preskus platforme za zaganjanje globokih modelov na mobilnih napravah (npr. [https://www.tensorflow.org/lite/android Tensorflow Android], [https://www.tensorflow.org/lite/guide/ios Tensorflow iOS], [https://developer.apple.com/documentation/coreml Apple CoreML]).

:;Ključne besede
::globoko učenje, ogrodja za umetno inteligenco, produktivizacija

:;Tip zaključnega dela
::Magistrsko delo

=== Izdelava ogrodja za demokratizacijo obdelave naravnega jezika ===
:V okviru projekta [https://slovenscina.eu Razvoj slovenščine v digitalnem okolju] smo pregledali možnosti za izdelavo orodja za procesiranje naravnega jezika po vzoru obstoječih orodij - [https://gate.ac.uk GATE], [https://uima.apache.org UIMA], [https://orangedatamining.com Orange3] ([https://github.com/biolab/orange3-text Text mining Addon], [http://textable.io Textable]). Poleg tega smo pripravili tudi zasnovo splošnega podatkovnega modela, arhitekturo orodja in definirali programske vmesnike za komunikacijo med vsebniki Docker.

:Namen zaključnega dela je implementirati predlagano orodja in pokazati možnosti za izvedljivost projekta ter uporabo orodja v praksi. Končna specifikacija kmalu na voljo javnosti.

:;Ključne besede
::Docker, procesiranje naravnega jezika, podatkovni model, programski vmesniki

:;Tip zaključnega dela
::Diplomsko delo delo

=== Ostale možne tematike ===
:Kandidat si lahko zamisli svoj lasten problem iz področja iskanja in ekstrakcije vsebin is spleta ali procesiranja naravnega jezika ter ga uskladi z menoj. Tematike se lahko dotikajo tudi analize in uporabe odprtokodnih sistemov, ki so morda trenutno aktualne, uporabe in analize odprtih podatkov (npr. iz portala [https://podatki.gov.si/ OPSI]) ali izdelave speficičnih orodij za obdelavo podatkov (ETL, informacijski sistemi, ipd.).

:Prav tako vsako leto na področju procesiranja naravnega jezika potekajo tekmovanja z zanimivimi tematikami, ki lahko predstavljajo zaključno delo. Največkrat so to delavnice (angl., workshops) na konferencah ACL, CoNLL, BSNLP, EMNLP, ipd.

Available theses topics

2025-10-02T19:50:06Z

Slavkoz:

__NOTOC__
Na tej strani so naštete proste teme za izdelavo zaključnih del pod mojim mentorstvom. Pri izbiri prosim sledite navodilom, ki so opisana na [[Thesis_preparation_instructions|strani glede metodologije priprave zaključnega dela]].

=== Language Technology Tools Catalogue ===
:You may be familiar with catalogs such as [https://huggingface.co/models HuggingFace] or [https://www.clarin.si/repository/xmlui/ Clarin.si]. These catalogues contain datasets, (large) language models, language technologies tools, scripts, repositories, ...

:The goal of the thesis would be to implement efficient search mechanisms over such repositories. Currently, within the EU project LLMs4EU, we are building a catalogue the will be connected to the European Language Data Space and you could prototype search capabilities for the new catalogue. Apart from traditional search, you might be interested into proposing an Agent-based search, where you would "talk with an agent," that would eventually propose you a resource that you might need.

:;Ključne besede
::LLMs, Agents, information retrieval

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Uvedba agentnega sistema za odgovarjanje na vprašanja javnosti ===
:Agencija za komunikacijska omrežja in storitve RS (AKOS) regulira več različnih področij, pripravlja regulacijo, prispeva k zakonodaji, pripravlja poročila, ... Odgovarjati mora na mnogo novinarskih vprašanj (https://www.akos-rs.si/medijsko-sredisce/novinarska-vprasanja-in-odgovori) in pogosto voditi javna posvetovanja in diskusije. Med drugim je tudi organ, ki ščiti potrošnike, posreduje v morebitnih sporih in jim odgovarja na vprašanja (https://www.akos-rs.si/uporabniki-storitev/raziscite/vprasajte-nas).

:Trenutno uporabniki odloženo čakajo na odziv Agencije, kar obremenjuje kader na Agenciji, poleg tega pa uporabniki storitev dalj časa čakajo na odgovore na enostavnejša vprašanja. Cilj je, da bi s trenutnimi možnostmi uporabe umetne inteligence razbremenili zaposlene in zainteresirani javnosti omogočili hitrejši in učinkovitejši dostop do informacij.

:Namen projekta je zato vzpostavitev infrastrukturne in podatkovne platforme za implementacijo pogovornega agentnega sistema za zunanje deležnike. Sistem bo moral biti zmožen odgovarjati na pisna vprašanja javnosti in svoje odgovore generirati na podlagi obstoječe baze dokumentov in novic javno objavljenih na spletni strani AKOS.

:Osnovna ideja je, da bo sistem hitreje in učinkoviteje odgovarjal na odprta vprašanja splošne javnosti, pri čemer bomo naslovili tudi zagotavljanje varnostnih in etičnih vidikov. Na projektu bodo študenti obravnavali tudi ločene vidike pogovornega robota, ki bodo poleg tehničnih izzivov tudi pravni in ekonomski.

:V okviru projekta bo na voljo študentsko delo (4 študenti), pri čemer boste imeli mentorja na FRI (jaz) in na AKOS-u.

:;Ključne besede
::Agent, odgovarjanje na vprašanja

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== TODO ===
:OPIS1

:OPIS2

:;Ključne besede
::BESEDE

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== TODO ===
:OPIS1

:OPIS2

:;Ključne besede
::BESEDE

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== TODO ===
:OPIS1

:OPIS2

:;Ključne besede
::BESEDE

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== MLOps / AI Workflows ===
:To complete a successful machine learning project, understanding machine learning theory and concepts is essential, but you need engineering capabilities as well. Effectively developing and deploying machine learning models requires competencies more commonly found in technical fields such as software engineering and DevOps. Within the thesis, the idea is to cover the follwing aspects: (a) how to plan, (b) build, and (c) maintain a machine learning project. In contrast with the standard machine learning cycle, models in production need to integrate with other services or applications, need to run continuously with maximum performance and minimal cost, and have an ability to handle evolving data and business requirements. In this hands-on course you will become familiar with challenges, patterns and well-established tools for doing this effectively.

:The idea is to review MLOps in general and then focus on a specific topic - e.g. data versioning (DVC), MLFlow, business perspective and visualizations, pipelines and packaging, deployment and CI/CD, monitoring, regulation compliance tools, ...

:;Ključne besede
::MLOps, DevOps, produktivizacija, razvoj orodij umetne inteligence

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Vključevanje strukturiranega znanja v jezikovne modele ===
:Jezikovni modeli vsebujejo splošno znanje, saj so bili izpostavljeni ogromnim količinam besedil. Lahko se jih prilagodi za posamezne domene, vendar ostaja problem osveževanja modela z novimi podatki. Dodatno znanje je v model možno vstavljati na različne načine (npr. na vhodu ali kasneje - tehnika RAG).

:V okviru naloge se pričakuje, da bo kandidat raziskal možnosti vstavljanja dodatnega znanja v jezikovni model. Dodatno znanje se lahko nahaja na spletu, v bazi znanja (npr. grafu, ontologiji, ...) ali dodatnih besedilnih virih. Glede na izbran način bo kandidat tudi implementiral iskanje dodatnih vsebin (npr. s tehnikami RAG). Delo bo vrednoteno glede na izbrano domeno (npr. reševanje težav študentskega referata FRI, ugotavljanje razumevanje slovenske slovnice, ...)

:;Ključne besede
::jezikovni modeli, slovenščina, RAG, baze znanja

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Portali odprtih podatkov - deljenje, objava, ponovna uporaba ===
:Evropska unija želi ustvariti okolje za boljšo podatkovno ekonomijo. Že pred leti so zato članice EU začele vzpostavljati portale odprtih podatkov, ki večinoma temeljijo na odprtokodnem ogrodju [https://ckan.org/ CKAN]. Tudi v Sloveniji imamo v tem smislu vzpostavljen portal [https://podatki.gov.si/].
:Za boljšo ponovno uporabo podatkov morajo biti le ti bolje (avtomatsko) dostopni in ponujeni preko vmesnikov. Projekt [https://github.com/FRI-MDP/Podatkovni-zemljevid-2023 Podatkovni zemljevid] je omogočil enostavno iskanje in pretvorbo v semantično obliko, kar mora biti še integrirano. Možnosti za inovativnost je še mnogo ...

:V okviru naloge se pričakuje podroben pregled izbranega (pod)področja/ogrodja, primerjava obstoječih rešitev in implementacija prototipa s pomočjo odprtokodnih orodij. Prototip je lahko izboljšava/avtomatizacija posameznega dela Podatkovnega zemljevida ali vključitev napredne obdelave naravnega jezika za ponujanje podatkov (npr. iskanje, povzemanje, ...).

:;Ključne besede
::odprti podatki, OPSI, repozitoriji

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Evropski podatkovni prostori - infrastruktura ===
:Podatkovni prostori (angl. Dataspaces) predstavljajo abstrakcijo upravljanja podatkov, kjer je osredni cilj odprava težav, ki se pojavijo pri integraciji podatkov. Osrednji namen podatkovnih prostorov je zmanjšati napor, ki je potreben za vzpostavitev sistema za integracijo podatkov, kjer uporabimo obstoječe tehnike ujemanj in preslikav ter vpeljava plačila po uporabi. Na ravni EU je prisotnih veliko aktivnosti, kjer je na voljo številno gradivo:
:* [https://data.europa.eu/en/news-events/news/european-strategy-data Evropska podatkovna strategija],
:* [https://nio.gov.si/nio/asset/strategija+digitalnih+javnih+storitev Strategija digitalnih javnih storitev 2030 (SDJU 2030)],
:* [https://eu-skladi.si/sl/po-2020/nacrt-za-okrevanje-in-krepitev-odpornosti Načrt za okrevanje in odpornost (NOO)],
:* [https://digital-strategy.ec.europa.eu/en/library/staff-working-document-data-spaces Usmeritve Evropske komisije],
:* [https://docs.internationaldataspaces.org/knowledge-base International Data Spaces],
:* [https://mydata.org/participate/declaration/ MyData Principles],
:* [https://solidproject.org/about SOLID Intiative],
:* [https://gaia-x.eu/ GAIA-X],
:* [https://oceanprotocol.com/ OCEAN protocol].

:V okviru naloge se pričakuje podroben pregled izbranega (pod)področja/ogordja, primerjava obstoječih rešitev in implementacija prototipa s pomočjo odprtokodnih orodij.

:;Ključne besede
::podatkovni prostori, semantika, spletne tehnologije

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Evropski podatkovni prostor za jezik (Language Data Space) ===
:Podatkovni prostori (angl. Dataspaces) predstavljajo abstrakcijo upravljanja podatkov, kjer je osredni cilj odprava težav, ki se pojavijo pri integraciji podatkov. Osrednji namen podatkovnih prostorov je zmanjšati napor, ki je potreben za vzpostavitev sistema za integracijo podatkov, kjer uporabimo obstoječe tehnike ujemanj in preslikav ter vpeljava plačila po uporabi. Glejte tudi zgornje gradivo.

:V okviru naloge se pričakuje podroben pregled stanja in razvoja [https://language-data-space.ec.europa.eu/index_en Evropskega podatkovnega prostora za jezik]. Izvede naj se primerjava z drugimi podatkovnimi prostori (predvsem glede izbire infrastrukture). Implementira naj se prototip, ki bi omogočil vključitev in/ali uporabo podatkov iz podatkovnega prostora.

:;Ključne besede
::podatkovni prostori, semantika, jezikovne tehnologije

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Izdelava Sociogramov - sedežni red ===
:Sociometrija je tehnika iz socialne psihologije in sociologije, ki se uporablja za merjenje družbenih odnosov v skupinah (npr. ekipe, razredi v šolah, ...). Z njo se opredeli povezanost skupine ter vlogo posameznika v tej skupini (npr. izločen, priljubljen, vodja, ...). Vodji skupine (npr. trenerju, učitelju, socialnemu pedagogu) tehnika pomaga razumeti latentne odnose v skupinah in jim omogoča učinkovitejše ter ustreznejše delo s skupino.

:V okviru projekta se pričakuje:
:* Nadgradnja obstoječe aplikacije Sociogram (sedežni red ali oddaljeno izpolnjevanje sociogramov). Uporaba tehnologij Java 18+, Python/Django, React (ali drugo ogrodje) in MariaDB.
:* Sodelovanje s študentkami/študenti iz Fakultete za šport (FSP) in podjetjem MikroGrafArt d.o.o..
:* Predvidenih 80 ur dela, plačanih po postavki 11,30 EUR bruto bruto.
:* Čas sodelovanja v obdobju od aprila do septembra 2024.
:Delo se lahko nadgradi in uporabi tudi v okviru predmetov RvP/OSD ali se jih prilagodi v zaključno delo (npr. diplomska naloga)

:Predlaganje sedežnega reda v učilnicah glede na rezultat Sociograma: Na podlagi rezultatov medsebojnih odnosov in dinamike pri pouku se bo pregledalo teoretične vidike in predlagalo metodologije za izdelavo sedežnih redov na podlagi sociometrije (študent FSP). Metodologije bodo nato implementirane v dodatnem modulu programa Sociogram, ki bo omogočal avtomatsko izdelavo sedežnega reda za poljubno vnešen tloris učilnice (študent FRI). Rezultat bo omogočil kakovostnejše izobraževanje, zmanjšanje neenakosti in večjo integracijo skupin.

:;Ključne besede
::sociogram, psihologija, delo v skupinah, namizna aplikacija, spletne storitve

:;Tip zaključnega dela
::Diplomsko delo

=== Izdelava Sociogramov - oddaljen način ===
:Sociometrija je tehnika iz socialne psihologije in sociologije, ki se uporablja za merjenje družbenih odnosov v skupinah (npr. ekipe, razredi v šolah, ...). Z njo se opredeli povezanost skupine ter vlogo posameznika v tej skupini (npr. izločen, priljubljen, vodja, ...). Vodji skupine (npr. trenerju, učitelju, socialnemu pedagogu) tehnika pomaga razumeti latentne odnose v skupinah in jim omogoča učinkovitejše ter ustreznejše delo s skupino.

:V okviru projekta se pričakuje
:* Nadgradnja obstoječe aplikacije Sociogram (sedežni red ali oddaljeno izpolnjevanje sociogramov). Uporaba tehnologij Java 18+, Python/Django, React (ali drugo ogrodje) in MariaDB.
:* Sodelovanje s študentkami/študenti iz Fakultete za šport (FSP) in podjetjem MikroGrafArt d.o.o..
:* Predvidenih 80 ur dela, plačanih po postavki 11,30 EUR bruto bruto.
:* Čas sodelovanja v obdobju od aprila do septembra 2024.
:Delo se lahko nadgradi in uporabi tudi v okviru predmetov RvP/OSD ali se jih prilagodi v zaključno delo (npr. diplomska naloga).

:Izdelava Sociograma na oddaljen način: Trenutno se Sociogram printa na liste, od koder se nato rezultate vnese v program. Potrebno je preveriti in izdelati varen protokol (študent FSP) in implementirati avtomatske mehanizme za oddaljeno izpolnjevanje sociograma preko e-pošte ali drugih kanalov, pri čemer je potrebno zagotavljati varnost in anonimnost (študent FRI). Rezultat bo bolj učinkovito anketiranje in bolj trajnostna izdelava sociogramov brez potrebe printanja.

:;Ključne besede
::sociogram, psihologija, delo v skupinah, namizna aplikacija, spletne storitve

:;Tip zaključnega dela
::Diplomsko delo

=== Evalvacija in produktivizacija orodja TextCaptcha ===
:Martin Čebular je v okviru svoje magistrske naloge razvil orodje TextCaptcha - [[Master_theses|Preprečevanje neželenih komentarjev za spletne novice s pomočjo tehnik za procesiranje naravnega jezika (Martin Čebular)]]. Ideja za orodje izhaja iz storitve [http://recaptcha.net reCaptcha], ki se uporablja za bolj natančno digitalizacijo knjig. V osnovi deluje tako, da bralcu prikaže npr. dva niza, pri katerem sistem za enega pozna rešitev, za drugega ne. Uporabnik mora oba niza vpisati v vnosno polje. Sistem nato preko več odgovorov ugotovi, kakšna je pravilna digializacija neznanega niza.

:Izdelano orodje je že bilo validirano in kot Javascript vtičnik na spletnih straneh [rtvslo.si]. Namen magistrske naloge bi bil (a) izdelati natančno metodologijo uporabe orodja TextCaptcha za namene zbiranja označenih korpusov v slovenskem jeziku, (b) prikazati smiselne primere uporabe in (c) evalvirati orodje na realnih primerih.

:;Ključne besede
::ekstrakcija informacij, gradnja podatkovnih množic, preverjanje vnosov

:;Tip zaključnega dela
::Magistrsko delo

=== Primerjava standardne slovenščine v Sloveniji in izzven nje ===
:Za primerjavo jezikov obstajajo že uveljavljene metode, s katerimi se lahko primerja, kdaj sta si jezika sorodna, enaka oz. kako različna sta si. V okviru zaključnega dela naj se primerja besedila novic iz področja Slovenije z besedili novic zamejskih Slovencev ali izseljencev. Primeri novic izseljencev so na primer [http://www.novice.at/ novice.at] (Avstrija), Novi list (Argentina), ipd., pri čemer naj se pregleda možnosti za pridobitev tudi drugih primernih virov. Izdela naj se referenčni korpus, katerega se bo primerjalo z referenčnim korpusom standardne slovenščine v Sloveniji (vir bo zagotovljen). Množice je potrebno nato primerjati in ugotoviti jezikovne različnosti (npr. raba besed v različnih kontekstih, pojavljanje starih/novih besed, vpliv tujega jezika, vrstni red besed).

:;Uporabne povezave
::[https://alternativetransport.wordpress.com/2015/05/04/how-much-does-language-change-when-it-travels/ Lexical distance map among languages]

:;Ključne besede
::slovenščina, primerjava besedil, novice

:;Tip zaključnega dela
::Magistrsko delo

=== Produktivizacija modelov globokega učenja ===
:V zadnjem času se globoki modeli nevronskih mrež čedalje bolj uporabljajo v praksi. Seveda je možno implementirati lastno infrastrukturo, ki bo služila namenu, da bodo rezultati našega modela dostopni uporabnikom, vendar za ta namen obstajajo tudi specifična orodja ali ogrodja. V okviru zaključnega dela naj se pregleda in primerja platforme, ki to omogočajo (npr. Nvidia Triton). Izbrano platformo naj se tudi preskusi in prikaže delovanje na praktičnem primeru (npr. produktivizacija obstoječega globokega modela).

:;Možne druge variacije zaključnega dela
::(a) Pregled in preskus platforme za zaganjanje globokih modelov v brskalniku (npr. [https://www.tensorflow.org/js www.tensorflow.org/js]).
::(b) Pregled in preskus platforme za zaganjanje globokih modelov na mobilnih napravah (npr. [https://www.tensorflow.org/lite/android Tensorflow Android], [https://www.tensorflow.org/lite/guide/ios Tensorflow iOS], [https://developer.apple.com/documentation/coreml Apple CoreML]).

:;Ključne besede
::globoko učenje, ogrodja za umetno inteligenco, produktivizacija

:;Tip zaključnega dela
::Magistrsko delo

=== Izdelava ogrodja za demokratizacijo obdelave naravnega jezika ===
:V okviru projekta [https://slovenscina.eu Razvoj slovenščine v digitalnem okolju] smo pregledali možnosti za izdelavo orodja za procesiranje naravnega jezika po vzoru obstoječih orodij - [https://gate.ac.uk GATE], [https://uima.apache.org UIMA], [https://orangedatamining.com Orange3] ([https://github.com/biolab/orange3-text Text mining Addon], [http://textable.io Textable]). Poleg tega smo pripravili tudi zasnovo splošnega podatkovnega modela, arhitekturo orodja in definirali programske vmesnike za komunikacijo med vsebniki Docker.

:Namen zaključnega dela je implementirati predlagano orodja in pokazati možnosti za izvedljivost projekta ter uporabo orodja v praksi. Končna specifikacija kmalu na voljo javnosti.

:;Ključne besede
::Docker, procesiranje naravnega jezika, podatkovni model, programski vmesniki

:;Tip zaključnega dela
::Diplomsko delo delo

=== Ostale možne tematike ===
:Kandidat si lahko zamisli svoj lasten problem iz področja iskanja in ekstrakcije vsebin is spleta ali procesiranja naravnega jezika ter ga uskladi z menoj. Tematike se lahko dotikajo tudi analize in uporabe odprtokodnih sistemov, ki so morda trenutno aktualne, uporabe in analize odprtih podatkov (npr. iz portala [https://podatki.gov.si/ OPSI]) ali izdelave speficičnih orodij za obdelavo podatkov (ETL, informacijski sistemi, ipd.).

:Prav tako vsako leto na področju procesiranja naravnega jezika potekajo tekmovanja z zanimivimi tematikami, ki lahko predstavljajo zaključno delo. Največkrat so to delavnice (angl., workshops) na konferencah ACL, CoNLL, BSNLP, EMNLP, ipd.

Available theses topics

2025-03-05T05:42:29Z

Slavkoz:

__NOTOC__
Na tej strani so naštete proste teme za izdelavo zaključnih del pod mojim mentorstvom. Pri izbiri prosim sledite navodilom, ki so opisana na [[Thesis_preparation_instructions|strani glede metodologije priprave zaključnega dela]].

=== MLOps ===
:To complete a successful machine learning project, understanding machine learning theory and concepts is essential, but you need engineering capabilities as well. Effectively developing and deploying machine learning models requires competencies more commonly found in technical fields such as software engineering and DevOps. Within the thesis, the idea is to cover the follwing aspects: (a) how to plan, (b) build, and (c) maintain a machine learning project. In contrast with the standard machine learning cycle, models in production need to integrate with other services or applications, need to run continuously with maximum performance and minimal cost, and have an ability to handle evolving data and business requirements. In this hands-on course you will become familiar with challenges, patterns and well-established tools for doing this effectively.

:The idea is to review MLOps in general and then focus on a specific topic - e.g. data versioning (DVC), MLFlow, business perspective and visualizations, pipelines and packaging, deployment and CI/CD, monitoring, regulation compliance tools, ...

:;Ključne besede
::MLOps, DevOps, produktivizacija, razvoj orodij umetne inteligence

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Vključevanje strukturiranega znanja v jezikovne modele ===
:Jezikovni modeli vsebujejo splošno znanje, saj so bili izpostavljeni ogromnim količinam besedil. Lahko se jih prilagodi za posamezne domene, vendar ostaja problem osveževanja modela z novimi podatki. Dodatno znanje je v model možno vstavljati na različne načine (npr. na vhodu ali kasneje - tehnika RAG).

:V okviru naloge se pričakuje, da bo kandidat raziskal možnosti vstavljanja dodatnega znanja v jezikovni model. Dodatno znanje se lahko nahaja na spletu, v bazi znanja (npr. grafu, ontologiji, ...) ali dodatnih besedilnih virih. Glede na izbran način bo kandidat tudi implementiral iskanje dodatnih vsebin (npr. s tehnikami RAG). Delo bo vrednoteno glede na izbrano domeno (npr. reševanje težav študentskega referata FRI, ugotavljanje razumevanje slovenske slovnice, ...)

:;Ključne besede
::jezikovni modeli, slovenščina, RAG, baze znanja

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Portali odprtih podatkov - deljenje, objava, ponovna uporaba ===
:Evropska unija želi ustvariti okolje za boljšo podatkovno ekonomijo. Že pred leti so zato članice EU začele vzpostavljati portale odprtih podatkov, ki večinoma temeljijo na odprtokodnem ogrodju [https://ckan.org/ CKAN]. Tudi v Sloveniji imamo v tem smislu vzpostavljen portal [https://podatki.gov.si/].
:Za boljšo ponovno uporabo podatkov morajo biti le ti bolje (avtomatsko) dostopni in ponujeni preko vmesnikov. Projekt [https://github.com/FRI-MDP/Podatkovni-zemljevid-2023 Podatkovni zemljevid] je omogočil enostavno iskanje in pretvorbo v semantično obliko, kar mora biti še integrirano. Možnosti za inovativnost je še mnogo ...

:V okviru naloge se pričakuje podroben pregled izbranega (pod)področja/ogrodja, primerjava obstoječih rešitev in implementacija prototipa s pomočjo odprtokodnih orodij. Prototip je lahko izboljšava/avtomatizacija posameznega dela Podatkovnega zemljevida ali vključitev napredne obdelave naravnega jezika za ponujanje podatkov (npr. iskanje, povzemanje, ...).

:;Ključne besede
::odprti podatki, OPSI, repozitoriji

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Evropski podatkovni prostori - infrastruktura ===
:Podatkovni prostori (angl. Dataspaces) predstavljajo abstrakcijo upravljanja podatkov, kjer je osredni cilj odprava težav, ki se pojavijo pri integraciji podatkov. Osrednji namen podatkovnih prostorov je zmanjšati napor, ki je potreben za vzpostavitev sistema za integracijo podatkov, kjer uporabimo obstoječe tehnike ujemanj in preslikav ter vpeljava plačila po uporabi. Na ravni EU je prisotnih veliko aktivnosti, kjer je na voljo številno gradivo:
:* [https://data.europa.eu/en/news-events/news/european-strategy-data Evropska podatkovna strategija],
:* [https://nio.gov.si/nio/asset/strategija+digitalnih+javnih+storitev Strategija digitalnih javnih storitev 2030 (SDJU 2030)],
:* [https://eu-skladi.si/sl/po-2020/nacrt-za-okrevanje-in-krepitev-odpornosti Načrt za okrevanje in odpornost (NOO)],
:* [https://digital-strategy.ec.europa.eu/en/library/staff-working-document-data-spaces Usmeritve Evropske komisije],
:* [https://docs.internationaldataspaces.org/knowledge-base International Data Spaces],
:* [https://mydata.org/participate/declaration/ MyData Principles],
:* [https://solidproject.org/about SOLID Intiative],
:* [https://gaia-x.eu/ GAIA-X],
:* [https://oceanprotocol.com/ OCEAN protocol].

:V okviru naloge se pričakuje podroben pregled izbranega (pod)področja/ogordja, primerjava obstoječih rešitev in implementacija prototipa s pomočjo odprtokodnih orodij.

:;Ključne besede
::podatkovni prostori, semantika, spletne tehnologije

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Evropski podatkovni prostor za jezik (Language Data Space) ===
:Podatkovni prostori (angl. Dataspaces) predstavljajo abstrakcijo upravljanja podatkov, kjer je osredni cilj odprava težav, ki se pojavijo pri integraciji podatkov. Osrednji namen podatkovnih prostorov je zmanjšati napor, ki je potreben za vzpostavitev sistema za integracijo podatkov, kjer uporabimo obstoječe tehnike ujemanj in preslikav ter vpeljava plačila po uporabi. Glejte tudi zgornje gradivo.

:V okviru naloge se pričakuje podroben pregled stanja in razvoja [https://language-data-space.ec.europa.eu/index_en Evropskega podatkovnega prostora za jezik]. Izvede naj se primerjava z drugimi podatkovnimi prostori (predvsem glede izbire infrastrukture). Implementira naj se prototip, ki bi omogočil vključitev in/ali uporabo podatkov iz podatkovnega prostora.

:;Ključne besede
::podatkovni prostori, semantika, jezikovne tehnologije

:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga

=== Izdelava Sociogramov - sedežni red ===
:Sociometrija je tehnika iz socialne psihologije in sociologije, ki se uporablja za merjenje družbenih odnosov v skupinah (npr. ekipe, razredi v šolah, ...). Z njo se opredeli povezanost skupine ter vlogo posameznika v tej skupini (npr. izločen, priljubljen, vodja, ...). Vodji skupine (npr. trenerju, učitelju, socialnemu pedagogu) tehnika pomaga razumeti latentne odnose v skupinah in jim omogoča učinkovitejše ter ustreznejše delo s skupino.

:V okviru projekta se pričakuje:
:* Nadgradnja obstoječe aplikacije Sociogram (sedežni red ali oddaljeno izpolnjevanje sociogramov). Uporaba tehnologij Java 18+, Python/Django, React (ali drugo ogrodje) in MariaDB.
:* Sodelovanje s študentkami/študenti iz Fakultete za šport (FSP) in podjetjem MikroGrafArt d.o.o..
:* Predvidenih 80 ur dela, plačanih po postavki 11,30 EUR bruto bruto.
:* Čas sodelovanja v obdobju od aprila do septembra 2024.
:Delo se lahko nadgradi in uporabi tudi v okviru predmetov RvP/OSD ali se jih prilagodi v zaključno delo (npr. diplomska naloga)

:Predlaganje sedežnega reda v učilnicah glede na rezultat Sociograma: Na podlagi rezultatov medsebojnih odnosov in dinamike pri pouku se bo pregledalo teoretične vidike in predlagalo metodologije za izdelavo sedežnih redov na podlagi sociometrije (študent FSP). Metodologije bodo nato implementirane v dodatnem modulu programa Sociogram, ki bo omogočal avtomatsko izdelavo sedežnega reda za poljubno vnešen tloris učilnice (študent FRI). Rezultat bo omogočil kakovostnejše izobraževanje, zmanjšanje neenakosti in večjo integracijo skupin.

:;Ključne besede
::sociogram, psihologija, delo v skupinah, namizna aplikacija, spletne storitve

:;Tip zaključnega dela
::Diplomsko delo

=== Izdelava Sociogramov - oddaljen način ===
:Sociometrija je tehnika iz socialne psihologije in sociologije, ki se uporablja za merjenje družbenih odnosov v skupinah (npr. ekipe, razredi v šolah, ...). Z njo se opredeli povezanost skupine ter vlogo posameznika v tej skupini (npr. izločen, priljubljen, vodja, ...). Vodji skupine (npr. trenerju, učitelju, socialnemu pedagogu) tehnika pomaga razumeti latentne odnose v skupinah in jim omogoča učinkovitejše ter ustreznejše delo s skupino.

:V okviru projekta se pričakuje
:* Nadgradnja obstoječe aplikacije Sociogram (sedežni red ali oddaljeno izpolnjevanje sociogramov). Uporaba tehnologij Java 18+, Python/Django, React (ali drugo ogrodje) in MariaDB.
:* Sodelovanje s študentkami/študenti iz Fakultete za šport (FSP) in podjetjem MikroGrafArt d.o.o..
:* Predvidenih 80 ur dela, plačanih po postavki 11,30 EUR bruto bruto.
:* Čas sodelovanja v obdobju od aprila do septembra 2024.
:Delo se lahko nadgradi in uporabi tudi v okviru predmetov RvP/OSD ali se jih prilagodi v zaključno delo (npr. diplomska naloga).

:Izdelava Sociograma na oddaljen način: Trenutno se Sociogram printa na liste, od koder se nato rezultate vnese v program. Potrebno je preveriti in izdelati varen protokol (študent FSP) in implementirati avtomatske mehanizme za oddaljeno izpolnjevanje sociograma preko e-pošte ali drugih kanalov, pri čemer je potrebno zagotavljati varnost in anonimnost (študent FRI). Rezultat bo bolj učinkovito anketiranje in bolj trajnostna izdelava sociogramov brez potrebe printanja.

:;Ključne besede
::sociogram, psihologija, delo v skupinah, namizna aplikacija, spletne storitve

:;Tip zaključnega dela
::Diplomsko delo

=== Evalvacija in produktivizacija orodja TextCaptcha ===
:Martin Čebular je v okviru svoje magistrske naloge razvil orodje TextCaptcha - [[Master_theses|Preprečevanje neželenih komentarjev za spletne novice s pomočjo tehnik za procesiranje naravnega jezika (Martin Čebular)]]. Ideja za orodje izhaja iz storitve [http://recaptcha.net reCaptcha], ki se uporablja za bolj natančno digitalizacijo knjig. V osnovi deluje tako, da bralcu prikaže npr. dva niza, pri katerem sistem za enega pozna rešitev, za drugega ne. Uporabnik mora oba niza vpisati v vnosno polje. Sistem nato preko več odgovorov ugotovi, kakšna je pravilna digializacija neznanega niza.

:Izdelano orodje je že bilo validirano in kot Javascript vtičnik na spletnih straneh [rtvslo.si]. Namen magistrske naloge bi bil (a) izdelati natančno metodologijo uporabe orodja TextCaptcha za namene zbiranja označenih korpusov v slovenskem jeziku, (b) prikazati smiselne primere uporabe in (c) evalvirati orodje na realnih primerih.

:;Ključne besede
::ekstrakcija informacij, gradnja podatkovnih množic, preverjanje vnosov

:;Tip zaključnega dela
::Magistrsko delo

=== Primerjava standardne slovenščine v Sloveniji in izzven nje ===
:Za primerjavo jezikov obstajajo že uveljavljene metode, s katerimi se lahko primerja, kdaj sta si jezika sorodna, enaka oz. kako različna sta si. V okviru zaključnega dela naj se primerja besedila novic iz področja Slovenije z besedili novic zamejskih Slovencev ali izseljencev. Primeri novic izseljencev so na primer [http://www.novice.at/ novice.at] (Avstrija), Novi list (Argentina), ipd., pri čemer naj se pregleda možnosti za pridobitev tudi drugih primernih virov. Izdela naj se referenčni korpus, katerega se bo primerjalo z referenčnim korpusom standardne slovenščine v Sloveniji (vir bo zagotovljen). Množice je potrebno nato primerjati in ugotoviti jezikovne različnosti (npr. raba besed v različnih kontekstih, pojavljanje starih/novih besed, vpliv tujega jezika, vrstni red besed).

:;Uporabne povezave
::[https://alternativetransport.wordpress.com/2015/05/04/how-much-does-language-change-when-it-travels/ Lexical distance map among languages]

:;Ključne besede
::slovenščina, primerjava besedil, novice

:;Tip zaključnega dela
::Magistrsko delo

=== Produktivizacija modelov globokega učenja ===
:V zadnjem času se globoki modeli nevronskih mrež čedalje bolj uporabljajo v praksi. Seveda je možno implementirati lastno infrastrukturo, ki bo služila namenu, da bodo rezultati našega modela dostopni uporabnikom, vendar za ta namen obstajajo tudi specifična orodja ali ogrodja. V okviru zaključnega dela naj se pregleda in primerja platforme, ki to omogočajo (npr. Nvidia Triton). Izbrano platformo naj se tudi preskusi in prikaže delovanje na praktičnem primeru (npr. produktivizacija obstoječega globokega modela).

:;Možne druge variacije zaključnega dela
::(a) Pregled in preskus platforme za zaganjanje globokih modelov v brskalniku (npr. [https://www.tensorflow.org/js www.tensorflow.org/js]).
::(b) Pregled in preskus platforme za zaganjanje globokih modelov na mobilnih napravah (npr. [https://www.tensorflow.org/lite/android Tensorflow Android], [https://www.tensorflow.org/lite/guide/ios Tensorflow iOS], [https://developer.apple.com/documentation/coreml Apple CoreML]).

:;Ključne besede
::globoko učenje, ogrodja za umetno inteligenco, produktivizacija

:;Tip zaključnega dela
::Magistrsko delo

=== Izdelava ogrodja za demokratizacijo obdelave naravnega jezika ===
:V okviru projekta [https://slovenscina.eu Razvoj slovenščine v digitalnem okolju] smo pregledali možnosti za izdelavo orodja za procesiranje naravnega jezika po vzoru obstoječih orodij - [https://gate.ac.uk GATE], [https://uima.apache.org UIMA], [https://orangedatamining.com Orange3] ([https://github.com/biolab/orange3-text Text mining Addon], [http://textable.io Textable]). Poleg tega smo pripravili tudi zasnovo splošnega podatkovnega modela, arhitekturo orodja in definirali programske vmesnike za komunikacijo med vsebniki Docker.

:Namen zaključnega dela je implementirati predlagano orodja in pokazati možnosti za izvedljivost projekta ter uporabo orodja v praksi. Končna specifikacija kmalu na voljo javnosti.

:;Ključne besede
::Docker, procesiranje naravnega jezika, podatkovni model, programski vmesniki

:;Tip zaključnega dela
::Diplomsko delo delo

=== Ostale možne tematike ===
:Kandidat si lahko zamisli svoj lasten problem iz področja iskanja in ekstrakcije vsebin is spleta ali procesiranja naravnega jezika ter ga uskladi z menoj. Tematike se lahko dotikajo tudi analize in uporabe odprtokodnih sistemov, ki so morda trenutno aktualne, uporabe in analize odprtih podatkov (npr. iz portala [https://podatki.gov.si/ OPSI]) ali izdelave speficičnih orodij za obdelavo podatkov (ETL, informacijski sistemi, ipd.).

:Prav tako vsako leto na področju procesiranja naravnega jezika potekajo tekmovanja z zanimivimi tematikami, ki lahko predstavljajo zaključno delo. Največkrat so to delavnice (angl., workshops) na konferencah ACL, CoNLL, BSNLP, EMNLP, ipd.

MediaWiki:Common.css

2025-02-28T15:19:59Z

Slavkoz:

/* CSS placed here will be applied to all skins */
#p-tb { display:none; }

MediaWiki:Sidebar

2025-02-28T15:17:32Z

Slavkoz:

* Personal
** About me|About me
** {{filepath:SlavkoZitnik_CV.pdf}}|My full curriculum vitae
** My PhD Study|My PhD Study

* Research
** Software and datasets|Software and datasets
** Interesting links|Interesting links

* Teaching
** Courses|Courses
** Workshops|Workshops

* Graduation
** Thesis preparation instructions|Thesis preparation instructions
** Available theses topics|Available theses topics
** Diploma theses|Diploma theses
** Master theses|Master theses

MediaWiki:Sidebar

2025-02-28T15:17:07Z

Slavkoz:

About me

2025-02-28T14:46:24Z

Slavkoz:

[[File:Slavko Žitnik.png|frameless|right|275x275px]]

I am an associate professor at the University of Ljubljana, Faculty for computer and information science, Laboratory for Data Technologies. My research interests are related to databases, natural language processing, semantic Web, information retrieval and information extraction. I am also teaching courses of natural language processing, web information extraction and retrieval, database design and management and information systems and modelling.

Internationally I actively cooperate with the [https://cri.pantheonsorbonne.fr/en/centre-recherche-en-informatique Université Paris 1, Sorbonne], the [https://www.etf.bg.ac.rs/en School of Electrical Engineering, University of Belgrade] (prof. Dražen Drašković), [https://www.usf.edu/education College of Education, University of South Florida] (prof. Glenn Gordon Smith), and [https://zitniklab.hms.harvard.edu Harvard University, Department of Biomedical Informatics] (prof. Marinka Žitnik).

Apart from research projects in the fields of data science and natural language processing, I am actively engaged in professional projects with industry.

'''Check [{{filepath:SlavkoZitnik_CV.pdf}} regularly updated my curriculum vitae] to find more about me.'''

{{Quote|text=Once you have a truly massive amount of information integrated as knowledge, then the human-software system will be superhuman, in the same sense that mankind with writing (or language itself) is superhuman compared to mankind before writing (or language itself). We look back on pre-linguistic cavemen and think 'they weren't quite human, were they?' In much the same way, our descendants will look back on pre-AI homo sapiens with exactly that mixture of otherness and pity.|sign=Doug Lenat|source=}}

<center>{{note|To get in touch with me, please reach out to me via [mailto:slavko.zitnik@fri.uni-lj.si slavko.zitnik@fri.uni-lj.si] or stop by in my office at the Faculty (room R2.58).}}</center>

;Affiliations
:[http://www.fri.uni-lj.si University of Ljubljana, Faculty of Computer and Information Science], Laboratory for Data Technologies, Autumn 2018-now, Assistant Professor
:[https://dbmi.hms.harvard.edu Harvard University, Department of Biomedical Informatics], 2022, Visiting Professor

;Research indexing
: [https://www.arrs.gov.si Slovenian research agency] profile, [https://cris.cobiss.net/ecris/si/sl/researcher/38663 SICRIS number 34156]
: [https://scholar.google.com/citations?user=O8WaRkUAAAAJ Google Scholar]

{| style="text-align: center; width: 100%;"
| '''Head of the Laboratory''' || '''PhD Candidates'''
|-
|<gallery mode="packed">
Image:Marko_Bajec.png|[http://marko.data-lab.si prof. dr. Marko Bajec]
</gallery> ||
<gallery mode="packed" style="padding: 20px;">
Image:Timotej knez.png|Timotej Knez ''(PhD supervision)''
Image:Luka_tercon.png|Luka Terčon ''(PhD co-supervision)''
Image:Person.png|Massimo Sbarbaro ''(PhD co-supervision)''
</gallery>
|}

Master theses

2025-02-28T14:44:57Z

Slavkoz:

This Web page contains on-going and finished master theses. Thanks to all the candidates below that did (or are doing) great work!

If you are looking to prepare a master thesis under my supervision, please check [[Theses topics|available theses topics or propose your own idea]].

== 2024 ==

{{Thesis
|Naslov=S poizvedovanjem obogateno generiranje besedil z domensko specifičnim doučevanjem velikih jezikovnih modelov
|NaslovEng=Retrieval-augmented text generation with domain-specific large language models fine-tuning
|Avtor=Marko Ivanovski
|Opis=[[File:Screenshot 2025-02-28 at 14.16.28.png|500px|right]]Razvoj avtomatiziranega sistema za odgovarjanje na vprašanja, ki poenostavi obdelavo e-pošte za podporo strankam, je učinkovita rešitev za zmanjšanje časa in truda pri ročnem odgovarjanju. Trenutno agenti za podporo strankam na e-pošto odgovarjajo ročno, kar je zamudno in delovno intenzivno. Preizkusili smo več konfiguracij za vzpostavitev sistema, ki lahko samodejno odgovarja na ta e-poštna sporočila. Uporabljene podatke je zagotovilo podjetje Zebra BI, sestavljali pa so jih strukturiran korpus elektronskih sporočil podpore in nestrukturiran korpus, pridobljen iz dokumentacije izdelka. Primerjali smo dva glavna pristopa. Prvi je obsegal doučevanje velikega jezikovnega modela za neposredno odgovarjanje na e-pošto. Ta pristop je vseboval samo generator. Drugi je uporabljal arhitekturo RAG (angl. Retrieval-Augmented Generation), ki je vsebovala tako poizvedovalnik (angl. retriever) kot generator. Poizvedovalnik je poiskal podobne e-poštne odgovore in jih dodal kot kontekst za vnaprej naučen model LLM, ki je nato odgovarjal na vprašanje z uporabo prejšnjih podobnih e-pošt. V ta namen smo implementirali dvojno-dekodirni poizvedovalni model, pri čemer smo uporabili tehniko učenja LoRA in kvantizacijo. Dvojno-dekodirni poizvedovalni model je ustvaril vgradnje (angl. embeddings) tako za vprašanja kot odgovore z uporabo ločenih dekodirnikov in jih razvrstil glede na kosinusno podobnost. Razvili smo šest različnih konfiguracij sistema za odgovarjanje na vprašanja. Nekatere konfiguracije so uporabljale tako komponento poizvedovalnika kot generatorja, druge pa so imele samo generator. Najbolje se je izkazala konfiguracija s prilagojenim dvojno-dekodirnim poizvedovalnim modelom, ki je izboljšala sposobnost sistema za iskanje relevantnih informacij iz domensko-specifičnega e-poštnega korpusa. To je tudi pokazalo, da je učenje poizvedovalnika in uporaba arhitekture RAG učinkovitejša rešitev od doučevanja modela LLM, kadar je količina podatkov majhna in nizke kakovosti. Najbolj optimalen poizvedovalnik, zgrajen na arhitekturi Llama-2-7B z uporabo LoRA in 4-bitne kvantizacije, je dosegel natančnost 0.53 pri Accuracy@100 in 0.032 pri MRR@100. V primerjavi s tem je najsodobnejši model poizvedovalnika BGE-large-en dosegel 0.282 pri Accuracy@100 in 0.009 pri MRR@100 v isti domeni. V kombinaciji z GPT-4o kot generatorjem je v našem ročnem ocenjevanju poizvedovalnik z dvojno-dekodirnim modelom prejel oceno 1282 ELO, medtem ko je poizvedovalnik BGE-large-en z istim generatorjem dosegel oceno 1256, doučeni LLM model pa oceno 1071. Eksperimenti so pokazali, da konfiguracija z dvojno-dekodirnim poizvedovalnim modelom zagotavlja najbolj natančne in kontekstualno ustrezne odgovore ter tako presegla najsodobnejšo konfiguracijo. Prav tako so pokazali, da je možno LLM modele z dekodirnikom uporabiti za gradnjo poizvedovalnika z relativno majhno količino podatkov. Končni sistem, integriran v Chrome razširitev, je močno vplival na delovne procese podpore v Zebra BI z avtomatizacijo velikega dela odgovarjanja. S tem se je ne le zmanjšal čas odgovarjanja, ampak se je izboljšala tudi natančnost in doslednost odgovorov za stranke. Razširitev zdaj ekipa podpore v Zebra BI uporablja pol-avtomatsko, kar omogoča agentom, da se osredotočijo na bolj zahtevna vprašanja.
|KljucneBesede=Ustvarjanje besedil, odgovarjanje na vprašanja, iskanje, kodirnik, dekodirnik, transformatorji, iskanje nestrukturiranih podatkov, natančna nastavitev, modeli vgrajevanja, kvantizacija
|KljucneBesedeEng=Text generation, question answering, retrieval, encoder, decoder, transformers, unstructured data retrieval, fine-tuning, embedding models, quantization
|Komentar=
|Viri=[{{filepath:63180365-Marko Ivanovski-dispozicija.pdf}} Dispozicija] [{{filepath:63180365-Marko Ivanovski-S poizvedovanjem obogateno generiranje besedil z domensko specifičnim doučevanjem velikih jezikovnih modeloveli-2.pdf}} Magistrsko delo]
}}

{{Thesis
|Naslov=Avtomatizacija vdornega testiranja spletnih strani
|NaslovEng=Web site penetration testing automation
|Avtor=Gregor Kerševan
|Opis=[[File:Screenshot 2025-02-28 at 14.12.49.png|500px|left]]V tem delu se ukvarjamo s problemom avtomatiziranega iskanja ranljivosti spletnih aplikacij v okviru procesov DevSecOps in cevovodov CI/CD. Uvedba varnostnih testov v avtomatiziran proces predstavlja izziv, saj je nekatere ranljivosti težko avtomatizirano iskati ali zahtevajo ročne posege, kot so ročni vdorni testi. Naš pristop vključuje implementacijo agenta, ki avtomatsko izvaja varnostne teste in analizira rezultate v grafičnih prikazih. Rešitev smo integrirali v cevovod DevOps ter testirali nad odprtokodnimi aplikacijami. Končni prispevek naloge omogoča boljši nadzor nad varnostjo spletnih aplikacij ter poenostavi proces iskanja ranljivosti za varnostne inženirje.
|KljucneBesede=avtomatizacija, devsecops, sast
|KljucneBesedeEng=automation, devsecops, sast
|Komentar=Somentor pri delu je bil viš. pred. dr. David Jelenc.
|Viri=[{{filepath:63150140-Gregor Kerševan-dispozicija.pdf}} Dispozicija] [{{filepath:63150140-Gregor Kerševan-Avtomatizacija vdornega testiranja spletnih strani.pdf}} Magistrsko delo]
}}

{{Thesis
|Naslov=Izbiranje sistema za upravljanje z grafnimi podatkovnimi bazami
|NaslovEng=Selecting a graph database management system
|Avtor=Nino Brezac
|Opis=Grafne podatkovne baze so se izkazale kot učinkovito orodje za upravljanje z zelo povezanimi podatki, saj v posebnih primerih uporabe, kot so priporočilni sistemi, družbena omrežja in odkrivanje goljufij, celo presegajo tradicionalne relacijske podatkovne baze. V tem delu so najprej predstavljeni koncepti grafnih podatkovnih baz, njihova taksonomija in posebnosti. Nato sledi celostna predstava področja grafnih podatkovnih baz, kjer so povzete ključne lastnosti reprezentativnega vzorca grafnih podatkovnih baz in je posledično zgrajen model odločitvenega drevesa za pomoč pri izbiri grafne podatkovne zbirke. Za validacijo je izbran primer uporabe analitičnih podatkovnih zbirk LPG. Validacija je vsebovala eksperimentalno analizo na standardiziranem naboru podatkov, ter je izpostavila ključne razlike med sistemi glede uporabniškega vmesnika, uporabniške izkušnje, hitrosti, porabe pomnilnika in analitičnih zmožnosti. Ta študija ponuja praktičen vpogled za skrbnike podatkovnih baz in razvijalce, ki želijo izbrati pravo rešitev grafne podatkovne zbirke za svoje specifične potrebe.
|KljucneBesede=podatkovne baze, grafi, grafna analitika, grafni algoritmi, performančna analiza, Cypher, Gremlin, Neo4j, Memgraph, TigerGraph
|KljucneBesedeEng=databases, graphs, graph analytics, graph algorithms, performance analysis, Cypher, Gremlin, Neo4j, Memgraph, TigerGraph
|Komentar=
|Viri=[{{filepath:63180347-Nino Brezac-dispozicija.pdf}} Dispozicija] [{{filepath:63180347-Nino Brezac-Izbiranje sistema za upravljanje z grafnimi podatkovnimi bazami.pdf}} Magistrsko delo]
}}

{{Thesis
|Naslov=Avtomatizirana gradnja učnih korpusov s pomočjo velikih jezikovnih modelov
|NaslovEng=Automatized construction of learning corpuses with the help of large language models
|Avtor=Gal Petkovšek
|Opis=[[File:Screenshot 2025-02-28 at 14.07.15.png|500px|right]]Zbiranje in označevanje podatkov je drago in zamudno. V tem delu predstavljamo ogrodje, ki izkorišča moč velikih jezikovnih modelov za umetno tvorjenje sintetičnih podatkov. Testirali smo ga na treh nalogah uvrščanja besedil in z njegovo uporabo izboljšali izhodiščen rezultate. Predstavili smo več metod ocenjevanja kvalitete umetnih množic ter predstavili, kako ugotovitve uporabimo za razvoj novih pristopov tvorjenja umetnih primerkov. Razvitih in testiranih je bilo več tehnik umetnega tvorjenja, od katerih izstopa dodajanje pogostih besed v ukazni poziv, kar bistveno izboljša rezultate v primeru, ko imamo na voljo tako majhno množico označenih, kot tudi veliko množico neoznačenih primerkov. Najboljše rezultate smo dosegli z združevanjem umetno tvorjenih podatkov in LLM-označenih primerkov iz velike množice neoznačenih primerkov. Glavni prispevki naloge vključujejo implementacijo ogrodja in razvite strategije tvorjenja, ki smo jih vrednotili z različnimi metrikami na več scenarijih.
|KljucneBesede=veliki jezikovni modeli, umetno tvorjeni podatki, obdelava naravnega jezika, uvrščanje besedil, podatkovne množice
|KljucneBesedeEng=large language models, synthetic data, natural language porcessing, text classification, datasets
|Komentar=
|Viri=[{{filepath:63170020-Gal Petkovšek-dispozicija.pdf}} Dispozicija] [{{filepath:63170020-Gal Petkovšek-Avtomatizirana gradnja učnih korpusov s pomočjo velikih jezikovnih modelov.pdf}} Magistrsko delo]
}}

{{Thesis
|Naslov=Avtomatska ekstrakcija podatkov iz računov
|NaslovEng=Automatic invoice data extraction
|Avtor=Gregor Ažbe
|Opis=[[File:Screenshot 2025-02-28 at 14.04.29.png|300px|left]]V tem magistrskem delu se osredotočamo na problem prepoznavanja podatkov z računov, ki so ključni administrativni dokumenti v poslovanju podjetij. Podjetja potrebujejo podatke računov v digitalni obliki, da jih lahko računalniško obdelujejo. Kljub naraščajoči uporabi elektronskih računov so ti večinoma v formatu PDF in ne vsebujejo strukturiranih metapodatkov, kar otežuje avtomatizirano ekstrakcijo podatkov. Ročno prepisovanje podatkov je zamudno in nagnjeno k napakam, zato je avtomatizacija tega procesa izjemnega pomena.

:V delu smo implementirali, opisali in primerjali uspešnost treh različnih pristopov za avtomatsko ekstrakcijo podatkov z računov. Prvi pristop temelji na klasičnih metodah strojnega učenja, kjer smo preizkusili več modelov, vključno z odločitvenimi drevesi, naključnimi gozdovi, metodami podpornih vektorjev in drugimi. Drugi pristop temelji na grafovskih nevronskih mrežah (GNN), tretji pa na pristopu s predlogami, ki ne uporablja strojnega učenja. Značilke za strojno učenje so vključevale pozicijske podatke, kot so položaj, velikost očrtanega pravokotnika in številka strani, ter besedilne značilke, kot so prisotnost določenih besed v okolici in število določenih znakov v besedi.

:Naš pristop s klasičnim strojnim učenjem je dosegel najboljše rezultate, saj smo z uporabo ekstremno naključnih dreves dosegli F1 = 0,89. Pristop z GNN je dosegel F_1 = 0,87, medtem ko je pristop s predlogami dosegel F1 = 0,70.

:Ekstremno naključna drevesa so se izkazala za najprimernejši pristop, saj je poleg najvišje uspešnosti njihova prednost tudi v nižji računski zahtevnosti in v tem, da v primerjavi z GNN za učenje potrebujejo manj učnih primerov.

:V primeru, da bi se pojavila potreba po dodajanju novih polj, bi morali pri pristopih s strojnim učenjem pridobiti veliko računov z novim poljem za učenje in ustrezno popraviti modele. Pri pristopu s predlogami pa bi zadoščal samo en račun z novim poljem za vsak tip računa, s katerim bi popravili ustrezno predlogo. V nadaljnjem delu bi lahko raziskali dodatne pristope, ki bi omogočali hitro učenje na podlagi le nekaj računov ali pa različne pristope z ANN, saj ti običajno zagotavljajo višjo uspešnost.
|KljucneBesede=ekstrakcija podatkov, računi, strojno učenje, grafovske nevronske mreže, predloge
|KljucneBesedeEng=data extraction, invoices, machine learning, graph neural network, templates
|Komentar=Mentor dela je izr. prof. dr. Lovro Šubelj.
|Viri=[{{filepath:63150040-Gregor Ažbe-dispozicija.pdf}} Dispozicija] [{{filepath:63150040-Gregor Ažbe-Avtomatska ekstrakcija podatkov iz računov.pdf}} Magistrsko delo]
}}

== 2023 ==

{{Thesis
|Naslov=Profiliranje uporabnikov in dinamično priporočanje produktov z vektorskimi bazami
|NaslovEng=User profiling and dynamic product recommendation with vector databases
|Avtor=Denis Derenda Cizel
|Opis=[[File:Screenshot 2025-02-28 at 13.58.38.png|300px|right]]Količina podatkov se iz dneva v dan povečuje. Z namenom filtriranja velikega toka podatkov so bili razviti različni priporočilni sistemi, ki izvajajo preslikavo med uporabniki in predmeti priporočanja z namenom čim hitrejše interakcije med njimi. V magistrskem delu se posvetimo priporočilnim sistemom na podlagi sodelovanja in delovanje preverimo na podatkih o telekomunikacijskih storitvah uporabnikov. Priporočanje ovrednotimo z različnimi merami uspešnosti. Sodelovalno priporočanje z namenom izboljšanja priporočanja nadgradimo v različne hibridne pristope. Hibridni pristop z dodatkom demografskih podatkov pravilno predlaga 85 odstotkov uporabniških priporočil. Z upoštevanjem zaporedja interakcij je mogoče pravilno napovedati naslednjo uporabniško storitev v 74 odstotkih. Implementirano je bilo tudi shranjevanje vektorskih predstavitev v vektorsko bazo, ki naredi priporočilni dostop bolj dostopen za uporabo.
|KljucneBesede=priporočilni sistemi, profiliranje, vsebinsko osnovana metoda, metoda izbiranja s sodelovanjem, vektorska baza
|KljucneBesedeEng=recommender systems, profiling, content-based method, collaborative filtering method, vector database
|Komentar=
|Viri=[{{filepath:63160090-Denis Derenda Cizel-dispozicija.pdf}} Dispozicija] [{{filepath:63160090-Denis Derenda Cizel-Profiliranje uporabnikov in dinamično priporočanje produktov z vektorskimi bazami.pdf}} Magistrsko delo]
}}

{{Thesis
|Naslov=Avtomatska prepoznava in digitalizacija obrazcev
|NaslovEng=Automatic recognition and digitalisation of forms
|Avtor=Robert Tovornik
|Opis=[[File:Screenshot 2025-02-28 at 13.54.00.png|300px|right]]Celostna digitalna transformacija organizacije zahteva digitalizacijo obstoječih in novo nastajajočih podatkov. Organizacije, ki podatke zajemajo preko vnosnih obrazcev v fizični papirni obliki, kot na primer večina zdravstvenih organizacij, morajo za pospešitev digitalizacije digitalizirati tudi vnosne obrazce. Digitalizacija kompleksnih vnosnih obrazcev je nepotrebno časovno zahtevna, saj je proces mogoče avtomatizirati. V sodelovanju s podjetjem Better, ki že omogoča kreiranje digitalnih obrazcev, smo razvili programsko rešitev za avtomatsko prepoznavo in digitalizacijo obrazcev. Programska oprema, razvita za delovanje v oblaku, uporablja tehnologijo optičnega prepoznavanja znakov, polj za vnos besedila, potrditvenih in izbirnih vnosnih polj in razpredelnic ter povezovanje podatkov za natančno prepoznavanje in digitalizacijo različnih vrst obrazcev. Vključen je izbirni korak človekovega posredovanja, ki omogoča prilagoditev želenih rezultatov. Evalvacija delovanja posameznih komponent izkazuje visoko učinkovitost in natančnost delovanja primerljivo z drugimi komercialnimi ponudniki storitev, ki celostne rešitve ne ponujajo. Povratne informacije izkazujejo večjo produktivnost in časovni prihranek pri procesu digitalizacije obrazcev.
|KljucneBesede=obrazci, prepoznava, digitalizacija
|KljucneBesedeEng=forms, recognition, digitalisation
|Komentar=
|Viri=[{{filepath:63120292-Robert Tovornik-dispozicija.pdf}} Dispozicija] [{{filepath:63120292-Robert Tovornik-Avtomatska prepoznava in digitalizacija obrazcev.pdf}} Magistrsko delo]
}}

{{Thesis
|Naslov=Samonadzorovano odkrivanje anomalij v produkcijskih dnevniških zapisih
|NaslovEng=Self-supervised anomaly detection in production log streams
|Avtor=Tomaž Martinčič
|Opis=[[File:Screenshot 2025-02-28 at 13.48.36.png|400px|right]]Rešitve za avtomatsko odkrivanje anomalij v sistemskih dnevniških zapisih so potrebne za učinkovito analizo in interpretacijo ogromnih količin ustvarjenih podatkov dnevnikov, odkrivanje skritih vzorcev in napovedovanje sistemskih anomalij, izboljšanje učinkovitosti delovanja, zagotavljanje varnosti sistema in zmanjšanje možnih izpadov. V zadnjem času je prišlo do razvoja na področju samodejnega odkrivanja nepravilnosti z uporabo metod strojnega učenja.

:V tem delu smo razširili na tem področju dobro znano metodo LogBERT v hierarhični transformator z vključitvijo prednaučenega jezikovnega modela za pridobitev semantičnih vložitev predlog dnevniških zapisov. S tem zagotavljamo bogatejše informacije in se izognemo težavam novih predlog, s katerimi se sooča izvirna metoda LogBERT. Predstavljamo novo metodo, imenovano SemLogBERT.

:Ugotovili smo, da rezultati, predstavljeni v večini modernih metod, močno precenjujejo njihovo učinkovitost. LogBERT in SemLogBERT smo ovrednotili v bolj realističnem scenariju, kjer smo izboljšali rezultate na nekaterih izmed standardnih primerjalnih podatkovih zbirk na tem področju.
|KljucneBesede=Obdelava naravnega jezika, odkrivanje anomalij, produkcijski dnevniški zapisi, strojno učenje, samonadzorovano strojno učenje
|KljucneBesedeEng=natural language processing, anomaly detection, production logs, machine learning, self-supervised learning
|Komentar=V sodelovanju s somentorjem iz industrije - mag. Álvaro García Faura (XLAB)
|Viri=[{{filepath:63160211-Tomaž Martinčič-dispozicija.pdf}} Dispozicija] [{{filepath:63160211-Tomaž Martinčič-Samonadzorovano odkrivanje anomalij v produkcijskih dnevniških zapisih.pdf}} Magistrsko delo]
}}

== 2022 ==

{{Thesis
|Naslov=Avtomatsko povzemanje pravnih besedil
|NaslovEng=Automatic summarization of legal documents
|Avtor=Andrej Miščič
|Opis=[[File:Screenshot 2025-02-28 at 13.44.34.png|400px|right]]Uporaba sodobnih pristopov obdelave naravnega jezika je ključna, da lahko pravna industrija obdeluje velike količine besedil in zagotavlja učinkovite storitve. Pravne raziskave so področje, na katerega imajo ti pristopi največji vpliv, saj pravnikom omogočajo hitrejše iskanje ustrezne zakonodaje in sodne prakse. S ciljem zagotoviti povzetke dolgih pravnih besedil v delu obravnavamo avtomatsko povzemanje slovenskih sodnih odločb.

:Predlagamo GloBerto-Sum, ekstraktivni pristop, ki temelji na nedavno predstavljenih slovenskih vnaprej naučenih jezikovnih modelih. Da lahko obravnava daljše dokumente, se naš pristop zanaša na strukturo sodnih odločb. Naučen je na mehkih oznakah, kar ublaži težave, ki jih prinaša visoko razmerje med številom povedi v dokumentih in povzetkih. GloBerto-Sum dodatno združimo z abstraktivnim modelom - tako pridobljen hibridni pristop je zmožen generirati povzetke s parafriziranjem.

:Rezultati kažejo, da naši pristopi generirajo povzetke, ki so po ustreznosti na ravni ročno napisanih, a so lahko nekoliko manj koherentni in vsebujejo več redundantnih informacij. Kljub temu menimo, da z našim delom pokažemo možnost uporabe predlagane metodologije za tvorjenje povzetkov, ki pravnikom omogočajo hitrejši pregled pravnih besedil.
|KljucneBesede=avtomatsko povzemanje besedil, ekstraktivno povzemanje, abstraktivno povzemanje, pravna besedila, obdelava naravnega jezika
|KljucneBesedeEng=automatic text summarization, extractive summarization, abstractive summarization, legal documents, natural language processing
|Komentar=
|Viri=[{{filepath:63160228-Andrej Miščič-dispozicija.pdf}} Dispozicija] [{{filepath:63160228-Andrej_Miščič-Avtomatsko_povzemanje_pravnih_besedil.pdf}} Magistrsko delo]
}}

{{Thesis
|Naslov=Avtomatska gradnja korpusa in ekstrakcija relacij v slovenščini
|NaslovEng=Automatic corpus construction and relation extraction for Slovene
|Avtor=Miha Štravs
|Opis=Iskanje relacij med entitetami v besedilu je področje obdelave naravnega jezika. Pri iskanju relacij želimo v stavku: "Ljubljana je glavno mesto Slovenije" odkriti, da med entitetama Ljubljana in Slovenija nastopa relacija glavno mesto.

:V zaključnem delu smo najprej naredili pregled metod za učenje modelov za napovedovanje relacij. Nato smo si izbrali tri metode z različnimi pristopi za učenje modelov, ki napovedujejo relacije. Metodo s povratno nevronsko mrežo z dolgim kratkoročnim spominom, metodo z vložitvami BERT in metodo RECON, ki uporabi grafovsko nevronsko mrežo s pozornostjo. Za učenje modelov smo uporabili slovenski korpus, ki smo ga polavtomatsko generirali iz besedil slovenske Wikipedije. Naučene modele smo nato testirali na testnem korpusu besedil slovenske Wikipedije in testnem korpusu člankov strani 24ur.com. Na testnem korpusu slovenske Wikipedije so vse tri metode dosegle visoke priklice in točnosti, najbolje se je odrezala metoda RECON. Veliko slabše rezultate so dosegle na testni množici člankov 24ur.com, kjer se je še najbolje izkazala metoda z vložitvami BERT, ko je uporabila vložitve CroSloEngual.
|KljucneBesede=ekstrakcija relacij, ekstrakcija informacij, globoko učenje, grafovske mreže pozornosti, BERT, LSTM
|KljucneBesedeEng=relation extraction, information extraction, deep learning, graph attention networks , BERT, LSTM
|Komentar=
|Viri=[{{filepath:4415.pdf}} Magistrsko delo], [https://github.com/RSDO-DS3/SloREL Izvorna koda]
}}

== 2021 ==

{{Thesis
|Naslov=Integracija verige blokov in tehnologij semantičnega spleta
|NaslovEng=Integration of blockchain and semantic web technologies
|Avtor=Domen Gašperlin
|Opis=[[File:Screenshot 2022-08-03 at 16.43.01.png|600px|right]]Cilj semantičnega spleta je standardizacija izmenjave podatkov na spletu. Za njihovo predstavitev se uporabljajo ontologije. Gradnja ontologije je cikličen proces, ki zahteva usklajevanje in koordinacijo njenih sprememb s strani strokovnjakov z različnih področij. Za to je ključno sledenje, od kod so prišle spremembe in kdo jih je naredil. Prav tako s spreminjanjem ontologije ne smemo porušiti njene konsistentnosti. Namen dela je izboljšanje procesa gradnje ontologije z razvojem rešitve za njeno upravljanje in distribucijo. Rešitev poskrbi, da se s spremembami ontologije ne poruši njena konsistentnost. Za svoje delovanje uporablja tehnologije semantičnega spleta in verige blokov. Tehnologije semantičnega spleta se uporablja za učinkovito poizvedovanje in spreminjanje podatkov, za varno shrambo ontologij in sledljivosti njihovih sprememb pa se uporablja verige blokov. Na koncu je na podmnožici ontologije DBpedia evalvirano, kakšna je cena uporabe rešitve in kakšna je njena časovna zahtevnost v primerjavi s knjižnico Apache Jena. Rezultati pokažejo, da je rešitev počasnejša, a primerljiva, kot če bi se uporabilo zgolj knjižnico Apache Jena. Rešitev je z določenimi spremembami primerna tudi za implementacijo za druge tipe podatkovnih baz.
|KljucneBesede=semantični splet, veriga blokov, ontologije, IPFS, Ethereum
|KljucneBesedeEng=
|Komentar=semantic web, blockchain, ontologies, IPFS, Ethereum
|Viri=
[{{filepath:63150096-Domen Gašperlin-dispozicija.pdf}} Dispozicija], [{{filepath:63150096-Domen Gašperlin-Integracija verige blokov in tehnologij semantičnega spleta.pdf}} Magistrsko delo], [https://github.com/UL-FRI-Zitnik/blockchain-based-ontology-database Izvorna koda], [{{filepath:Infor490.pdf}} Znanstveni članek]
}}
{{Thesis
|Naslov=Preprečevanje neželenih komentarjev za spletne novice s pomočjo tehnik za procesiranje naravnega jezika
|NaslovEng=Preventing unwanted comments to online news articles using natural language processing techniques
|Avtor=Martin Čebular
|Opis=[[File:Screenshot 2022-08-03 at 16.41.16.png|400px|left]]Completely Automated Public Turing test to tell Computers and Humans Apart (v nadaljevanju CAPTCHA) je test, katerega cilj je ločiti človeškega uporabnika od računalnika. Na spletu se test CAPTCHA navadno pojavi ob obrazcu, kot zaščita pred samodejnim izpolnjevanjem in oddajanjem obrazca. Kot najbolj znano obliko testa CAPTCHA omenimo test, v okviru katerega je reševalcu podana slika s popačenim besedilom, reševalčeva naloga pa je razpoznati črke ali besede z dane slike.

:V magistrskem delu se posvetimo testom oziroma nalogam CAPTCHA v tekstovni obliki. Zasnujemo in implementiramo sistem CAPTCHA, katerega naloge temeljijo na tehnikah obdelave naravnega jezika. Predstavimo dva tipa tovrstnih nalog CAPTCHA: naloge na podlagi prepoznavanja imenskih entitet in naloge na podlagi razreševanja koreferenčnosti. Sistem CAPTCHA zasnujemo razširljivo, kar omogoča enostavno vpeljavo novih tipov nalog vanj. Implementiramo tudi odjemalca CAPTCHA, uporabniški vmesnik, ki ga lahko umestimo v spletni obrazec in reševalcem omogoča reševanje nalog. Uporabo sistema CAPTCHA skupaj z odjemalcem prikažemo na primeru integracije, izdelanem v okviru magistrskega dela.

:Uporabo demonstriramo tudi z umestitvijo odjemalca CAPTCHA v obrazec za oddajo komentarja na spletnem portalu RTVSLO.si. Implementirani sistem skupaj z odjemalcem omogoča celostno izvedbo postopka verifikacije človeške interakcije uporabnikov. Evalviramo njegovo učinkovitost in skalabilnost, dostopnost odjemalca CAPTCHA slepim in slabovidnim uporabnikom, ter potencialne možnosti za gradnjo novih učnih množic iz zbranih podatkov, ki nastanejo z uporabo sistema.
|KljucneBesede=CAPTCHA, dokaz o človeški interakciji, prepoznavanje imenskih entitet, odkrivanje koreferenčnosti
|KljucneBesedeEng=CAPTCHA, human-interaction proof, named entity recognition, coreference resolution
|Komentar=
|Viri=
[{{filepath:63150073-Martin Čebular-dispozicija.pdf}} Dispozicija], [{{filepath:63150073-Martin Čebular-Preprečevanje neželenih komentarjev za spletne novice s pomočjo tehnik za procesiranje naravnega jezika.pdf}} Magistrsko delo], [https://github.com/UL-FRI-Zitnik/MartinCebular-text-captcha-mag Izvorna koda]
}}
{{Thesis
|Naslov=Avtomatska ekstrakcija podatkov o zaposlenih s spletišč podjetij
|NaslovEng=Automatic extraction of employee data from corporate websites
|Avtor=Matej Koplan
|Opis=[[File:Screenshot 2022-08-03 at 16.47.23.png|300px|right]]V tem delu se ukvarjamo s problemom ekstrakcije seznama oseb s poljubnega spletišča. V ta namen implementiramo spletnega pajka za identifikacijo potencialnih podstrani z osebami in ekstraktor podatkov, ki s poljubne spletne strani izvleče podatke o osebah.

:Pokažemo, da osnovne metode, kot so primerjava imena s seznamom imen, ne dosežejo sprejemljive natančnosti. Pokažemo, da je analiza strukture seznama in prenos odkritega znanja ključna metoda za izboljšavo rezultatov do stopnje, kjer dosežemo sprejemljiv nivo natančnosti. S pomočjo tega pristopa smo izboljšali F1 mero za 50 % na razvojni in za 35 % na skriti testni množici.
|KljucneBesede=splet, ekstrakcija podatkov, avtomatska ekstrakcija podatkov s spleta, fokusirani spletni pajki, strukturirani podatki, nestrukturirani podatki
|KljucneBesedeEng=web, data extraction, automatic web data extraction, focused webcrawlers, structured data, unstructured data
|Komentar=
|Viri=
[{{filepath:63180423-Matej Koplan-dispozicija.pdf}} Dispozicija], [{{filepath:63180423-Matej Koplan-Avtomatska ekstrakcija podatkov o zaposlenih s spletišč podjetij.pdf}} Magistrsko delo]
}}
{{Thesis
|Naslov=Identifikacija in povezovanje razlik med izvorno kodo in čelnim delom tekom razvoja spletne aplikacije
|NaslovEng=Identification of changes between source code and frontend during development of a Web application
|Avtor=Jošt Gombač
|Opis=[[File:Screenshot 2022-08-03 at 16.38.42.png|300px|right]]Tekom razvoja spletnih aplikacij se lahko zgodi, da katero izmed prej implementiranih funkcionalnosti nehote spremenimo. Pravilnost delovanja programa skozi celoten potek razvoja navadno preverjamo z regresijskimi testi. Priprava teh lahko terja velik časovni vložek. Dodatno pa jih je potrebno prilagoditi spremembam, ki so pričakovane. Kot odgovor tej problematiki smo implementirali programsko orodje, s pomočjo katerega bo možno zaznati razlike med dvema različicama iste spletne aplikacije.

:Naš pristop vključuje uporabo spletnega pajka, ki je sposoben odkrivati dinamično generirano vsebino preko uporabniških akcij, kot je izpolnjevanje obrazcev in klikanje elementov. Na podlagi pridobljenih HTML dokumentov nato upoštevajoč drevesno strukturo ugotovi medsebojne razlike. V namen interpretacije ugotovljenih sprememb smo implementirali spletno aplikacijo, ki kronološko prikazuje vse razlike med uveljavitvami v Git repozitoriju.
|KljucneBesede=spletni pajek, HTML, Git, Angular, dinamična vsebina
|KljucneBesedeEng=web crawler, HTML, Git, Angular, dynamic content
|Komentar=
|Viri=[{{filepath:63180421-Jošt Gombač-dispozicija.pdf}} Dispozicija], [{{filepath:63180421-Jošt Gombač-Identifikacija in povezovanje razlik med izvorno kodo in čelnim delom tekom razvoja spletne aplikacije.pdf}} Magistrsko delo], [https://github.com/UL-FRI-Zitnik/JostGombac-Magistrska-DependencyDiff Izvorna koda]
}}

== 2020 ==

{{Thesis
|Naslov=Pametni asistent za predlaganje obrokov
|NaslovEng=Smart assistant for suggesting meals
|Avtor=Janez Eržen
|Opis=[[File:Screenshot 2022-08-03 at 16.37.05.png|500px|right]]Izdelava pametnih asistentov zahteva implementacijo sistemov za zajem podatkov, prepoznavanje namena, ekstrakcijo podatkov, priporočilne sisteme ipd. V magistrskem delu smo izdelali celostnega pametnega asistenta za predlaganje obrokov, bolj podrobno pa smo se osredotočili na prepoznavanje alergenov in hranil vsebovanih v jedeh glede na delno strukturirane podatke o menijih na spletnih straneh restavracij. Z namenom reševanja omenjenega problema smo razvili algoritem za ločevanje besedila menija na posamezne jedi vsebovane v njem, algoritem za detekcijo alergenov iz besedila na podlagi pravil ter algoritem za detekcijo alergenov z uporabo nevronske mreže.

:Omenjene algoritme smo uporabili za implementacijo pametnega asistenta, ki uporabniku omogoča obogaten in prilagojen prikaz dnevno pridobljenih jedilnikov s spleta. Asistent je integriran v različne sisteme sporočanja (Microsoft Teams, Discord, Slack ter Facebook Messenger), pogovor z uporabnikom pa poteka v slovenskem jeziku.

:S preizkusom asistenta v praksi smo pokazali, da uporabnikom olajša izbiro menija ali restavracije za dnevno kosilo. Algoritem za avtomatsko ekstrakcijo alergenov z uporabo nevronske mreže dosega uspešnost 68% (ocena F1), kar je dovolj uporabno za opozarjanje uporabnika na možno vsebnost alergenov v jedi, je pa smiselno, da uporabnik to opozorilo asistenta dodatno preveri pri osebju restavracije.
|KljucneBesede=pametni asistent, obdelava naravnega jezika, ekstrakcija podatkov s spleta, prehrana, priporočanje uporabniku
|KljucneBesedeEng=chatbot, natural language processing, web scraping, nutrition, user recommendation
|Komentar=
|Viri=[{{filepath:63130039-Janez Eržen-dispozicija.pdf}} Dispozicija], [{{filepath:63130039-Janez Eržen-Pametni asistent za predlaganje obrokov.pdf}} Magistrsko delo]
}}
{{Thesis
|Naslov=Napovedovanje glasovanj strank v Evropskem parlamentu
|NaslovEng=Predicting Roll-Call Voting of Political Parties in European parliament
|Avtor=Miha Nahtigal
|Opis=[[File:Screenshot 2022-08-03 at 16.44.30.png|300px|left]]Evropski parlament je politično telo, ki že dolgo časa razdvaja javnost. Njegovi nasprotniki po eni strani trdijo, da je tako politično in kulturno heterogen organ nezmožen učinkovitega delovanja, po drugi strani pa naj bi evropski poslanci hitro izgubili stik s svojimi volivci ter glasovali predvsem tako, kot jim to naročijo vodje skupin. Zanimalo nas je, če evropski poslanci glasujejo dovolj avtomatično in predvidljivo, da bi lahko rezultate glasovanj uspešno napovedovali z modelom strojnega učenja. Da smo zmanjšali časovno kompleksnost smo se odločili za napovedovaje rezultatov glasovanj po političnih strankah. Najprej smo implementirali spletne pajke, s katerimi smo pridobili čim več rezultatov glasovanj in z njimi povezanih podatkov. Iz teh smo nato z interdisciplinarno kombinacijo metod podatkovnega rudarjenja ter strokovnega geopolitičnega znanja izluščili značilke in zgradili model.

:Rezultati so pokazali približno 80% uspešnost napovedovanja rezultatov glasovanj (uteženi oceni f1 in roc-auc). Napovedovanje je bilo bistveno bolj uspešno pri strankah s proevropsko,liberalno in globalistično politično usmeritvijo kot to velja za evroskeptične, ekonomsko socialne in nacionalistične stranke. S tem smo dodatno podprli tezo o obstoju in pomembnosti nove nacionalistično-globalistične politične delitve. Poleg tega predstavlja problem tudi razred vzdržanih glasovanj, ki ga je težko napovedati že s pomočjo človeške inteligence.
|KljucneBesede=napovedovanje, glasovanja, politične stranke, Evropski parlament
|KljucneBesedeEng=predicting, Roll-Call votes, political parties, European parliament
|Komentar=
|Viri=[{{filepath:63170413-Miha Nahtigal-dispozicija.pdf}} Dispozicija], [{{filepath:63170413-Miha Nahtigal-Napovedovanje glasovanj strank v Evropskem parlamentu.pdf}} Magistrsko delo]
}}

== 2014 ==

{{Thesis
|Naslov=Primerjava orodij za vizualizacijo in preiskovanje omrežij
|Avtor=Didka Dimitrova Birova
|Opis=Zaradi povečevanja količine in kompleksnosti podatkov uporabniki vse težje učinkovito preučujejo velike množice podatkov. Podatki so med seboj povezani in posledično lahko množico podatkov predstavimo in vizualiziramo v obliki omrežja (socialna, biološka, svetovni splet). Glavni namen vizualizacije je učinkovito posredovati in predstaviti podatke s pomočjo vizualne percepcije ter predvsem olajšati raziskovanje podatkov oziroma omrežja. Za analizo in prikaz omrežij obstaja množica orodij - nekatera pokrivajo področje analize kot tudi prikaza, specializirana orodja pa se osredotočajo samo na analizo ali samo na vizualizacijo, oziroma so lahko specializirana za določeno domeno (npr. socialna omrežja).

:V okviru naloge bi bilo potrebno narediti primerjavo in evaluacijo orodij za vizualizacijo omrežij – kakšne so omejitve, performance, možnosti za razširitev in dopolnjevanje obstoječih orodij.
|KljucneBesede=vizualizacija podatkov, omrežja, primerjava orodij
|Komentar=Usmerjanje in pomoč pri mentorstvu prof. dr. Marka Bajca. Gre za diplomsko nalogo enake stopnje bolonjskemu magisteriju.
|Viri=[{{filepath:Diplomska_Didka.pdf}} Diplomsko delo]
}}

== 2013 ==

{{Thesis
|Naslov=Označevanje imenskih entitet v pravnih besedilih
|Avtor=Matic Di Batista
|Opis=Odkrivanje podatkov iz besedil velja za eno izmed aktualnih podpodročij v okviru obdelave tekstovnih podatkov. Za slovenski jezik še nimamo dovolj prilagojenih pristopov ali ogromnih podatkovnih množic iz katerih bi lahko zgradili praktično uporabne metode za odkrivanje entitet. Namen diplomske naloge ja zato izdelava orodja, ki bo znalo odkrivati imenske entitete v slovenskih besedilih.

:Kandidat naj pregleda obstoječe metode za odkrivanje entitet v besedilih in jih prilagodi za delo s slovenskim jezikom. Pri tem naj primerja njihovo delovanje in razišče morebitne probleme, ki so posledica sintakse in pravil v slovenščini. Nazadnje naj predlaga nov nabor značilk za učenje modelov in razvito metodo testira nad lastno izdelano podatkovno množico.
|KljucneBesede=ekstrakcija podatkov iz besedil, razpoznavanje entitet, tekstovno rudarjenje
|Komentar=Usmerjanje in pomoč pri mentorstvu prof. dr. Marka Bajca. Gre za diplomsko nalogo enake stopnje bolonjskemu magisteriju.
|Viri=[{{filepath:Diplomska_MaticDiBatista.pdf}} Diplomsko delo]}}
{{Thesis
|Naslov=Kontekstualno ujemanje in iskanje na modelu spletne oglasne deske
|Avtor=Vasja Laharnar
|Opis=Spletne oglasne deske so specializirani iskalniki, ki lahko namesto dokumentov (npr. spletne strani, slike, besedila), indeksirajo uporabnike sistema. Primer so socialni iskalniki, ki ne vrnejo neposrednega odgovora, ampak se poizvedba pošlje uporabniku, ki ga sistem spozna za relevantnega in nato le ta odgovori. Takšni iskalniki morajo torej bolj upoštevati uporabniške profile in njihove kontekste.

:V okviru diplomske naloge naj kandidat izdela spletno storitev, ki bo omogočala objavljanje besedil in njihovo iskanje. Pri tem naj kandidat preuči korake procesiranja besedil za potrebe splošnega indeksiranja. Poleg tega naj pri implementaciji iskanja in primerjanja besedil upošteva tudi semantične podatke, k jih pridobi iz besedil ali profilov uporabnikov. Nazadnje naj izdelano storitev testira na domeni študijskih praks, kjer v sistemu sodelujejo profesorji, študenti in podjetja.
|KljucneBesede=obdelava naravnega jezika, semantična podobnost, lematizacija, klasifikacija, naivni Bayesov klasifikator, iskanje informacij, iskanje, ujemanje
|Komentar=Usmerjanje in pomoč pri mentorstvu prof. dr. Marka Bajca. Gre za diplomsko nalogo enake stopnje bolonjskemu magisteriju.
|Viri=[{{filepath:Diplomska_VasjaLaharnar.pdf}} Diplomsko delo]
}}

== 2012 ==

{{Thesis
|Naslov=Semantično zajemanje podatkov iz predefiniranih virov
|Avtor=Alan Rijavec
|Opis=Izdelajte komponento za zajem podatkov iz spletnih virov. Komponenta naj bo zasnovana modularno, tako da bo dodajanje novega vira zahtevalo le implementacijo določenih vmesnikov. Vhodi in rezultati naj bodo semantično označeni, tako da bo komponenta zmožna sama izvajati klice funkcij in sestavljati rezultate v obliki RDFS ali drugega semantičnega zapisa.
|KljucneBesede=spletni pajek, razčlenjevanje spletnih strani, semantični splet
|Komentar=Usmerjanje in pomoč pri mentorstvu prof. dr. Marka Bajca. Gre za diplomsko nalogo enake stopnje bolonjskemu magisteriju.
|Viri=[{{filepath:Diplomska_AlanRijavec.pdf}} Diplomsko delo] [{{filepath:IzvornaKoda_AlanRijavec.zip}} Izvorna koda]
}}

== 2011 ==

{{Thesis
|Naslov=Pridobivanje konteksta z uporabo spletnih brskalnikov
|Avtor=Marko Jurinčič
|Opis=[[File:Screenshot 2022-08-03 at 16.32.33.png|300px|right]]Današnje inteligentne aplikacije morajo za svoje delovanje beležiti in uporabljati kontekst uporabnika. Zamislite si pristop, kako čim bolj natančno modelirati kontekst določenega uporabnika. Cilj je, da iz ugotovljenih virov pridobite trenutno relevantne teme (besede) za uporabnika. Uporabljate lahko čim več virov, ki jih lahko: na primer zvok, slika, video uporabnika, pisanje. Primer vašega dela: Implementacija orodne vrstice v iskalniku Firefox, ki ima možnost beleženja in shranjevanja različnih parametrov (čas na določeni spletni strani, interakcija z drugimi programi). Podobna orodna vrstica je implementirana znotraj Lemur Project-a, ki si gradi t.i. query-log. Mogoče tudi beleženje konteksta preko aplikacije pametnega telefona.
|KljucneBesede=kontekst, vtičnik, podatkovno rudarjenje
|Komentar=Usmerjanje in pomoč pri mentorstvu prof. dr. Marka Bajca. Gre za diplomsko nalogo enake stopnje bolonjskemu magisteriju.
|Viri=[{{filepath:Diplomska_MarkoJurincic.pdf}} Diplomsko delo] [{{filepath:IzvornaKoda_MarkoJurincic.zip}} Izvorna koda]
}}

Diploma theses

2025-02-28T14:44:34Z

Slavkoz:

This Web page contains on-going and finished bachelor theses. Thanks to all the candidates below that did (or are doing) great work!

If you are looking to prepare a bachelor thesis under my supervision, please check [[Theses topics|available theses topics or propose your own idea]].

== 2024 ==

{{Thesis
|Naslov=Razvoj orodja za glasovno programiranje
|NaslovEng=Development of a voice programming tool
|Avtor=Nina Sangawa Hmeljak
|Opis=[[File:Screenshot 2025-02-28 at 15.42.30.png|500px|right]]Cilj diplomske naloge je izdelava orodja za pisanje in urejanje kode računalniških programov z uporabo glasu. Predstavljenih je nekaj primerov obstoječih orodij za kodiranje z glasom, nato postopek ustvarjanja orodja Slo-handsfree-coding za glasovno programiranje v slovenščini. Ustvarjen je bil tudi poseben jezik oz. format ukazov za upravljanje tega orodja po zgledu že obstoječih orodij. Orodje je realizirano v obliki razširitve za urejevalnik kode Visual Studio Code, ki za pretvorbo govora v besedilo uporablja odprtokodni razpoznavalnik iz projekta RSDO. Pridobljen zapis to orodje analizira in glede na vsebino izvede ukaz. Na koncu so še rezultati in povratne informacije testiranja izdelka.
|KljucneBesede=programiranje, zaznavanje govora, programiranje z naravnim jezikom, glasovno programiranje
|KljucneBesedeEng=programming, speech recognition, natural language programming, voice coding
|Komentar=
|Viri=[{{filepath:63200032-Nina Sangawa Hmeljak-Razvoj orodja za glasovno programiranje.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=S poizvedovanjem obogatene tehnike generiranja pravnih besedil
|NaslovEng=Retrieval-augmented generation of law texts
|Avtor=Rok Mušič
|Opis=[[File:Screenshot 2025-02-28 at 15.40.03.png|500px|left]]Slovenska zakonodaja je obsežna in pravni delavci porabijo veliko časa vsak dan za iskanje ustrezne literature. V ta namen smo raziskali uspešnost velikih jezikovnih modelov (VJM) kot pravnih asistentov. VJM-ji so uspešni v številnih nalogah, a zahtevna domenska vprašanja so ena izmed njihovih večjih pomanjkljivosti; pogosto pride do halucinacij. S poizvedovanjem obogateno generiranje besedil (RAG) je tehnika, ki zaobide pomanjkanje domenskega znanja VJM-jev tako, da na podlagi vprašanja v zakonodaji najde vsebino, s katero lahko pravilno odgovori na vprašanje. Z najdenim znanjem VJM pravilno odgovori in ne halucinira. Raziskali in implementirali smo več različnih tehnik RAG. Vse metode smo preizkusili na ročno izdelani testni množici, ki vsebuje 4 testne scenarije, s katerimi preverimo, kako uspešne so metode v različnih situacijah. Naprednejše različice RAG-a, napredni in modularen RAG, kažejo dobro uspešnost pri direktnih vprašanjih, a nižjo uspešnost za bolj splošna vprašanja kot so npr. dejanski primeri.
|KljucneBesede=velik jezikovni model, s poizvedovanjem obogateno generiranje besedil, obdelava naravnega jezika
|KljucneBesedeEng=large language model, retrieval augmented generation, natural language processing
|Komentar=
|Viri=[{{filepath:63200018-Rok Mušič-S poizvedovanjem obogatene tehnike generiranja pravnih besedil.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Razvoj spletne aplikacije MarinePRO
|NaslovEng=Development of web application MarinePRO
|Avtor=Mojca Dimič
|Opis=[[File:Screenshot 2025-02-28 at 15.37.39.png|300px|right]]Jadranje je iz leta v leto bolj priljubljen hobi in način dopustovanja. Jadranje je močno povezano z navtiko, ki pa na področju tehnologije ne napreduje in je veliko prostora za napredek in velika potreba po modernizaciji. Diplomska naloga je namenjena izdelavi aplikacije, ki bi jadralcem omogočila lažji postopek priveza v zalivih z bojami. V diplomski nalogi predstavimo problem sedanjega načina privezov in predstavimo rešitev, opišemo razvoj zalednega in čelnega dela aplikacije. Tehnologije, ki jih uporabimo so MySQL baza, iz katere aplikacija pridobiva podatke preko aplikacijskega programskega vmesnika - API, izdelanega s pomočjo tehnologije Node.js in Express.js. Čelni del pa je razvit s pomočjo odprtokodne knjižnice React.js.
|KljucneBesede=React, MySQL, Node.js, MVC, REST
|KljucneBesedeEng=React, MySQL, Node.js, MVC, REST
|Komentar=
|Viri=[{{filepath:63180082-MOJCA DIMIČ-Razvoj spletne aplikacije MarinePRO.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Razvoj odprtokodnega ogrodja za obdelavo naravnega jezika
|NaslovEng=Developing an open source framework for natural language processing
|Avtor=Miha Krištofelc
|Opis=V diplomskem delu se bomo osredotočili na razvoj aplikacije za gradnjo cevovodov z namenom obdelave naravnega jezika. Naš cilj je raziskati trenutne rešitve na trgu in vključiti izboljšave v razvoj nove aplikacije, prilagojene raziskovalcem in splošni javnosti, ki jo zanima ONJ. Za preverjanje uporabnosti aplikacije bomo izvedli uporabniško testiranje, funkcionalno testiranje ter tudi testiranje zmogljivosti. Pri razvoju aplikacije bomo uporabili ustrezna razvojna orodja, kot so Django za razvoj zalednega dela, NextJS za razvoj čelnega dela in Docker za upravljanje z vsebniki. Poleg tega bomo za nadzor različic in varnostno kopiranje kode uporabljali program Git. V zaključku bomo predstavili ocene uporabniške izkušnje, oceno učinkovitosti aplikacije in splošne rezultate diplomskega dela.
|KljucneBesede=cevovodi, obdelava naravnega jezika, docker, vsebniki, podatkovni inženiring
|KljucneBesedeEng=Pipelines, Natural language processing, Docker, Containers, Data engineering
|Komentar=
|Viri=[{{filepath:63200157-Miha Krištofelc-Razvoj odprtokodnega ogrodja za obdelavo naravnega jezika.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Pregled in uporaba grafnih podatkovnih baz s podporo SPARQL
|NaslovEng=Review and usage of graph-based databases with SPARQL support
|Avtor=Domen Antlej
|Opis=Semantične podatkovne baze so poseben tip grafne podatkovne baze, ki omogoča hrambo semantičnih podatkov. Namen diplomske naloge je predstavitev področja semantičnih baz in prikaz primera uporabe s konkretnimi testnimi podatki. Vsebinsko je diplomska naloga razdeljena na tri dele. V prvem delu je predstavljeno področje semantičnih baz in tehnologije, ki jih podpirajo. V drugem delu izvedemo primerjavo nekaj popularnih baz in izberemo eno, ki bo uporabljena kot primer uporabe. V tretjem delu izvedemo pretvorbo relacijskih podatkov v semantične podatke in jih uporabimo z izbrano semantično bazo. V zaključku so predstavljene ugotovitve diplomske naloge.
|KljucneBesede=semantični splet, podatkovne baze, SPARQL, ontologije, pretvorba podatkov
|KljucneBesedeEng=semantic web, databases, SPARQL, ontologies, data conversion
|Komentar=
|Viri=[{{filepath:63160055-DOMEN ANTLEJ-Pregled in uporaba grafnih podatkovnih baz s podporo SPARQL.pdf}} Diplomsko delo]
}}

== 2023 ==

{{Thesis
|Naslov=Izboljševanje podatkovnih baz sestave živil: dopolnjevanje manjkajočih vrednosti preko vložitev grafa znanja
|NaslovEng=Enhancing Food Composition Databases: Predicting Missing Values via Knowledge Graph Embeddings
|Avtor=Marko Možina
|Opis=[[File:Screenshot 2025-02-28 at 15.32.23.png|400px|right]]Podatkovne baze sestave živil (PBSŽ) so temeljno orodje pri raziskavah na področju prehrane, ocenah hranilnih vrednosti in sorodnih domenah (npr. zdravje, okolje). Vendar se, tako kot druge znanstvene discipline, tudi področje prehrane in sestave živil spopada s težavo manjkajočih podatkov. To lahko znatno zmanjša natančnost in zanesljivost analiz, ki temeljijo na strukturi živil, saj vpeljuje element dvoumnosti in s tem omejuje njihovo uporabo. Za rešitev tega problema so bile predlagane različne metode za dopolnjevanje manjkajočih podatkov. Najlažji in najpogostejši pristop je izračun povprečja oziroma mediane iz razpoložljivih podatkov v isti bazi ali pa izposoja vrednosti iz drugih. Vendar pa lahko takšne preproste metode povzročijo znatne napake. V tem diplomskem delu se raziskuje uporaba modela ComplEx iz knjižnice Ampligraph, ki temelji na vektorskih vložitvah grafa znanja za dopolnjevanje manjkajočih vrednosti v PBSŽ. S pristopom opisanim v tem delu lahko model zajame temeljno strukturo in odnose med podatki, kar omogoča natančno dopolnjevanje manjkajočih vrednosti. To dodatno potrjujejo rezultati tega dela, saj so primerljivi s tistimi najsodobnejših modelov. Uporaba predlagane metode bi lahko v prihodnje privedla do natančnejših in zanesljivejših analiz na področju prehranskih raziskav.
|KljucneBesede=podatkovna baza sestave živil, hranilne vrednosti, manjkajoči podatki, strojno učenje na grafih, vložitev grafa znanja, analiza in raziskovanje podatkov, dopolnjevanje manjkajočih vrednosti, ampligraph
|KljucneBesedeEng=food composition database, nutrient values, missing data, graph machine learning, knowledge graph embeddings, data exploration, missing value imputation, ampligraph
|Komentar=
|Viri=[{{filepath:63190027-Marko Možina-Izboljševanje podatkovnih baz sestave živil dopolnjevanje manjkajočih vrednosti preko vložitev grafa znanja.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Uporaba metod obdelave naravnega jezika za uvrščanje shem programskih vmesnikov v enoten podatkovni model
|NaslovEng=Use of natural language processing methods for classification of application programming interface schemas into a unified data model
|Avtor=Matic Conradi
|Opis=Cilj te raziskave je razviti sistem, ki je zmožen klasificirati sheme objektov JSON, ki izvirajo iz različnih sistemov za digitalizacijo procesov, ter najti ujemanja s predstavitvami domenskih entitet platforme DevRev. Glavni izziv, s katerim se soočamo, leži v raznolikosti struktur teh objektov, kar zahteva uporabo algoritmov za obdelavo naravnega jezika.
|KljucneBesede=obdelava naravnega jezika, uvrščanje shem, Word2Vec, BERT, GPT, veliki jezikovni modeli
|KljucneBesedeEng=natural language processing, schema classification, Word2Vec, BERT, GPT, large language models
|Komentar=
|Viri=[{{filepath:63190078-Matic Conradi-Uporaba metod obdelave naravnega jezika za uvrščanje shem programskih vmesnikov v enoten podatkovni model.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Pregled in analiza semantičnih (SPARQL) podatkovnih baz
|NaslovEng=Review and analysis of semantic (SPARQL) databases
|Avtor=Anja Ostovršnik
|Opis=Semantične baze so posebna vrsta podatkovnih baz, ki omogočajo shranjevanje in poizvedovanje podatkov na način, ki upošteva njihov pomen in medsebojne odnose. Namen diplomske naloge je predstavitev in primerjava nekaj najbolj razširjenih rešitev na področju semantičnih baz. Vsebinsko je diplomska naloga razdeljena na dva dela. V prvem delu so opredeljeni kriteriji za primerjavo različnih ponudnikov semantičnih baz ter opis in primerjava njihovih rešitev. V drugem delu so opisani načini testiranja in načrt implementacije baz. V praktičnem delu izvedemo testiranje po zastavljenih testnih scenarijih. V zaključku so podane ključne ugotovitve glede predstavljenih semantičnih podatkovnih baz.
|KljucneBesede=podatkovne baze, semantični splet, ontologije, SPARQL
|KljucneBesedeEng=databases, semantic web, ontologies, SPARQL
|Komentar=
|Viri=[{{filepath:63190210-Anja Ostovršnik-Pregled in analiza semantičnih SPARQL podatkovnih baz.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Prepoznavanje imenskih entitet na domenskih besedilih iz farmacije
|NaslovEng=Named entity recognition in pharmaceutical domain texts
|Avtor=Benjamin Kovač Keber
|Opis=Prepoznavanje imenskih entitet je ena od nalog problema procesiranja naravnega jezika. Gre za označevanje besed in besednih zvez z oznakami v naprej določenih tipov imenskih entitet. Primeri uporabe prepoznavanja imenskih entitet so klasifikacija vsebine za ponudnike novic, učinkoviti iskalni algoritmi, priporočanje vsebine, organizacija člankov in podpora strankam. Preučili smo problem prepoznavanja imenskih entitet na domenskih besedilih iz farmacije. V ta namen smo uporabili štiri različne metode in za učenje modelov uporabili dva korpusa (CHEMDNER in n2c2), ki imata ročno označene imenske entitete iz področja farmacije (in kemije). Modele smo evalvirali tudi na besedilih, ki smo jih sami ročno označili. Najbolje se je odrezal model BERT. Za praktično uporabo pa bo verjetno potrebno v modele vložiti še nekaj truda za izboljšave.
|KljucneBesede=procesiranje naravnega jezika, prepoznavanje imenskih entitet, farmacija
|KljucneBesedeEng=natural language processing, named entity recognition, pharmacy
|Komentar=
|Viri=[{{filepath:63190159-BENJAMIN KOVAČ KEBER-Prepoznavanje imenskih entitet na domenskih besedilih iz farmacije.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Primerjava metod za avtomatsko ekstrakcijo podatkov iz spleta
|NaslovEng=Comparison of methods for automatic Web data extraction
|Avtor=Gašper Martič
|Opis=[[File:Screenshot 2025-02-28 at 15.25.19.png|400px|right]]Namen diplomskega dela je pregledati in ovrednotiti obstoječe metode za avtomatsko ekstrakcijo podatkov s spletnih strani. Tovrstne metode preko analize večjega števila podobnih spletnih strani avtomatsko generirajo ovojnico, ki je sposobna s spletne strani izluščiti podatke, tudi če se struktura strani s časom rahlo spremeni. Rezultati diplomskega dela ponujajo enostaven pregled nad različnimi metodami za pridobivanje podatkov s spletnih strani. To je lahko koristno za uporabnika, ker iz spletne strani izloči moteče oglase in navigacijske menije, ki odvračajo pozornost od vsebine. Kvaliteta posamezne metode se meri v hitrosti in sposobnosti odstranjevanja nerelevantnih podatkov ter ohranjanju tistih, ki so pomembni za dojemanje vsebine. Izvajanje samih metod je avtomatizirano s pomočjo programa v jeziku Python, ki ga lahko poganjamo iz ukazne vrstice. Uporabljani sta obstoječi implementaciji metod RoadRunner in Webstemmer, prikazani pa so rezultati njunega delovanja na petih slovenskih spletnih medijih. Poleg tega je implementirana tudi polavtomatska metoda pridobivanja podatkov s pomočjo ogrodja Scrapy, da lahko vidimo rezultate in kompleksnost v primerjavi s popolnoma avtomatsko metodo.
|KljucneBesede=ekstrakcija, spletni pajek, ovojnica, novice
|KljucneBesedeEng=extraction, Web crawler, wrapper, news
|Komentar=
|Viri=[{{filepath:63170195-GAŠPER MARTIČ-Primerjava metod za avtomatsko ekstrakcijo podatkov iz spleta.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Informacijski sistem za upravljanje marin
|NaslovEng=Management information system for marinas
|Avtor=Lovro Jevnikar
|Opis=[[File:Screenshot 2025-02-28 at 15.22.28.png|400px|left]]V diplomski nalogi se bomo ukvarjali z izdelavo informacijskega sistema za podporo marin. Končni izdelek bo spletna aplikacija, izdelana z orodjem VueJS. Rešitev bo digitalizirala postopek upravljanja marine. Reševali bomo problem urejanja oziroma popravila privezov, hranjenje informacij o trenutnem stanju marine in tudi možnost plačila oziroma rezervacije le teh. Za izboljšano uporabniško izkušnjo bomo aplikaciji dodali interni forum za komunikacijo med strankami znotraj marine. Pri izdelavi bomo uporabil storitve Amazon web services, Google maps API, Bootstrap in ostale Vue komponente. Za izbrano tematiko smo se odločili, ker po pregledu področja nismo našli primerne rešitve za omenjeni problem.
|KljucneBesede=marine, informacijski sistem, spletna aplikacija, VueJs, uporabniški vmesnik, privez, strežnik, odejmalec, HTTP
|KljucneBesedeEng=marine, information system, web application, VueJs, user interface, mooring, server, client, HTTP
|Komentar=
|Viri=[{{filepath:63160147-LOVRO JEVNIKAR-Informacijski sistem za upravljanje marin.pdf}} Diplomsko delo]
}}

== 2022 ==

{{Thesis
|Naslov=Zasnova ogrodja za izvajanje metod za procesiranje naravnega jezika
|NaslovEng=Design of a framework for execution of natural language processing methods
|Avtor=Nik Hrovat
|Opis=V diplomski nalogi bomo predstavili predlog svojega ogrodja za procesiranje naravnega jezika. Cilj procesiranja je, da računalnik razume vsebino dokumentov, izloči informacije iz besedila in dokumente organizira ter razvrsti. Opisali bomo nekaj metod, ki se uporabljajo pri procesiranju naravnega jezika. Ob tem bomo primerjali še nekaj obstoječih ogrodij in knjižnic ter najboljšo tudi podrobneje predstavili na podatkovnem modelu. Na podlagi analize obstoječih ogrodij in knjižnic bomo predstavili tudi naš podatkovni model, ki ga bomo testirali z nekaterimi metodami procesiranja naravnega jezika in ga tudi grafično prikazali.
|KljucneBesede=NLP, procesiranje, naravni jezik
|KljucneBesedeEng=NLP, processing, natural language
|Komentar=
|Viri=Diplomsko delo je v popravkih.
}}

{{Thesis
|Naslov=Vpliv govorjenih posnetkov na analizo sentimenta njihovih transkriptov
|NaslovEng=Sentiment analysis of voice recordings and their transcripts
|Avtor=Martin Jurkovič
|Opis=[[File:Screenshot 2025-02-28 at 15.17.59.png|400px|right]]Analiziranje sentimenta s pomočjo metod strojnega učenja je ena bolj raziskanih tem na področju obdelave naravnega jezika. Večina raziskav se osredotoča na analiziranje pisanega besedila kot so članki ali knjige. V primeru govorjenega besedila pa se poleg transkriptov posnetkov lahko analizira tudi sama zvočna datoteka posnetka. V diplomski nalogi smo raziskali in naučili različne modele strojnega učenja za analizo sentimenta na transkriptih posnetkov, nato pa poskusili izboljšati rezultate tekstovnih modelov z modeli, zgrajenimi na podatkih pridobljenih iz zvočnih datotek posnetkov. Za združevanje ter izboljšanje napovedi besedilnih in zvočnih modelov smo uporabili metodo zlaganja modelov. V delu smo raziskali in implementirali celoten cevovod za predprocesiranje podatkov, generiranje značilk ter učenje in testiranje besedilnih in zvočnih modelov ter meta modela z metodo zlaganja.
|KljucneBesede=procesiranje naravnega jezika, strojno učenje, analiza sentimenta, procesiranje zvoka, multimodalno učenje, zlaganje
|KljucneBesedeEng=natural language processing, machine learning, sentiment analysis, sound processing, multimodal learning, stacking
|Komentar=
|Viri=[{{filepath:63180015-Martin Jurkovič-Analiza sentimenta zvočnih posnetkov in njihovih transkriptov.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Klasifikacija sovražnega govora v slovenskem in angleškem jeziku
|NaslovEng=Hate speech classification for Slovene and English language
|Avtor=Nik Pirnat
|Opis=S porastom sovražnega govora na družbenih omrežjih je nastala tudi večja potreba po nadzoru, vendar bi bil zaradi velike količine informacij ročni nadzor praktično nemogoč, tako se za določanje sovražnega govora danes po večini uporabljajo nevronske mreže. Za učenje nevronskih mrež potrebujemo veliko število označenih podatkov, vendar so javno dostopne podatkovne množice redko podrobno označene, predvsem to drži za jezike z relativno malo govorci. Za slovenski jezik obstaja malo javno dostopnih podatkovnih množic, ki bi vsebovale več bolj podrobnih oznak, zato preizkusimo kako se izkaže podatkovna množica, ki je sestavljena iz več različnih množic. Na sestavljenih množicah s posplošenimi skupnimi oznakami učimo nevronsko mrežo BERT in naše rezultate primerjamo z rezultati, ki so jih dosegli avtorji prvotnih podatkovnih množic. Ugotovimo, da so rezultati, ki jih dosežemo zadovoljivi in predlagamo izboljšave, ki bi omogočile, da bi na sestavljenih množicah dosegli enako dobre rezultate kot na množicah izdelanih za določeno nalogo.
|KljucneBesede=večrazredno razvrščanje, procesiranje besedila, sovražni govor
|KljucneBesedeEng=multiclass classification, text processing, hate speech
|Komentar=
|Viri=[{{filepath:63170231-Nik Pirnat-Uvrščanje sovražnega govora v slovenskem in angleškem jeziku.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Odkrivanje biomedicinskih vzorcev za nevrodegenerativne bolezni iz biomedicinske znanstvene literature
|NaslovEng=Mining patterns for neurodegenerative diseases from biomedical scientific literature
|Avtor=Radoslav Atanasoski
|Opis=[[File:Screenshot 2025-02-28 at 14.57.05.png|300px|right]]Dandanes obstaja ogromna količina biomedicinskega znanja, ki vsak dan hitro prihaja skozi znanstveno objavljene članke. Vendar pa je poskušati slediti temu resnično zahtevno in vzame preveč časa. Se več, pri iskanju relevantnih dokumentov z zahtevanimi podatki. Da bi zdravstvenim delavcem pomagali ostati na tekočem in najti članke, povezane z njihovimi temami iskanja, v tej diplomski nalogi ustvarimo cevovod za pridobivanje informacij (IR), pri čemer najprej navedemo, s katerimi nevrodegenerativnimi boleznimi so članki povezani, in zagotovimo tudi analizo, ki pokaže, najpogostejših vzorcev, ki so raziskani in objavljeni. Za modeliranje smo raziskali več najsodobnejših modelov učenja za predstavitev besedila, kot so BERT, RoBERTa in BioBERT. Po natančnem prilagajanju vsakega modela je bil kot model za cevovod IR izbran BioBERT, ki zagotavlja izjemno zmogljivost s 94% navzkrižno validacijo CA. Prav tako primerjamo naš najsodobnejši model z bolj tradicionalnim in pogosto uporabljenim modelom Random Forest. Poleg tega so bili za analizo pogostih vzorcev uporabljeni izvlečki vpletenih bolezni opombe in koncepti kemičnih in genetskih spojin so bili ekstrahirani z uporabo modela prepoznavanja poimenovanih entitet (NER). Po tem so bile vse entitete normalizirane z uporabo povezovanja imenovanih entitet (NEL). Na ekstrahiranih entitetah je bilo uporabljeno rudarjenje asociacijskih pravil, da bi našli najpogosteje raziskane vzorce za vsako bolezen, ki so nadalje prikazani z uporabo več tehnik vizualizacije. Ti rezultati bodo zdravstvenim delavcem pomagali pri navajanju najnovejših informacij, po drugi strani pa bodo pokazali tudi na manjkajoče vrzeli, ki za določeno bolezen niso dobro raziskane. Podatki, vključeni v to študijo, so bili pridobljeni iz javno dostopne zbirke podatkov PubMed.
|KljucneBesede=podatkovno rudarjenje, učenje tekstovnih predstavitev, učenje asociacijskih pravil
|KljucneBesedeEng=data mining, text representation learning, association rule mining
|Komentar=Delo je bilo narejeno v somentorstvu z doc. dr. Tometom Eftimovim.
|Viri=[{{filepath:63190355-Radoslav Atanasoski-Odkrivanje vzorcev za nevrodegenerativne bolezni iz biomedicinske znanstvene literature.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Analiza vpliva omemb kriptovalut na njihovo ceno
|NaslovEng=Analysis of the impact of cryptocurrency mentions on their price
|Avtor=Tilen Miklavič
|Opis=[[File:Screenshot 2022-08-26 at 12.21.31.png|400px|right]] V okviru te naloge, sem raziskal, ali javni sentiment na družbenem omrežju Twitter vpliva na gibanje trga kriptovalut. Ta podatek bi lahko navdušenci izkoristili pri svojih analizah. Zbral in analiziral bom podatke za več kriptovalut in jih razvrstil v seznam po odvisnosti od javnega sentimenta. To mi bo pomagalo pri izdelavi napovednega modela, ki bo podajal obvestila o abnormalnih dogodkih na socialnih omrežjih. Uspešen rezultat naloge bo napovedni model, ki bo pravilno in časovno natančno klasificiral dogajanje na družbenem omrežju. V sodelovanju s spletno aplikacijo bi lahko tako uporabnika v realnem času o teh dogodkih obveščal.
|KljucneBesede=kriptovaluta, kovanec, družbena omrežja
|KljucneBesedeEng=cryptocurrency, coin, social network
|Komentar=
|Viri=[{{filepath:63180204-TILEN MIKLAVIČ-Analiza vpliva omemb kriptovalut na njihovo ceno-2.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=GeoTools: spletne storitve za izvajanje prostorskih analiz
|NaslovEng=GeoTools: Web services for performing spatial analysis
|Avtor=Sanil Safić
|Opis=[[File:Screenshot 2022-08-26 at 12.17.03.png|200px|left]] Na spletu so dostopne mnoge storitve, ki omogočajo napredne prostorske analize, a so le te pomankljive, omejene ali pa se ponujajo v obliki programske opreme. S spletno storitvijo GeoTools prostorske analize iz različnih virov povežemo v eno samostojno celoto. GeoTools vsebuje module iz knjižnice GeoPandas, QGIS in PostGIS. Storitev ima implementiran tudi cevovod prostorskih analiz, kar pomeni, da lahko zaporedoma opravi več želenih analiz. GeoTools uporabniku, predvsem programerju, olajša implementacijo prostorskih analiz v projektih. Za lažjo uporabo smo razvili NPM knjižnico, ki se povezuje na storitev in vsakomur omogoči enostaven dostop do njenih funkcionalnosti. NPM knjižnica vsebuje tudi enostaven grafični vmesnik, ki s pomočjo knjižnice OpenLayers omogoči uporabniku, da svoje vhodne in izhodne podatke tudi prikaže na spletni karti.
|KljucneBesede=spletna storitev, prostorske analize
|KljucneBesedeEng=web service, spatial analysis
|Komentar=V somentorstvu z Nejcem Krašovcem.
|Viri=[{{filepath:63180258-SANIL SAFIĆ-GeoTools spletne storitve za izvajanje prostorskih analiz.pdf}} Diplomsko delo], [https://www.npmjs.com/package/geotoolsconnector NPM Connector for public services]
}}

{{Thesis
|Naslov=Analiza in primerjava sistemov za informacijsko poizvedovanje
|NaslovEng=Analysis and comparison of information retrieval systems
|Avtor=Mark Redelonghi
|Opis=[[File:Solr diagram colored.png|200px|right]] V diplomskem delu se je analiziralo in primerjalo manjšo množico sistemov za informacijsko poizvedovanje. Raziskava se je osredotočila na iskanje po besedilu, kjer se uporabi procesiranje naravnega jezika. Izbrani sistemi so bili primerjani glede na način delovanja, indeksiranja, poizvedovanja ter časovne in prostorske lastnosti. Za primerjavo se je pridobilo korpuse besedil in definiralo poizvedbe s katerimi se je primerjalo izbrane sisteme. V zaključku so podane prednosti in slabosti sistemov skupaj s primeri uporabe.
|KljucneBesede=računalnik, procesiranje naravnega jezika, solr, milvus, podatki, iskanje
|KljucneBesedeEng=computer, natural language processing, solr, milvus, data, search
|Komentar=
|Viri=[{{filepath:63180247-MARK REDELONGHI-Analiza in primerjava sistemov za informacijsko poizvedovanje.pdf}} Diplomsko delo], [https://github.com/UL-FRI-Zitnik/Redelonghi-IR-systems-comparison Izvorna koda]
}}

{{Thesis
|Naslov=Odprta ekstrakcija informacij za slovenski jezik
|NaslovEng=Open information extraction for Slovenian language
|Avtor=Miha Bogataj
|Opis=[[File:Screenshot 2022-08-03 at 16.25.12.png|500px|right]] Odprta ekstrakcija informacij je proces procesiranja naravnega jezika, ki iz posameznih povedi izvleče možne odvisnosti. Odvisnosti so sestavljene iz semantične trojice, kjer prvi člen predstavlja subjekt o katerem poizvedujemo, relacije, ki opiše, kako se prvi člen navezuje na tretjega, in objekt. Sistem odprte ekstrakcije informacij za slovenščino temelji na metodi na podlagi pravil. Sistem je sestavljen iz predprocesorja in ekstraktorja. Vloga predprocesorja je obdelava vhodnega besedila s pomočjo sistema CLASSLA, ki slovnično analizira poved, lematizacija in izgradnja semantičnega drevesa. Vloga ekstraktorja je, da z uporabo pravil poišče relacije v povedi. Ta pravila so bolj kompleksna kot v angleščini, ker je v slovenščini besedni red bolj prost. Slovenščina pozna tudi več sklanjatev, ki omogočajo bolj točno določitev subjekta in objekta. Med najdenimi ekstrakcijami je možno iskanje na dva načina: iskanje povedi in dopolnjevanje parametrov. Iskanje povedi zahteva izpolnjene vse parametre semantične trojice in vrne seznam povedi, ki ustrezajo iskani semantični trojici. Dopolnjevanje parametrov zahteva dva izpolnjena parametra, od katerih je relacija obvezna. Ta način vrne seznam možnih vrednosti za manjkajoč parameter.
|KljucneBesede=ekstrakcija, informacija, slovenščina
|KljucneBesedeEng=extraction, information, Slovenian language
|Komentar=
|Viri=[{{filepath:63170058-MIHA BOGATAJ-Odprta ekstrakcija informacij za slovenski jezik.pdf}} Diplomsko delo], [https://github.com/UL-FRI-Zitnik/OpenIE Izvorna koda (zasebno)]
}}

{{Thesis
|Naslov=SloBench: Slovenski vrednotnik metod za obdelavo naravnega jezika
|NaslovEng=SloBench: Slovenian Natural Language Processing Benchmark
|Avtor=Frenk Dragar
|Opis=[[File:Screenshot 2022-08-03 at 16.29.13.png|500px|right]]Z nedavno priljubljenostjo modelov obdelave naravnega jezika, ki temeljijo na arhitekturi transformer, in njihove najsodobnejše zmogljivosti pri številnih nalogah NLP, je vse večja potreba po objektivnem ocenjevanju teh orodij in omogočanju njihove primerjave. Obstajajo številni nabori podatkov in meril za NLP naloge, ki pa večinoma temeljijo na angleškem jeziku. V diplomski nalogi kandidat opiše razvoj prve slovenske platforme za avtomatsko primerjavo NLP modelov - SloBench, skupaj z njenim razširljivim in od sistemske arhitekture neodvisnim ogrodjem za evalvacijo sistemov. Nato kritično oceni projekt, ga primerja z obstoječimi merili uspešnosti NLP in poda nekaj idej za prihodnje razširitve platforme.

:Evalvacija nalog procesiranja naravnega jezika (NLP) je bistven del raziskav in napredka na tem področju. Zagotavlja objektiven standard za uspešnost in primerjavo sistemov pri določeni nalogi. Podamo pregled nedavnih javnih lestvic za najboljše sisteme in trendov njihovega ocenjevanja s poudarkom na avtomatskem vrednotenju sistemov. Nato predlagamo, implementiramo in dokumentiramo splošno, razširljivo in od sistemske arhitekture neodvisno ogrodje za evalvacijo sistemov, skupaj s prvo spletno platformo za avtomatsko vrednotenje NLP nalog v slovenščini z javnimi lestvicami, ki prikazujejo rezultate objavljenih sistemov.
|KljucneBesede=procesiranje naravnega jezika, vrednotenje, lestvica najboljših, strojno učenje, spletna platforma
|KljucneBesedeEng=natural language processing, benchmarking, leaderboard, machine learning, web platform
|Komentar=
|Viri=[{{filepath:63180008-FRENK DRAGAR-SloBench Slovenski vrednotnik metod za obdelavo naravnega jezika.pdf}} Diplomsko delo], [https://slobench.cjvt.si SloBENCH spletišče], [https://github.com/clarinsi/slobench-eval-docker Evalvacijsko ogrodje], Izvorna koda spletne aplikacije in članek (v pripravi)
}}

== 2021 ==

{{Thesis
|Naslov=Obdelava velikih količin podatkov v skoraj realnem času
|NaslovEng=Near real-time processing of large amounts of data
|Avtor=Anže Habjan
|Opis=V času, ko količina generiranih podatkov na spletu narašča tako hitro kot še nikoli, je toliko bolj pomembno, da je obdelava le teh kar se da hitra. Opišemo implementacijo celostnega sistema, ki bo specializiran za obdelavo pretočnih podatkov v skoraj realnem času, in bo vključeval po eno orodje za vsak del: pridobivanje, obdelava, shranjevanje in vizualizacija. Posamezna orodja so utemeljeno izbrana na podlagi našega realnega primera uporabe sistema, ki je obdelava čivkov (tweet), ki nastanejo na omrežju Twitter v času nogometne tekme. Na primeru uporabe tudi prikažemo analize in vizualizacije, ki jih omogoča implementiran sistem. Zaključimo s prikazom nekaj metrik našega sistema v času obdelave.
|KljucneBesede=veliki podatki, obdelava, skoraj realni čas, Twitter, nogomet
|KljucneBesedeEng=big data, processing, near real-time, Twitter, football
|Komentar=
|Viri=[{{filepath:63170110-Anže Habjan-Obdelava velikih količin podatkov v skoraj realnem času.pdf}} Diplomsko delo]
}}
{{Thesis
|Naslov=Primerjava in analiza statičnih generatorjev spletnih strani
|NaslovEng=Comparison and analysis of static Web site generators
|Avtor=Luka Toni
|Opis=Na spletu obstaja veliko načinov, kako ustvariti spletno stran in veliko različnih sistemov za upravljanje z vsebino, ki jih lahko uporabimo. Na voljo imamo različne spletne generatorje strani, kjer z malo tehničnega znanja lahko enostavno in hitro naredimo sodobno spletno stran.

:Generator statičnih strani je kompromis med ročno napisano kodo in polnim sistemom za upravljanje z vsebino, ki uporablja prednosti obeh. Primerjali smo 3 različne generatorje: Jekyll, Hugo in Gatsby. Na vseh treh generatorjih smo definirali ključne gradnike, ki jih ima povprečna spletna stran in jih implementirali z vsakim sistemom posebej ter nato primerjali med seboj. Poiskali smo prednosti in slabosti vseh treh generatorjev ter se posvetili temu, kako izdelati spletni dnevnik.
|KljucneBesede=generatorji statičnih strani, Jekyll, Hugo, Gatsby
|KljucneBesedeEng=static site generators, Jekyll, Hugo, Gatsby
|Komentar=
|Viri=[{{filepath:63120258-LUKA TONI-Primerjava in analiza statičnih generatorjev spletnih strani.pdf}} Diplomsko delo], [https://github.com/LukaToni/Jekyll-personal-blog Primer Jekyll], [https://github.com/LukaToni/Hugo-personal-blog Primer Hugo], [https://github.com/LukaToni/Gatsby-personal-blog Primer Gatsby]
}}
{{Thesis
|Naslov=Implementacija storitve za deljenje in spremljanje lokacije
|NaslovEng=Implementation of location tracking service
|Avtor=Matej Baša
|Opis=Lokacijske storitve so v mobilnih napravah postale zelo pomembne. Veliko aplikacij spremlja lokacijo uporabnika ter na podlagi te pošilja promocijska sporočila, prikaže ustanove v bližnji okolici, napove temperaturo na trenutni lokaciji ipd.

:Diplomsko delo opisuje in analizira postopek implementacije in razvoja lokacijsko zavedne storitve na platformi Android s pomočjo programskega jezika Java. V delu je predstavljen celoten razvoj aplikacije, vse uporabljene plat- forme, orodja in knjižnice ter tehnologije lokacijske zavednosti. Pozornost je namenjena varnosti podatkov in preprosti implementaciji lokacijskih storitev.
|KljucneBesede=Android, Lokacijske storitve, GPS, Wifi, Mobilno omrežje, Google API, Zajemanje senzoričnih podatkov, Lokacijska področja, Firebase
|KljucneBesedeEng=Android, Location services, GPS, Wifi, Mobile networks, Google API, Gathering of sensoric data, Location area, Firebase
|Komentar=
|Viri=[{{filepath:63160059-MATEJ BAŠA-Implementacija storitve za deljenje in spremljanje lokacije.pdf}} Diplomsko delo]
}}
{{Thesis
|Naslov=Samodejno prepoznavanje vsebinskih blokov znotraj spletišč
|NaslovEng=Automatic identification of content blocks from Web sites
|Avtor=Mitja Brezovnik
|Opis=Informacije so dandanes enostavno dostopne, informiranost pa ključnega pomena. S to mislijo smo se lotili izdelave rešitve, ki bo omogočala luščenje vsebine člankov iz slovenskih novičarskih portalov. Glavni problem s katerim se pri tovrstnih rešitvah soočimo je ločitev vsebine od nepotrebnih informacij, kot so oglasi, komentarji in ostali postavitveni elementi spletnih strani. Za rešitev tega problema smo ubrali pristop, ki temelji na značilnostih plitkih besedil. Na njegovi osnovi smo zasnovali jezikovni model, ki smo ga zgradili s pomočjo slovenskega korpusa 10000 slovenskih člankov iz 5 različnih novičarskih portalov. Končni izdelek predstavlja ekstraktor, ki omogoča pridobitev vsebine slovenskih člankov in jih predstavi v strukturirani obliki.
|KljucneBesede=ekstrakcija, članki, značilnosti plitkih besedil
|KljucneBesedeEng=extraction, articles, shallow text features
|Komentar=
|Viri=[{{filepath:63160079-MITJA BREZOVNIK-Samodejno prepoznavanje vsebinskih blokov znotraj spletišč.pdf}} Diplomsko delo]
}}
{{Thesis
|Naslov=Podpora za implementacijo večjezičnosti za spletne aplikacije
|NaslovEng=Implementation of multilingual support for Web applications
|Avtor=Tomaž Nemanič
|Opis=V diplomski nalogi je celovito proučena aktualna podpora za implementacijo večjezičnosti na spletnih straneh. Prikazanih je več načinov implementacije za večjezičnost v spletišču "Mes''. Ključnega pomena je točnost prevajanih podatkov aplikacije, zato se na dani platformi uresničuje prevajanje orodnih vrstic oziroma splošnih podatkov na čelnem delu aplikacije, prevajanje specifičnih pojmov pa z uporabo relacijske podatkovne baze na zalednem delu aplikacije. Poimenovanja proizvodov, njihovih lastnosti in drugih storitev so specifični strokovni pojmi, ki jih je potrebno stalno dodajati, spreminjati ali celo izbrisati iz evidence v določenem podjetju, zato se implementacija vrši na zalednem delu. Internacionalizacija in lokalizacija zagotovita prevajanje v jezik okolja, v katerem se uporabnik nahaja. Sodobna aplikacija upošteva tudi najboljše uporabniške izkušnje.
|KljucneBesede=aplikacija, internacionalizacija, lokalizacija, implementacija
|KljucneBesedeEng=application, internationalization, localization, implementation
|Komentar=
|Viri=[{{filepath:63170212-TOMAŽ NEMANIČ-Podpora za implementacijo večjezičnosti za spletne aplikacije.pdf}} Diplomsko delo]
}}

== 2020 ==

{{Thesis
|Naslov=Optimizacija priprave in pregled oglaševanja na platformi Twitter
|NaslovEng=Optimization of creation and preview of advertising on Twitter platform
|Avtor=Domen Tominec
|Opis=V dobi, ko postaja oglaševanje na družbenih omrežjih vedno donosnejši posel, se večina podjetij z oglaševalskimi rešitvami srečuje s težavo, kako razviti nove funkcionalnosti, s katerimi si bodo zagotovili konkurenčno prednost. V diplomski nalogi je predstavljena ideja ter razvoj funkcionalnosti, ki uporabnikom Httpoolove platforme \sn{Wise.Blue} omogoči hitrejšo in enostavnejšo pripravo twitterjevih oglasov. Predstavljeno je področje oglaševanja na družbenih omrežjih, glavni kanali ter največja slovenska podjetja na tem področju ter njihove rešitve. Podrobno so razloženi problem, postopek reševanja, uporabljena orodja in tehnologije, končni rezultati ter še odprta vprašanja.
|KljucneBesede=Twitter, oglaševanje, oglas, kreativa, kartica, makro
|KljucneBesedeEng=Twitter, advertising, ad, creative, card, macro
|Komentar=
|Viri=[{{filepath:63170291-DOMEN TOMINEC-Optimizacija priprave in pregled oglaševanja na platformi Twitter.pdf}} Diplomsko delo]
}}
{{Thesis
|Naslov=Celostno upravljanje s prehodi IoT za namene oddaljenega spremljanja pacientov
|NaslovEng=End-to-end IoT gateway management for remote patient monitoring
|Avtor=Jernej Cvek
|Opis=Internet stvari odpira neštete možnosti za izboljšanje življenja ljudi v različnih aplikacijskih domenah, tudi na področju zdravstvene oskrbe. V rešitvah za oddaljeno spremljanje pacientov so prehodi vezni člen med raznovrstnimi zdravstvenimi merilnimi napravami in platformo za omogočanje zdravstvenih aplikacij. Za učinkovito in pravilno delovanje prehodov je potrebno na platformi zagotoviti ustrezno podporo za vse postopke in dogodke, ki se zgodijo v življenjskem ciklu prehoda. Ključni prispevki tega diplomskega dela so predlagana referenčna arhitektura IoT, definicija faz življenjskega cikla prehoda ter opis postopkov, potrebnih za celostno upravljanje prehodov v rešitvah oddaljenega spremljanja pacientov.
|KljucneBesede=Internet stvari, IoT, IoMT, oddaljeno spremljanje pacientov, RPM, referenčna arhitektura, prehod, upravljanje življenjskega cikla, LCM
|KljucneBesedeEng=Internet of things, IoT, IoMT, remote patient monitoring, RPM, reference architecture, gateway, lifecycle management, LCM
|Komentar=
|Viri=[{{filepath:63100196-JERNEJ CVEK-Celostno upravljanje s prehodi IoT za namene oddaljenega spremljanja pacientov.pdf}} Diplomsko delo]
}}

== 2019 ==

{{Thesis
|Naslov=Vrednotenje in združevanje novic iz slovenskih spletnih medijev
|NaslovEng=Ranking and aggregation of Slovenian online news
|Avtor=Žan Horvat
|Opis=Na spletu obstaja mnogo različnih spletnih strani z novicami, ki pogosto vsebujejo podobne novice. Kakovost novic se med različnimi viri močno razlikuje. Prav tako obstaja kar nekaj spletnih aplikacij, ki podobne novice združujejo. Pogosto uporabniku ponudijo najbolj svežo novico, čeprav ta ni nujno najbolj informativna. Namen diplomske naloge je nadgradnja osnovnega agregatorja novic. Diplomska naloga zajema analizo spletnih mest z novicami in razvoj spletne aplikacije, ki zbira novice. Te združi s podobnimi in jih razvrsti tako, da izpostavi boljše na podlagi algoritmičnega vrednotenja. Aplikacija je sestavljena iz treh komponent, ki so izdelane v programskih jezikih JavaScript, TypeScript in Python.

:Prva komponenta zbira vsebino in ponuja dostop do te preko REST API-ja. Implementirana je s pomočjo Node.js, Express in MongoDB. Druga komponenta vrednoti in združuje besedila s pomočjo strojnega učenja in je implementirana v programskem jeziku Python. Tretja komponenta je implementirana s pomočjo ogrodja Angular, za prikaz rezultatov analize zbranih besedil.
|KljucneBesede=novice, primerjava besedil, slovenščina, ocenjevanje, agregiranje
|KljucneBesedeEng=news, text comparance, slovene, grading, aggregation
|Komentar=
|Viri=[{{filepath:63160130-Žan Horvat-Vrednotenje in združevanje novic iz slovenskih spletnih medijev.pdf}} Diplomsko delo]
}}
{{Thesis
|Naslov=Avtomatsko pridobivanje in prikaz podatkov o slovenskih zdravnikih
|NaslovEng=Automatic acquisition and visualization of Slovenian doctors' data
|Avtor=Jan Šturm
|Opis=V okviru diplomske naloge smo implementirali sistem za pridobitev in prikaz obremenitev slovenskih zdravnikov. Sistem smo poimenovali FrejDohtarji, saj uporabnikom omogoča lažji pregled nad zasedenostjo osebnih zdravnikov, zobozdravnikov in ginekologov. Uporabnik lahko na prvi strani filtrira zdravnike glede na tip izvajalca in območno enoto. Pri vsakem zdravniku se prikaže barvna oznaka, ki ponazarja, ali je še dolžan sprejemati nove paciente. Kriteriji so določeni s strani Zavoda za zdravstveno zavarovanje Slovenije, hkrati pa so relativno komplicirani, zaradi česar bodo barvne oznake poenostavile pregled dejanske obremenitve zdravnikov. Sistem podatke pridobiva iz različnih virov. Podatke o zdravnikih in njihovih obremenitvah pridobijo iz excelovih datotek, ki se nahajajo na spletni strani ZZZS. Dodatne informacije o delovnih časih in kontaktih pa se avtomatsko pridobijo s spletnih strani, kjer so objavljeni. Z uporabo aplikacije FrejDohtarji bo tako izbira zdravnika lažja in hitrejša, hkrati pa bodo na enem mestu zbrani še vsi dodatni podatki o zdravniku.
|KljucneBesede=obremenitve zdravnikov, zdravniki, spletne aplikacije, FrejDohtarji
|KljucneBesedeEng=doctors occupancy, doctors, Web applications, FrejDohtarji
|Komentar=
|Viri=[{{filepath:63150287-JAN ŠTURM-Avtomatsko pridobivanje in prikaz podatkov o slovenskih zdravnikih.pdf}} Diplomsko delo]
}}

Diploma theses

2025-02-28T14:43:05Z

Slavkoz:

__NOTOC__
This Web page contains on-going and finished bachelor theses. Thanks to all the candidates below that did (or are doing) great work!

If you are looking to prepare a bachelor thesis under my supervision, please check [[Theses topics|available theses topics or propose your own idea]].

== 2024 ==

{{Thesis
|Naslov=Razvoj orodja za glasovno programiranje
|NaslovEng=Development of a voice programming tool
|Avtor=Nina Sangawa Hmeljak
|Opis=[[File:Screenshot 2025-02-28 at 15.42.30.png|500px|right]]Cilj diplomske naloge je izdelava orodja za pisanje in urejanje kode računalniških programov z uporabo glasu. Predstavljenih je nekaj primerov obstoječih orodij za kodiranje z glasom, nato postopek ustvarjanja orodja Slo-handsfree-coding za glasovno programiranje v slovenščini. Ustvarjen je bil tudi poseben jezik oz. format ukazov za upravljanje tega orodja po zgledu že obstoječih orodij. Orodje je realizirano v obliki razširitve za urejevalnik kode Visual Studio Code, ki za pretvorbo govora v besedilo uporablja odprtokodni razpoznavalnik iz projekta RSDO. Pridobljen zapis to orodje analizira in glede na vsebino izvede ukaz. Na koncu so še rezultati in povratne informacije testiranja izdelka.
|KljucneBesede=programiranje, zaznavanje govora, programiranje z naravnim jezikom, glasovno programiranje
|KljucneBesedeEng=programming, speech recognition, natural language programming, voice coding
|Komentar=
|Viri=[{{filepath:63200032-Nina Sangawa Hmeljak-Razvoj orodja za glasovno programiranje.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=S poizvedovanjem obogatene tehnike generiranja pravnih besedil
|NaslovEng=Retrieval-augmented generation of law texts
|Avtor=Rok Mušič
|Opis=[[File:Screenshot 2025-02-28 at 15.40.03.png|500px|left]]Slovenska zakonodaja je obsežna in pravni delavci porabijo veliko časa vsak dan za iskanje ustrezne literature. V ta namen smo raziskali uspešnost velikih jezikovnih modelov (VJM) kot pravnih asistentov. VJM-ji so uspešni v številnih nalogah, a zahtevna domenska vprašanja so ena izmed njihovih večjih pomanjkljivosti; pogosto pride do halucinacij. S poizvedovanjem obogateno generiranje besedil (RAG) je tehnika, ki zaobide pomanjkanje domenskega znanja VJM-jev tako, da na podlagi vprašanja v zakonodaji najde vsebino, s katero lahko pravilno odgovori na vprašanje. Z najdenim znanjem VJM pravilno odgovori in ne halucinira. Raziskali in implementirali smo več različnih tehnik RAG. Vse metode smo preizkusili na ročno izdelani testni množici, ki vsebuje 4 testne scenarije, s katerimi preverimo, kako uspešne so metode v različnih situacijah. Naprednejše različice RAG-a, napredni in modularen RAG, kažejo dobro uspešnost pri direktnih vprašanjih, a nižjo uspešnost za bolj splošna vprašanja kot so npr. dejanski primeri.
|KljucneBesede=velik jezikovni model, s poizvedovanjem obogateno generiranje besedil, obdelava naravnega jezika
|KljucneBesedeEng=large language model, retrieval augmented generation, natural language processing
|Komentar=
|Viri=[{{filepath:63200018-Rok Mušič-S poizvedovanjem obogatene tehnike generiranja pravnih besedil.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Razvoj spletne aplikacije MarinePRO
|NaslovEng=Development of web application MarinePRO
|Avtor=Mojca Dimič
|Opis=[[File:Screenshot 2025-02-28 at 15.37.39.png|300px|right]]Jadranje je iz leta v leto bolj priljubljen hobi in način dopustovanja. Jadranje je močno povezano z navtiko, ki pa na področju tehnologije ne napreduje in je veliko prostora za napredek in velika potreba po modernizaciji. Diplomska naloga je namenjena izdelavi aplikacije, ki bi jadralcem omogočila lažji postopek priveza v zalivih z bojami. V diplomski nalogi predstavimo problem sedanjega načina privezov in predstavimo rešitev, opišemo razvoj zalednega in čelnega dela aplikacije. Tehnologije, ki jih uporabimo so MySQL baza, iz katere aplikacija pridobiva podatke preko aplikacijskega programskega vmesnika - API, izdelanega s pomočjo tehnologije Node.js in Express.js. Čelni del pa je razvit s pomočjo odprtokodne knjižnice React.js.
|KljucneBesede=React, MySQL, Node.js, MVC, REST
|KljucneBesedeEng=React, MySQL, Node.js, MVC, REST
|Komentar=
|Viri=[{{filepath:63180082-MOJCA DIMIČ-Razvoj spletne aplikacije MarinePRO.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Razvoj odprtokodnega ogrodja za obdelavo naravnega jezika
|NaslovEng=Developing an open source framework for natural language processing
|Avtor=Miha Krištofelc
|Opis=V diplomskem delu se bomo osredotočili na razvoj aplikacije za gradnjo cevovodov z namenom obdelave naravnega jezika. Naš cilj je raziskati trenutne rešitve na trgu in vključiti izboljšave v razvoj nove aplikacije, prilagojene raziskovalcem in splošni javnosti, ki jo zanima ONJ. Za preverjanje uporabnosti aplikacije bomo izvedli uporabniško testiranje, funkcionalno testiranje ter tudi testiranje zmogljivosti. Pri razvoju aplikacije bomo uporabili ustrezna razvojna orodja, kot so Django za razvoj zalednega dela, NextJS za razvoj čelnega dela in Docker za upravljanje z vsebniki. Poleg tega bomo za nadzor različic in varnostno kopiranje kode uporabljali program Git. V zaključku bomo predstavili ocene uporabniške izkušnje, oceno učinkovitosti aplikacije in splošne rezultate diplomskega dela.
|KljucneBesede=cevovodi, obdelava naravnega jezika, docker, vsebniki, podatkovni inženiring
|KljucneBesedeEng=Pipelines, Natural language processing, Docker, Containers, Data engineering
|Komentar=
|Viri=[{{filepath:63200157-Miha Krištofelc-Razvoj odprtokodnega ogrodja za obdelavo naravnega jezika.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Pregled in uporaba grafnih podatkovnih baz s podporo SPARQL
|NaslovEng=Review and usage of graph-based databases with SPARQL support
|Avtor=Domen Antlej
|Opis=Semantične podatkovne baze so poseben tip grafne podatkovne baze, ki omogoča hrambo semantičnih podatkov. Namen diplomske naloge je predstavitev področja semantičnih baz in prikaz primera uporabe s konkretnimi testnimi podatki. Vsebinsko je diplomska naloga razdeljena na tri dele. V prvem delu je predstavljeno področje semantičnih baz in tehnologije, ki jih podpirajo. V drugem delu izvedemo primerjavo nekaj popularnih baz in izberemo eno, ki bo uporabljena kot primer uporabe. V tretjem delu izvedemo pretvorbo relacijskih podatkov v semantične podatke in jih uporabimo z izbrano semantično bazo. V zaključku so predstavljene ugotovitve diplomske naloge.
|KljucneBesede=semantični splet, podatkovne baze, SPARQL, ontologije, pretvorba podatkov
|KljucneBesedeEng=semantic web, databases, SPARQL, ontologies, data conversion
|Komentar=
|Viri=[{{filepath:63160055-DOMEN ANTLEJ-Pregled in uporaba grafnih podatkovnih baz s podporo SPARQL.pdf}} Diplomsko delo]
}}

== 2023 ==

{{Thesis
|Naslov=Izboljševanje podatkovnih baz sestave živil: dopolnjevanje manjkajočih vrednosti preko vložitev grafa znanja
|NaslovEng=Enhancing Food Composition Databases: Predicting Missing Values via Knowledge Graph Embeddings
|Avtor=Marko Možina
|Opis=[[File:Screenshot 2025-02-28 at 15.32.23.png|400px|right]]Podatkovne baze sestave živil (PBSŽ) so temeljno orodje pri raziskavah na področju prehrane, ocenah hranilnih vrednosti in sorodnih domenah (npr. zdravje, okolje). Vendar se, tako kot druge znanstvene discipline, tudi področje prehrane in sestave živil spopada s težavo manjkajočih podatkov. To lahko znatno zmanjša natančnost in zanesljivost analiz, ki temeljijo na strukturi živil, saj vpeljuje element dvoumnosti in s tem omejuje njihovo uporabo. Za rešitev tega problema so bile predlagane različne metode za dopolnjevanje manjkajočih podatkov. Najlažji in najpogostejši pristop je izračun povprečja oziroma mediane iz razpoložljivih podatkov v isti bazi ali pa izposoja vrednosti iz drugih. Vendar pa lahko takšne preproste metode povzročijo znatne napake. V tem diplomskem delu se raziskuje uporaba modela ComplEx iz knjižnice Ampligraph, ki temelji na vektorskih vložitvah grafa znanja za dopolnjevanje manjkajočih vrednosti v PBSŽ. S pristopom opisanim v tem delu lahko model zajame temeljno strukturo in odnose med podatki, kar omogoča natančno dopolnjevanje manjkajočih vrednosti. To dodatno potrjujejo rezultati tega dela, saj so primerljivi s tistimi najsodobnejših modelov. Uporaba predlagane metode bi lahko v prihodnje privedla do natančnejših in zanesljivejših analiz na področju prehranskih raziskav.
|KljucneBesede=podatkovna baza sestave živil, hranilne vrednosti, manjkajoči podatki, strojno učenje na grafih, vložitev grafa znanja, analiza in raziskovanje podatkov, dopolnjevanje manjkajočih vrednosti, ampligraph
|KljucneBesedeEng=food composition database, nutrient values, missing data, graph machine learning, knowledge graph embeddings, data exploration, missing value imputation, ampligraph
|Komentar=
|Viri=[{{filepath:63190027-Marko Možina-Izboljševanje podatkovnih baz sestave živil dopolnjevanje manjkajočih vrednosti preko vložitev grafa znanja.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Uporaba metod obdelave naravnega jezika za uvrščanje shem programskih vmesnikov v enoten podatkovni model
|NaslovEng=Use of natural language processing methods for classification of application programming interface schemas into a unified data model
|Avtor=Matic Conradi
|Opis=Cilj te raziskave je razviti sistem, ki je zmožen klasificirati sheme objektov JSON, ki izvirajo iz različnih sistemov za digitalizacijo procesov, ter najti ujemanja s predstavitvami domenskih entitet platforme DevRev. Glavni izziv, s katerim se soočamo, leži v raznolikosti struktur teh objektov, kar zahteva uporabo algoritmov za obdelavo naravnega jezika.
|KljucneBesede=obdelava naravnega jezika, uvrščanje shem, Word2Vec, BERT, GPT, veliki jezikovni modeli
|KljucneBesedeEng=natural language processing, schema classification, Word2Vec, BERT, GPT, large language models
|Komentar=
|Viri=[{{filepath:63190078-Matic Conradi-Uporaba metod obdelave naravnega jezika za uvrščanje shem programskih vmesnikov v enoten podatkovni model.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Pregled in analiza semantičnih (SPARQL) podatkovnih baz
|NaslovEng=Review and analysis of semantic (SPARQL) databases
|Avtor=Anja Ostovršnik
|Opis=Semantične baze so posebna vrsta podatkovnih baz, ki omogočajo shranjevanje in poizvedovanje podatkov na način, ki upošteva njihov pomen in medsebojne odnose. Namen diplomske naloge je predstavitev in primerjava nekaj najbolj razširjenih rešitev na področju semantičnih baz. Vsebinsko je diplomska naloga razdeljena na dva dela. V prvem delu so opredeljeni kriteriji za primerjavo različnih ponudnikov semantičnih baz ter opis in primerjava njihovih rešitev. V drugem delu so opisani načini testiranja in načrt implementacije baz. V praktičnem delu izvedemo testiranje po zastavljenih testnih scenarijih. V zaključku so podane ključne ugotovitve glede predstavljenih semantičnih podatkovnih baz.
|KljucneBesede=podatkovne baze, semantični splet, ontologije, SPARQL
|KljucneBesedeEng=databases, semantic web, ontologies, SPARQL
|Komentar=
|Viri=[{{filepath:63190210-Anja Ostovršnik-Pregled in analiza semantičnih SPARQL podatkovnih baz.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Prepoznavanje imenskih entitet na domenskih besedilih iz farmacije
|NaslovEng=Named entity recognition in pharmaceutical domain texts
|Avtor=Benjamin Kovač Keber
|Opis=Prepoznavanje imenskih entitet je ena od nalog problema procesiranja naravnega jezika. Gre za označevanje besed in besednih zvez z oznakami v naprej določenih tipov imenskih entitet. Primeri uporabe prepoznavanja imenskih entitet so klasifikacija vsebine za ponudnike novic, učinkoviti iskalni algoritmi, priporočanje vsebine, organizacija člankov in podpora strankam. Preučili smo problem prepoznavanja imenskih entitet na domenskih besedilih iz farmacije. V ta namen smo uporabili štiri različne metode in za učenje modelov uporabili dva korpusa (CHEMDNER in n2c2), ki imata ročno označene imenske entitete iz področja farmacije (in kemije). Modele smo evalvirali tudi na besedilih, ki smo jih sami ročno označili. Najbolje se je odrezal model BERT. Za praktično uporabo pa bo verjetno potrebno v modele vložiti še nekaj truda za izboljšave.
|KljucneBesede=procesiranje naravnega jezika, prepoznavanje imenskih entitet, farmacija
|KljucneBesedeEng=natural language processing, named entity recognition, pharmacy
|Komentar=
|Viri=[{{filepath:63190159-BENJAMIN KOVAČ KEBER-Prepoznavanje imenskih entitet na domenskih besedilih iz farmacije.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Primerjava metod za avtomatsko ekstrakcijo podatkov iz spleta
|NaslovEng=Comparison of methods for automatic Web data extraction
|Avtor=Gašper Martič
|Opis=[[File:Screenshot 2025-02-28 at 15.25.19.png|400px|right]]Namen diplomskega dela je pregledati in ovrednotiti obstoječe metode za avtomatsko ekstrakcijo podatkov s spletnih strani. Tovrstne metode preko analize večjega števila podobnih spletnih strani avtomatsko generirajo ovojnico, ki je sposobna s spletne strani izluščiti podatke, tudi če se struktura strani s časom rahlo spremeni. Rezultati diplomskega dela ponujajo enostaven pregled nad različnimi metodami za pridobivanje podatkov s spletnih strani. To je lahko koristno za uporabnika, ker iz spletne strani izloči moteče oglase in navigacijske menije, ki odvračajo pozornost od vsebine. Kvaliteta posamezne metode se meri v hitrosti in sposobnosti odstranjevanja nerelevantnih podatkov ter ohranjanju tistih, ki so pomembni za dojemanje vsebine. Izvajanje samih metod je avtomatizirano s pomočjo programa v jeziku Python, ki ga lahko poganjamo iz ukazne vrstice. Uporabljani sta obstoječi implementaciji metod RoadRunner in Webstemmer, prikazani pa so rezultati njunega delovanja na petih slovenskih spletnih medijih. Poleg tega je implementirana tudi polavtomatska metoda pridobivanja podatkov s pomočjo ogrodja Scrapy, da lahko vidimo rezultate in kompleksnost v primerjavi s popolnoma avtomatsko metodo.
|KljucneBesede=ekstrakcija, spletni pajek, ovojnica, novice
|KljucneBesedeEng=extraction, Web crawler, wrapper, news
|Komentar=
|Viri=[{{filepath:63170195-GAŠPER MARTIČ-Primerjava metod za avtomatsko ekstrakcijo podatkov iz spleta.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Informacijski sistem za upravljanje marin
|NaslovEng=Management information system for marinas
|Avtor=Lovro Jevnikar
|Opis=[[File:Screenshot 2025-02-28 at 15.22.28.png|400px|left]]V diplomski nalogi se bomo ukvarjali z izdelavo informacijskega sistema za podporo marin. Končni izdelek bo spletna aplikacija, izdelana z orodjem VueJS. Rešitev bo digitalizirala postopek upravljanja marine. Reševali bomo problem urejanja oziroma popravila privezov, hranjenje informacij o trenutnem stanju marine in tudi možnost plačila oziroma rezervacije le teh. Za izboljšano uporabniško izkušnjo bomo aplikaciji dodali interni forum za komunikacijo med strankami znotraj marine. Pri izdelavi bomo uporabil storitve Amazon web services, Google maps API, Bootstrap in ostale Vue komponente. Za izbrano tematiko smo se odločili, ker po pregledu področja nismo našli primerne rešitve za omenjeni problem.
|KljucneBesede=marine, informacijski sistem, spletna aplikacija, VueJs, uporabniški vmesnik, privez, strežnik, odejmalec, HTTP
|KljucneBesedeEng=marine, information system, web application, VueJs, user interface, mooring, server, client, HTTP
|Komentar=
|Viri=[{{filepath:63160147-LOVRO JEVNIKAR-Informacijski sistem za upravljanje marin.pdf}} Diplomsko delo]
}}

== 2022 ==

{{Thesis
|Naslov=Zasnova ogrodja za izvajanje metod za procesiranje naravnega jezika
|NaslovEng=Design of a framework for execution of natural language processing methods
|Avtor=Nik Hrovat
|Opis=V diplomski nalogi bomo predstavili predlog svojega ogrodja za procesiranje naravnega jezika. Cilj procesiranja je, da računalnik razume vsebino dokumentov, izloči informacije iz besedila in dokumente organizira ter razvrsti. Opisali bomo nekaj metod, ki se uporabljajo pri procesiranju naravnega jezika. Ob tem bomo primerjali še nekaj obstoječih ogrodij in knjižnic ter najboljšo tudi podrobneje predstavili na podatkovnem modelu. Na podlagi analize obstoječih ogrodij in knjižnic bomo predstavili tudi naš podatkovni model, ki ga bomo testirali z nekaterimi metodami procesiranja naravnega jezika in ga tudi grafično prikazali.
|KljucneBesede=NLP, procesiranje, naravni jezik
|KljucneBesedeEng=NLP, processing, natural language
|Komentar=
|Viri=Diplomsko delo je v popravkih.
}}

{{Thesis
|Naslov=Vpliv govorjenih posnetkov na analizo sentimenta njihovih transkriptov
|NaslovEng=Sentiment analysis of voice recordings and their transcripts
|Avtor=Martin Jurkovič
|Opis=[[File:Screenshot 2025-02-28 at 15.17.59.png|400px|right]]Analiziranje sentimenta s pomočjo metod strojnega učenja je ena bolj raziskanih tem na področju obdelave naravnega jezika. Večina raziskav se osredotoča na analiziranje pisanega besedila kot so članki ali knjige. V primeru govorjenega besedila pa se poleg transkriptov posnetkov lahko analizira tudi sama zvočna datoteka posnetka. V diplomski nalogi smo raziskali in naučili različne modele strojnega učenja za analizo sentimenta na transkriptih posnetkov, nato pa poskusili izboljšati rezultate tekstovnih modelov z modeli, zgrajenimi na podatkih pridobljenih iz zvočnih datotek posnetkov. Za združevanje ter izboljšanje napovedi besedilnih in zvočnih modelov smo uporabili metodo zlaganja modelov. V delu smo raziskali in implementirali celoten cevovod za predprocesiranje podatkov, generiranje značilk ter učenje in testiranje besedilnih in zvočnih modelov ter meta modela z metodo zlaganja.
|KljucneBesede=procesiranje naravnega jezika, strojno učenje, analiza sentimenta, procesiranje zvoka, multimodalno učenje, zlaganje
|KljucneBesedeEng=natural language processing, machine learning, sentiment analysis, sound processing, multimodal learning, stacking
|Komentar=
|Viri=[{{filepath:63180015-Martin Jurkovič-Analiza sentimenta zvočnih posnetkov in njihovih transkriptov.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Klasifikacija sovražnega govora v slovenskem in angleškem jeziku
|NaslovEng=Hate speech classification for Slovene and English language
|Avtor=Nik Pirnat
|Opis=S porastom sovražnega govora na družbenih omrežjih je nastala tudi večja potreba po nadzoru, vendar bi bil zaradi velike količine informacij ročni nadzor praktično nemogoč, tako se za določanje sovražnega govora danes po večini uporabljajo nevronske mreže. Za učenje nevronskih mrež potrebujemo veliko število označenih podatkov, vendar so javno dostopne podatkovne množice redko podrobno označene, predvsem to drži za jezike z relativno malo govorci. Za slovenski jezik obstaja malo javno dostopnih podatkovnih množic, ki bi vsebovale več bolj podrobnih oznak, zato preizkusimo kako se izkaže podatkovna množica, ki je sestavljena iz več različnih množic. Na sestavljenih množicah s posplošenimi skupnimi oznakami učimo nevronsko mrežo BERT in naše rezultate primerjamo z rezultati, ki so jih dosegli avtorji prvotnih podatkovnih množic. Ugotovimo, da so rezultati, ki jih dosežemo zadovoljivi in predlagamo izboljšave, ki bi omogočile, da bi na sestavljenih množicah dosegli enako dobre rezultate kot na množicah izdelanih za določeno nalogo.
|KljucneBesede=večrazredno razvrščanje, procesiranje besedila, sovražni govor
|KljucneBesedeEng=multiclass classification, text processing, hate speech
|Komentar=
|Viri=[{{filepath:63170231-Nik Pirnat-Uvrščanje sovražnega govora v slovenskem in angleškem jeziku.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Odkrivanje biomedicinskih vzorcev za nevrodegenerativne bolezni iz biomedicinske znanstvene literature
|NaslovEng=Mining patterns for neurodegenerative diseases from biomedical scientific literature
|Avtor=Radoslav Atanasoski
|Opis=[[File:Screenshot 2025-02-28 at 14.57.05.png|300px|right]]Dandanes obstaja ogromna količina biomedicinskega znanja, ki vsak dan hitro prihaja skozi znanstveno objavljene članke. Vendar pa je poskušati slediti temu resnično zahtevno in vzame preveč časa. Se več, pri iskanju relevantnih dokumentov z zahtevanimi podatki. Da bi zdravstvenim delavcem pomagali ostati na tekočem in najti članke, povezane z njihovimi temami iskanja, v tej diplomski nalogi ustvarimo cevovod za pridobivanje informacij (IR), pri čemer najprej navedemo, s katerimi nevrodegenerativnimi boleznimi so članki povezani, in zagotovimo tudi analizo, ki pokaže, najpogostejših vzorcev, ki so raziskani in objavljeni. Za modeliranje smo raziskali več najsodobnejših modelov učenja za predstavitev besedila, kot so BERT, RoBERTa in BioBERT. Po natančnem prilagajanju vsakega modela je bil kot model za cevovod IR izbran BioBERT, ki zagotavlja izjemno zmogljivost s 94% navzkrižno validacijo CA. Prav tako primerjamo naš najsodobnejši model z bolj tradicionalnim in pogosto uporabljenim modelom Random Forest. Poleg tega so bili za analizo pogostih vzorcev uporabljeni izvlečki vpletenih bolezni opombe in koncepti kemičnih in genetskih spojin so bili ekstrahirani z uporabo modela prepoznavanja poimenovanih entitet (NER). Po tem so bile vse entitete normalizirane z uporabo povezovanja imenovanih entitet (NEL). Na ekstrahiranih entitetah je bilo uporabljeno rudarjenje asociacijskih pravil, da bi našli najpogosteje raziskane vzorce za vsako bolezen, ki so nadalje prikazani z uporabo več tehnik vizualizacije. Ti rezultati bodo zdravstvenim delavcem pomagali pri navajanju najnovejših informacij, po drugi strani pa bodo pokazali tudi na manjkajoče vrzeli, ki za določeno bolezen niso dobro raziskane. Podatki, vključeni v to študijo, so bili pridobljeni iz javno dostopne zbirke podatkov PubMed.
|KljucneBesede=podatkovno rudarjenje, učenje tekstovnih predstavitev, učenje asociacijskih pravil
|KljucneBesedeEng=data mining, text representation learning, association rule mining
|Komentar=Delo je bilo narejeno v somentorstvu z doc. dr. Tometom Eftimovim.
|Viri=[{{filepath:63190355-Radoslav Atanasoski-Odkrivanje vzorcev za nevrodegenerativne bolezni iz biomedicinske znanstvene literature.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Analiza vpliva omemb kriptovalut na njihovo ceno
|NaslovEng=Analysis of the impact of cryptocurrency mentions on their price
|Avtor=Tilen Miklavič
|Opis=[[File:Screenshot 2022-08-26 at 12.21.31.png|400px|right]] V okviru te naloge, sem raziskal, ali javni sentiment na družbenem omrežju Twitter vpliva na gibanje trga kriptovalut. Ta podatek bi lahko navdušenci izkoristili pri svojih analizah. Zbral in analiziral bom podatke za več kriptovalut in jih razvrstil v seznam po odvisnosti od javnega sentimenta. To mi bo pomagalo pri izdelavi napovednega modela, ki bo podajal obvestila o abnormalnih dogodkih na socialnih omrežjih. Uspešen rezultat naloge bo napovedni model, ki bo pravilno in časovno natančno klasificiral dogajanje na družbenem omrežju. V sodelovanju s spletno aplikacijo bi lahko tako uporabnika v realnem času o teh dogodkih obveščal.
|KljucneBesede=kriptovaluta, kovanec, družbena omrežja
|KljucneBesedeEng=cryptocurrency, coin, social network
|Komentar=
|Viri=[{{filepath:63180204-TILEN MIKLAVIČ-Analiza vpliva omemb kriptovalut na njihovo ceno-2.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=GeoTools: spletne storitve za izvajanje prostorskih analiz
|NaslovEng=GeoTools: Web services for performing spatial analysis
|Avtor=Sanil Safić
|Opis=[[File:Screenshot 2022-08-26 at 12.17.03.png|200px|left]] Na spletu so dostopne mnoge storitve, ki omogočajo napredne prostorske analize, a so le te pomankljive, omejene ali pa se ponujajo v obliki programske opreme. S spletno storitvijo GeoTools prostorske analize iz različnih virov povežemo v eno samostojno celoto. GeoTools vsebuje module iz knjižnice GeoPandas, QGIS in PostGIS. Storitev ima implementiran tudi cevovod prostorskih analiz, kar pomeni, da lahko zaporedoma opravi več želenih analiz. GeoTools uporabniku, predvsem programerju, olajša implementacijo prostorskih analiz v projektih. Za lažjo uporabo smo razvili NPM knjižnico, ki se povezuje na storitev in vsakomur omogoči enostaven dostop do njenih funkcionalnosti. NPM knjižnica vsebuje tudi enostaven grafični vmesnik, ki s pomočjo knjižnice OpenLayers omogoči uporabniku, da svoje vhodne in izhodne podatke tudi prikaže na spletni karti.
|KljucneBesede=spletna storitev, prostorske analize
|KljucneBesedeEng=web service, spatial analysis
|Komentar=V somentorstvu z Nejcem Krašovcem.
|Viri=[{{filepath:63180258-SANIL SAFIĆ-GeoTools spletne storitve za izvajanje prostorskih analiz.pdf}} Diplomsko delo], [https://www.npmjs.com/package/geotoolsconnector NPM Connector for public services]
}}

{{Thesis
|Naslov=Analiza in primerjava sistemov za informacijsko poizvedovanje
|NaslovEng=Analysis and comparison of information retrieval systems
|Avtor=Mark Redelonghi
|Opis=[[File:Solr diagram colored.png|200px|right]] V diplomskem delu se je analiziralo in primerjalo manjšo množico sistemov za informacijsko poizvedovanje. Raziskava se je osredotočila na iskanje po besedilu, kjer se uporabi procesiranje naravnega jezika. Izbrani sistemi so bili primerjani glede na način delovanja, indeksiranja, poizvedovanja ter časovne in prostorske lastnosti. Za primerjavo se je pridobilo korpuse besedil in definiralo poizvedbe s katerimi se je primerjalo izbrane sisteme. V zaključku so podane prednosti in slabosti sistemov skupaj s primeri uporabe.
|KljucneBesede=računalnik, procesiranje naravnega jezika, solr, milvus, podatki, iskanje
|KljucneBesedeEng=computer, natural language processing, solr, milvus, data, search
|Komentar=
|Viri=[{{filepath:63180247-MARK REDELONGHI-Analiza in primerjava sistemov za informacijsko poizvedovanje.pdf}} Diplomsko delo], [https://github.com/UL-FRI-Zitnik/Redelonghi-IR-systems-comparison Izvorna koda]
}}

{{Thesis
|Naslov=Odprta ekstrakcija informacij za slovenski jezik
|NaslovEng=Open information extraction for Slovenian language
|Avtor=Miha Bogataj
|Opis=[[File:Screenshot 2022-08-03 at 16.25.12.png|500px|right]] Odprta ekstrakcija informacij je proces procesiranja naravnega jezika, ki iz posameznih povedi izvleče možne odvisnosti. Odvisnosti so sestavljene iz semantične trojice, kjer prvi člen predstavlja subjekt o katerem poizvedujemo, relacije, ki opiše, kako se prvi člen navezuje na tretjega, in objekt. Sistem odprte ekstrakcije informacij za slovenščino temelji na metodi na podlagi pravil. Sistem je sestavljen iz predprocesorja in ekstraktorja. Vloga predprocesorja je obdelava vhodnega besedila s pomočjo sistema CLASSLA, ki slovnično analizira poved, lematizacija in izgradnja semantičnega drevesa. Vloga ekstraktorja je, da z uporabo pravil poišče relacije v povedi. Ta pravila so bolj kompleksna kot v angleščini, ker je v slovenščini besedni red bolj prost. Slovenščina pozna tudi več sklanjatev, ki omogočajo bolj točno določitev subjekta in objekta. Med najdenimi ekstrakcijami je možno iskanje na dva načina: iskanje povedi in dopolnjevanje parametrov. Iskanje povedi zahteva izpolnjene vse parametre semantične trojice in vrne seznam povedi, ki ustrezajo iskani semantični trojici. Dopolnjevanje parametrov zahteva dva izpolnjena parametra, od katerih je relacija obvezna. Ta način vrne seznam možnih vrednosti za manjkajoč parameter.
|KljucneBesede=ekstrakcija, informacija, slovenščina
|KljucneBesedeEng=extraction, information, Slovenian language
|Komentar=
|Viri=[{{filepath:63170058-MIHA BOGATAJ-Odprta ekstrakcija informacij za slovenski jezik.pdf}} Diplomsko delo], [https://github.com/UL-FRI-Zitnik/OpenIE Izvorna koda (zasebno)]
}}

{{Thesis
|Naslov=SloBench: Slovenski vrednotnik metod za obdelavo naravnega jezika
|NaslovEng=SloBench: Slovenian Natural Language Processing Benchmark
|Avtor=Frenk Dragar
|Opis=[[File:Screenshot 2022-08-03 at 16.29.13.png|500px|right]]Z nedavno priljubljenostjo modelov obdelave naravnega jezika, ki temeljijo na arhitekturi transformer, in njihove najsodobnejše zmogljivosti pri številnih nalogah NLP, je vse večja potreba po objektivnem ocenjevanju teh orodij in omogočanju njihove primerjave. Obstajajo številni nabori podatkov in meril za NLP naloge, ki pa večinoma temeljijo na angleškem jeziku. V diplomski nalogi kandidat opiše razvoj prve slovenske platforme za avtomatsko primerjavo NLP modelov - SloBench, skupaj z njenim razširljivim in od sistemske arhitekture neodvisnim ogrodjem za evalvacijo sistemov. Nato kritično oceni projekt, ga primerja z obstoječimi merili uspešnosti NLP in poda nekaj idej za prihodnje razširitve platforme.

:Evalvacija nalog procesiranja naravnega jezika (NLP) je bistven del raziskav in napredka na tem področju. Zagotavlja objektiven standard za uspešnost in primerjavo sistemov pri določeni nalogi. Podamo pregled nedavnih javnih lestvic za najboljše sisteme in trendov njihovega ocenjevanja s poudarkom na avtomatskem vrednotenju sistemov. Nato predlagamo, implementiramo in dokumentiramo splošno, razširljivo in od sistemske arhitekture neodvisno ogrodje za evalvacijo sistemov, skupaj s prvo spletno platformo za avtomatsko vrednotenje NLP nalog v slovenščini z javnimi lestvicami, ki prikazujejo rezultate objavljenih sistemov.
|KljucneBesede=procesiranje naravnega jezika, vrednotenje, lestvica najboljših, strojno učenje, spletna platforma
|KljucneBesedeEng=natural language processing, benchmarking, leaderboard, machine learning, web platform
|Komentar=
|Viri=[{{filepath:63180008-FRENK DRAGAR-SloBench Slovenski vrednotnik metod za obdelavo naravnega jezika.pdf}} Diplomsko delo], [https://slobench.cjvt.si SloBENCH spletišče], [https://github.com/clarinsi/slobench-eval-docker Evalvacijsko ogrodje], Izvorna koda spletne aplikacije in članek (v pripravi)
}}

== 2021 ==

{{Thesis
|Naslov=Obdelava velikih količin podatkov v skoraj realnem času
|NaslovEng=Near real-time processing of large amounts of data
|Avtor=Anže Habjan
|Opis=V času, ko količina generiranih podatkov na spletu narašča tako hitro kot še nikoli, je toliko bolj pomembno, da je obdelava le teh kar se da hitra. Opišemo implementacijo celostnega sistema, ki bo specializiran za obdelavo pretočnih podatkov v skoraj realnem času, in bo vključeval po eno orodje za vsak del: pridobivanje, obdelava, shranjevanje in vizualizacija. Posamezna orodja so utemeljeno izbrana na podlagi našega realnega primera uporabe sistema, ki je obdelava čivkov (tweet), ki nastanejo na omrežju Twitter v času nogometne tekme. Na primeru uporabe tudi prikažemo analize in vizualizacije, ki jih omogoča implementiran sistem. Zaključimo s prikazom nekaj metrik našega sistema v času obdelave.
|KljucneBesede=veliki podatki, obdelava, skoraj realni čas, Twitter, nogomet
|KljucneBesedeEng=big data, processing, near real-time, Twitter, football
|Komentar=
|Viri=[{{filepath:63170110-Anže Habjan-Obdelava velikih količin podatkov v skoraj realnem času.pdf}} Diplomsko delo]
}}
{{Thesis
|Naslov=Primerjava in analiza statičnih generatorjev spletnih strani
|NaslovEng=Comparison and analysis of static Web site generators
|Avtor=Luka Toni
|Opis=Na spletu obstaja veliko načinov, kako ustvariti spletno stran in veliko različnih sistemov za upravljanje z vsebino, ki jih lahko uporabimo. Na voljo imamo različne spletne generatorje strani, kjer z malo tehničnega znanja lahko enostavno in hitro naredimo sodobno spletno stran.

:Generator statičnih strani je kompromis med ročno napisano kodo in polnim sistemom za upravljanje z vsebino, ki uporablja prednosti obeh. Primerjali smo 3 različne generatorje: Jekyll, Hugo in Gatsby. Na vseh treh generatorjih smo definirali ključne gradnike, ki jih ima povprečna spletna stran in jih implementirali z vsakim sistemom posebej ter nato primerjali med seboj. Poiskali smo prednosti in slabosti vseh treh generatorjev ter se posvetili temu, kako izdelati spletni dnevnik.
|KljucneBesede=generatorji statičnih strani, Jekyll, Hugo, Gatsby
|KljucneBesedeEng=static site generators, Jekyll, Hugo, Gatsby
|Komentar=
|Viri=[{{filepath:63120258-LUKA TONI-Primerjava in analiza statičnih generatorjev spletnih strani.pdf}} Diplomsko delo], [https://github.com/LukaToni/Jekyll-personal-blog Primer Jekyll], [https://github.com/LukaToni/Hugo-personal-blog Primer Hugo], [https://github.com/LukaToni/Gatsby-personal-blog Primer Gatsby]
}}
{{Thesis
|Naslov=Implementacija storitve za deljenje in spremljanje lokacije
|NaslovEng=Implementation of location tracking service
|Avtor=Matej Baša
|Opis=Lokacijske storitve so v mobilnih napravah postale zelo pomembne. Veliko aplikacij spremlja lokacijo uporabnika ter na podlagi te pošilja promocijska sporočila, prikaže ustanove v bližnji okolici, napove temperaturo na trenutni lokaciji ipd.

:Diplomsko delo opisuje in analizira postopek implementacije in razvoja lokacijsko zavedne storitve na platformi Android s pomočjo programskega jezika Java. V delu je predstavljen celoten razvoj aplikacije, vse uporabljene plat- forme, orodja in knjižnice ter tehnologije lokacijske zavednosti. Pozornost je namenjena varnosti podatkov in preprosti implementaciji lokacijskih storitev.
|KljucneBesede=Android, Lokacijske storitve, GPS, Wifi, Mobilno omrežje, Google API, Zajemanje senzoričnih podatkov, Lokacijska področja, Firebase
|KljucneBesedeEng=Android, Location services, GPS, Wifi, Mobile networks, Google API, Gathering of sensoric data, Location area, Firebase
|Komentar=
|Viri=[{{filepath:63160059-MATEJ BAŠA-Implementacija storitve za deljenje in spremljanje lokacije.pdf}} Diplomsko delo]
}}
{{Thesis
|Naslov=Samodejno prepoznavanje vsebinskih blokov znotraj spletišč
|NaslovEng=Automatic identification of content blocks from Web sites
|Avtor=Mitja Brezovnik
|Opis=Informacije so dandanes enostavno dostopne, informiranost pa ključnega pomena. S to mislijo smo se lotili izdelave rešitve, ki bo omogočala luščenje vsebine člankov iz slovenskih novičarskih portalov. Glavni problem s katerim se pri tovrstnih rešitvah soočimo je ločitev vsebine od nepotrebnih informacij, kot so oglasi, komentarji in ostali postavitveni elementi spletnih strani. Za rešitev tega problema smo ubrali pristop, ki temelji na značilnostih plitkih besedil. Na njegovi osnovi smo zasnovali jezikovni model, ki smo ga zgradili s pomočjo slovenskega korpusa 10000 slovenskih člankov iz 5 različnih novičarskih portalov. Končni izdelek predstavlja ekstraktor, ki omogoča pridobitev vsebine slovenskih člankov in jih predstavi v strukturirani obliki.
|KljucneBesede=ekstrakcija, članki, značilnosti plitkih besedil
|KljucneBesedeEng=extraction, articles, shallow text features
|Komentar=
|Viri=[{{filepath:63160079-MITJA BREZOVNIK-Samodejno prepoznavanje vsebinskih blokov znotraj spletišč.pdf}} Diplomsko delo]
}}
{{Thesis
|Naslov=Podpora za implementacijo večjezičnosti za spletne aplikacije
|NaslovEng=Implementation of multilingual support for Web applications
|Avtor=Tomaž Nemanič
|Opis=V diplomski nalogi je celovito proučena aktualna podpora za implementacijo večjezičnosti na spletnih straneh. Prikazanih je več načinov implementacije za večjezičnost v spletišču "Mes''. Ključnega pomena je točnost prevajanih podatkov aplikacije, zato se na dani platformi uresničuje prevajanje orodnih vrstic oziroma splošnih podatkov na čelnem delu aplikacije, prevajanje specifičnih pojmov pa z uporabo relacijske podatkovne baze na zalednem delu aplikacije. Poimenovanja proizvodov, njihovih lastnosti in drugih storitev so specifični strokovni pojmi, ki jih je potrebno stalno dodajati, spreminjati ali celo izbrisati iz evidence v določenem podjetju, zato se implementacija vrši na zalednem delu. Internacionalizacija in lokalizacija zagotovita prevajanje v jezik okolja, v katerem se uporabnik nahaja. Sodobna aplikacija upošteva tudi najboljše uporabniške izkušnje.
|KljucneBesede=aplikacija, internacionalizacija, lokalizacija, implementacija
|KljucneBesedeEng=application, internationalization, localization, implementation
|Komentar=
|Viri=[{{filepath:63170212-TOMAŽ NEMANIČ-Podpora za implementacijo večjezičnosti za spletne aplikacije.pdf}} Diplomsko delo]
}}

== 2020 ==

{{Thesis
|Naslov=Optimizacija priprave in pregled oglaševanja na platformi Twitter
|NaslovEng=Optimization of creation and preview of advertising on Twitter platform
|Avtor=Domen Tominec
|Opis=V dobi, ko postaja oglaševanje na družbenih omrežjih vedno donosnejši posel, se večina podjetij z oglaševalskimi rešitvami srečuje s težavo, kako razviti nove funkcionalnosti, s katerimi si bodo zagotovili konkurenčno prednost. V diplomski nalogi je predstavljena ideja ter razvoj funkcionalnosti, ki uporabnikom Httpoolove platforme \sn{Wise.Blue} omogoči hitrejšo in enostavnejšo pripravo twitterjevih oglasov. Predstavljeno je področje oglaševanja na družbenih omrežjih, glavni kanali ter največja slovenska podjetja na tem področju ter njihove rešitve. Podrobno so razloženi problem, postopek reševanja, uporabljena orodja in tehnologije, končni rezultati ter še odprta vprašanja.
|KljucneBesede=Twitter, oglaševanje, oglas, kreativa, kartica, makro
|KljucneBesedeEng=Twitter, advertising, ad, creative, card, macro
|Komentar=
|Viri=[{{filepath:63170291-DOMEN TOMINEC-Optimizacija priprave in pregled oglaševanja na platformi Twitter.pdf}} Diplomsko delo]
}}
{{Thesis
|Naslov=Celostno upravljanje s prehodi IoT za namene oddaljenega spremljanja pacientov
|NaslovEng=End-to-end IoT gateway management for remote patient monitoring
|Avtor=Jernej Cvek
|Opis=Internet stvari odpira neštete možnosti za izboljšanje življenja ljudi v različnih aplikacijskih domenah, tudi na področju zdravstvene oskrbe. V rešitvah za oddaljeno spremljanje pacientov so prehodi vezni člen med raznovrstnimi zdravstvenimi merilnimi napravami in platformo za omogočanje zdravstvenih aplikacij. Za učinkovito in pravilno delovanje prehodov je potrebno na platformi zagotoviti ustrezno podporo za vse postopke in dogodke, ki se zgodijo v življenjskem ciklu prehoda. Ključni prispevki tega diplomskega dela so predlagana referenčna arhitektura IoT, definicija faz življenjskega cikla prehoda ter opis postopkov, potrebnih za celostno upravljanje prehodov v rešitvah oddaljenega spremljanja pacientov.
|KljucneBesede=Internet stvari, IoT, IoMT, oddaljeno spremljanje pacientov, RPM, referenčna arhitektura, prehod, upravljanje življenjskega cikla, LCM
|KljucneBesedeEng=Internet of things, IoT, IoMT, remote patient monitoring, RPM, reference architecture, gateway, lifecycle management, LCM
|Komentar=
|Viri=[{{filepath:63100196-JERNEJ CVEK-Celostno upravljanje s prehodi IoT za namene oddaljenega spremljanja pacientov.pdf}} Diplomsko delo]
}}

== 2019 ==

{{Thesis
|Naslov=Vrednotenje in združevanje novic iz slovenskih spletnih medijev
|NaslovEng=Ranking and aggregation of Slovenian online news
|Avtor=Žan Horvat
|Opis=Na spletu obstaja mnogo različnih spletnih strani z novicami, ki pogosto vsebujejo podobne novice. Kakovost novic se med različnimi viri močno razlikuje. Prav tako obstaja kar nekaj spletnih aplikacij, ki podobne novice združujejo. Pogosto uporabniku ponudijo najbolj svežo novico, čeprav ta ni nujno najbolj informativna. Namen diplomske naloge je nadgradnja osnovnega agregatorja novic. Diplomska naloga zajema analizo spletnih mest z novicami in razvoj spletne aplikacije, ki zbira novice. Te združi s podobnimi in jih razvrsti tako, da izpostavi boljše na podlagi algoritmičnega vrednotenja. Aplikacija je sestavljena iz treh komponent, ki so izdelane v programskih jezikih JavaScript, TypeScript in Python.

:Prva komponenta zbira vsebino in ponuja dostop do te preko REST API-ja. Implementirana je s pomočjo Node.js, Express in MongoDB. Druga komponenta vrednoti in združuje besedila s pomočjo strojnega učenja in je implementirana v programskem jeziku Python. Tretja komponenta je implementirana s pomočjo ogrodja Angular, za prikaz rezultatov analize zbranih besedil.
|KljucneBesede=novice, primerjava besedil, slovenščina, ocenjevanje, agregiranje
|KljucneBesedeEng=news, text comparance, slovene, grading, aggregation
|Komentar=
|Viri=[{{filepath:63160130-Žan Horvat-Vrednotenje in združevanje novic iz slovenskih spletnih medijev.pdf}} Diplomsko delo]
}}
{{Thesis
|Naslov=Avtomatsko pridobivanje in prikaz podatkov o slovenskih zdravnikih
|NaslovEng=Automatic acquisition and visualization of Slovenian doctors' data
|Avtor=Jan Šturm
|Opis=V okviru diplomske naloge smo implementirali sistem za pridobitev in prikaz obremenitev slovenskih zdravnikov. Sistem smo poimenovali FrejDohtarji, saj uporabnikom omogoča lažji pregled nad zasedenostjo osebnih zdravnikov, zobozdravnikov in ginekologov. Uporabnik lahko na prvi strani filtrira zdravnike glede na tip izvajalca in območno enoto. Pri vsakem zdravniku se prikaže barvna oznaka, ki ponazarja, ali je še dolžan sprejemati nove paciente. Kriteriji so določeni s strani Zavoda za zdravstveno zavarovanje Slovenije, hkrati pa so relativno komplicirani, zaradi česar bodo barvne oznake poenostavile pregled dejanske obremenitve zdravnikov. Sistem podatke pridobiva iz različnih virov. Podatke o zdravnikih in njihovih obremenitvah pridobijo iz excelovih datotek, ki se nahajajo na spletni strani ZZZS. Dodatne informacije o delovnih časih in kontaktih pa se avtomatsko pridobijo s spletnih strani, kjer so objavljeni. Z uporabo aplikacije FrejDohtarji bo tako izbira zdravnika lažja in hitrejša, hkrati pa bodo na enem mestu zbrani še vsi dodatni podatki o zdravniku.
|KljucneBesede=obremenitve zdravnikov, zdravniki, spletne aplikacije, FrejDohtarji
|KljucneBesedeEng=doctors occupancy, doctors, Web applications, FrejDohtarji
|Komentar=
|Viri=[{{filepath:63150287-JAN ŠTURM-Avtomatsko pridobivanje in prikaz podatkov o slovenskih zdravnikih.pdf}} Diplomsko delo]
}}

File:Screenshot 2025-02-28 at 15.42.30.png

2025-02-28T14:42:44Z

Slavkoz:

File:63200032-Nina Sangawa Hmeljak-Razvoj orodja za glasovno programiranje.pdf

2025-02-28T14:41:50Z

Slavkoz:

File:Screenshot 2025-02-28 at 15.40.03.png

2025-02-28T14:40:15Z

Slavkoz:

File:63200018-Rok Mušič-S poizvedovanjem obogatene tehnike generiranja pravnih besedil.pdf

2025-02-28T14:39:18Z

Slavkoz:

File:Screenshot 2025-02-28 at 15.37.39.png

2025-02-28T14:37:59Z

Slavkoz:

File:63180082-MOJCA DIMIČ-Razvoj spletne aplikacije MarinePRO.pdf

2025-02-28T14:37:01Z

Slavkoz:

File:63200157-Miha Krištofelc-Razvoj odprtokodnega ogrodja za obdelavo naravnega jezika.pdf

2025-02-28T14:35:52Z

Slavkoz:

File:63160055-DOMEN ANTLEJ-Pregled in uporaba grafnih podatkovnih baz s podporo SPARQL.pdf

2025-02-28T14:34:43Z

Slavkoz:

Diploma theses

2025-02-28T14:33:04Z

Slavkoz:

__NOTOC__
This Web page contains on-going and finished bachelor theses. Thanks to all the candidates below that did (or are doing) great work!

If you are looking to prepare a bachelor thesis under my supervision, please check [[Theses topics|available theses topics or propose your own idea]].

== 2024 ==

{{Thesis
|Naslov=Nina Sangawa Hmeljak
|NaslovEng=
|Avtor=Razvoj orodja za glasovno programiranje
|Opis=
|KljucneBesede=
|KljucneBesedeEng=
|Komentar=
|Viri=
}}

{{Thesis
|Naslov=S poizvedovanjem obogatene tehnike generiranja pravnih besedil
|NaslovEng=
|Avtor=Rok Mušič
|Opis=
|KljucneBesede=
|KljucneBesedeEng=
|Komentar=
|Viri=
}}

{{Thesis
|Naslov=Razvoj spletne aplikacije MarinePRO
|NaslovEng=
|Avtor=Mojca Dimič
|Opis=
|KljucneBesede=
|KljucneBesedeEng=
|Komentar=
|Viri=
}}

{{Thesis
|Naslov=Razvoj odprtokodnega ogrodja za obdelavo naravnega jezika
|NaslovEng=
|Avtor=Miha Krištofelc
|Opis=
|KljucneBesede=
|KljucneBesedeEng=
|Komentar=
|Viri=
}}

{{Thesis
|Naslov=Pregled in uporaba grafnih podatkovnih baz s podporo SPARQL
|NaslovEng=
|Avtor=Domen Antlej
|Opis=
|KljucneBesede=
|KljucneBesedeEng=
|Komentar=
|Viri=
}}

== 2023 ==

{{Thesis
|Naslov=Izboljševanje podatkovnih baz sestave živil: dopolnjevanje manjkajočih vrednosti preko vložitev grafa znanja
|NaslovEng=Enhancing Food Composition Databases: Predicting Missing Values via Knowledge Graph Embeddings
|Avtor=Marko Možina
|Opis=[[File:Screenshot 2025-02-28 at 15.32.23.png|400px|right]]Podatkovne baze sestave živil (PBSŽ) so temeljno orodje pri raziskavah na področju prehrane, ocenah hranilnih vrednosti in sorodnih domenah (npr. zdravje, okolje). Vendar se, tako kot druge znanstvene discipline, tudi področje prehrane in sestave živil spopada s težavo manjkajočih podatkov. To lahko znatno zmanjša natančnost in zanesljivost analiz, ki temeljijo na strukturi živil, saj vpeljuje element dvoumnosti in s tem omejuje njihovo uporabo. Za rešitev tega problema so bile predlagane različne metode za dopolnjevanje manjkajočih podatkov. Najlažji in najpogostejši pristop je izračun povprečja oziroma mediane iz razpoložljivih podatkov v isti bazi ali pa izposoja vrednosti iz drugih. Vendar pa lahko takšne preproste metode povzročijo znatne napake. V tem diplomskem delu se raziskuje uporaba modela ComplEx iz knjižnice Ampligraph, ki temelji na vektorskih vložitvah grafa znanja za dopolnjevanje manjkajočih vrednosti v PBSŽ. S pristopom opisanim v tem delu lahko model zajame temeljno strukturo in odnose med podatki, kar omogoča natančno dopolnjevanje manjkajočih vrednosti. To dodatno potrjujejo rezultati tega dela, saj so primerljivi s tistimi najsodobnejših modelov. Uporaba predlagane metode bi lahko v prihodnje privedla do natančnejših in zanesljivejših analiz na področju prehranskih raziskav.
|KljucneBesede=podatkovna baza sestave živil, hranilne vrednosti, manjkajoči podatki, strojno učenje na grafih, vložitev grafa znanja, analiza in raziskovanje podatkov, dopolnjevanje manjkajočih vrednosti, ampligraph
|KljucneBesedeEng=food composition database, nutrient values, missing data, graph machine learning, knowledge graph embeddings, data exploration, missing value imputation, ampligraph
|Komentar=
|Viri=[{{filepath:63190027-Marko Možina-Izboljševanje podatkovnih baz sestave živil dopolnjevanje manjkajočih vrednosti preko vložitev grafa znanja.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Uporaba metod obdelave naravnega jezika za uvrščanje shem programskih vmesnikov v enoten podatkovni model
|NaslovEng=Use of natural language processing methods for classification of application programming interface schemas into a unified data model
|Avtor=Matic Conradi
|Opis=Cilj te raziskave je razviti sistem, ki je zmožen klasificirati sheme objektov JSON, ki izvirajo iz različnih sistemov za digitalizacijo procesov, ter najti ujemanja s predstavitvami domenskih entitet platforme DevRev. Glavni izziv, s katerim se soočamo, leži v raznolikosti struktur teh objektov, kar zahteva uporabo algoritmov za obdelavo naravnega jezika.
|KljucneBesede=obdelava naravnega jezika, uvrščanje shem, Word2Vec, BERT, GPT, veliki jezikovni modeli
|KljucneBesedeEng=natural language processing, schema classification, Word2Vec, BERT, GPT, large language models
|Komentar=
|Viri=[{{filepath:63190078-Matic Conradi-Uporaba metod obdelave naravnega jezika za uvrščanje shem programskih vmesnikov v enoten podatkovni model.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Pregled in analiza semantičnih (SPARQL) podatkovnih baz
|NaslovEng=Review and analysis of semantic (SPARQL) databases
|Avtor=Anja Ostovršnik
|Opis=Semantične baze so posebna vrsta podatkovnih baz, ki omogočajo shranjevanje in poizvedovanje podatkov na način, ki upošteva njihov pomen in medsebojne odnose. Namen diplomske naloge je predstavitev in primerjava nekaj najbolj razširjenih rešitev na področju semantičnih baz. Vsebinsko je diplomska naloga razdeljena na dva dela. V prvem delu so opredeljeni kriteriji za primerjavo različnih ponudnikov semantičnih baz ter opis in primerjava njihovih rešitev. V drugem delu so opisani načini testiranja in načrt implementacije baz. V praktičnem delu izvedemo testiranje po zastavljenih testnih scenarijih. V zaključku so podane ključne ugotovitve glede predstavljenih semantičnih podatkovnih baz.
|KljucneBesede=podatkovne baze, semantični splet, ontologije, SPARQL
|KljucneBesedeEng=databases, semantic web, ontologies, SPARQL
|Komentar=
|Viri=[{{filepath:63190210-Anja Ostovršnik-Pregled in analiza semantičnih SPARQL podatkovnih baz.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Prepoznavanje imenskih entitet na domenskih besedilih iz farmacije
|NaslovEng=Named entity recognition in pharmaceutical domain texts
|Avtor=Benjamin Kovač Keber
|Opis=Prepoznavanje imenskih entitet je ena od nalog problema procesiranja naravnega jezika. Gre za označevanje besed in besednih zvez z oznakami v naprej določenih tipov imenskih entitet. Primeri uporabe prepoznavanja imenskih entitet so klasifikacija vsebine za ponudnike novic, učinkoviti iskalni algoritmi, priporočanje vsebine, organizacija člankov in podpora strankam. Preučili smo problem prepoznavanja imenskih entitet na domenskih besedilih iz farmacije. V ta namen smo uporabili štiri različne metode in za učenje modelov uporabili dva korpusa (CHEMDNER in n2c2), ki imata ročno označene imenske entitete iz področja farmacije (in kemije). Modele smo evalvirali tudi na besedilih, ki smo jih sami ročno označili. Najbolje se je odrezal model BERT. Za praktično uporabo pa bo verjetno potrebno v modele vložiti še nekaj truda za izboljšave.
|KljucneBesede=procesiranje naravnega jezika, prepoznavanje imenskih entitet, farmacija
|KljucneBesedeEng=natural language processing, named entity recognition, pharmacy
|Komentar=
|Viri=[{{filepath:63190159-BENJAMIN KOVAČ KEBER-Prepoznavanje imenskih entitet na domenskih besedilih iz farmacije.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Primerjava metod za avtomatsko ekstrakcijo podatkov iz spleta
|NaslovEng=Comparison of methods for automatic Web data extraction
|Avtor=Gašper Martič
|Opis=[[File:Screenshot 2025-02-28 at 15.25.19.png|400px|right]]Namen diplomskega dela je pregledati in ovrednotiti obstoječe metode za avtomatsko ekstrakcijo podatkov s spletnih strani. Tovrstne metode preko analize večjega števila podobnih spletnih strani avtomatsko generirajo ovojnico, ki je sposobna s spletne strani izluščiti podatke, tudi če se struktura strani s časom rahlo spremeni. Rezultati diplomskega dela ponujajo enostaven pregled nad različnimi metodami za pridobivanje podatkov s spletnih strani. To je lahko koristno za uporabnika, ker iz spletne strani izloči moteče oglase in navigacijske menije, ki odvračajo pozornost od vsebine. Kvaliteta posamezne metode se meri v hitrosti in sposobnosti odstranjevanja nerelevantnih podatkov ter ohranjanju tistih, ki so pomembni za dojemanje vsebine. Izvajanje samih metod je avtomatizirano s pomočjo programa v jeziku Python, ki ga lahko poganjamo iz ukazne vrstice. Uporabljani sta obstoječi implementaciji metod RoadRunner in Webstemmer, prikazani pa so rezultati njunega delovanja na petih slovenskih spletnih medijih. Poleg tega je implementirana tudi polavtomatska metoda pridobivanja podatkov s pomočjo ogrodja Scrapy, da lahko vidimo rezultate in kompleksnost v primerjavi s popolnoma avtomatsko metodo.
|KljucneBesede=ekstrakcija, spletni pajek, ovojnica, novice
|KljucneBesedeEng=extraction, Web crawler, wrapper, news
|Komentar=
|Viri=[{{filepath:63170195-GAŠPER MARTIČ-Primerjava metod za avtomatsko ekstrakcijo podatkov iz spleta.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Informacijski sistem za upravljanje marin
|NaslovEng=Management information system for marinas
|Avtor=Lovro Jevnikar
|Opis=[[File:Screenshot 2025-02-28 at 15.22.28.png|400px|left]]V diplomski nalogi se bomo ukvarjali z izdelavo informacijskega sistema za podporo marin. Končni izdelek bo spletna aplikacija, izdelana z orodjem VueJS. Rešitev bo digitalizirala postopek upravljanja marine. Reševali bomo problem urejanja oziroma popravila privezov, hranjenje informacij o trenutnem stanju marine in tudi možnost plačila oziroma rezervacije le teh. Za izboljšano uporabniško izkušnjo bomo aplikaciji dodali interni forum za komunikacijo med strankami znotraj marine. Pri izdelavi bomo uporabil storitve Amazon web services, Google maps API, Bootstrap in ostale Vue komponente. Za izbrano tematiko smo se odločili, ker po pregledu področja nismo našli primerne rešitve za omenjeni problem.
|KljucneBesede=marine, informacijski sistem, spletna aplikacija, VueJs, uporabniški vmesnik, privez, strežnik, odejmalec, HTTP
|KljucneBesedeEng=marine, information system, web application, VueJs, user interface, mooring, server, client, HTTP
|Komentar=
|Viri=[{{filepath:63160147-LOVRO JEVNIKAR-Informacijski sistem za upravljanje marin.pdf}} Diplomsko delo]
}}

== 2022 ==

{{Thesis
|Naslov=Zasnova ogrodja za izvajanje metod za procesiranje naravnega jezika
|NaslovEng=Design of a framework for execution of natural language processing methods
|Avtor=Nik Hrovat
|Opis=V diplomski nalogi bomo predstavili predlog svojega ogrodja za procesiranje naravnega jezika. Cilj procesiranja je, da računalnik razume vsebino dokumentov, izloči informacije iz besedila in dokumente organizira ter razvrsti. Opisali bomo nekaj metod, ki se uporabljajo pri procesiranju naravnega jezika. Ob tem bomo primerjali še nekaj obstoječih ogrodij in knjižnic ter najboljšo tudi podrobneje predstavili na podatkovnem modelu. Na podlagi analize obstoječih ogrodij in knjižnic bomo predstavili tudi naš podatkovni model, ki ga bomo testirali z nekaterimi metodami procesiranja naravnega jezika in ga tudi grafično prikazali.
|KljucneBesede=NLP, procesiranje, naravni jezik
|KljucneBesedeEng=NLP, processing, natural language
|Komentar=
|Viri=Diplomsko delo je v popravkih.
}}

{{Thesis
|Naslov=Vpliv govorjenih posnetkov na analizo sentimenta njihovih transkriptov
|NaslovEng=Sentiment analysis of voice recordings and their transcripts
|Avtor=Martin Jurkovič
|Opis=[[File:Screenshot 2025-02-28 at 15.17.59.png|400px|right]]Analiziranje sentimenta s pomočjo metod strojnega učenja je ena bolj raziskanih tem na področju obdelave naravnega jezika. Večina raziskav se osredotoča na analiziranje pisanega besedila kot so članki ali knjige. V primeru govorjenega besedila pa se poleg transkriptov posnetkov lahko analizira tudi sama zvočna datoteka posnetka. V diplomski nalogi smo raziskali in naučili različne modele strojnega učenja za analizo sentimenta na transkriptih posnetkov, nato pa poskusili izboljšati rezultate tekstovnih modelov z modeli, zgrajenimi na podatkih pridobljenih iz zvočnih datotek posnetkov. Za združevanje ter izboljšanje napovedi besedilnih in zvočnih modelov smo uporabili metodo zlaganja modelov. V delu smo raziskali in implementirali celoten cevovod za predprocesiranje podatkov, generiranje značilk ter učenje in testiranje besedilnih in zvočnih modelov ter meta modela z metodo zlaganja.
|KljucneBesede=procesiranje naravnega jezika, strojno učenje, analiza sentimenta, procesiranje zvoka, multimodalno učenje, zlaganje
|KljucneBesedeEng=natural language processing, machine learning, sentiment analysis, sound processing, multimodal learning, stacking
|Komentar=
|Viri=[{{filepath:63180015-Martin Jurkovič-Analiza sentimenta zvočnih posnetkov in njihovih transkriptov.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Klasifikacija sovražnega govora v slovenskem in angleškem jeziku
|NaslovEng=Hate speech classification for Slovene and English language
|Avtor=Nik Pirnat
|Opis=S porastom sovražnega govora na družbenih omrežjih je nastala tudi večja potreba po nadzoru, vendar bi bil zaradi velike količine informacij ročni nadzor praktično nemogoč, tako se za določanje sovražnega govora danes po večini uporabljajo nevronske mreže. Za učenje nevronskih mrež potrebujemo veliko število označenih podatkov, vendar so javno dostopne podatkovne množice redko podrobno označene, predvsem to drži za jezike z relativno malo govorci. Za slovenski jezik obstaja malo javno dostopnih podatkovnih množic, ki bi vsebovale več bolj podrobnih oznak, zato preizkusimo kako se izkaže podatkovna množica, ki je sestavljena iz več različnih množic. Na sestavljenih množicah s posplošenimi skupnimi oznakami učimo nevronsko mrežo BERT in naše rezultate primerjamo z rezultati, ki so jih dosegli avtorji prvotnih podatkovnih množic. Ugotovimo, da so rezultati, ki jih dosežemo zadovoljivi in predlagamo izboljšave, ki bi omogočile, da bi na sestavljenih množicah dosegli enako dobre rezultate kot na množicah izdelanih za določeno nalogo.
|KljucneBesede=večrazredno razvrščanje, procesiranje besedila, sovražni govor
|KljucneBesedeEng=multiclass classification, text processing, hate speech
|Komentar=
|Viri=[{{filepath:63170231-Nik Pirnat-Uvrščanje sovražnega govora v slovenskem in angleškem jeziku.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Odkrivanje biomedicinskih vzorcev za nevrodegenerativne bolezni iz biomedicinske znanstvene literature
|NaslovEng=Mining patterns for neurodegenerative diseases from biomedical scientific literature
|Avtor=Radoslav Atanasoski
|Opis=[[File:Screenshot 2025-02-28 at 14.57.05.png|300px|right]]Dandanes obstaja ogromna količina biomedicinskega znanja, ki vsak dan hitro prihaja skozi znanstveno objavljene članke. Vendar pa je poskušati slediti temu resnično zahtevno in vzame preveč časa. Se več, pri iskanju relevantnih dokumentov z zahtevanimi podatki. Da bi zdravstvenim delavcem pomagali ostati na tekočem in najti članke, povezane z njihovimi temami iskanja, v tej diplomski nalogi ustvarimo cevovod za pridobivanje informacij (IR), pri čemer najprej navedemo, s katerimi nevrodegenerativnimi boleznimi so članki povezani, in zagotovimo tudi analizo, ki pokaže, najpogostejših vzorcev, ki so raziskani in objavljeni. Za modeliranje smo raziskali več najsodobnejših modelov učenja za predstavitev besedila, kot so BERT, RoBERTa in BioBERT. Po natančnem prilagajanju vsakega modela je bil kot model za cevovod IR izbran BioBERT, ki zagotavlja izjemno zmogljivost s 94% navzkrižno validacijo CA. Prav tako primerjamo naš najsodobnejši model z bolj tradicionalnim in pogosto uporabljenim modelom Random Forest. Poleg tega so bili za analizo pogostih vzorcev uporabljeni izvlečki vpletenih bolezni opombe in koncepti kemičnih in genetskih spojin so bili ekstrahirani z uporabo modela prepoznavanja poimenovanih entitet (NER). Po tem so bile vse entitete normalizirane z uporabo povezovanja imenovanih entitet (NEL). Na ekstrahiranih entitetah je bilo uporabljeno rudarjenje asociacijskih pravil, da bi našli najpogosteje raziskane vzorce za vsako bolezen, ki so nadalje prikazani z uporabo več tehnik vizualizacije. Ti rezultati bodo zdravstvenim delavcem pomagali pri navajanju najnovejših informacij, po drugi strani pa bodo pokazali tudi na manjkajoče vrzeli, ki za določeno bolezen niso dobro raziskane. Podatki, vključeni v to študijo, so bili pridobljeni iz javno dostopne zbirke podatkov PubMed.
|KljucneBesede=podatkovno rudarjenje, učenje tekstovnih predstavitev, učenje asociacijskih pravil
|KljucneBesedeEng=data mining, text representation learning, association rule mining
|Komentar=Delo je bilo narejeno v somentorstvu z doc. dr. Tometom Eftimovim.
|Viri=[{{filepath:63190355-Radoslav Atanasoski-Odkrivanje vzorcev za nevrodegenerativne bolezni iz biomedicinske znanstvene literature.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=Analiza vpliva omemb kriptovalut na njihovo ceno
|NaslovEng=Analysis of the impact of cryptocurrency mentions on their price
|Avtor=Tilen Miklavič
|Opis=[[File:Screenshot 2022-08-26 at 12.21.31.png|400px|right]] V okviru te naloge, sem raziskal, ali javni sentiment na družbenem omrežju Twitter vpliva na gibanje trga kriptovalut. Ta podatek bi lahko navdušenci izkoristili pri svojih analizah. Zbral in analiziral bom podatke za več kriptovalut in jih razvrstil v seznam po odvisnosti od javnega sentimenta. To mi bo pomagalo pri izdelavi napovednega modela, ki bo podajal obvestila o abnormalnih dogodkih na socialnih omrežjih. Uspešen rezultat naloge bo napovedni model, ki bo pravilno in časovno natančno klasificiral dogajanje na družbenem omrežju. V sodelovanju s spletno aplikacijo bi lahko tako uporabnika v realnem času o teh dogodkih obveščal.
|KljucneBesede=kriptovaluta, kovanec, družbena omrežja
|KljucneBesedeEng=cryptocurrency, coin, social network
|Komentar=
|Viri=[{{filepath:63180204-TILEN MIKLAVIČ-Analiza vpliva omemb kriptovalut na njihovo ceno-2.pdf}} Diplomsko delo]
}}

{{Thesis
|Naslov=GeoTools: spletne storitve za izvajanje prostorskih analiz
|NaslovEng=GeoTools: Web services for performing spatial analysis
|Avtor=Sanil Safić
|Opis=[[File:Screenshot 2022-08-26 at 12.17.03.png|200px|left]] Na spletu so dostopne mnoge storitve, ki omogočajo napredne prostorske analize, a so le te pomankljive, omejene ali pa se ponujajo v obliki programske opreme. S spletno storitvijo GeoTools prostorske analize iz različnih virov povežemo v eno samostojno celoto. GeoTools vsebuje module iz knjižnice GeoPandas, QGIS in PostGIS. Storitev ima implementiran tudi cevovod prostorskih analiz, kar pomeni, da lahko zaporedoma opravi več želenih analiz. GeoTools uporabniku, predvsem programerju, olajša implementacijo prostorskih analiz v projektih. Za lažjo uporabo smo razvili NPM knjižnico, ki se povezuje na storitev in vsakomur omogoči enostaven dostop do njenih funkcionalnosti. NPM knjižnica vsebuje tudi enostaven grafični vmesnik, ki s pomočjo knjižnice OpenLayers omogoči uporabniku, da svoje vhodne in izhodne podatke tudi prikaže na spletni karti.
|KljucneBesede=spletna storitev, prostorske analize
|KljucneBesedeEng=web service, spatial analysis
|Komentar=V somentorstvu z Nejcem Krašovcem.
|Viri=[{{filepath:63180258-SANIL SAFIĆ-GeoTools spletne storitve za izvajanje prostorskih analiz.pdf}} Diplomsko delo], [https://www.npmjs.com/package/geotoolsconnector NPM Connector for public services]
}}

{{Thesis
|Naslov=Analiza in primerjava sistemov za informacijsko poizvedovanje
|NaslovEng=Analysis and comparison of information retrieval systems
|Avtor=Mark Redelonghi
|Opis=[[File:Solr diagram colored.png|200px|right]] V diplomskem delu se je analiziralo in primerjalo manjšo množico sistemov za informacijsko poizvedovanje. Raziskava se je osredotočila na iskanje po besedilu, kjer se uporabi procesiranje naravnega jezika. Izbrani sistemi so bili primerjani glede na način delovanja, indeksiranja, poizvedovanja ter časovne in prostorske lastnosti. Za primerjavo se je pridobilo korpuse besedil in definiralo poizvedbe s katerimi se je primerjalo izbrane sisteme. V zaključku so podane prednosti in slabosti sistemov skupaj s primeri uporabe.
|KljucneBesede=računalnik, procesiranje naravnega jezika, solr, milvus, podatki, iskanje
|KljucneBesedeEng=computer, natural language processing, solr, milvus, data, search
|Komentar=
|Viri=[{{filepath:63180247-MARK REDELONGHI-Analiza in primerjava sistemov za informacijsko poizvedovanje.pdf}} Diplomsko delo], [https://github.com/UL-FRI-Zitnik/Redelonghi-IR-systems-comparison Izvorna koda]
}}

{{Thesis
|Naslov=Odprta ekstrakcija informacij za slovenski jezik
|NaslovEng=Open information extraction for Slovenian language
|Avtor=Miha Bogataj
|Opis=[[File:Screenshot 2022-08-03 at 16.25.12.png|500px|right]] Odprta ekstrakcija informacij je proces procesiranja naravnega jezika, ki iz posameznih povedi izvleče možne odvisnosti. Odvisnosti so sestavljene iz semantične trojice, kjer prvi člen predstavlja subjekt o katerem poizvedujemo, relacije, ki opiše, kako se prvi člen navezuje na tretjega, in objekt. Sistem odprte ekstrakcije informacij za slovenščino temelji na metodi na podlagi pravil. Sistem je sestavljen iz predprocesorja in ekstraktorja. Vloga predprocesorja je obdelava vhodnega besedila s pomočjo sistema CLASSLA, ki slovnično analizira poved, lematizacija in izgradnja semantičnega drevesa. Vloga ekstraktorja je, da z uporabo pravil poišče relacije v povedi. Ta pravila so bolj kompleksna kot v angleščini, ker je v slovenščini besedni red bolj prost. Slovenščina pozna tudi več sklanjatev, ki omogočajo bolj točno določitev subjekta in objekta. Med najdenimi ekstrakcijami je možno iskanje na dva načina: iskanje povedi in dopolnjevanje parametrov. Iskanje povedi zahteva izpolnjene vse parametre semantične trojice in vrne seznam povedi, ki ustrezajo iskani semantični trojici. Dopolnjevanje parametrov zahteva dva izpolnjena parametra, od katerih je relacija obvezna. Ta način vrne seznam možnih vrednosti za manjkajoč parameter.
|KljucneBesede=ekstrakcija, informacija, slovenščina
|KljucneBesedeEng=extraction, information, Slovenian language
|Komentar=
|Viri=[{{filepath:63170058-MIHA BOGATAJ-Odprta ekstrakcija informacij za slovenski jezik.pdf}} Diplomsko delo], [https://github.com/UL-FRI-Zitnik/OpenIE Izvorna koda (zasebno)]
}}

{{Thesis
|Naslov=SloBench: Slovenski vrednotnik metod za obdelavo naravnega jezika
|NaslovEng=SloBench: Slovenian Natural Language Processing Benchmark
|Avtor=Frenk Dragar
|Opis=[[File:Screenshot 2022-08-03 at 16.29.13.png|500px|right]]Z nedavno priljubljenostjo modelov obdelave naravnega jezika, ki temeljijo na arhitekturi transformer, in njihove najsodobnejše zmogljivosti pri številnih nalogah NLP, je vse večja potreba po objektivnem ocenjevanju teh orodij in omogočanju njihove primerjave. Obstajajo številni nabori podatkov in meril za NLP naloge, ki pa večinoma temeljijo na angleškem jeziku. V diplomski nalogi kandidat opiše razvoj prve slovenske platforme za avtomatsko primerjavo NLP modelov - SloBench, skupaj z njenim razširljivim in od sistemske arhitekture neodvisnim ogrodjem za evalvacijo sistemov. Nato kritično oceni projekt, ga primerja z obstoječimi merili uspešnosti NLP in poda nekaj idej za prihodnje razširitve platforme.

:Evalvacija nalog procesiranja naravnega jezika (NLP) je bistven del raziskav in napredka na tem področju. Zagotavlja objektiven standard za uspešnost in primerjavo sistemov pri določeni nalogi. Podamo pregled nedavnih javnih lestvic za najboljše sisteme in trendov njihovega ocenjevanja s poudarkom na avtomatskem vrednotenju sistemov. Nato predlagamo, implementiramo in dokumentiramo splošno, razširljivo in od sistemske arhitekture neodvisno ogrodje za evalvacijo sistemov, skupaj s prvo spletno platformo za avtomatsko vrednotenje NLP nalog v slovenščini z javnimi lestvicami, ki prikazujejo rezultate objavljenih sistemov.
|KljucneBesede=procesiranje naravnega jezika, vrednotenje, lestvica najboljših, strojno učenje, spletna platforma
|KljucneBesedeEng=natural language processing, benchmarking, leaderboard, machine learning, web platform
|Komentar=
|Viri=[{{filepath:63180008-FRENK DRAGAR-SloBench Slovenski vrednotnik metod za obdelavo naravnega jezika.pdf}} Diplomsko delo], [https://slobench.cjvt.si SloBENCH spletišče], [https://github.com/clarinsi/slobench-eval-docker Evalvacijsko ogrodje], Izvorna koda spletne aplikacije in članek (v pripravi)
}}

== 2021 ==

{{Thesis
|Naslov=Obdelava velikih količin podatkov v skoraj realnem času
|NaslovEng=Near real-time processing of large amounts of data
|Avtor=Anže Habjan
|Opis=V času, ko količina generiranih podatkov na spletu narašča tako hitro kot še nikoli, je toliko bolj pomembno, da je obdelava le teh kar se da hitra. Opišemo implementacijo celostnega sistema, ki bo specializiran za obdelavo pretočnih podatkov v skoraj realnem času, in bo vključeval po eno orodje za vsak del: pridobivanje, obdelava, shranjevanje in vizualizacija. Posamezna orodja so utemeljeno izbrana na podlagi našega realnega primera uporabe sistema, ki je obdelava čivkov (tweet), ki nastanejo na omrežju Twitter v času nogometne tekme. Na primeru uporabe tudi prikažemo analize in vizualizacije, ki jih omogoča implementiran sistem. Zaključimo s prikazom nekaj metrik našega sistema v času obdelave.
|KljucneBesede=veliki podatki, obdelava, skoraj realni čas, Twitter, nogomet
|KljucneBesedeEng=big data, processing, near real-time, Twitter, football
|Komentar=
|Viri=[{{filepath:63170110-Anže Habjan-Obdelava velikih količin podatkov v skoraj realnem času.pdf}} Diplomsko delo]
}}
{{Thesis
|Naslov=Primerjava in analiza statičnih generatorjev spletnih strani
|NaslovEng=Comparison and analysis of static Web site generators
|Avtor=Luka Toni
|Opis=Na spletu obstaja veliko načinov, kako ustvariti spletno stran in veliko različnih sistemov za upravljanje z vsebino, ki jih lahko uporabimo. Na voljo imamo različne spletne generatorje strani, kjer z malo tehničnega znanja lahko enostavno in hitro naredimo sodobno spletno stran.

:Generator statičnih strani je kompromis med ročno napisano kodo in polnim sistemom za upravljanje z vsebino, ki uporablja prednosti obeh. Primerjali smo 3 različne generatorje: Jekyll, Hugo in Gatsby. Na vseh treh generatorjih smo definirali ključne gradnike, ki jih ima povprečna spletna stran in jih implementirali z vsakim sistemom posebej ter nato primerjali med seboj. Poiskali smo prednosti in slabosti vseh treh generatorjev ter se posvetili temu, kako izdelati spletni dnevnik.
|KljucneBesede=generatorji statičnih strani, Jekyll, Hugo, Gatsby
|KljucneBesedeEng=static site generators, Jekyll, Hugo, Gatsby
|Komentar=
|Viri=[{{filepath:63120258-LUKA TONI-Primerjava in analiza statičnih generatorjev spletnih strani.pdf}} Diplomsko delo], [https://github.com/LukaToni/Jekyll-personal-blog Primer Jekyll], [https://github.com/LukaToni/Hugo-personal-blog Primer Hugo], [https://github.com/LukaToni/Gatsby-personal-blog Primer Gatsby]
}}
{{Thesis
|Naslov=Implementacija storitve za deljenje in spremljanje lokacije
|NaslovEng=Implementation of location tracking service
|Avtor=Matej Baša
|Opis=Lokacijske storitve so v mobilnih napravah postale zelo pomembne. Veliko aplikacij spremlja lokacijo uporabnika ter na podlagi te pošilja promocijska sporočila, prikaže ustanove v bližnji okolici, napove temperaturo na trenutni lokaciji ipd.

:Diplomsko delo opisuje in analizira postopek implementacije in razvoja lokacijsko zavedne storitve na platformi Android s pomočjo programskega jezika Java. V delu je predstavljen celoten razvoj aplikacije, vse uporabljene plat- forme, orodja in knjižnice ter tehnologije lokacijske zavednosti. Pozornost je namenjena varnosti podatkov in preprosti implementaciji lokacijskih storitev.
|KljucneBesede=Android, Lokacijske storitve, GPS, Wifi, Mobilno omrežje, Google API, Zajemanje senzoričnih podatkov, Lokacijska področja, Firebase
|KljucneBesedeEng=Android, Location services, GPS, Wifi, Mobile networks, Google API, Gathering of sensoric data, Location area, Firebase
|Komentar=
|Viri=[{{filepath:63160059-MATEJ BAŠA-Implementacija storitve za deljenje in spremljanje lokacije.pdf}} Diplomsko delo]
}}
{{Thesis
|Naslov=Samodejno prepoznavanje vsebinskih blokov znotraj spletišč
|NaslovEng=Automatic identification of content blocks from Web sites
|Avtor=Mitja Brezovnik
|Opis=Informacije so dandanes enostavno dostopne, informiranost pa ključnega pomena. S to mislijo smo se lotili izdelave rešitve, ki bo omogočala luščenje vsebine člankov iz slovenskih novičarskih portalov. Glavni problem s katerim se pri tovrstnih rešitvah soočimo je ločitev vsebine od nepotrebnih informacij, kot so oglasi, komentarji in ostali postavitveni elementi spletnih strani. Za rešitev tega problema smo ubrali pristop, ki temelji na značilnostih plitkih besedil. Na njegovi osnovi smo zasnovali jezikovni model, ki smo ga zgradili s pomočjo slovenskega korpusa 10000 slovenskih člankov iz 5 različnih novičarskih portalov. Končni izdelek predstavlja ekstraktor, ki omogoča pridobitev vsebine slovenskih člankov in jih predstavi v strukturirani obliki.
|KljucneBesede=ekstrakcija, članki, značilnosti plitkih besedil
|KljucneBesedeEng=extraction, articles, shallow text features
|Komentar=
|Viri=[{{filepath:63160079-MITJA BREZOVNIK-Samodejno prepoznavanje vsebinskih blokov znotraj spletišč.pdf}} Diplomsko delo]
}}
{{Thesis
|Naslov=Podpora za implementacijo večjezičnosti za spletne aplikacije
|NaslovEng=Implementation of multilingual support for Web applications
|Avtor=Tomaž Nemanič
|Opis=V diplomski nalogi je celovito proučena aktualna podpora za implementacijo večjezičnosti na spletnih straneh. Prikazanih je več načinov implementacije za večjezičnost v spletišču "Mes''. Ključnega pomena je točnost prevajanih podatkov aplikacije, zato se na dani platformi uresničuje prevajanje orodnih vrstic oziroma splošnih podatkov na čelnem delu aplikacije, prevajanje specifičnih pojmov pa z uporabo relacijske podatkovne baze na zalednem delu aplikacije. Poimenovanja proizvodov, njihovih lastnosti in drugih storitev so specifični strokovni pojmi, ki jih je potrebno stalno dodajati, spreminjati ali celo izbrisati iz evidence v določenem podjetju, zato se implementacija vrši na zalednem delu. Internacionalizacija in lokalizacija zagotovita prevajanje v jezik okolja, v katerem se uporabnik nahaja. Sodobna aplikacija upošteva tudi najboljše uporabniške izkušnje.
|KljucneBesede=aplikacija, internacionalizacija, lokalizacija, implementacija
|KljucneBesedeEng=application, internationalization, localization, implementation
|Komentar=
|Viri=[{{filepath:63170212-TOMAŽ NEMANIČ-Podpora za implementacijo večjezičnosti za spletne aplikacije.pdf}} Diplomsko delo]
}}

== 2020 ==

{{Thesis
|Naslov=Optimizacija priprave in pregled oglaševanja na platformi Twitter
|NaslovEng=Optimization of creation and preview of advertising on Twitter platform
|Avtor=Domen Tominec
|Opis=V dobi, ko postaja oglaševanje na družbenih omrežjih vedno donosnejši posel, se večina podjetij z oglaševalskimi rešitvami srečuje s težavo, kako razviti nove funkcionalnosti, s katerimi si bodo zagotovili konkurenčno prednost. V diplomski nalogi je predstavljena ideja ter razvoj funkcionalnosti, ki uporabnikom Httpoolove platforme \sn{Wise.Blue} omogoči hitrejšo in enostavnejšo pripravo twitterjevih oglasov. Predstavljeno je področje oglaševanja na družbenih omrežjih, glavni kanali ter največja slovenska podjetja na tem področju ter njihove rešitve. Podrobno so razloženi problem, postopek reševanja, uporabljena orodja in tehnologije, končni rezultati ter še odprta vprašanja.
|KljucneBesede=Twitter, oglaševanje, oglas, kreativa, kartica, makro
|KljucneBesedeEng=Twitter, advertising, ad, creative, card, macro
|Komentar=
|Viri=[{{filepath:63170291-DOMEN TOMINEC-Optimizacija priprave in pregled oglaševanja na platformi Twitter.pdf}} Diplomsko delo]
}}
{{Thesis
|Naslov=Celostno upravljanje s prehodi IoT za namene oddaljenega spremljanja pacientov
|NaslovEng=End-to-end IoT gateway management for remote patient monitoring
|Avtor=Jernej Cvek
|Opis=Internet stvari odpira neštete možnosti za izboljšanje življenja ljudi v različnih aplikacijskih domenah, tudi na področju zdravstvene oskrbe. V rešitvah za oddaljeno spremljanje pacientov so prehodi vezni člen med raznovrstnimi zdravstvenimi merilnimi napravami in platformo za omogočanje zdravstvenih aplikacij. Za učinkovito in pravilno delovanje prehodov je potrebno na platformi zagotoviti ustrezno podporo za vse postopke in dogodke, ki se zgodijo v življenjskem ciklu prehoda. Ključni prispevki tega diplomskega dela so predlagana referenčna arhitektura IoT, definicija faz življenjskega cikla prehoda ter opis postopkov, potrebnih za celostno upravljanje prehodov v rešitvah oddaljenega spremljanja pacientov.
|KljucneBesede=Internet stvari, IoT, IoMT, oddaljeno spremljanje pacientov, RPM, referenčna arhitektura, prehod, upravljanje življenjskega cikla, LCM
|KljucneBesedeEng=Internet of things, IoT, IoMT, remote patient monitoring, RPM, reference architecture, gateway, lifecycle management, LCM
|Komentar=
|Viri=[{{filepath:63100196-JERNEJ CVEK-Celostno upravljanje s prehodi IoT za namene oddaljenega spremljanja pacientov.pdf}} Diplomsko delo]
}}

== 2019 ==

{{Thesis
|Naslov=Vrednotenje in združevanje novic iz slovenskih spletnih medijev
|NaslovEng=Ranking and aggregation of Slovenian online news
|Avtor=Žan Horvat
|Opis=Na spletu obstaja mnogo različnih spletnih strani z novicami, ki pogosto vsebujejo podobne novice. Kakovost novic se med različnimi viri močno razlikuje. Prav tako obstaja kar nekaj spletnih aplikacij, ki podobne novice združujejo. Pogosto uporabniku ponudijo najbolj svežo novico, čeprav ta ni nujno najbolj informativna. Namen diplomske naloge je nadgradnja osnovnega agregatorja novic. Diplomska naloga zajema analizo spletnih mest z novicami in razvoj spletne aplikacije, ki zbira novice. Te združi s podobnimi in jih razvrsti tako, da izpostavi boljše na podlagi algoritmičnega vrednotenja. Aplikacija je sestavljena iz treh komponent, ki so izdelane v programskih jezikih JavaScript, TypeScript in Python.

:Prva komponenta zbira vsebino in ponuja dostop do te preko REST API-ja. Implementirana je s pomočjo Node.js, Express in MongoDB. Druga komponenta vrednoti in združuje besedila s pomočjo strojnega učenja in je implementirana v programskem jeziku Python. Tretja komponenta je implementirana s pomočjo ogrodja Angular, za prikaz rezultatov analize zbranih besedil.
|KljucneBesede=novice, primerjava besedil, slovenščina, ocenjevanje, agregiranje
|KljucneBesedeEng=news, text comparance, slovene, grading, aggregation
|Komentar=
|Viri=[{{filepath:63160130-Žan Horvat-Vrednotenje in združevanje novic iz slovenskih spletnih medijev.pdf}} Diplomsko delo]
}}
{{Thesis
|Naslov=Avtomatsko pridobivanje in prikaz podatkov o slovenskih zdravnikih
|NaslovEng=Automatic acquisition and visualization of Slovenian doctors' data
|Avtor=Jan Šturm
|Opis=V okviru diplomske naloge smo implementirali sistem za pridobitev in prikaz obremenitev slovenskih zdravnikov. Sistem smo poimenovali FrejDohtarji, saj uporabnikom omogoča lažji pregled nad zasedenostjo osebnih zdravnikov, zobozdravnikov in ginekologov. Uporabnik lahko na prvi strani filtrira zdravnike glede na tip izvajalca in območno enoto. Pri vsakem zdravniku se prikaže barvna oznaka, ki ponazarja, ali je še dolžan sprejemati nove paciente. Kriteriji so določeni s strani Zavoda za zdravstveno zavarovanje Slovenije, hkrati pa so relativno komplicirani, zaradi česar bodo barvne oznake poenostavile pregled dejanske obremenitve zdravnikov. Sistem podatke pridobiva iz različnih virov. Podatke o zdravnikih in njihovih obremenitvah pridobijo iz excelovih datotek, ki se nahajajo na spletni strani ZZZS. Dodatne informacije o delovnih časih in kontaktih pa se avtomatsko pridobijo s spletnih strani, kjer so objavljeni. Z uporabo aplikacije FrejDohtarji bo tako izbira zdravnika lažja in hitrejša, hkrati pa bodo na enem mestu zbrani še vsi dodatni podatki o zdravniku.
|KljucneBesede=obremenitve zdravnikov, zdravniki, spletne aplikacije, FrejDohtarji
|KljucneBesedeEng=doctors occupancy, doctors, Web applications, FrejDohtarji
|Komentar=
|Viri=[{{filepath:63150287-JAN ŠTURM-Avtomatsko pridobivanje in prikaz podatkov o slovenskih zdravnikih.pdf}} Diplomsko delo]
}}

File:Screenshot 2025-02-28 at 15.32.23.png

2025-02-28T14:32:35Z

Slavkoz:

File:63190027-Marko Možina-Izboljševanje podatkovnih baz sestave živil dopolnjevanje manjkajočih vrednosti preko vložitev grafa znanja.pdf

2025-02-28T14:31:31Z

Slavkoz:

File:63190078-Matic Conradi-Uporaba metod obdelave naravnega jezika za uvrščanje shem programskih vmesnikov v enoten podatkovni model.pdf

2025-02-28T14:30:20Z

Slavkoz:

File:63190210-Anja Ostovršnik-Pregled in analiza semantičnih SPARQL podatkovnih baz.pdf

2025-02-28T14:28:32Z

Slavkoz:

File:63190159-BENJAMIN KOVAČ KEBER-Prepoznavanje imenskih entitet na domenskih besedilih iz farmacije.pdf

2025-02-28T14:27:21Z

Slavkoz:

File:Screenshot 2025-02-28 at 15.25.19.png

2025-02-28T14:25:33Z

Slavkoz:

File:63170195-GAŠPER MARTIČ-Primerjava metod za avtomatsko ekstrakcijo podatkov iz spleta.pdf

2025-02-28T14:24:19Z

Slavkoz:

File:Screenshot 2025-02-28 at 15.22.28.png

2025-02-28T14:22:41Z

Slavkoz:

File:63160147-LOVRO JEVNIKAR-Informacijski sistem za upravljanje marin.pdf

2025-02-28T14:21:40Z

Slavkoz:

File:Screenshot 2025-02-28 at 15.17.59.png

2025-02-28T14:18:12Z

Slavkoz:

File:63180015-Martin Jurkovič-Analiza sentimenta zvočnih posnetkov in njihovih transkriptov.pdf

2025-02-28T14:17:07Z

Slavkoz:

File:63170231-Nik Pirnat-Uvrščanje sovražnega govora v slovenskem in angleškem jeziku.pdf

2025-02-28T14:14:52Z

Slavkoz:

Diploma theses

2025-02-28T14:11:30Z

Slavkoz:

File:Screenshot 2025-02-28 at 14.57.05.png

2025-02-28T13:57:18Z

Slavkoz:

File:63190355-Radoslav Atanasoski-Odkrivanje vzorcev za nevrodegenerativne bolezni iz biomedicinske znanstvene literature.pdf

2025-02-28T13:56:29Z

Slavkoz:

Diploma theses

2025-02-28T13:29:19Z

Slavkoz:

Diploma theses

2025-02-28T13:28:01Z

Slavkoz:

Diploma theses

2025-02-28T13:26:50Z

Slavkoz:

Master theses

2025-02-28T13:17:26Z

Slavkoz:

__NOTOC__
This Web page contains on-going and finished master theses. Thanks to all the candidates below that did (or are doing) great work!

If you are looking to prepare a master thesis under my supervision, please check [[Theses topics|available theses topics or propose your own idea]].

== 2024 ==

{{Thesis
|Naslov=S poizvedovanjem obogateno generiranje besedil z domensko specifičnim doučevanjem velikih jezikovnih modelov
|NaslovEng=Retrieval-augmented text generation with domain-specific large language models fine-tuning
|Avtor=Marko Ivanovski
|Opis=[[File:Screenshot 2025-02-28 at 14.16.28.png|500px|right]]Razvoj avtomatiziranega sistema za odgovarjanje na vprašanja, ki poenostavi obdelavo e-pošte za podporo strankam, je učinkovita rešitev za zmanjšanje časa in truda pri ročnem odgovarjanju. Trenutno agenti za podporo strankam na e-pošto odgovarjajo ročno, kar je zamudno in delovno intenzivno. Preizkusili smo več konfiguracij za vzpostavitev sistema, ki lahko samodejno odgovarja na ta e-poštna sporočila. Uporabljene podatke je zagotovilo podjetje Zebra BI, sestavljali pa so jih strukturiran korpus elektronskih sporočil podpore in nestrukturiran korpus, pridobljen iz dokumentacije izdelka. Primerjali smo dva glavna pristopa. Prvi je obsegal doučevanje velikega jezikovnega modela za neposredno odgovarjanje na e-pošto. Ta pristop je vseboval samo generator. Drugi je uporabljal arhitekturo RAG (angl. Retrieval-Augmented Generation), ki je vsebovala tako poizvedovalnik (angl. retriever) kot generator. Poizvedovalnik je poiskal podobne e-poštne odgovore in jih dodal kot kontekst za vnaprej naučen model LLM, ki je nato odgovarjal na vprašanje z uporabo prejšnjih podobnih e-pošt. V ta namen smo implementirali dvojno-dekodirni poizvedovalni model, pri čemer smo uporabili tehniko učenja LoRA in kvantizacijo. Dvojno-dekodirni poizvedovalni model je ustvaril vgradnje (angl. embeddings) tako za vprašanja kot odgovore z uporabo ločenih dekodirnikov in jih razvrstil glede na kosinusno podobnost. Razvili smo šest različnih konfiguracij sistema za odgovarjanje na vprašanja. Nekatere konfiguracije so uporabljale tako komponento poizvedovalnika kot generatorja, druge pa so imele samo generator. Najbolje se je izkazala konfiguracija s prilagojenim dvojno-dekodirnim poizvedovalnim modelom, ki je izboljšala sposobnost sistema za iskanje relevantnih informacij iz domensko-specifičnega e-poštnega korpusa. To je tudi pokazalo, da je učenje poizvedovalnika in uporaba arhitekture RAG učinkovitejša rešitev od doučevanja modela LLM, kadar je količina podatkov majhna in nizke kakovosti. Najbolj optimalen poizvedovalnik, zgrajen na arhitekturi Llama-2-7B z uporabo LoRA in 4-bitne kvantizacije, je dosegel natančnost 0.53 pri Accuracy@100 in 0.032 pri MRR@100. V primerjavi s tem je najsodobnejši model poizvedovalnika BGE-large-en dosegel 0.282 pri Accuracy@100 in 0.009 pri MRR@100 v isti domeni. V kombinaciji z GPT-4o kot generatorjem je v našem ročnem ocenjevanju poizvedovalnik z dvojno-dekodirnim modelom prejel oceno 1282 ELO, medtem ko je poizvedovalnik BGE-large-en z istim generatorjem dosegel oceno 1256, doučeni LLM model pa oceno 1071. Eksperimenti so pokazali, da konfiguracija z dvojno-dekodirnim poizvedovalnim modelom zagotavlja najbolj natančne in kontekstualno ustrezne odgovore ter tako presegla najsodobnejšo konfiguracijo. Prav tako so pokazali, da je možno LLM modele z dekodirnikom uporabiti za gradnjo poizvedovalnika z relativno majhno količino podatkov. Končni sistem, integriran v Chrome razširitev, je močno vplival na delovne procese podpore v Zebra BI z avtomatizacijo velikega dela odgovarjanja. S tem se je ne le zmanjšal čas odgovarjanja, ampak se je izboljšala tudi natančnost in doslednost odgovorov za stranke. Razširitev zdaj ekipa podpore v Zebra BI uporablja pol-avtomatsko, kar omogoča agentom, da se osredotočijo na bolj zahtevna vprašanja.
|KljucneBesede=Ustvarjanje besedil, odgovarjanje na vprašanja, iskanje, kodirnik, dekodirnik, transformatorji, iskanje nestrukturiranih podatkov, natančna nastavitev, modeli vgrajevanja, kvantizacija
|KljucneBesedeEng=Text generation, question answering, retrieval, encoder, decoder, transformers, unstructured data retrieval, fine-tuning, embedding models, quantization
|Komentar=
|Viri=[{{filepath:63180365-Marko Ivanovski-dispozicija.pdf}} Dispozicija] [{{filepath:63180365-Marko Ivanovski-S poizvedovanjem obogateno generiranje besedil z domensko specifičnim doučevanjem velikih jezikovnih modeloveli-2.pdf}} Magistrsko delo]
}}

{{Thesis
|Naslov=Avtomatizacija vdornega testiranja spletnih strani
|NaslovEng=Web site penetration testing automation
|Avtor=Gregor Kerševan
|Opis=[[File:Screenshot 2025-02-28 at 14.12.49.png|500px|left]]V tem delu se ukvarjamo s problemom avtomatiziranega iskanja ranljivosti spletnih aplikacij v okviru procesov DevSecOps in cevovodov CI/CD. Uvedba varnostnih testov v avtomatiziran proces predstavlja izziv, saj je nekatere ranljivosti težko avtomatizirano iskati ali zahtevajo ročne posege, kot so ročni vdorni testi. Naš pristop vključuje implementacijo agenta, ki avtomatsko izvaja varnostne teste in analizira rezultate v grafičnih prikazih. Rešitev smo integrirali v cevovod DevOps ter testirali nad odprtokodnimi aplikacijami. Končni prispevek naloge omogoča boljši nadzor nad varnostjo spletnih aplikacij ter poenostavi proces iskanja ranljivosti za varnostne inženirje.
|KljucneBesede=avtomatizacija, devsecops, sast
|KljucneBesedeEng=automation, devsecops, sast
|Komentar=Somentor pri delu je bil viš. pred. dr. David Jelenc.
|Viri=[{{filepath:63150140-Gregor Kerševan-dispozicija.pdf}} Dispozicija] [{{filepath:63150140-Gregor Kerševan-Avtomatizacija vdornega testiranja spletnih strani.pdf}} Magistrsko delo]
}}

{{Thesis
|Naslov=Izbiranje sistema za upravljanje z grafnimi podatkovnimi bazami
|NaslovEng=Selecting a graph database management system
|Avtor=Nino Brezac
|Opis=Grafne podatkovne baze so se izkazale kot učinkovito orodje za upravljanje z zelo povezanimi podatki, saj v posebnih primerih uporabe, kot so priporočilni sistemi, družbena omrežja in odkrivanje goljufij, celo presegajo tradicionalne relacijske podatkovne baze. V tem delu so najprej predstavljeni koncepti grafnih podatkovnih baz, njihova taksonomija in posebnosti. Nato sledi celostna predstava področja grafnih podatkovnih baz, kjer so povzete ključne lastnosti reprezentativnega vzorca grafnih podatkovnih baz in je posledično zgrajen model odločitvenega drevesa za pomoč pri izbiri grafne podatkovne zbirke. Za validacijo je izbran primer uporabe analitičnih podatkovnih zbirk LPG. Validacija je vsebovala eksperimentalno analizo na standardiziranem naboru podatkov, ter je izpostavila ključne razlike med sistemi glede uporabniškega vmesnika, uporabniške izkušnje, hitrosti, porabe pomnilnika in analitičnih zmožnosti. Ta študija ponuja praktičen vpogled za skrbnike podatkovnih baz in razvijalce, ki želijo izbrati pravo rešitev grafne podatkovne zbirke za svoje specifične potrebe.
|KljucneBesede=podatkovne baze, grafi, grafna analitika, grafni algoritmi, performančna analiza, Cypher, Gremlin, Neo4j, Memgraph, TigerGraph
|KljucneBesedeEng=databases, graphs, graph analytics, graph algorithms, performance analysis, Cypher, Gremlin, Neo4j, Memgraph, TigerGraph
|Komentar=
|Viri=[{{filepath:63180347-Nino Brezac-dispozicija.pdf}} Dispozicija] [{{filepath:63180347-Nino Brezac-Izbiranje sistema za upravljanje z grafnimi podatkovnimi bazami.pdf}} Magistrsko delo]
}}

{{Thesis
|Naslov=Avtomatizirana gradnja učnih korpusov s pomočjo velikih jezikovnih modelov
|NaslovEng=Automatized construction of learning corpuses with the help of large language models
|Avtor=Gal Petkovšek
|Opis=[[File:Screenshot 2025-02-28 at 14.07.15.png|500px|right]]Zbiranje in označevanje podatkov je drago in zamudno. V tem delu predstavljamo ogrodje, ki izkorišča moč velikih jezikovnih modelov za umetno tvorjenje sintetičnih podatkov. Testirali smo ga na treh nalogah uvrščanja besedil in z njegovo uporabo izboljšali izhodiščen rezultate. Predstavili smo več metod ocenjevanja kvalitete umetnih množic ter predstavili, kako ugotovitve uporabimo za razvoj novih pristopov tvorjenja umetnih primerkov. Razvitih in testiranih je bilo več tehnik umetnega tvorjenja, od katerih izstopa dodajanje pogostih besed v ukazni poziv, kar bistveno izboljša rezultate v primeru, ko imamo na voljo tako majhno množico označenih, kot tudi veliko množico neoznačenih primerkov. Najboljše rezultate smo dosegli z združevanjem umetno tvorjenih podatkov in LLM-označenih primerkov iz velike množice neoznačenih primerkov. Glavni prispevki naloge vključujejo implementacijo ogrodja in razvite strategije tvorjenja, ki smo jih vrednotili z različnimi metrikami na več scenarijih.
|KljucneBesede=veliki jezikovni modeli, umetno tvorjeni podatki, obdelava naravnega jezika, uvrščanje besedil, podatkovne množice
|KljucneBesedeEng=large language models, synthetic data, natural language porcessing, text classification, datasets
|Komentar=
|Viri=[{{filepath:63170020-Gal Petkovšek-dispozicija.pdf}} Dispozicija] [{{filepath:63170020-Gal Petkovšek-Avtomatizirana gradnja učnih korpusov s pomočjo velikih jezikovnih modelov.pdf}} Magistrsko delo]
}}

{{Thesis
|Naslov=Avtomatska ekstrakcija podatkov iz računov
|NaslovEng=Automatic invoice data extraction
|Avtor=Gregor Ažbe
|Opis=[[File:Screenshot 2025-02-28 at 14.04.29.png|300px|left]]V tem magistrskem delu se osredotočamo na problem prepoznavanja podatkov z računov, ki so ključni administrativni dokumenti v poslovanju podjetij. Podjetja potrebujejo podatke računov v digitalni obliki, da jih lahko računalniško obdelujejo. Kljub naraščajoči uporabi elektronskih računov so ti večinoma v formatu PDF in ne vsebujejo strukturiranih metapodatkov, kar otežuje avtomatizirano ekstrakcijo podatkov. Ročno prepisovanje podatkov je zamudno in nagnjeno k napakam, zato je avtomatizacija tega procesa izjemnega pomena.

:V delu smo implementirali, opisali in primerjali uspešnost treh različnih pristopov za avtomatsko ekstrakcijo podatkov z računov. Prvi pristop temelji na klasičnih metodah strojnega učenja, kjer smo preizkusili več modelov, vključno z odločitvenimi drevesi, naključnimi gozdovi, metodami podpornih vektorjev in drugimi. Drugi pristop temelji na grafovskih nevronskih mrežah (GNN), tretji pa na pristopu s predlogami, ki ne uporablja strojnega učenja. Značilke za strojno učenje so vključevale pozicijske podatke, kot so položaj, velikost očrtanega pravokotnika in številka strani, ter besedilne značilke, kot so prisotnost določenih besed v okolici in število določenih znakov v besedi.

:Naš pristop s klasičnim strojnim učenjem je dosegel najboljše rezultate, saj smo z uporabo ekstremno naključnih dreves dosegli F1 = 0,89. Pristop z GNN je dosegel F_1 = 0,87, medtem ko je pristop s predlogami dosegel F1 = 0,70.

:Ekstremno naključna drevesa so se izkazala za najprimernejši pristop, saj je poleg najvišje uspešnosti njihova prednost tudi v nižji računski zahtevnosti in v tem, da v primerjavi z GNN za učenje potrebujejo manj učnih primerov.

:V primeru, da bi se pojavila potreba po dodajanju novih polj, bi morali pri pristopih s strojnim učenjem pridobiti veliko računov z novim poljem za učenje in ustrezno popraviti modele. Pri pristopu s predlogami pa bi zadoščal samo en račun z novim poljem za vsak tip računa, s katerim bi popravili ustrezno predlogo. V nadaljnjem delu bi lahko raziskali dodatne pristope, ki bi omogočali hitro učenje na podlagi le nekaj računov ali pa različne pristope z ANN, saj ti običajno zagotavljajo višjo uspešnost.
|KljucneBesede=ekstrakcija podatkov, računi, strojno učenje, grafovske nevronske mreže, predloge
|KljucneBesedeEng=data extraction, invoices, machine learning, graph neural network, templates
|Komentar=Mentor dela je izr. prof. dr. Lovro Šubelj.
|Viri=[{{filepath:63150040-Gregor Ažbe-dispozicija.pdf}} Dispozicija] [{{filepath:63150040-Gregor Ažbe-Avtomatska ekstrakcija podatkov iz računov.pdf}} Magistrsko delo]
}}

== 2023 ==

{{Thesis
|Naslov=Profiliranje uporabnikov in dinamično priporočanje produktov z vektorskimi bazami
|NaslovEng=User profiling and dynamic product recommendation with vector databases
|Avtor=Denis Derenda Cizel
|Opis=[[File:Screenshot 2025-02-28 at 13.58.38.png|300px|right]]Količina podatkov se iz dneva v dan povečuje. Z namenom filtriranja velikega toka podatkov so bili razviti različni priporočilni sistemi, ki izvajajo preslikavo med uporabniki in predmeti priporočanja z namenom čim hitrejše interakcije med njimi. V magistrskem delu se posvetimo priporočilnim sistemom na podlagi sodelovanja in delovanje preverimo na podatkih o telekomunikacijskih storitvah uporabnikov. Priporočanje ovrednotimo z različnimi merami uspešnosti. Sodelovalno priporočanje z namenom izboljšanja priporočanja nadgradimo v različne hibridne pristope. Hibridni pristop z dodatkom demografskih podatkov pravilno predlaga 85 odstotkov uporabniških priporočil. Z upoštevanjem zaporedja interakcij je mogoče pravilno napovedati naslednjo uporabniško storitev v 74 odstotkih. Implementirano je bilo tudi shranjevanje vektorskih predstavitev v vektorsko bazo, ki naredi priporočilni dostop bolj dostopen za uporabo.
|KljucneBesede=priporočilni sistemi, profiliranje, vsebinsko osnovana metoda, metoda izbiranja s sodelovanjem, vektorska baza
|KljucneBesedeEng=recommender systems, profiling, content-based method, collaborative filtering method, vector database
|Komentar=
|Viri=[{{filepath:63160090-Denis Derenda Cizel-dispozicija.pdf}} Dispozicija] [{{filepath:63160090-Denis Derenda Cizel-Profiliranje uporabnikov in dinamično priporočanje produktov z vektorskimi bazami.pdf}} Magistrsko delo]
}}

{{Thesis
|Naslov=Avtomatska prepoznava in digitalizacija obrazcev
|NaslovEng=Automatic recognition and digitalisation of forms
|Avtor=Robert Tovornik
|Opis=[[File:Screenshot 2025-02-28 at 13.54.00.png|300px|right]]Celostna digitalna transformacija organizacije zahteva digitalizacijo obstoječih in novo nastajajočih podatkov. Organizacije, ki podatke zajemajo preko vnosnih obrazcev v fizični papirni obliki, kot na primer večina zdravstvenih organizacij, morajo za pospešitev digitalizacije digitalizirati tudi vnosne obrazce. Digitalizacija kompleksnih vnosnih obrazcev je nepotrebno časovno zahtevna, saj je proces mogoče avtomatizirati. V sodelovanju s podjetjem Better, ki že omogoča kreiranje digitalnih obrazcev, smo razvili programsko rešitev za avtomatsko prepoznavo in digitalizacijo obrazcev. Programska oprema, razvita za delovanje v oblaku, uporablja tehnologijo optičnega prepoznavanja znakov, polj za vnos besedila, potrditvenih in izbirnih vnosnih polj in razpredelnic ter povezovanje podatkov za natančno prepoznavanje in digitalizacijo različnih vrst obrazcev. Vključen je izbirni korak človekovega posredovanja, ki omogoča prilagoditev želenih rezultatov. Evalvacija delovanja posameznih komponent izkazuje visoko učinkovitost in natančnost delovanja primerljivo z drugimi komercialnimi ponudniki storitev, ki celostne rešitve ne ponujajo. Povratne informacije izkazujejo večjo produktivnost in časovni prihranek pri procesu digitalizacije obrazcev.
|KljucneBesede=obrazci, prepoznava, digitalizacija
|KljucneBesedeEng=forms, recognition, digitalisation
|Komentar=
|Viri=[{{filepath:63120292-Robert Tovornik-dispozicija.pdf}} Dispozicija] [{{filepath:63120292-Robert Tovornik-Avtomatska prepoznava in digitalizacija obrazcev.pdf}} Magistrsko delo]
}}

{{Thesis
|Naslov=Samonadzorovano odkrivanje anomalij v produkcijskih dnevniških zapisih
|NaslovEng=Self-supervised anomaly detection in production log streams
|Avtor=Tomaž Martinčič
|Opis=[[File:Screenshot 2025-02-28 at 13.48.36.png|400px|right]]Rešitve za avtomatsko odkrivanje anomalij v sistemskih dnevniških zapisih so potrebne za učinkovito analizo in interpretacijo ogromnih količin ustvarjenih podatkov dnevnikov, odkrivanje skritih vzorcev in napovedovanje sistemskih anomalij, izboljšanje učinkovitosti delovanja, zagotavljanje varnosti sistema in zmanjšanje možnih izpadov. V zadnjem času je prišlo do razvoja na področju samodejnega odkrivanja nepravilnosti z uporabo metod strojnega učenja.

:V tem delu smo razširili na tem področju dobro znano metodo LogBERT v hierarhični transformator z vključitvijo prednaučenega jezikovnega modela za pridobitev semantičnih vložitev predlog dnevniških zapisov. S tem zagotavljamo bogatejše informacije in se izognemo težavam novih predlog, s katerimi se sooča izvirna metoda LogBERT. Predstavljamo novo metodo, imenovano SemLogBERT.

:Ugotovili smo, da rezultati, predstavljeni v večini modernih metod, močno precenjujejo njihovo učinkovitost. LogBERT in SemLogBERT smo ovrednotili v bolj realističnem scenariju, kjer smo izboljšali rezultate na nekaterih izmed standardnih primerjalnih podatkovih zbirk na tem področju.
|KljucneBesede=Obdelava naravnega jezika, odkrivanje anomalij, produkcijski dnevniški zapisi, strojno učenje, samonadzorovano strojno učenje
|KljucneBesedeEng=natural language processing, anomaly detection, production logs, machine learning, self-supervised learning
|Komentar=V sodelovanju s somentorjem iz industrije - mag. Álvaro García Faura (XLAB)
|Viri=[{{filepath:63160211-Tomaž Martinčič-dispozicija.pdf}} Dispozicija] [{{filepath:63160211-Tomaž Martinčič-Samonadzorovano odkrivanje anomalij v produkcijskih dnevniških zapisih.pdf}} Magistrsko delo]
}}

== 2022 ==

{{Thesis
|Naslov=Avtomatsko povzemanje pravnih besedil
|NaslovEng=Automatic summarization of legal documents
|Avtor=Andrej Miščič
|Opis=[[File:Screenshot 2025-02-28 at 13.44.34.png|400px|right]]Uporaba sodobnih pristopov obdelave naravnega jezika je ključna, da lahko pravna industrija obdeluje velike količine besedil in zagotavlja učinkovite storitve. Pravne raziskave so področje, na katerega imajo ti pristopi največji vpliv, saj pravnikom omogočajo hitrejše iskanje ustrezne zakonodaje in sodne prakse. S ciljem zagotoviti povzetke dolgih pravnih besedil v delu obravnavamo avtomatsko povzemanje slovenskih sodnih odločb.

:Predlagamo GloBerto-Sum, ekstraktivni pristop, ki temelji na nedavno predstavljenih slovenskih vnaprej naučenih jezikovnih modelih. Da lahko obravnava daljše dokumente, se naš pristop zanaša na strukturo sodnih odločb. Naučen je na mehkih oznakah, kar ublaži težave, ki jih prinaša visoko razmerje med številom povedi v dokumentih in povzetkih. GloBerto-Sum dodatno združimo z abstraktivnim modelom - tako pridobljen hibridni pristop je zmožen generirati povzetke s parafriziranjem.

:Rezultati kažejo, da naši pristopi generirajo povzetke, ki so po ustreznosti na ravni ročno napisanih, a so lahko nekoliko manj koherentni in vsebujejo več redundantnih informacij. Kljub temu menimo, da z našim delom pokažemo možnost uporabe predlagane metodologije za tvorjenje povzetkov, ki pravnikom omogočajo hitrejši pregled pravnih besedil.
|KljucneBesede=avtomatsko povzemanje besedil, ekstraktivno povzemanje, abstraktivno povzemanje, pravna besedila, obdelava naravnega jezika
|KljucneBesedeEng=automatic text summarization, extractive summarization, abstractive summarization, legal documents, natural language processing
|Komentar=
|Viri=[{{filepath:63160228-Andrej Miščič-dispozicija.pdf}} Dispozicija] [{{filepath:63160228-Andrej_Miščič-Avtomatsko_povzemanje_pravnih_besedil.pdf}} Magistrsko delo]
}}

{{Thesis
|Naslov=Avtomatska gradnja korpusa in ekstrakcija relacij v slovenščini
|NaslovEng=Automatic corpus construction and relation extraction for Slovene
|Avtor=Miha Štravs
|Opis=Iskanje relacij med entitetami v besedilu je področje obdelave naravnega jezika. Pri iskanju relacij želimo v stavku: "Ljubljana je glavno mesto Slovenije" odkriti, da med entitetama Ljubljana in Slovenija nastopa relacija glavno mesto.

:V zaključnem delu smo najprej naredili pregled metod za učenje modelov za napovedovanje relacij. Nato smo si izbrali tri metode z različnimi pristopi za učenje modelov, ki napovedujejo relacije. Metodo s povratno nevronsko mrežo z dolgim kratkoročnim spominom, metodo z vložitvami BERT in metodo RECON, ki uporabi grafovsko nevronsko mrežo s pozornostjo. Za učenje modelov smo uporabili slovenski korpus, ki smo ga polavtomatsko generirali iz besedil slovenske Wikipedije. Naučene modele smo nato testirali na testnem korpusu besedil slovenske Wikipedije in testnem korpusu člankov strani 24ur.com. Na testnem korpusu slovenske Wikipedije so vse tri metode dosegle visoke priklice in točnosti, najbolje se je odrezala metoda RECON. Veliko slabše rezultate so dosegle na testni množici člankov 24ur.com, kjer se je še najbolje izkazala metoda z vložitvami BERT, ko je uporabila vložitve CroSloEngual.
|KljucneBesede=ekstrakcija relacij, ekstrakcija informacij, globoko učenje, grafovske mreže pozornosti, BERT, LSTM
|KljucneBesedeEng=relation extraction, information extraction, deep learning, graph attention networks , BERT, LSTM
|Komentar=
|Viri=[{{filepath:4415.pdf}} Magistrsko delo], [https://github.com/RSDO-DS3/SloREL Izvorna koda]
}}

== 2021 ==

{{Thesis
|Naslov=Integracija verige blokov in tehnologij semantičnega spleta
|NaslovEng=Integration of blockchain and semantic web technologies
|Avtor=Domen Gašperlin
|Opis=[[File:Screenshot 2022-08-03 at 16.43.01.png|600px|right]]Cilj semantičnega spleta je standardizacija izmenjave podatkov na spletu. Za njihovo predstavitev se uporabljajo ontologije. Gradnja ontologije je cikličen proces, ki zahteva usklajevanje in koordinacijo njenih sprememb s strani strokovnjakov z različnih področij. Za to je ključno sledenje, od kod so prišle spremembe in kdo jih je naredil. Prav tako s spreminjanjem ontologije ne smemo porušiti njene konsistentnosti. Namen dela je izboljšanje procesa gradnje ontologije z razvojem rešitve za njeno upravljanje in distribucijo. Rešitev poskrbi, da se s spremembami ontologije ne poruši njena konsistentnost. Za svoje delovanje uporablja tehnologije semantičnega spleta in verige blokov. Tehnologije semantičnega spleta se uporablja za učinkovito poizvedovanje in spreminjanje podatkov, za varno shrambo ontologij in sledljivosti njihovih sprememb pa se uporablja verige blokov. Na koncu je na podmnožici ontologije DBpedia evalvirano, kakšna je cena uporabe rešitve in kakšna je njena časovna zahtevnost v primerjavi s knjižnico Apache Jena. Rezultati pokažejo, da je rešitev počasnejša, a primerljiva, kot če bi se uporabilo zgolj knjižnico Apache Jena. Rešitev je z določenimi spremembami primerna tudi za implementacijo za druge tipe podatkovnih baz.
|KljucneBesede=semantični splet, veriga blokov, ontologije, IPFS, Ethereum
|KljucneBesedeEng=
|Komentar=semantic web, blockchain, ontologies, IPFS, Ethereum
|Viri=
[{{filepath:63150096-Domen Gašperlin-dispozicija.pdf}} Dispozicija], [{{filepath:63150096-Domen Gašperlin-Integracija verige blokov in tehnologij semantičnega spleta.pdf}} Magistrsko delo], [https://github.com/UL-FRI-Zitnik/blockchain-based-ontology-database Izvorna koda], [{{filepath:Infor490.pdf}} Znanstveni članek]
}}
{{Thesis
|Naslov=Preprečevanje neželenih komentarjev za spletne novice s pomočjo tehnik za procesiranje naravnega jezika
|NaslovEng=Preventing unwanted comments to online news articles using natural language processing techniques
|Avtor=Martin Čebular
|Opis=[[File:Screenshot 2022-08-03 at 16.41.16.png|400px|left]]Completely Automated Public Turing test to tell Computers and Humans Apart (v nadaljevanju CAPTCHA) je test, katerega cilj je ločiti človeškega uporabnika od računalnika. Na spletu se test CAPTCHA navadno pojavi ob obrazcu, kot zaščita pred samodejnim izpolnjevanjem in oddajanjem obrazca. Kot najbolj znano obliko testa CAPTCHA omenimo test, v okviru katerega je reševalcu podana slika s popačenim besedilom, reševalčeva naloga pa je razpoznati črke ali besede z dane slike.

:V magistrskem delu se posvetimo testom oziroma nalogam CAPTCHA v tekstovni obliki. Zasnujemo in implementiramo sistem CAPTCHA, katerega naloge temeljijo na tehnikah obdelave naravnega jezika. Predstavimo dva tipa tovrstnih nalog CAPTCHA: naloge na podlagi prepoznavanja imenskih entitet in naloge na podlagi razreševanja koreferenčnosti. Sistem CAPTCHA zasnujemo razširljivo, kar omogoča enostavno vpeljavo novih tipov nalog vanj. Implementiramo tudi odjemalca CAPTCHA, uporabniški vmesnik, ki ga lahko umestimo v spletni obrazec in reševalcem omogoča reševanje nalog. Uporabo sistema CAPTCHA skupaj z odjemalcem prikažemo na primeru integracije, izdelanem v okviru magistrskega dela.

:Uporabo demonstriramo tudi z umestitvijo odjemalca CAPTCHA v obrazec za oddajo komentarja na spletnem portalu RTVSLO.si. Implementirani sistem skupaj z odjemalcem omogoča celostno izvedbo postopka verifikacije človeške interakcije uporabnikov. Evalviramo njegovo učinkovitost in skalabilnost, dostopnost odjemalca CAPTCHA slepim in slabovidnim uporabnikom, ter potencialne možnosti za gradnjo novih učnih množic iz zbranih podatkov, ki nastanejo z uporabo sistema.
|KljucneBesede=CAPTCHA, dokaz o človeški interakciji, prepoznavanje imenskih entitet, odkrivanje koreferenčnosti
|KljucneBesedeEng=CAPTCHA, human-interaction proof, named entity recognition, coreference resolution
|Komentar=
|Viri=
[{{filepath:63150073-Martin Čebular-dispozicija.pdf}} Dispozicija], [{{filepath:63150073-Martin Čebular-Preprečevanje neželenih komentarjev za spletne novice s pomočjo tehnik za procesiranje naravnega jezika.pdf}} Magistrsko delo], [https://github.com/UL-FRI-Zitnik/MartinCebular-text-captcha-mag Izvorna koda]
}}
{{Thesis
|Naslov=Avtomatska ekstrakcija podatkov o zaposlenih s spletišč podjetij
|NaslovEng=Automatic extraction of employee data from corporate websites
|Avtor=Matej Koplan
|Opis=[[File:Screenshot 2022-08-03 at 16.47.23.png|300px|right]]V tem delu se ukvarjamo s problemom ekstrakcije seznama oseb s poljubnega spletišča. V ta namen implementiramo spletnega pajka za identifikacijo potencialnih podstrani z osebami in ekstraktor podatkov, ki s poljubne spletne strani izvleče podatke o osebah.

:Pokažemo, da osnovne metode, kot so primerjava imena s seznamom imen, ne dosežejo sprejemljive natančnosti. Pokažemo, da je analiza strukture seznama in prenos odkritega znanja ključna metoda za izboljšavo rezultatov do stopnje, kjer dosežemo sprejemljiv nivo natančnosti. S pomočjo tega pristopa smo izboljšali F1 mero za 50 % na razvojni in za 35 % na skriti testni množici.
|KljucneBesede=splet, ekstrakcija podatkov, avtomatska ekstrakcija podatkov s spleta, fokusirani spletni pajki, strukturirani podatki, nestrukturirani podatki
|KljucneBesedeEng=web, data extraction, automatic web data extraction, focused webcrawlers, structured data, unstructured data
|Komentar=
|Viri=
[{{filepath:63180423-Matej Koplan-dispozicija.pdf}} Dispozicija], [{{filepath:63180423-Matej Koplan-Avtomatska ekstrakcija podatkov o zaposlenih s spletišč podjetij.pdf}} Magistrsko delo]
}}
{{Thesis
|Naslov=Identifikacija in povezovanje razlik med izvorno kodo in čelnim delom tekom razvoja spletne aplikacije
|NaslovEng=Identification of changes between source code and frontend during development of a Web application
|Avtor=Jošt Gombač
|Opis=[[File:Screenshot 2022-08-03 at 16.38.42.png|300px|right]]Tekom razvoja spletnih aplikacij se lahko zgodi, da katero izmed prej implementiranih funkcionalnosti nehote spremenimo. Pravilnost delovanja programa skozi celoten potek razvoja navadno preverjamo z regresijskimi testi. Priprava teh lahko terja velik časovni vložek. Dodatno pa jih je potrebno prilagoditi spremembam, ki so pričakovane. Kot odgovor tej problematiki smo implementirali programsko orodje, s pomočjo katerega bo možno zaznati razlike med dvema različicama iste spletne aplikacije.

:Naš pristop vključuje uporabo spletnega pajka, ki je sposoben odkrivati dinamično generirano vsebino preko uporabniških akcij, kot je izpolnjevanje obrazcev in klikanje elementov. Na podlagi pridobljenih HTML dokumentov nato upoštevajoč drevesno strukturo ugotovi medsebojne razlike. V namen interpretacije ugotovljenih sprememb smo implementirali spletno aplikacijo, ki kronološko prikazuje vse razlike med uveljavitvami v Git repozitoriju.
|KljucneBesede=spletni pajek, HTML, Git, Angular, dinamična vsebina
|KljucneBesedeEng=web crawler, HTML, Git, Angular, dynamic content
|Komentar=
|Viri=[{{filepath:63180421-Jošt Gombač-dispozicija.pdf}} Dispozicija], [{{filepath:63180421-Jošt Gombač-Identifikacija in povezovanje razlik med izvorno kodo in čelnim delom tekom razvoja spletne aplikacije.pdf}} Magistrsko delo], [https://github.com/UL-FRI-Zitnik/JostGombac-Magistrska-DependencyDiff Izvorna koda]
}}

== 2020 ==

{{Thesis
|Naslov=Pametni asistent za predlaganje obrokov
|NaslovEng=Smart assistant for suggesting meals
|Avtor=Janez Eržen
|Opis=[[File:Screenshot 2022-08-03 at 16.37.05.png|500px|right]]Izdelava pametnih asistentov zahteva implementacijo sistemov za zajem podatkov, prepoznavanje namena, ekstrakcijo podatkov, priporočilne sisteme ipd. V magistrskem delu smo izdelali celostnega pametnega asistenta za predlaganje obrokov, bolj podrobno pa smo se osredotočili na prepoznavanje alergenov in hranil vsebovanih v jedeh glede na delno strukturirane podatke o menijih na spletnih straneh restavracij. Z namenom reševanja omenjenega problema smo razvili algoritem za ločevanje besedila menija na posamezne jedi vsebovane v njem, algoritem za detekcijo alergenov iz besedila na podlagi pravil ter algoritem za detekcijo alergenov z uporabo nevronske mreže.

:Omenjene algoritme smo uporabili za implementacijo pametnega asistenta, ki uporabniku omogoča obogaten in prilagojen prikaz dnevno pridobljenih jedilnikov s spleta. Asistent je integriran v različne sisteme sporočanja (Microsoft Teams, Discord, Slack ter Facebook Messenger), pogovor z uporabnikom pa poteka v slovenskem jeziku.

:S preizkusom asistenta v praksi smo pokazali, da uporabnikom olajša izbiro menija ali restavracije za dnevno kosilo. Algoritem za avtomatsko ekstrakcijo alergenov z uporabo nevronske mreže dosega uspešnost 68% (ocena F1), kar je dovolj uporabno za opozarjanje uporabnika na možno vsebnost alergenov v jedi, je pa smiselno, da uporabnik to opozorilo asistenta dodatno preveri pri osebju restavracije.
|KljucneBesede=pametni asistent, obdelava naravnega jezika, ekstrakcija podatkov s spleta, prehrana, priporočanje uporabniku
|KljucneBesedeEng=chatbot, natural language processing, web scraping, nutrition, user recommendation
|Komentar=
|Viri=[{{filepath:63130039-Janez Eržen-dispozicija.pdf}} Dispozicija], [{{filepath:63130039-Janez Eržen-Pametni asistent za predlaganje obrokov.pdf}} Magistrsko delo]
}}
{{Thesis
|Naslov=Napovedovanje glasovanj strank v Evropskem parlamentu
|NaslovEng=Predicting Roll-Call Voting of Political Parties in European parliament
|Avtor=Miha Nahtigal
|Opis=[[File:Screenshot 2022-08-03 at 16.44.30.png|300px|left]]Evropski parlament je politično telo, ki že dolgo časa razdvaja javnost. Njegovi nasprotniki po eni strani trdijo, da je tako politično in kulturno heterogen organ nezmožen učinkovitega delovanja, po drugi strani pa naj bi evropski poslanci hitro izgubili stik s svojimi volivci ter glasovali predvsem tako, kot jim to naročijo vodje skupin. Zanimalo nas je, če evropski poslanci glasujejo dovolj avtomatično in predvidljivo, da bi lahko rezultate glasovanj uspešno napovedovali z modelom strojnega učenja. Da smo zmanjšali časovno kompleksnost smo se odločili za napovedovaje rezultatov glasovanj po političnih strankah. Najprej smo implementirali spletne pajke, s katerimi smo pridobili čim več rezultatov glasovanj in z njimi povezanih podatkov. Iz teh smo nato z interdisciplinarno kombinacijo metod podatkovnega rudarjenja ter strokovnega geopolitičnega znanja izluščili značilke in zgradili model.

:Rezultati so pokazali približno 80% uspešnost napovedovanja rezultatov glasovanj (uteženi oceni f1 in roc-auc). Napovedovanje je bilo bistveno bolj uspešno pri strankah s proevropsko,liberalno in globalistično politično usmeritvijo kot to velja za evroskeptične, ekonomsko socialne in nacionalistične stranke. S tem smo dodatno podprli tezo o obstoju in pomembnosti nove nacionalistično-globalistične politične delitve. Poleg tega predstavlja problem tudi razred vzdržanih glasovanj, ki ga je težko napovedati že s pomočjo človeške inteligence.
|KljucneBesede=napovedovanje, glasovanja, politične stranke, Evropski parlament
|KljucneBesedeEng=predicting, Roll-Call votes, political parties, European parliament
|Komentar=
|Viri=[{{filepath:63170413-Miha Nahtigal-dispozicija.pdf}} Dispozicija], [{{filepath:63170413-Miha Nahtigal-Napovedovanje glasovanj strank v Evropskem parlamentu.pdf}} Magistrsko delo]
}}

== 2014 ==

{{Thesis
|Naslov=Primerjava orodij za vizualizacijo in preiskovanje omrežij
|Avtor=Didka Dimitrova Birova
|Opis=Zaradi povečevanja količine in kompleksnosti podatkov uporabniki vse težje učinkovito preučujejo velike množice podatkov. Podatki so med seboj povezani in posledično lahko množico podatkov predstavimo in vizualiziramo v obliki omrežja (socialna, biološka, svetovni splet). Glavni namen vizualizacije je učinkovito posredovati in predstaviti podatke s pomočjo vizualne percepcije ter predvsem olajšati raziskovanje podatkov oziroma omrežja. Za analizo in prikaz omrežij obstaja množica orodij - nekatera pokrivajo področje analize kot tudi prikaza, specializirana orodja pa se osredotočajo samo na analizo ali samo na vizualizacijo, oziroma so lahko specializirana za določeno domeno (npr. socialna omrežja).

:V okviru naloge bi bilo potrebno narediti primerjavo in evaluacijo orodij za vizualizacijo omrežij – kakšne so omejitve, performance, možnosti za razširitev in dopolnjevanje obstoječih orodij.
|KljucneBesede=vizualizacija podatkov, omrežja, primerjava orodij
|Komentar=Usmerjanje in pomoč pri mentorstvu prof. dr. Marka Bajca. Gre za diplomsko nalogo enake stopnje bolonjskemu magisteriju.
|Viri=[{{filepath:Diplomska_Didka.pdf}} Diplomsko delo]
}}

== 2013 ==

{{Thesis
|Naslov=Označevanje imenskih entitet v pravnih besedilih
|Avtor=Matic Di Batista
|Opis=Odkrivanje podatkov iz besedil velja za eno izmed aktualnih podpodročij v okviru obdelave tekstovnih podatkov. Za slovenski jezik še nimamo dovolj prilagojenih pristopov ali ogromnih podatkovnih množic iz katerih bi lahko zgradili praktično uporabne metode za odkrivanje entitet. Namen diplomske naloge ja zato izdelava orodja, ki bo znalo odkrivati imenske entitete v slovenskih besedilih.

:Kandidat naj pregleda obstoječe metode za odkrivanje entitet v besedilih in jih prilagodi za delo s slovenskim jezikom. Pri tem naj primerja njihovo delovanje in razišče morebitne probleme, ki so posledica sintakse in pravil v slovenščini. Nazadnje naj predlaga nov nabor značilk za učenje modelov in razvito metodo testira nad lastno izdelano podatkovno množico.
|KljucneBesede=ekstrakcija podatkov iz besedil, razpoznavanje entitet, tekstovno rudarjenje
|Komentar=Usmerjanje in pomoč pri mentorstvu prof. dr. Marka Bajca. Gre za diplomsko nalogo enake stopnje bolonjskemu magisteriju.
|Viri=[{{filepath:Diplomska_MaticDiBatista.pdf}} Diplomsko delo]}}
{{Thesis
|Naslov=Kontekstualno ujemanje in iskanje na modelu spletne oglasne deske
|Avtor=Vasja Laharnar
|Opis=Spletne oglasne deske so specializirani iskalniki, ki lahko namesto dokumentov (npr. spletne strani, slike, besedila), indeksirajo uporabnike sistema. Primer so socialni iskalniki, ki ne vrnejo neposrednega odgovora, ampak se poizvedba pošlje uporabniku, ki ga sistem spozna za relevantnega in nato le ta odgovori. Takšni iskalniki morajo torej bolj upoštevati uporabniške profile in njihove kontekste.

:V okviru diplomske naloge naj kandidat izdela spletno storitev, ki bo omogočala objavljanje besedil in njihovo iskanje. Pri tem naj kandidat preuči korake procesiranja besedil za potrebe splošnega indeksiranja. Poleg tega naj pri implementaciji iskanja in primerjanja besedil upošteva tudi semantične podatke, k jih pridobi iz besedil ali profilov uporabnikov. Nazadnje naj izdelano storitev testira na domeni študijskih praks, kjer v sistemu sodelujejo profesorji, študenti in podjetja.
|KljucneBesede=obdelava naravnega jezika, semantična podobnost, lematizacija, klasifikacija, naivni Bayesov klasifikator, iskanje informacij, iskanje, ujemanje
|Komentar=Usmerjanje in pomoč pri mentorstvu prof. dr. Marka Bajca. Gre za diplomsko nalogo enake stopnje bolonjskemu magisteriju.
|Viri=[{{filepath:Diplomska_VasjaLaharnar.pdf}} Diplomsko delo]
}}

== 2012 ==

{{Thesis
|Naslov=Semantično zajemanje podatkov iz predefiniranih virov
|Avtor=Alan Rijavec
|Opis=Izdelajte komponento za zajem podatkov iz spletnih virov. Komponenta naj bo zasnovana modularno, tako da bo dodajanje novega vira zahtevalo le implementacijo določenih vmesnikov. Vhodi in rezultati naj bodo semantično označeni, tako da bo komponenta zmožna sama izvajati klice funkcij in sestavljati rezultate v obliki RDFS ali drugega semantičnega zapisa.
|KljucneBesede=spletni pajek, razčlenjevanje spletnih strani, semantični splet
|Komentar=Usmerjanje in pomoč pri mentorstvu prof. dr. Marka Bajca. Gre za diplomsko nalogo enake stopnje bolonjskemu magisteriju.
|Viri=[{{filepath:Diplomska_AlanRijavec.pdf}} Diplomsko delo] [{{filepath:IzvornaKoda_AlanRijavec.zip}} Izvorna koda]
}}

== 2011 ==

{{Thesis
|Naslov=Pridobivanje konteksta z uporabo spletnih brskalnikov
|Avtor=Marko Jurinčič
|Opis=[[File:Screenshot 2022-08-03 at 16.32.33.png|300px|right]]Današnje inteligentne aplikacije morajo za svoje delovanje beležiti in uporabljati kontekst uporabnika. Zamislite si pristop, kako čim bolj natančno modelirati kontekst določenega uporabnika. Cilj je, da iz ugotovljenih virov pridobite trenutno relevantne teme (besede) za uporabnika. Uporabljate lahko čim več virov, ki jih lahko: na primer zvok, slika, video uporabnika, pisanje. Primer vašega dela: Implementacija orodne vrstice v iskalniku Firefox, ki ima možnost beleženja in shranjevanja različnih parametrov (čas na določeni spletni strani, interakcija z drugimi programi). Podobna orodna vrstica je implementirana znotraj Lemur Project-a, ki si gradi t.i. query-log. Mogoče tudi beleženje konteksta preko aplikacije pametnega telefona.
|KljucneBesede=kontekst, vtičnik, podatkovno rudarjenje
|Komentar=Usmerjanje in pomoč pri mentorstvu prof. dr. Marka Bajca. Gre za diplomsko nalogo enake stopnje bolonjskemu magisteriju.
|Viri=[{{filepath:Diplomska_MarkoJurincic.pdf}} Diplomsko delo] [{{filepath:IzvornaKoda_MarkoJurincic.zip}} Izvorna koda]
}}

File:Screenshot 2025-02-28 at 14.16.28.png

2025-02-28T13:16:41Z

Slavkoz:

File:63180365-Marko Ivanovski-S poizvedovanjem obogateno generiranje besedil z domensko specifičnim doučevanjem velikih jezikovnih modeloveli-2.pdf

2025-02-28T13:15:52Z

Slavkoz:

File:63180365-Marko Ivanovski-dispozicija.pdf

2025-02-28T13:15:22Z

Slavkoz:

File:Screenshot 2025-02-28 at 14.12.49.png

2025-02-28T13:13:07Z

Slavkoz:

File:63150140-Gregor Kerševan-Avtomatizacija vdornega testiranja spletnih strani.pdf

2025-02-28T13:12:12Z

Slavkoz:

File:63180347-Nino Brezac-Izbiranje sistema za upravljanje z grafnimi podatkovnimi bazami.pdf

2025-02-28T13:09:42Z

Slavkoz:

File:63180347-Nino Brezac-dispozicija.pdf

2025-02-28T13:09:11Z

Slavkoz:

File:Screenshot 2025-02-28 at 14.07.15.png

2025-02-28T13:07:30Z

Slavkoz:

File:63170020-Gal Petkovšek-Avtomatizirana gradnja učnih korpusov s pomočjo velikih jezikovnih modelov.pdf

2025-02-28T13:06:40Z

Slavkoz:

File:63170020-Gal Petkovšek-dispozicija.pdf

2025-02-28T13:06:09Z

Slavkoz:

File:Screenshot 2025-02-28 at 14.04.29.png

2025-02-28T13:04:42Z

Slavkoz: