Available theses topics: Difference between revisions

From Slavko Zitnik's research wiki
(Created page with "== Proste teme == === Information Extraction Captcha === Razvijte storitev - "widget", ki bo delovala kot zaščita spletnih obrazcev - "captcha". Zelo uspešna storitev [htt...")
 
No edit summary
 
(30 intermediate revisions by the same user not shown)
Line 1: Line 1:
== Proste teme ==
__NOTOC__
Na tej strani so naštete proste teme za izdelavo zaključnih del pod mojim mentorstvom. Pri izbiri prosim sledite navodilom, ki so opisana na [[Thesis_preparation_instructions|strani glede metodologije priprave zaključnega dela]].


=== Information Extraction Captcha ===
=== Portali odprtih podatkov - deljenje, objava, ponovna uporaba ===
Razvijte storitev - "widget", ki bo delovala kot zaščita spletnih obrazcev - "captcha". Zelo uspešna storitev [http://recaptcha.net reCaptcha] se uporablja za bolj natančno digitalizacijo knjig. V osnovi deluje tako, da bralcu prikaže dva niza, pri katerem sistem za enega pozna rešitev, za drugega ne. Uporabnik mora oba niza vpisati v vnosno polje. Sistem nato preko več odgovorov ugotovi, kakšna je pravilna digializacija neznanega niza.  
:Evropska unija želi ustvariti okolje za boljšo podatkovno ekonomijo. Že pred leti so zato članice EU začele vzpostavljati portale odprtih podatkov, ki večinoma temeljijo na odprtokodnem ogrodju [https://ckan.org/ CKAN]. Tudi v Sloveniji imamo v tem smislu vzpostavljen portal [https://podatki.gov.si/].  
Znano je, da so včasih nizi zelo nerazločni (še posebej sistemu znani nizi so še dodatno izmaličeni), zato uporabniki zelo neradi vpisujejo te nize. Pri ekstrakciji besedil obstaja mnogo problemov, med katerimi so najbolj znani - ekstrakcija entitet, povezav, koreferenc, in so za ljudi enostavno rešljivi. Kandidat naj razvije reCaptcha-i podobno rešitev, ki bo avtomatsko povečevala učno množico za izbran problem. Pri tem naj upošteva tudi večjezičnost in uporabi orodja, podatkovne množice, ki so trenutno javno dostopne. Pri tem naj kandidat pregleda tudi sorodna dela, ki se nanašajo na implementacijo in težave takšnega preverjanja z orodjem captcha.
:Za boljšo ponovno uporabo podatkov morajo biti le ti bolje (avtomatsko) dostopni in ponujeni preko vmesnikov. Projekt [https://github.com/FRI-MDP/Podatkovni-zemljevid-2023 Podatkovni zemljevid] je omogočil enostavno iskanje in pretvorbo v semantično obliko, kar mora biti še integrirano. Možnosti za inovativnost je še mnogo ...


Ključne besede: ekstrakcija informacij, gradnja podatkovnih množic, preverjanje vnosov
:V okviru naloge se pričakuje podroben pregled izbranega (pod)področja/ogrodja, primerjava obstoječih rešitev in implementacija prototipa s pomočjo odprtokodnih orodij. Prototip je lahko izboljšava/avtomatizacija posameznega dela Podatkovnega zemljevida ali vključitev napredne obdelave naravnega jezika za ponujanje podatkov (npr. iskanje, povzemanje, ...).


=== Primerjava jezikov ===
:;Ključne besede
Za primerjavo jezikov obstajajo že uveljavljene metode, s katerimi se lahko primerja, kdaj sta si jezika sorodna, enaka oz. kako različna sta si. Kandidat naj v okviru zaključnega dela primerja besedila novic iz področja Slovenije z besedili novic zamejskih Slovencev ali izseljencev. Primeri novic izseljencev so na primer [http://www.novice.at/ novice.at] (Avstrija), Novi list (Argentina), ipd., pri čemer naj kandidat najde tudi druge primerne vire. Po primerjavi teh množic naj kandidat primerja besedila v slovenščini še z novicami podobnih slovanskih jezikov (npr. hrvaščina) ter ugotovi, kakšna je jezikovna različnost med takšnimi pari v primerjavi z zamejsko slovenščino.
::odprti podatki, OPSI, repozitoriji


Ključne besede: slovenščina, primerjava besedil, novice
:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga


=== Analiza sentimenta do objektov v besedilih ===
=== Evropski podatkovni prostori - infrastruktura ===
Sentiment se navadno ugotavlja za določen del besedila oz. celotno besedilo naenkrat. Velikokrat se v novicah pojavi mnogo entitet, do katerih ima lahko pisec različen sentiment. V okviru zaključnega dela naj kandidat pridobi korpus novic, v okviru katerih naj prepozna določen tip entitet (npr. osebe) in njihove omenitve, do katerih naj za posamezno novico avtomatsko ugotovi sentiment.
:Podatkovni prostori (angl. Dataspaces) predstavljajo abstrakcijo upravljanja podatkov, kjer je osredni cilj odprava težav, ki se pojavijo pri integraciji podatkov. Osrednji namen podatkovnih prostorov je zmanjšati napor, ki je potreben za vzpostavitev sistema za integracijo podatkov, kjer uporabimo obstoječe tehnike ujemanj in preslikav ter vpeljava plačila po uporabi. Na ravni EU je prisotnih veliko aktivnosti, kjer je na voljo številno gradivo:
:* [https://data.europa.eu/en/news-events/news/european-strategy-data Evropska podatkovna strategija],
:* [https://nio.gov.si/nio/asset/strategija+digitalnih+javnih+storitev Strategija digitalnih javnih storitev 2030 (SDJU 2030)],
:* [https://eu-skladi.si/sl/po-2020/nacrt-za-okrevanje-in-krepitev-odpornosti Načrt za okrevanje in odpornost (NOO)],
:* [https://digital-strategy.ec.europa.eu/en/library/staff-working-document-data-spaces Usmeritve Evropske komisije],
:* [https://docs.internationaldataspaces.org/knowledge-base International Data Spaces],
:* [https://mydata.org/participate/declaration/ MyData Principles],
:* [https://solidproject.org/about SOLID Intiative],
:* [https://gaia-x.eu/ GAIA-X],
:* [https://oceanprotocol.com/ OCEAN protocol].  


Ključne besede: analiza sentimenta, prepoznavanje imenskih entitet, odkrivanje koreferenčnosti
:V okviru naloge se pričakuje podroben pregled izbranega (pod)področja/ogordja, primerjava obstoječih rešitev in implementacija prototipa s pomočjo odprtokodnih orodij.


=== Ostale možne tematike ===
:;Ključne besede
Kandidat si lahko zamisli svoj lasten problem iz področja iskanja in ekstrakcije vsebin is spleta ali procesiranja naravnega jezika ter ga uskladi z mentorjem. Tematike se lahko dotikajo tudi analize in uporabe odprtokodnih sistemov (npr. Solr, Lucene, ...), ki so morda trenutno aktualne, uporabe in analize odprtih podatkov (npr. iz portala [https://podatki.gov.si/ OPSI]). Prav tako vsako leto na področju analize besedil potekajo tekmovanja z zanimivimi tematikami, s katerimi se lahko lahko spoprime:
::podatkovni prostori, semantika, spletne tehnologije
 
:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga
 
=== Evropski podatkovni prostor za jezik (Language Data Space) ===
:Podatkovni prostori (angl. Dataspaces) predstavljajo abstrakcijo upravljanja podatkov, kjer je osredni cilj odprava težav, ki se pojavijo pri integraciji podatkov. Osrednji namen podatkovnih prostorov je zmanjšati napor, ki je potreben za vzpostavitev sistema za integracijo podatkov, kjer uporabimo obstoječe tehnike ujemanj in preslikav ter vpeljava plačila po uporabi. Glejte tudi zgornje gradivo.
 
:V okviru naloge se pričakuje podroben pregled stanja in razvoja [https://language-data-space.ec.europa.eu/index_en Evropskega podatkovnega prostora za jezik]. Izvede naj se primerjava z drugimi podatkovnimi prostori (predvsem glede izbire infrastrukture). Implementira naj se prototip, ki bi omogočil vključitev in/ali uporabo podatkov iz podatkovnega prostora.
 
:;Ključne besede
::podatkovni prostori, semantika, jezikovne tehnologije
 
:;Tip zaključnega dela
::Diplomsko delo ali Magistrska naloga
 
=== Izdelava Sociogramov - sedežni red ===
:Sociometrija je tehnika iz socialne psihologije in sociologije, ki se uporablja za merjenje družbenih odnosov v skupinah (npr. ekipe, razredi v šolah, ...). Z njo se opredeli povezanost skupine ter vlogo posameznika v tej skupini (npr. izločen, priljubljen, vodja, ...). Vodji skupine (npr. trenerju, učitelju, socialnemu pedagogu) tehnika pomaga razumeti latentne odnose v skupinah in jim omogoča učinkovitejše ter ustreznejše delo s skupino.
 
:V okviru projekta se pričakuje:
:* Nadgradnja obstoječe aplikacije Sociogram (sedežni red ali oddaljeno izpolnjevanje sociogramov). Uporaba tehnologij Java 18+, Python/Django, React (ali drugo ogrodje) in MariaDB.
:* Sodelovanje s študentkami/študenti iz Fakultete za šport (FSP) in podjetjem MikroGrafArt d.o.o..
:* Predvidenih 80 ur dela, plačanih po postavki 11,30 EUR bruto bruto.
:* Čas sodelovanja v obdobju od aprila do septembra 2024.
:Delo se lahko nadgradi in uporabi tudi v okviru predmetov RvP/OSD ali se jih prilagodi v zaključno delo (npr. diplomska naloga)
 
:Predlaganje sedežnega reda v učilnicah glede na rezultat Sociograma: Na podlagi rezultatov medsebojnih odnosov in dinamike pri pouku se bo pregledalo teoretične vidike in predlagalo metodologije za izdelavo sedežnih redov na podlagi sociometrije (študent FSP). Metodologije bodo nato implementirane v dodatnem modulu programa Sociogram, ki bo omogočal avtomatsko izdelavo sedežnega reda za poljubno vnešen tloris učilnice (študent FRI). Rezultat bo omogočil kakovostnejše izobraževanje, zmanjšanje neenakosti in večjo integracijo skupin.
 
:;Ključne besede
::sociogram, psihologija, delo v skupinah, namizna aplikacija, spletne storitve
 
:;Tip zaključnega dela
::Diplomsko delo
 
=== Izdelava Sociogramov - oddaljen način ===
:Sociometrija je tehnika iz socialne psihologije in sociologije, ki se uporablja za merjenje družbenih odnosov v skupinah (npr. ekipe, razredi v šolah, ...). Z njo se opredeli povezanost skupine ter vlogo posameznika v tej skupini (npr. izločen, priljubljen, vodja, ...). Vodji skupine (npr. trenerju, učitelju, socialnemu pedagogu) tehnika pomaga razumeti latentne odnose v skupinah in jim omogoča učinkovitejše ter ustreznejše delo s skupino.  
 
:V okviru projekta se pričakuje
:* Nadgradnja obstoječe aplikacije Sociogram (sedežni red ali oddaljeno izpolnjevanje sociogramov). Uporaba tehnologij Java 18+, Python/Django, React (ali drugo ogrodje) in MariaDB.
:* Sodelovanje s študentkami/študenti iz Fakultete za šport (FSP) in podjetjem MikroGrafArt d.o.o..
:* Predvidenih 80 ur dela, plačanih po postavki 11,30 EUR bruto bruto.
:* Čas sodelovanja v obdobju od aprila do septembra 2024.
:Delo se lahko nadgradi in uporabi tudi v okviru predmetov RvP/OSD ali se jih prilagodi v zaključno delo (npr. diplomska naloga).
 
:Izdelava Sociograma na oddaljen način: Trenutno se Sociogram printa na liste, od koder se nato rezultate vnese v program. Potrebno je preveriti in izdelati varen protokol (študent FSP) in implementirati avtomatske mehanizme za oddaljeno izpolnjevanje sociograma preko e-pošte ali drugih kanalov, pri čemer je potrebno zagotavljati varnost in anonimnost (študent FRI). Rezultat bo bolj učinkovito anketiranje in bolj trajnostna izdelava sociogramov brez potrebe printanja.
 
:;Ključne besede
::sociogram, psihologija, delo v skupinah, namizna aplikacija, spletne storitve
 
:;Tip zaključnega dela
::Diplomsko delo
 
=== Evalvacija in produktivizacija orodja TextCaptcha ===
:Martin Čebular je v okviru svoje magistrske naloge razvil orodje TextCaptcha - [[Master_theses|Preprečevanje neželenih komentarjev za spletne novice s pomočjo tehnik za procesiranje naravnega jezika (Martin Čebular)]]. Ideja za orodje izhaja iz storitve [http://recaptcha.net reCaptcha], ki se uporablja za bolj natančno digitalizacijo knjig. V osnovi deluje tako, da bralcu prikaže npr. dva niza, pri katerem sistem za enega pozna rešitev, za drugega ne. Uporabnik mora oba niza vpisati v vnosno polje. Sistem nato preko več odgovorov ugotovi, kakšna je pravilna digializacija neznanega niza.  
 
:Izdelano orodje je že bilo validirano in kot Javascript vtičnik na spletnih straneh [rtvslo.si]. Namen magistrske naloge bi bil (a) izdelati natančno metodologijo uporabe orodja TextCaptcha za namene zbiranja označenih korpusov v slovenskem jeziku, (b) prikazati smiselne primere uporabe in (c) evalvirati orodje na realnih primerih.
 
:;Ključne besede
::ekstrakcija informacij, gradnja podatkovnih množic, preverjanje vnosov
 
:;Tip zaključnega dela
::Magistrsko delo
 
=== Primerjava standardne slovenščine v Sloveniji in izzven nje ===
:Za primerjavo jezikov obstajajo že uveljavljene metode, s katerimi se lahko primerja, kdaj sta si jezika sorodna, enaka oz. kako različna sta si. V okviru zaključnega dela naj se primerja besedila novic iz področja Slovenije z besedili novic zamejskih Slovencev ali izseljencev. Primeri novic izseljencev so na primer [http://www.novice.at/ novice.at] (Avstrija), Novi list (Argentina), ipd., pri čemer naj se pregleda možnosti za pridobitev tudi drugih primernih virov. Izdela naj se referenčni korpus, katerega se bo primerjalo z referenčnim korpusom standardne slovenščine v Sloveniji (vir bo zagotovljen). Množice je potrebno nato primerjati in ugotoviti jezikovne različnosti (npr. raba besed v različnih kontekstih, pojavljanje starih/novih besed, vpliv tujega jezika, vrstni red besed).
 
:;Uporabne povezave
::[https://alternativetransport.wordpress.com/2015/05/04/how-much-does-language-change-when-it-travels/ Lexical distance map among languages]
 
:;Ključne besede
::slovenščina, primerjava besedil, novice
 
:;Tip zaključnega dela
::Magistrsko delo
 
=== Analiza in primerjava podatkovnih baz za hranjenje podatkov v grafih ===
:Obstaja mnogo primerov, ko se lahko podatke hrani v grafih, ali ko tudi že poizvedba predstavlja podgraf. Namen zaključnega dela je identifikacija in opis domen, kjer se uporabljajo grafovski podatkovni modeli. Temu naj nato sledi pregled najbolj znanih podatkovnih baz na tem področju, skupaj z njihovo primerjavo. Primera baz iz tega področja sta na primer [https://janusgraph.org Janus Graph] ali [https://neo4j.com Neo4J]. Na podlagi primerjalne tabele naj se izbere eno ali dve najbolj primerni implementaciji in prikaže delovanje podatkovne baze. Prikaz naj zajema (a) namestitev, (b) uvoz podatkov, (c) poizvedovanje in (d) performančne lastnosti.


* [http://www.conll.org/ CoNLL]
:;Ključne besede
* [http://alt.qcri.org/semeval2019/index.php?id=tasks SemEval]
::podatkovne baze, predstavitev v obliki grafa, povezave
* [http://bsnlp.cs.helsinki.fi/shared_task.html BSNLP Challenge]


== Teme v izdelavi ==
:;Tip zaključnega dela
::Diplomsko ali magistrsko delo


== Že izdelane ==
=== Pregled in analiza semantičnih (SPARQL) podatkovnih baz ===
:V letu 2012 je Simeon Puntar izdelal diplomsko nalogo [https://repozitorij.uni-lj.si/IzpisGradiva.php?id=25858 Pregled in primerjava triplestore podatkovnih baz]. Od tedaj se je na področju semantičnega spleta zgodilo marsikaj.


=== Primerjava orodij za vizualizacijo in preiskovanje omrežij (Didka Dimitrova Birova) ===
:Semantične podatkovne baze morajo biti sposobne hraniti podatke, ki so opisani s pomočjo ontologij (npr. v jeziku RDF(S), OWL). Za poizvedovanje nad takšnimi shemami je bil zasnovan protokol in poizvedovalni jezik SPARQL, ki ga podpirajo nekatere podatkovne baze. V zaključnem delu naj se pregleda področje grafovskih podatkovnih baz, ki podpirajo poizvedovanje z jezikom SPARQL. Nepopoln seznam je na voljo na [https://en.wikipedia.org/wiki/List_of_SPARQL_implementations Wikipediji]. Trenutno (v letu 2022) so morda najbolj aktualne baze [https://www.ontotext.com/products/graphdb OntoText GraphDB], [https://aws.amazon.com/neptune Amazon Neptune] ali [https://www.oracle.com/database/graph/ Oracle Graph Database]. Performančno analizo se lahko izvede s pomočjo predpripravljenih podatkov - ''[http://swat.cse.lehigh.edu/projects/lubm/ Lehigh University Benchmark (LUBM)]''


Zaradi povečevanja količine in kompleksnosti podatkov uporabniki vse težje učinkovito preučujejo velike množice podatkov. Podatki so med seboj povezani in posledično lahko množico podatkov predstavimo in vizualiziramo v obliki omrežja (socialna, biološka, svetovni splet). Glavni namen vizualizacije je učinkovito posredovati in predstaviti podatke s pomočjo vizualne percepcije ter predvsem olajšati raziskovanje podatkov oziroma omrežja. Za analizo in prikaz omrežij obstaja množica orodij - nekatera pokrivajo področje analize kot tudi prikaza, specializirana orodja pa se osredotočajo samo na analizo ali samo na vizualizacijo, oziroma so lahko specializirana za določeno domeno (npr. socialna omrežja).
:;Možne druge variacije zaključnega dela
::(a) Opis, primerjava in implementacije poizvedovalnih jezikov nad grafi (npr. Cypher, openCypher, SPARQL, Gremlin, Apache TinkerPop).
::(b) Izbira specifične podatkovne baze in podrobnejša analiza le nje.


V okviru naloge bi bilo potrebno narediti primerjavo in evaluacijo orodij za vizualizacijo omrežij – kakšne so omejitve, performance, možnosti za razširitev in dopolnjevanje obstoječih orodij.
:;Ključne besede
::podatkovne baze, semantični splet, ontologije, SPARQL


Ključne besede: vizualizacija podatkov, omrežja, primerjava orodij
:;Tip zaključnega dela
::Diplomsko ali magistrsko delo


Kontaktna oseba pri izdelavi dela: Neli Blagus
=== Baza znanja na podlagi odprte ekstrakcije informacij ===
:Miha Bogataj je izdelal diplomsko delo [[Diploma_theses|Odprta ekstrakcija informacij za slovenski jezik]], v okviru katerega je definiral pravila in pridobil povezave na podlagi odprte ekstrakcije informacij za slovenski jezik. Poleg starejših pristopov, ki temeljijo na hevristikah, in so bili uporabljeni v tem delu (npr. TextRunner, ReVerb ali Ollie), so bili pre kratkim predlagani tudi novejši pristopi. Namen zaključnega dela bi bil, da se pregleda področje odprte ekstrakcije informacij in prilagodi enega izmed najboljših modelov za uporabo v slovenskem jeziku ([https://paperswithcode.com/task/open-information-extraction seznam člankov]).


Datoteke: [{{filepath:Diplomska_Didka.pdf}} Diplomsko delo]
:;Možne druge variacije zaključnega dela
::(a) Izdelava spletnega mesta za pregledovanje rezultatov, ki jih generira sistem za odprto ekstrakcijo informacij. Primer: [https://openie.allenai.org openie.allenai.org].


=== Označevanje imenskih entitet v pravnih besedilih (Matic Di Batista)===
:;Ključne besede
::odprta ekstrakcija informacij, trojice, nenadzorovano učenje


Odkrivanje podatkov iz besedil velja za eno izmed aktualnih podpodročij v okviru obdelave tekstovnih podatkov. Za slovenski jezik še nimamo dovolj prilagojenih pristopov ali ogromnih podatkovnih množic iz katerih bi lahko zgradili praktično uporabne metode za odkrivanje entitet. Namen diplomske naloge ja zato izdelava orodja, ki bo znalo odkrivati imenske entitete v slovenskih besedilih.
:;Tip zaključnega dela
Kandidat naj pregleda obstoječe metode za odkrivanje entitet v besedilih in jih prilagodi za delo s slovenskim jezikom. Pri tem naj primerja njihovo delovanje in razišče morebitne probleme, ki so posledica sintakse in pravil v slovenščini. Nazadnje naj predlaga nov nabor značilk za učenje modelov in razvito metodo testira nad lastno izdelano podatkovno množico.
::Diplomsko ali magistrsko delo


Ključne besede: ekstrakcija podatkov iz besedil, razpoznavanje entitet, tekstovno rudarjenje
=== Produktivizacija modelov globokega učenja ===
:V zadnjem času se globoki modeli nevronskih mrež čedalje bolj uporabljajo v praksi. Seveda je možno implementirati lastno infrastrukturo, ki bo služila namenu, da bodo rezultati našega modela dostopni uporabnikom, vendar za ta namen obstajajo tudi specifična orodja ali ogrodja. V okviru zaključnega dela naj se pregleda in primerja platforme, ki to omogočajo (npr. Nvidia Triton). Izbrano platformo naj se tudi preskusi in prikaže delovanje na praktičnem primeru (npr. produktivizacija obstoječega globokega modela).


Datoteke: [{{filepath:Diplomska_MaticDiBatista.pdf}} Diplomsko delo]
:;Možne druge variacije zaključnega dela
::(a) Pregled in preskus platforme za zaganjanje globokih modelov v brskalniku (npr. [https://www.tensorflow.org/js www.tensorflow.org/js]).
::(b) Pregled in preskus platforme za zaganjanje globokih modelov na mobilnih napravah (npr. [https://www.tensorflow.org/lite/android Tensorflow Android], [https://www.tensorflow.org/lite/guide/ios Tensorflow iOS], [https://developer.apple.com/documentation/coreml Apple CoreML]).


=== Kontekstualno ujemanje in iskanje na modelu spletne oglasne deske (Vasja Laharnar) ===
:;Ključne besede
::globoko učenje, ogrodja za umetno inteligenco, produktivizacija


Spletne oglasne deske so specializirani iskalniki, ki lahko namesto dokumentov (npr. spletne strani, slike, besedila), indeksirajo uporabnike sistema.  Primer so socialni iskalniki, ki ne vrnejo neposrednega odgovora, ampak se poizvedba pošlje uporabniku, ki ga sistem spozna za relevantnega in nato le ta odgovori. Takšni iskalniki morajo torej bolj upoštevati uporabniške profile in njihove kontekste.
:;Tip zaključnega dela
V okviru diplomske naloge naj kandidat izdela spletno storitev, ki bo omogočala objavljanje besedil in njihovo iskanje. Pri tem naj kandidat preuči korake procesiranja besedil za potrebe splošnega indeksiranja. Poleg tega naj pri implementaciji iskanja in primerjanja besedil upošteva tudi semantične podatke, k jih pridobi iz besedil ali profilov uporabnikov. Nazadnje naj izdelano storitev testira na domeni študijskih praks, kjer v sistemu sodelujejo profesorji, študenti in podjetja.
::Magistrsko delo


Ključne besede: obdelava naravnega jezika, semantična podobnost, lematizacija, klasifikacija, naivni Bayesov klasifikator, iskanje informacij, iskanje, ujemanje
=== Implementacija podpore za slovenski jezik v iskalno ogrodje Apache Solr ===
:Aljaž Eržen je pri predmetu Iskanje in ekstrakcija podatkov (2022) izdelal [https://github.com/UL-FRI-Zitnik/solr-classla vtičnik s podporo za slovenski jezik za iskalnik Apache Solr]. Vtičnik podpira členjenje, korenjenje in lematizacijo in deluje kot gRPC odjemalec za modele CLASSLA.


Datoteke: [{{filepath:Diplomska_VasjaLaharnar.pdf}} Diplomsko delo]
:Namen zaključnega dela je, da se opiše arhitekturo delovanja Apache Solr in razloži delovanje posameznih komponent, ki se izvajajo ob indeksiranju ali iskanju. Opiše naj se delovanje izdelane komponente za podporo za slovenski jezik ter stestira hitrost delovanja. Glede na to, da so nekateri modeli CLASSLA počasni, naj se ugotovi, če je hitrost delovanja sistema sprejemljiva za uporabo v praksi.


=== Semantično zajemanje podatkov iz predefiniranih virov (Alan Rijavec)===
:;Ključne besede
::Apache Solr, iskanje, slovenski jezik


Izdelajte komponento za zajem podatkov iz spletnih virov. Komponenta naj bo zasnovana modularno, tako da bo dodajanje novega vira zahtevalo le implementacijo določenih vmesnikov. Vhodi in rezultati naj bodo semantično označeni, tako da bo komponenta zmožna sama izvajati klice funkcij in sestavljati rezultate v obliki RDFS ali drugega semantičnega zapisa.
:;Tip zaključnega dela
::Magistrsko delo


Ključne besede: spletni pajek, razčlenjevanje spletnih strani, semantični splet
=== Izdelava ogrodja za demokratizacijo obdelave naravnega jezika ===
:V okviru projekta [https://slovenscina.eu Razvoj slovenščine v digitalnem okolju] smo pregledali možnosti za izdelavo orodja za procesiranje naravnega jezika po vzoru obstoječih orodij - [https://gate.ac.uk GATE], [https://uima.apache.org UIMA], [https://orangedatamining.com Orange3] ([https://github.com/biolab/orange3-text Text mining Addon], [http://textable.io Textable]). Poleg tega smo pripravili tudi zasnovo splošnega podatkovnega modela, arhitekturo orodja in definirali programske vmesnike za komunikacijo med vsebniki Docker.


Datoteke: [{{filepath:Diplomska_AlanRijavec.pdf}} Diplomsko delo] [{{filepath:IzvornaKoda_AlanRijavec.zip}} Izvorna koda]
:Namen zaključnega dela je implementirati predlagano orodja in pokazati možnosti za izvedljivost projekta ter uporabo orodja v praksi. Končna specifikacija kmalu na voljo javnosti.


=== Beleženje konteksta (Marko Jurinčič)===
:;Ključne besede
::Docker, procesiranje naravnega jezika, podatkovni model, programski vmesniki


Današnje inteligentne aplikacije morajo za svoje delovanje beležiti in uporabljati kontekst uporabnika. Zamislite si pristop, kako čim bolj natančno modelirati kontekst določenega uporabnika. Cilj je, da iz ugotovljenih virov pridobite trenutno relevantne teme (besede) za uporabnika. Uporabljate lahko čim več virov, ki jih lahko: na primer zvok, slika, video uporabnika, pisanje. Primer vašega dela: Implementacija orodne vrstice v iskalniku Firefox, ki ima možnost beleženja in shranjevanja različnih parametrov (čas na določeni spletni strani, interakcija z drugimi programi). Podobna orodna vrstica je implementirana znotraj Lemur Project-a, ki si gradi t.i. query-log. Mogoče tudi beleženje konteksta preko aplikacije pametnega telefona.
:;Tip zaključnega dela
::Diplomsko delo delo


Ključne besede: kontekst, vtičnik, podatkovno rudarjenje
=== Ostale možne tematike ===
:Kandidat si lahko zamisli svoj lasten problem iz področja iskanja in ekstrakcije vsebin is spleta ali procesiranja naravnega jezika ter ga uskladi z menoj. Tematike se lahko dotikajo tudi analize in uporabe odprtokodnih sistemov, ki so morda trenutno aktualne, uporabe in analize odprtih podatkov (npr. iz portala [https://podatki.gov.si/ OPSI]) ali izdelave speficičnih orodij za obdelavo podatkov (ETL, informacijski sistemi, ipd.).


Datoteke: [{{filepath:Diplomska_MarkoJurincic.pdf}} Diplomsko delo] [{{filepath:IzvornaKoda_MarkoJurincic.zip}} Izvorna koda]
:Prav tako vsako leto na področju procesiranja naravnega jezika potekajo tekmovanja z zanimivimi tematikami, ki lahko predstavljajo zaključno delo. Največkrat so to delavnice (angl., workshops) na konferencah ACL, CoNLL, BSNLP, EMNLP, ipd.

Latest revision as of 07:36, 16 July 2024

Na tej strani so naštete proste teme za izdelavo zaključnih del pod mojim mentorstvom. Pri izbiri prosim sledite navodilom, ki so opisana na strani glede metodologije priprave zaključnega dela.

Portali odprtih podatkov - deljenje, objava, ponovna uporaba

Evropska unija želi ustvariti okolje za boljšo podatkovno ekonomijo. Že pred leti so zato članice EU začele vzpostavljati portale odprtih podatkov, ki večinoma temeljijo na odprtokodnem ogrodju CKAN. Tudi v Sloveniji imamo v tem smislu vzpostavljen portal [1].
Za boljšo ponovno uporabo podatkov morajo biti le ti bolje (avtomatsko) dostopni in ponujeni preko vmesnikov. Projekt Podatkovni zemljevid je omogočil enostavno iskanje in pretvorbo v semantično obliko, kar mora biti še integrirano. Možnosti za inovativnost je še mnogo ...
V okviru naloge se pričakuje podroben pregled izbranega (pod)področja/ogrodja, primerjava obstoječih rešitev in implementacija prototipa s pomočjo odprtokodnih orodij. Prototip je lahko izboljšava/avtomatizacija posameznega dela Podatkovnega zemljevida ali vključitev napredne obdelave naravnega jezika za ponujanje podatkov (npr. iskanje, povzemanje, ...).
Ključne besede
odprti podatki, OPSI, repozitoriji
Tip zaključnega dela
Diplomsko delo ali Magistrska naloga

Evropski podatkovni prostori - infrastruktura

Podatkovni prostori (angl. Dataspaces) predstavljajo abstrakcijo upravljanja podatkov, kjer je osredni cilj odprava težav, ki se pojavijo pri integraciji podatkov. Osrednji namen podatkovnih prostorov je zmanjšati napor, ki je potreben za vzpostavitev sistema za integracijo podatkov, kjer uporabimo obstoječe tehnike ujemanj in preslikav ter vpeljava plačila po uporabi. Na ravni EU je prisotnih veliko aktivnosti, kjer je na voljo številno gradivo:
V okviru naloge se pričakuje podroben pregled izbranega (pod)področja/ogordja, primerjava obstoječih rešitev in implementacija prototipa s pomočjo odprtokodnih orodij.
Ključne besede
podatkovni prostori, semantika, spletne tehnologije
Tip zaključnega dela
Diplomsko delo ali Magistrska naloga

Evropski podatkovni prostor za jezik (Language Data Space)

Podatkovni prostori (angl. Dataspaces) predstavljajo abstrakcijo upravljanja podatkov, kjer je osredni cilj odprava težav, ki se pojavijo pri integraciji podatkov. Osrednji namen podatkovnih prostorov je zmanjšati napor, ki je potreben za vzpostavitev sistema za integracijo podatkov, kjer uporabimo obstoječe tehnike ujemanj in preslikav ter vpeljava plačila po uporabi. Glejte tudi zgornje gradivo.
V okviru naloge se pričakuje podroben pregled stanja in razvoja Evropskega podatkovnega prostora za jezik. Izvede naj se primerjava z drugimi podatkovnimi prostori (predvsem glede izbire infrastrukture). Implementira naj se prototip, ki bi omogočil vključitev in/ali uporabo podatkov iz podatkovnega prostora.
Ključne besede
podatkovni prostori, semantika, jezikovne tehnologije
Tip zaključnega dela
Diplomsko delo ali Magistrska naloga

Izdelava Sociogramov - sedežni red

Sociometrija je tehnika iz socialne psihologije in sociologije, ki se uporablja za merjenje družbenih odnosov v skupinah (npr. ekipe, razredi v šolah, ...). Z njo se opredeli povezanost skupine ter vlogo posameznika v tej skupini (npr. izločen, priljubljen, vodja, ...). Vodji skupine (npr. trenerju, učitelju, socialnemu pedagogu) tehnika pomaga razumeti latentne odnose v skupinah in jim omogoča učinkovitejše ter ustreznejše delo s skupino.
V okviru projekta se pričakuje:
  • Nadgradnja obstoječe aplikacije Sociogram (sedežni red ali oddaljeno izpolnjevanje sociogramov). Uporaba tehnologij Java 18+, Python/Django, React (ali drugo ogrodje) in MariaDB.
  • Sodelovanje s študentkami/študenti iz Fakultete za šport (FSP) in podjetjem MikroGrafArt d.o.o..
  • Predvidenih 80 ur dela, plačanih po postavki 11,30 EUR bruto bruto.
  • Čas sodelovanja v obdobju od aprila do septembra 2024.
Delo se lahko nadgradi in uporabi tudi v okviru predmetov RvP/OSD ali se jih prilagodi v zaključno delo (npr. diplomska naloga)
Predlaganje sedežnega reda v učilnicah glede na rezultat Sociograma: Na podlagi rezultatov medsebojnih odnosov in dinamike pri pouku se bo pregledalo teoretične vidike in predlagalo metodologije za izdelavo sedežnih redov na podlagi sociometrije (študent FSP). Metodologije bodo nato implementirane v dodatnem modulu programa Sociogram, ki bo omogočal avtomatsko izdelavo sedežnega reda za poljubno vnešen tloris učilnice (študent FRI). Rezultat bo omogočil kakovostnejše izobraževanje, zmanjšanje neenakosti in večjo integracijo skupin.
Ključne besede
sociogram, psihologija, delo v skupinah, namizna aplikacija, spletne storitve
Tip zaključnega dela
Diplomsko delo

Izdelava Sociogramov - oddaljen način

Sociometrija je tehnika iz socialne psihologije in sociologije, ki se uporablja za merjenje družbenih odnosov v skupinah (npr. ekipe, razredi v šolah, ...). Z njo se opredeli povezanost skupine ter vlogo posameznika v tej skupini (npr. izločen, priljubljen, vodja, ...). Vodji skupine (npr. trenerju, učitelju, socialnemu pedagogu) tehnika pomaga razumeti latentne odnose v skupinah in jim omogoča učinkovitejše ter ustreznejše delo s skupino.
V okviru projekta se pričakuje
  • Nadgradnja obstoječe aplikacije Sociogram (sedežni red ali oddaljeno izpolnjevanje sociogramov). Uporaba tehnologij Java 18+, Python/Django, React (ali drugo ogrodje) in MariaDB.
  • Sodelovanje s študentkami/študenti iz Fakultete za šport (FSP) in podjetjem MikroGrafArt d.o.o..
  • Predvidenih 80 ur dela, plačanih po postavki 11,30 EUR bruto bruto.
  • Čas sodelovanja v obdobju od aprila do septembra 2024.
Delo se lahko nadgradi in uporabi tudi v okviru predmetov RvP/OSD ali se jih prilagodi v zaključno delo (npr. diplomska naloga).
Izdelava Sociograma na oddaljen način: Trenutno se Sociogram printa na liste, od koder se nato rezultate vnese v program. Potrebno je preveriti in izdelati varen protokol (študent FSP) in implementirati avtomatske mehanizme za oddaljeno izpolnjevanje sociograma preko e-pošte ali drugih kanalov, pri čemer je potrebno zagotavljati varnost in anonimnost (študent FRI). Rezultat bo bolj učinkovito anketiranje in bolj trajnostna izdelava sociogramov brez potrebe printanja.
Ključne besede
sociogram, psihologija, delo v skupinah, namizna aplikacija, spletne storitve
Tip zaključnega dela
Diplomsko delo

Evalvacija in produktivizacija orodja TextCaptcha

Martin Čebular je v okviru svoje magistrske naloge razvil orodje TextCaptcha - Preprečevanje neželenih komentarjev za spletne novice s pomočjo tehnik za procesiranje naravnega jezika (Martin Čebular). Ideja za orodje izhaja iz storitve reCaptcha, ki se uporablja za bolj natančno digitalizacijo knjig. V osnovi deluje tako, da bralcu prikaže npr. dva niza, pri katerem sistem za enega pozna rešitev, za drugega ne. Uporabnik mora oba niza vpisati v vnosno polje. Sistem nato preko več odgovorov ugotovi, kakšna je pravilna digializacija neznanega niza.
Izdelano orodje je že bilo validirano in kot Javascript vtičnik na spletnih straneh [rtvslo.si]. Namen magistrske naloge bi bil (a) izdelati natančno metodologijo uporabe orodja TextCaptcha za namene zbiranja označenih korpusov v slovenskem jeziku, (b) prikazati smiselne primere uporabe in (c) evalvirati orodje na realnih primerih.
Ključne besede
ekstrakcija informacij, gradnja podatkovnih množic, preverjanje vnosov
Tip zaključnega dela
Magistrsko delo

Primerjava standardne slovenščine v Sloveniji in izzven nje

Za primerjavo jezikov obstajajo že uveljavljene metode, s katerimi se lahko primerja, kdaj sta si jezika sorodna, enaka oz. kako različna sta si. V okviru zaključnega dela naj se primerja besedila novic iz področja Slovenije z besedili novic zamejskih Slovencev ali izseljencev. Primeri novic izseljencev so na primer novice.at (Avstrija), Novi list (Argentina), ipd., pri čemer naj se pregleda možnosti za pridobitev tudi drugih primernih virov. Izdela naj se referenčni korpus, katerega se bo primerjalo z referenčnim korpusom standardne slovenščine v Sloveniji (vir bo zagotovljen). Množice je potrebno nato primerjati in ugotoviti jezikovne različnosti (npr. raba besed v različnih kontekstih, pojavljanje starih/novih besed, vpliv tujega jezika, vrstni red besed).
Uporabne povezave
Lexical distance map among languages
Ključne besede
slovenščina, primerjava besedil, novice
Tip zaključnega dela
Magistrsko delo

Analiza in primerjava podatkovnih baz za hranjenje podatkov v grafih

Obstaja mnogo primerov, ko se lahko podatke hrani v grafih, ali ko tudi že poizvedba predstavlja podgraf. Namen zaključnega dela je identifikacija in opis domen, kjer se uporabljajo grafovski podatkovni modeli. Temu naj nato sledi pregled najbolj znanih podatkovnih baz na tem področju, skupaj z njihovo primerjavo. Primera baz iz tega področja sta na primer Janus Graph ali Neo4J. Na podlagi primerjalne tabele naj se izbere eno ali dve najbolj primerni implementaciji in prikaže delovanje podatkovne baze. Prikaz naj zajema (a) namestitev, (b) uvoz podatkov, (c) poizvedovanje in (d) performančne lastnosti.
Ključne besede
podatkovne baze, predstavitev v obliki grafa, povezave
Tip zaključnega dela
Diplomsko ali magistrsko delo

Pregled in analiza semantičnih (SPARQL) podatkovnih baz

V letu 2012 je Simeon Puntar izdelal diplomsko nalogo Pregled in primerjava triplestore podatkovnih baz. Od tedaj se je na področju semantičnega spleta zgodilo marsikaj.
Semantične podatkovne baze morajo biti sposobne hraniti podatke, ki so opisani s pomočjo ontologij (npr. v jeziku RDF(S), OWL). Za poizvedovanje nad takšnimi shemami je bil zasnovan protokol in poizvedovalni jezik SPARQL, ki ga podpirajo nekatere podatkovne baze. V zaključnem delu naj se pregleda področje grafovskih podatkovnih baz, ki podpirajo poizvedovanje z jezikom SPARQL. Nepopoln seznam je na voljo na Wikipediji. Trenutno (v letu 2022) so morda najbolj aktualne baze OntoText GraphDB, Amazon Neptune ali Oracle Graph Database. Performančno analizo se lahko izvede s pomočjo predpripravljenih podatkov - Lehigh University Benchmark (LUBM)
Možne druge variacije zaključnega dela
(a) Opis, primerjava in implementacije poizvedovalnih jezikov nad grafi (npr. Cypher, openCypher, SPARQL, Gremlin, Apache TinkerPop).
(b) Izbira specifične podatkovne baze in podrobnejša analiza le nje.
Ključne besede
podatkovne baze, semantični splet, ontologije, SPARQL
Tip zaključnega dela
Diplomsko ali magistrsko delo

Baza znanja na podlagi odprte ekstrakcije informacij

Miha Bogataj je izdelal diplomsko delo Odprta ekstrakcija informacij za slovenski jezik, v okviru katerega je definiral pravila in pridobil povezave na podlagi odprte ekstrakcije informacij za slovenski jezik. Poleg starejših pristopov, ki temeljijo na hevristikah, in so bili uporabljeni v tem delu (npr. TextRunner, ReVerb ali Ollie), so bili pre kratkim predlagani tudi novejši pristopi. Namen zaključnega dela bi bil, da se pregleda področje odprte ekstrakcije informacij in prilagodi enega izmed najboljših modelov za uporabo v slovenskem jeziku (seznam člankov).
Možne druge variacije zaključnega dela
(a) Izdelava spletnega mesta za pregledovanje rezultatov, ki jih generira sistem za odprto ekstrakcijo informacij. Primer: openie.allenai.org.
Ključne besede
odprta ekstrakcija informacij, trojice, nenadzorovano učenje
Tip zaključnega dela
Diplomsko ali magistrsko delo

Produktivizacija modelov globokega učenja

V zadnjem času se globoki modeli nevronskih mrež čedalje bolj uporabljajo v praksi. Seveda je možno implementirati lastno infrastrukturo, ki bo služila namenu, da bodo rezultati našega modela dostopni uporabnikom, vendar za ta namen obstajajo tudi specifična orodja ali ogrodja. V okviru zaključnega dela naj se pregleda in primerja platforme, ki to omogočajo (npr. Nvidia Triton). Izbrano platformo naj se tudi preskusi in prikaže delovanje na praktičnem primeru (npr. produktivizacija obstoječega globokega modela).
Možne druge variacije zaključnega dela
(a) Pregled in preskus platforme za zaganjanje globokih modelov v brskalniku (npr. www.tensorflow.org/js).
(b) Pregled in preskus platforme za zaganjanje globokih modelov na mobilnih napravah (npr. Tensorflow Android, Tensorflow iOS, Apple CoreML).
Ključne besede
globoko učenje, ogrodja za umetno inteligenco, produktivizacija
Tip zaključnega dela
Magistrsko delo

Implementacija podpore za slovenski jezik v iskalno ogrodje Apache Solr

Aljaž Eržen je pri predmetu Iskanje in ekstrakcija podatkov (2022) izdelal vtičnik s podporo za slovenski jezik za iskalnik Apache Solr. Vtičnik podpira členjenje, korenjenje in lematizacijo in deluje kot gRPC odjemalec za modele CLASSLA.
Namen zaključnega dela je, da se opiše arhitekturo delovanja Apache Solr in razloži delovanje posameznih komponent, ki se izvajajo ob indeksiranju ali iskanju. Opiše naj se delovanje izdelane komponente za podporo za slovenski jezik ter stestira hitrost delovanja. Glede na to, da so nekateri modeli CLASSLA počasni, naj se ugotovi, če je hitrost delovanja sistema sprejemljiva za uporabo v praksi.
Ključne besede
Apache Solr, iskanje, slovenski jezik
Tip zaključnega dela
Magistrsko delo

Izdelava ogrodja za demokratizacijo obdelave naravnega jezika

V okviru projekta Razvoj slovenščine v digitalnem okolju smo pregledali možnosti za izdelavo orodja za procesiranje naravnega jezika po vzoru obstoječih orodij - GATE, UIMA, Orange3 (Text mining Addon, Textable). Poleg tega smo pripravili tudi zasnovo splošnega podatkovnega modela, arhitekturo orodja in definirali programske vmesnike za komunikacijo med vsebniki Docker.
Namen zaključnega dela je implementirati predlagano orodja in pokazati možnosti za izvedljivost projekta ter uporabo orodja v praksi. Končna specifikacija kmalu na voljo javnosti.
Ključne besede
Docker, procesiranje naravnega jezika, podatkovni model, programski vmesniki
Tip zaključnega dela
Diplomsko delo delo

Ostale možne tematike

Kandidat si lahko zamisli svoj lasten problem iz področja iskanja in ekstrakcije vsebin is spleta ali procesiranja naravnega jezika ter ga uskladi z menoj. Tematike se lahko dotikajo tudi analize in uporabe odprtokodnih sistemov, ki so morda trenutno aktualne, uporabe in analize odprtih podatkov (npr. iz portala OPSI) ali izdelave speficičnih orodij za obdelavo podatkov (ETL, informacijski sistemi, ipd.).
Prav tako vsako leto na področju procesiranja naravnega jezika potekajo tekmovanja z zanimivimi tematikami, ki lahko predstavljajo zaključno delo. Največkrat so to delavnice (angl., workshops) na konferencah ACL, CoNLL, BSNLP, EMNLP, ipd.