Diploma theses
Teme v izdelavi
Analiza in primerjava sistemov za informacijsko poizvedovanje (Mark Redelonghi)
Zasnova ogrodja za izvajanje metod za procesiranje naravnega jezika (Nik Hrovat)
Vpliv govorjenih posnetkov na analizo sentimenta njihovih transkriptov (Martin Jurkovič)
Analiza in opis procesa uvedbe poročilnega sistema na primeru podjetja Frodx (Marko Kovačič)
Odkrivanje biomedicinskih vzorcev za nevrodegenerativne bolezni iz biomedicinske znanstvene literature (Radoslav Atanasoski)
GeoTools: spletna storitev za izvajanje prostorskih analiz (Sanil Safić)
Primerjava metod za avtomatsko ekstrakcijo podatkov iz spleta (Gašper Martič)
Klasifikacija sovražnega govora v slovenskem in angleškem jeziku (Nik Pirnat)
Informacijski sistem za upravljanje marin (Lovro Jevnikar)
Analiza vpliva omemb kriptovalut na njihovo ceno (Tilen Miklavič)
2022
Odprta ekstrakcija informacij za slovenski jezik (Miha Bogataj)
Open information extraction for Slovenian language
- Odprta ekstrakcija informacij je proces procesiranja naravnega jezika, ki iz posameznih povedi izvleče možne odvisnosti. Odvisnosti so sestavljene iz semantične trojice, kjer prvi člen predstavlja subjekt o katerem poizvedujemo, relacije, ki opiše, kako se prvi člen navezuje na tretjega, in objekt. Sistem odprte ekstrakcije informacij za slovenščino temelji na metodi na podlagi pravil. Sistem je sestavljen iz predprocesorja in ekstraktorja. Vloga predprocesorja je obdelava vhodnega besedila s pomočjo sistema CLASSLA, ki slovnično analizira poved, lematizacija in izgradnja semantičnega drevesa. Vloga ekstraktorja je, da z uporabo pravil poišče relacije v povedi. Ta pravila so bolj kompleksna kot v angleščini, ker je v slovenščini besedni red bolj prost. Slovenščina pozna tudi več sklanjatev, ki omogočajo bolj točno določitev subjekta in objekta. Med najdenimi ekstrakcijami je možno iskanje na dva načina: iskanje povedi in dopolnjevanje parametrov. Iskanje povedi zahteva izpolnjene vse parametre semantične trojice in vrne seznam povedi, ki ustrezajo iskani semantični trojici. Dopolnjevanje parametrov zahteva dva izpolnjena parametra, od katerih je relacija obvezna. Ta način vrne seznam možnih vrednosti za manjkajoč parameter.
- Ključne besede
- ekstrakcija, informacija, slovenščina
- extraction, information, Slovenian language
- Viri
- Diplomsko delo, Izvorna koda (zasebno)
2021
SloBench: Slovenski vrednotnik metod za obdelavo naravnega jezika (Frenk Dragar)
SloBench: Slovenian Natural Language Processing Benchmark
- Z nedavno priljubljenostjo modelov obdelave naravnega jezika, ki temeljijo na arhitekturi transformer, in njihove najsodobnejše zmogljivosti pri številnih nalogah NLP, je vse večja potreba po objektivnem ocenjevanju teh orodij in omogočanju njihove primerjave. Obstajajo številni nabori podatkov in meril za NLP naloge, ki pa večinoma temeljijo na angleškem jeziku. V diplomski nalogi kandidat opiše razvoj prve slovenske platforme za avtomatsko primerjavo NLP modelov - SloBench, skupaj z njenim razširljivim in od sistemske arhitekture neodvisnim ogrodjem za evalvacijo sistemov. Nato kritično oceni projekt, ga primerja z obstoječimi merili uspešnosti NLP in poda nekaj idej za prihodnje razširitve platforme.
- Evalvacija nalog procesiranja naravnega jezika (NLP) je bistven del raziskav in napredka na tem področju. Zagotavlja objektiven standard za uspešnost in primerjavo sistemov pri določeni nalogi. Podamo pregled nedavnih javnih lestvic za najboljše sisteme in trendov njihovega ocenjevanja s poudarkom na avtomatskem vrednotenju sistemov. Nato predlagamo, implementiramo in dokumentiramo splošno, razširljivo in od sistemske arhitekture neodvisno ogrodje za evalvacijo sistemov, skupaj s prvo spletno platformo za avtomatsko vrednotenje NLP nalog v slovenščini z javnimi lestvicami, ki prikazujejo rezultate objavljenih sistemov.
- Ključne besede
- procesiranje naravnega jezika, vrednotenje, lestvica najboljših, strojno učenje, spletna platforma
- natural language processing, benchmarking, leaderboard, machine learning, web platform
- Viri
- Diplomsko delo, SloBENCH spletišče, Evalvacijsko ogrodje, Izvorna koda spletne aplikacije in članek (v pripravi)
Obdelava velikih količin podatkov v skoraj realnem času (Anže Habjan)
Near real-time processing of large amounts of data
- V času, ko količina generiranih podatkov na spletu narašča tako hitro kot še nikoli, je toliko bolj pomembno, da je obdelava le teh kar se da hitra. Opišemo implementacijo celostnega sistema, ki bo specializiran za obdelavo pretočnih podatkov v skoraj realnem času, in bo vključeval po eno orodje za vsak del: pridobivanje, obdelava, shranjevanje in vizualizacija. Posamezna orodja so utemeljeno izbrana na podlagi našega realnega primera uporabe sistema, ki je obdelava čivkov (tweet), ki nastanejo na omrežju Twitter v času nogometne tekme. Na primeru uporabe tudi prikažemo analize in vizualizacije, ki jih omogoča implementiran sistem. Zaključimo s prikazom nekaj metrik našega sistema v času obdelave.
- Ključne besede
- veliki podatki, obdelava, skoraj realni čas, Twitter, nogomet
- big data, processing, near real-time, Twitter, football
- Viri
- Diplomsko delo
Primerjava in analiza statičnih generatorjev spletnih strani (Luka Toni)
Comparison and analysis of static Web site generators
- Na spletu obstaja veliko načinov, kako ustvariti spletno stran in veliko različnih sistemov za upravljanje z vsebino, ki jih lahko uporabimo. Na voljo imamo različne spletne generatorje strani, kjer z malo tehničnega znanja lahko enostavno in hitro naredimo sodobno spletno stran.
- Generator statičnih strani je kompromis med ročno napisano kodo in polnim sistemom za upravljanje z vsebino, ki uporablja prednosti obeh. Primerjali smo 3 različne generatorje: Jekyll, Hugo in Gatsby. Na vseh treh generatorjih smo definirali ključne gradnike, ki jih ima povprečna spletna stran in jih implementirali z vsakim sistemom posebej ter nato primerjali med seboj. Poiskali smo prednosti in slabosti vseh treh generatorjev ter se posvetili temu, kako izdelati spletni dnevnik.
- Ključne besede
- generatorji statičnih strani, Jekyll, Hugo, Gatsby
- static site generators, Jekyll, Hugo, Gatsby
- Viri
- Diplomsko delo, Primer Jekyll, Primer Hugo, Primer Gatsby