Diploma theses: Difference between revisions
(→2022) |
(→2022) |
||
Line 119: | Line 119: | ||
|NaslovEng=Open information extraction for Slovenian language | |NaslovEng=Open information extraction for Slovenian language | ||
|Avtor=Miha Bogataj | |Avtor=Miha Bogataj | ||
|Opis=[[File:Screenshot 2022-08-03 at 16.25.12.png|right]] Odprta ekstrakcija informacij je proces procesiranja naravnega jezika, ki iz posameznih povedi izvleče možne odvisnosti. Odvisnosti so sestavljene iz semantične trojice, kjer prvi člen predstavlja subjekt o katerem poizvedujemo, relacije, ki opiše, kako se prvi člen navezuje na tretjega, in objekt. Sistem odprte ekstrakcije informacij za slovenščino temelji na metodi na podlagi pravil. Sistem je sestavljen iz predprocesorja in ekstraktorja. Vloga predprocesorja je obdelava vhodnega besedila s pomočjo sistema CLASSLA, ki slovnično analizira poved, lematizacija in izgradnja semantičnega drevesa. Vloga ekstraktorja je, da z uporabo pravil poišče relacije v povedi. Ta pravila so bolj kompleksna kot v angleščini, ker je v slovenščini besedni red bolj prost. Slovenščina pozna tudi več sklanjatev, ki omogočajo bolj točno določitev subjekta in objekta. Med najdenimi ekstrakcijami je možno iskanje na dva načina: iskanje povedi in dopolnjevanje parametrov. Iskanje povedi zahteva izpolnjene vse parametre semantične trojice in vrne seznam povedi, ki ustrezajo iskani semantični trojici. Dopolnjevanje parametrov zahteva dva izpolnjena parametra, od katerih je relacija obvezna. Ta način vrne seznam možnih vrednosti za manjkajoč parameter. | |Opis=[[File:Screenshot 2022-08-03 at 16.25.12.png|200pt|right]] Odprta ekstrakcija informacij je proces procesiranja naravnega jezika, ki iz posameznih povedi izvleče možne odvisnosti. Odvisnosti so sestavljene iz semantične trojice, kjer prvi člen predstavlja subjekt o katerem poizvedujemo, relacije, ki opiše, kako se prvi člen navezuje na tretjega, in objekt. Sistem odprte ekstrakcije informacij za slovenščino temelji na metodi na podlagi pravil. Sistem je sestavljen iz predprocesorja in ekstraktorja. Vloga predprocesorja je obdelava vhodnega besedila s pomočjo sistema CLASSLA, ki slovnično analizira poved, lematizacija in izgradnja semantičnega drevesa. Vloga ekstraktorja je, da z uporabo pravil poišče relacije v povedi. Ta pravila so bolj kompleksna kot v angleščini, ker je v slovenščini besedni red bolj prost. Slovenščina pozna tudi več sklanjatev, ki omogočajo bolj točno določitev subjekta in objekta. Med najdenimi ekstrakcijami je možno iskanje na dva načina: iskanje povedi in dopolnjevanje parametrov. Iskanje povedi zahteva izpolnjene vse parametre semantične trojice in vrne seznam povedi, ki ustrezajo iskani semantični trojici. Dopolnjevanje parametrov zahteva dva izpolnjena parametra, od katerih je relacija obvezna. Ta način vrne seznam možnih vrednosti za manjkajoč parameter. | ||
|KljucneBesede=ekstrakcija, informacija, slovenščina | |KljucneBesede=ekstrakcija, informacija, slovenščina | ||
|KljucneBesedeEng=extraction, information, Slovenian language | |KljucneBesedeEng=extraction, information, Slovenian language |
Revision as of 21:27, 3 August 2022
Teme v izdelavi
Analiza in primerjava sistemov za informacijsko poizvedovanje (Mark Redelonghi)
Zasnova ogrodja za izvajanje metod za procesiranje naravnega jezika (Nik Hrovat)
Vpliv govorjenih posnetkov na analizo sentimenta njihovih transkriptov (Martin Jurkovič)
Analiza in opis procesa uvedbe poročilnega sistema na primeru podjetja Frodx (Marko Kovačič)
Odkrivanje biomedicinskih vzorcev za nevrodegenerativne bolezni iz biomedicinske znanstvene literature (Radoslav Atanasoski)
GeoTools: spletna storitev za izvajanje prostorskih analiz (Sanil Safić)
Primerjava metod za avtomatsko ekstrakcijo podatkov iz spleta (Gašper Martič)
Klasifikacija sovražnega govora v slovenskem in angleškem jeziku (Nik Pirnat)
Informacijski sistem za upravljanje marin (Lovro Jevnikar)
Analiza vpliva omemb kriptovalut na njihovo ceno (Tilen Miklavič)
2022
Odprta ekstrakcija informacij za slovenski jezik (Miha Bogataj)
Open information extraction for Slovenian language
- Odprta ekstrakcija informacij je proces procesiranja naravnega jezika, ki iz posameznih povedi izvleče možne odvisnosti. Odvisnosti so sestavljene iz semantične trojice, kjer prvi člen predstavlja subjekt o katerem poizvedujemo, relacije, ki opiše, kako se prvi člen navezuje na tretjega, in objekt. Sistem odprte ekstrakcije informacij za slovenščino temelji na metodi na podlagi pravil. Sistem je sestavljen iz predprocesorja in ekstraktorja. Vloga predprocesorja je obdelava vhodnega besedila s pomočjo sistema CLASSLA, ki slovnično analizira poved, lematizacija in izgradnja semantičnega drevesa. Vloga ekstraktorja je, da z uporabo pravil poišče relacije v povedi. Ta pravila so bolj kompleksna kot v angleščini, ker je v slovenščini besedni red bolj prost. Slovenščina pozna tudi več sklanjatev, ki omogočajo bolj točno določitev subjekta in objekta. Med najdenimi ekstrakcijami je možno iskanje na dva načina: iskanje povedi in dopolnjevanje parametrov. Iskanje povedi zahteva izpolnjene vse parametre semantične trojice in vrne seznam povedi, ki ustrezajo iskani semantični trojici. Dopolnjevanje parametrov zahteva dva izpolnjena parametra, od katerih je relacija obvezna. Ta način vrne seznam možnih vrednosti za manjkajoč parameter.
- Ključne besede
- ekstrakcija, informacija, slovenščina
- extraction, information, Slovenian language
- Viri
- Diplomsko delo, Izvorna koda (zasebno)
2021
SloBench: Slovenski vrednotnik metod za obdelavo naravnega jezika (Frenk Dragar)
SloBench: Slovenian Natural Language Processing Benchmark
- Z nedavno priljubljenostjo modelov obdelave naravnega jezika, ki temeljijo na arhitekturi transformer, in njihove najsodobnejše zmogljivosti pri številnih nalogah NLP, je vse večja potreba po objektivnem ocenjevanju teh orodij in omogočanju njihove primerjave. Obstajajo številni nabori podatkov in meril za NLP naloge, ki pa večinoma temeljijo na angleškem jeziku. V diplomski nalogi kandidat opiše razvoj prve slovenske platforme za avtomatsko primerjavo NLP modelov - SloBench, skupaj z njenim razširljivim in od sistemske arhitekture neodvisnim ogrodjem za evalvacijo sistemov. Nato kritično oceni projekt, ga primerja z obstoječimi merili uspešnosti NLP in poda nekaj idej za prihodnje razširitve platforme.
- Evalvacija nalog procesiranja naravnega jezika (NLP) je bistven del raziskav in napredka na tem področju. Zagotavlja objektiven standard za uspešnost in primerjavo sistemov pri določeni nalogi. Podamo pregled nedavnih javnih lestvic za najboljše sisteme in trendov njihovega ocenjevanja s poudarkom na avtomatskem vrednotenju sistemov. Nato predlagamo, implementiramo in dokumentiramo splošno, razširljivo in od sistemske arhitekture neodvisno ogrodje za evalvacijo sistemov, skupaj s prvo spletno platformo za avtomatsko vrednotenje NLP nalog v slovenščini z javnimi lestvicami, ki prikazujejo rezultate objavljenih sistemov.
- Ključne besede
- procesiranje naravnega jezika, vrednotenje, lestvica najboljših, strojno učenje, spletna platforma
- natural language processing, benchmarking, leaderboard, machine learning, web platform
- Viri
- Diplomsko delo, SloBENCH spletišče, Evalvacijsko ogrodje, Izvorna koda spletne aplikacije in članek (v pripravi)
Obdelava velikih količin podatkov v skoraj realnem času (Anže Habjan)
Near real-time processing of large amounts of data
- V času, ko količina generiranih podatkov na spletu narašča tako hitro kot še nikoli, je toliko bolj pomembno, da je obdelava le teh kar se da hitra. Opišemo implementacijo celostnega sistema, ki bo specializiran za obdelavo pretočnih podatkov v skoraj realnem času, in bo vključeval po eno orodje za vsak del: pridobivanje, obdelava, shranjevanje in vizualizacija. Posamezna orodja so utemeljeno izbrana na podlagi našega realnega primera uporabe sistema, ki je obdelava čivkov (tweet), ki nastanejo na omrežju Twitter v času nogometne tekme. Na primeru uporabe tudi prikažemo analize in vizualizacije, ki jih omogoča implementiran sistem. Zaključimo s prikazom nekaj metrik našega sistema v času obdelave.
- Ključne besede
- veliki podatki, obdelava, skoraj realni čas, Twitter, nogomet
- big data, processing, near real-time, Twitter, football
- Viri
- Diplomsko delo
Primerjava in analiza statičnih generatorjev spletnih strani (Luka Toni)
Comparison and analysis of static Web site generators
- Na spletu obstaja veliko načinov, kako ustvariti spletno stran in veliko različnih sistemov za upravljanje z vsebino, ki jih lahko uporabimo. Na voljo imamo različne spletne generatorje strani, kjer z malo tehničnega znanja lahko enostavno in hitro naredimo sodobno spletno stran.
- Generator statičnih strani je kompromis med ročno napisano kodo in polnim sistemom za upravljanje z vsebino, ki uporablja prednosti obeh. Primerjali smo 3 različne generatorje: Jekyll, Hugo in Gatsby. Na vseh treh generatorjih smo definirali ključne gradnike, ki jih ima povprečna spletna stran in jih implementirali z vsakim sistemom posebej ter nato primerjali med seboj. Poiskali smo prednosti in slabosti vseh treh generatorjev ter se posvetili temu, kako izdelati spletni dnevnik.
- Ključne besede
- generatorji statičnih strani, Jekyll, Hugo, Gatsby
- static site generators, Jekyll, Hugo, Gatsby
- Viri
- Diplomsko delo, Primer Jekyll, Primer Hugo, Primer Gatsby
Implementacija storitve za deljenje in spremljanje lokacije (Matej Baša)
Implementation of location tracking service
- Lokacijske storitve so v mobilnih napravah postale zelo pomembne. Veliko aplikacij spremlja lokacijo uporabnika ter na podlagi te pošilja promocijska sporočila, prikaže ustanove v bližnji okolici, napove temperaturo na trenutni lokaciji ipd.
- Diplomsko delo opisuje in analizira postopek implementacije in razvoja lokacijsko zavedne storitve na platformi Android s pomočjo programskega jezika Java. V delu je predstavljen celoten razvoj aplikacije, vse uporabljene plat- forme, orodja in knjižnice ter tehnologije lokacijske zavednosti. Pozornost je namenjena varnosti podatkov in preprosti implementaciji lokacijskih storitev.
- Ključne besede
- Android, Lokacijske storitve, GPS, Wifi, Mobilno omrežje, Google API, Zajemanje senzoričnih podatkov, Lokacijska področja, Firebase
- Android, Location services, GPS, Wifi, Mobile networks, Google API, Gathering of sensoric data, Location area, Firebase
- Viri
- Diplomsko delo
Automatic identification of content blocks from Web sites
- Informacije so dandanes enostavno dostopne, informiranost pa ključnega pomena. S to mislijo smo se lotili izdelave rešitve, ki bo omogočala luščenje vsebine člankov iz slovenskih novičarskih portalov. Glavni problem s katerim se pri tovrstnih rešitvah soočimo je ločitev vsebine od nepotrebnih informacij, kot so oglasi, komentarji in ostali postavitveni elementi spletnih strani. Za rešitev tega problema smo ubrali pristop, ki temelji na značilnostih plitkih besedil. Na njegovi osnovi smo zasnovali jezikovni model, ki smo ga zgradili s pomočjo slovenskega korpusa 10000 slovenskih člankov iz 5 različnih novičarskih portalov. Končni izdelek predstavlja ekstraktor, ki omogoča pridobitev vsebine slovenskih člankov in jih predstavi v strukturirani obliki.
- Ključne besede
- ekstrakcija, članki, značilnosti plitkih besedil
- extraction, articles, shallow text features
- Viri
- Diplomsko delo
Podpora za implementacijo večjezičnosti za spletne aplikacije (Tomaž Nemanič)
Implementation of multilingual support for Web applications
- V diplomski nalogi je celovito proučena aktualna podpora za implementacijo večjezičnosti na spletnih straneh. Prikazanih je več načinov implementacije za večjezičnost v spletišču "Mes. Ključnega pomena je točnost prevajanih podatkov aplikacije, zato se na dani platformi uresničuje prevajanje orodnih vrstic oziroma splošnih podatkov na čelnem delu aplikacije, prevajanje specifičnih pojmov pa z uporabo relacijske podatkovne baze na zalednem delu aplikacije. Poimenovanja proizvodov, njihovih lastnosti in drugih storitev so specifični strokovni pojmi, ki jih je potrebno stalno dodajati, spreminjati ali celo izbrisati iz evidence v določenem podjetju, zato se implementacija vrši na zalednem delu. Internacionalizacija in lokalizacija zagotovita prevajanje v jezik okolja, v katerem se uporabnik nahaja. Sodobna aplikacija upošteva tudi najboljše uporabniške izkušnje.
- Ključne besede
- aplikacija, internacionalizacija, lokalizacija, implementacija
- application, internationalization, localization, implementation
- Viri
- Diplomsko delo
2020
Optimizacija priprave in pregled oglaševanja na platformi Twitter (Domen Tominec)
Optimization of creation and preview of advertising on Twitter platform
- V dobi, ko postaja oglaševanje na družbenih omrežjih vedno donosnejši posel, se večina podjetij z oglaševalskimi rešitvami srečuje s težavo, kako razviti nove funkcionalnosti, s katerimi si bodo zagotovili konkurenčno prednost. V diplomski nalogi je predstavljena ideja ter razvoj funkcionalnosti, ki uporabnikom Httpoolove platforme \sn{Wise.Blue} omogoči hitrejšo in enostavnejšo pripravo twitterjevih oglasov. Predstavljeno je področje oglaševanja na družbenih omrežjih, glavni kanali ter največja slovenska podjetja na tem področju ter njihove rešitve. Podrobno so razloženi problem, postopek reševanja, uporabljena orodja in tehnologije, končni rezultati ter še odprta vprašanja.
- Ključne besede
- Twitter, oglaševanje, oglas, kreativa, kartica, makro
- Twitter, advertising, ad, creative, card, macro
- Viri
- Diplomsko delo
Celostno upravljanje s prehodi IoT za namene oddaljenega spremljanja pacientov (Jernej Cvek)
End-to-end IoT gateway management for remote patient monitoring
- Internet stvari odpira neštete možnosti za izboljšanje življenja ljudi v različnih aplikacijskih domenah, tudi na področju zdravstvene oskrbe. V rešitvah za oddaljeno spremljanje pacientov so prehodi vezni člen med raznovrstnimi zdravstvenimi merilnimi napravami in platformo za omogočanje zdravstvenih aplikacij. Za učinkovito in pravilno delovanje prehodov je potrebno na platformi zagotoviti ustrezno podporo za vse postopke in dogodke, ki se zgodijo v življenjskem ciklu prehoda. Ključni prispevki tega diplomskega dela so predlagana referenčna arhitektura IoT, definicija faz življenjskega cikla prehoda ter opis postopkov, potrebnih za celostno upravljanje prehodov v rešitvah oddaljenega spremljanja pacientov.
- Ključne besede
- Internet stvari, IoT, IoMT, oddaljeno spremljanje pacientov, RPM, referenčna arhitektura, prehod, upravljanje življenjskega cikla, LCM
- Internet of things, IoT, IoMT, remote patient monitoring, RPM, reference architecture, gateway, lifecycle management, LCM
- Viri
- Diplomsko delo
2019
Vrednotenje in združevanje novic iz slovenskih spletnih medijev (Žan Horvat)
Ranking and aggregation of Slovenian online news
- Na spletu obstaja mnogo različnih spletnih strani z novicami, ki pogosto vsebujejo podobne novice. Kakovost novic se med različnimi viri močno razlikuje. Prav tako obstaja kar nekaj spletnih aplikacij, ki podobne novice združujejo. Pogosto uporabniku ponudijo najbolj svežo novico, čeprav ta ni nujno najbolj informativna. Namen diplomske naloge je nadgradnja osnovnega agregatorja novic. Diplomska naloga zajema analizo spletnih mest z novicami in razvoj spletne aplikacije, ki zbira novice. Te združi s podobnimi in jih razvrsti tako, da izpostavi boljše na podlagi algoritmičnega vrednotenja. Aplikacija je sestavljena iz treh komponent, ki so izdelane v programskih jezikih JavaScript, TypeScript in Python.
- Prva komponenta zbira vsebino in ponuja dostop do te preko REST API-ja. Implementirana je s pomočjo Node.js, Express in MongoDB. Druga komponenta vrednoti in združuje besedila s pomočjo strojnega učenja in je implementirana v programskem jeziku Python. Tretja komponenta je implementirana s pomočjo ogrodja Angular, za prikaz rezultatov analize zbranih besedil.
- Ključne besede
- novice, primerjava besedil, slovenščina, ocenjevanje, agregiranje
- news, text comparance, slovene, grading, aggregation
- Viri
- Diplomsko delo
Avtomatsko pridobivanje in prikaz podatkov o slovenskih zdravnikih (Jan Šturm)
Automatic acquisition and visualization of Slovenian doctors' data
- V okviru diplomske naloge smo implementirali sistem za pridobitev in prikaz obremenitev slovenskih zdravnikov. Sistem smo poimenovali FrejDohtarji, saj uporabnikom omogoča lažji pregled nad zasedenostjo osebnih zdravnikov, zobozdravnikov in ginekologov. Uporabnik lahko na prvi strani filtrira zdravnike glede na tip izvajalca in območno enoto. Pri vsakem zdravniku se prikaže barvna oznaka, ki ponazarja, ali je še dolžan sprejemati nove paciente. Kriteriji so določeni s strani Zavoda za zdravstveno zavarovanje Slovenije, hkrati pa so relativno komplicirani, zaradi česar bodo barvne oznake poenostavile pregled dejanske obremenitve zdravnikov. Sistem podatke pridobiva iz različnih virov. Podatke o zdravnikih in njihovih obremenitvah pridobijo iz excelovih datotek, ki se nahajajo na spletni strani ZZZS. Dodatne informacije o delovnih časih in kontaktih pa se avtomatsko pridobijo s spletnih strani, kjer so objavljeni. Z uporabo aplikacije FrejDohtarji bo tako izbira zdravnika lažja in hitrejša, hkrati pa bodo na enem mestu zbrani še vsi dodatni podatki o zdravniku.
- Ključne besede
- obremenitve zdravnikov, zdravniki, spletne aplikacije, FrejDohtarji
- doctors occupancy, doctors, Web applications, FrejDohtarji
- Viri
- Diplomsko delo