Diploma theses: Difference between revisions

From Slavko Zitnik's research wiki
No edit summary
Line 123: Line 123:
|KljucneBesedeEng=extraction, information, Slovenian language
|KljucneBesedeEng=extraction, information, Slovenian language
|Komentar=
|Komentar=
|Viri=[{{filepath:63170058-MIHA BOGATAJ-Odprta ekstrakcija informacij za slovenski jezik.pdf}} Diplomsko delo]
|Viri=[{{filepath:63170058-MIHA BOGATAJ-Odprta ekstrakcija informacij za slovenski jezik.pdf}} Diplomsko delo], [https://github.com/UL-FRI-Zitnik/OpenIE Izvorna koda (zasebno)]
}}
}}



Revision as of 20:26, 3 August 2022

Teme v izdelavi

Analiza in primerjava sistemov za informacijsko poizvedovanje (Mark Redelonghi)

Zasnova ogrodja za izvajanje metod za procesiranje naravnega jezika (Nik Hrovat)

Vpliv govorjenih posnetkov na analizo sentimenta njihovih transkriptov (Martin Jurkovič)

Analiza in opis procesa uvedbe poročilnega sistema na primeru podjetja Frodx (Marko Kovačič)

Odkrivanje biomedicinskih vzorcev za nevrodegenerativne bolezni iz biomedicinske znanstvene literature (Radoslav Atanasoski)

GeoTools: spletna storitev za izvajanje prostorskih analiz (Sanil Safić)

Prepoznavanje imenskih entitet na domenskih besedilih iz farmacije (Benjamin Kovač Keber)

Primerjava metod za avtomatsko ekstrakcijo podatkov iz spleta (Gašper Martič)

Klasifikacija sovražnega govora v slovenskem in angleškem jeziku (Nik Pirnat)

Informacijski sistem za upravljanje marin (Lovro Jevnikar)

Analiza vpliva omemb kriptovalut na njihovo ceno (Tilen Miklavič)

2022

Odprta ekstrakcija informacij za slovenski jezik (Miha Bogataj)

Open information extraction for Slovenian language

Odprta ekstrakcija informacij je proces procesiranja naravnega jezika, ki iz posameznih povedi izvleče možne odvisnosti. Odvisnosti so sestavljene iz semantične trojice, kjer prvi člen predstavlja subjekt o katerem poizvedujemo, relacije, ki opiše, kako se prvi člen navezuje na tretjega, in objekt. Sistem odprte ekstrakcije informacij za slovenščino temelji na metodi na podlagi pravil. Sistem je sestavljen iz predprocesorja in ekstraktorja. Vloga predprocesorja je obdelava vhodnega besedila s pomočjo sistema CLASSLA, ki slovnično analizira poved, lematizacija in izgradnja semantičnega drevesa. Vloga ekstraktorja je, da z uporabo pravil poišče relacije v povedi. Ta pravila so bolj kompleksna kot v angleščini, ker je v slovenščini besedni red bolj prost. Slovenščina pozna tudi več sklanjatev, ki omogočajo bolj točno določitev subjekta in objekta. Med najdenimi ekstrakcijami je možno iskanje na dva načina: iskanje povedi in dopolnjevanje parametrov. Iskanje povedi zahteva izpolnjene vse parametre semantične trojice in vrne seznam povedi, ki ustrezajo iskani semantični trojici. Dopolnjevanje parametrov zahteva dva izpolnjena parametra, od katerih je relacija obvezna. Ta način vrne seznam možnih vrednosti za manjkajoč parameter.
Ključne besede
ekstrakcija, informacija, slovenščina
extraction, information, Slovenian language
Viri
Diplomsko delo, Izvorna koda (zasebno)


2021

SloBench: Slovenski vrednotnik metod za obdelavo naravnega jezika (Frenk Dragar)

SloBench: Slovenian Natural Language Processing Benchmark

Z nedavno priljubljenostjo modelov obdelave naravnega jezika, ki temeljijo na arhitekturi transformer, in njihove najsodobnejše zmogljivosti pri številnih nalogah NLP, je vse večja potreba po objektivnem ocenjevanju teh orodij in omogočanju njihove primerjave. Obstajajo številni nabori podatkov in meril za NLP naloge, ki pa večinoma temeljijo na angleškem jeziku. V diplomski nalogi kandidat opiše razvoj prve slovenske platforme za avtomatsko primerjavo NLP modelov - SloBench, skupaj z njenim razširljivim in od sistemske arhitekture neodvisnim ogrodjem za evalvacijo sistemov. Nato kritično oceni projekt, ga primerja z obstoječimi merili uspešnosti NLP in poda nekaj idej za prihodnje razširitve platforme.
Evalvacija nalog procesiranja naravnega jezika (NLP) je bistven del raziskav in napredka na tem področju. Zagotavlja objektiven standard za uspešnost in primerjavo sistemov pri določeni nalogi. Podamo pregled nedavnih javnih lestvic za najboljše sisteme in trendov njihovega ocenjevanja s poudarkom na avtomatskem vrednotenju sistemov. Nato predlagamo, implementiramo in dokumentiramo splošno, razširljivo in od sistemske arhitekture neodvisno ogrodje za evalvacijo sistemov, skupaj s prvo spletno platformo za avtomatsko vrednotenje NLP nalog v slovenščini z javnimi lestvicami, ki prikazujejo rezultate objavljenih sistemov.
Ključne besede
procesiranje naravnega jezika, vrednotenje, lestvica najboljših, strojno učenje, spletna platforma
natural language processing, benchmarking, leaderboard, machine learning, web platform
Viri
Diplomsko delo, SloBENCH spletišče, Evalvacijsko ogrodje, Izvorna koda spletne aplikacije in članek (v pripravi)

Obdelava velikih količin podatkov v skoraj realnem času (Anže Habjan)

Near real-time processing of large amounts of data

V času, ko količina generiranih podatkov na spletu narašča tako hitro kot še nikoli, je toliko bolj pomembno, da je obdelava le teh kar se da hitra. Opišemo implementacijo celostnega sistema, ki bo specializiran za obdelavo pretočnih podatkov v skoraj realnem času, in bo vključeval po eno orodje za vsak del: pridobivanje, obdelava, shranjevanje in vizualizacija. Posamezna orodja so utemeljeno izbrana na podlagi našega realnega primera uporabe sistema, ki je obdelava čivkov (tweet), ki nastanejo na omrežju Twitter v času nogometne tekme. Na primeru uporabe tudi prikažemo analize in vizualizacije, ki jih omogoča implementiran sistem. Zaključimo s prikazom nekaj metrik našega sistema v času obdelave.
Ključne besede
veliki podatki, obdelava, skoraj realni čas, Twitter, nogomet
big data, processing, near real-time, Twitter, football
Viri
Diplomsko delo