Kategorizacija in simulacija dokumentnih tokov

Glavni cilj projekta Kategorizacija in simulacija dokumentnih tokov je združitev in nadgradnja znanja s področja naravnega procesiranja jezikov, računske statistike, strojnega učenja in rudarjenja podatkov v novo kreativno jedro. To bo zmožno reševati probleme, kot so zajem dokumentnih tokov, prečiščevanje podatkov, razumevanje dokumentov in kategorizacija dokumentov v ustrezne mape.

Znotraj projekta bomo razvili metode za iskanje nestrukturiranih in strukturiranih dokumentov iz spleta (novice, blogi, komunikacije v socialnih omrežjih) oziroma iz papirnatih dokumentov s pomočjo tehnologije za optično prepoznavo znakov. Pripravili bomo korpus označenih besedil v slovenščini za potrebe metod nadzorovanega učenja in implementirali najboljše kombinacije klasifikacijskih in kategorizacijskih metod (vektorske podporne naprave, nevtralna omrežja, mehki nabori …) za doseganje optimalne stopnje napake pri kategorizaciji podatkov na osnovi zajetih besedil. Prav tako bomo razvili spletno in namizno aplikacijo za avtomatično zajemanje in kategorizacijo dokumentnih tokov iz izbrane domene. Najprej se nameravamo osredotočiti na dve domeni: besedila, zajeta s spleta, in besedila, zajeta iz papirnatih dokumentov prek tehnologije za optično prepoznavanje vsebine.

Raziskovalni projekt bo razdeljen v več stopenj, ki bodo pomembno prispevale k oblikovanju novega kreativnega jedra. Te stopnje so:

Razvili bomo metode in tehnliogije za zajemanje nestrukturiranih in strukturiranih dokumentov s spleta (novičarski tokovi, spletni dnevniki, spletna socialna omrežja) ter fizičnih dokumentov s pomočjo tehnliogije optičnega branja.
Razvili bomo univerzalni podatkovni okvir za shranjevanje in upravljanje zajetih dokumentov.
Razvili bomo plinadzorovane metode in tehnliogije za gradnjo, analitiko ter vizualizacijo semantične strukture dokumenta.
Nato bomo razvili in izblijšali metode za klasifikacijo in kategorizacijo dokumentov (metoda podpornih vektorjev, nevronske mreže, mehke množice), saj želimo doseči stopnjo natančnosti tehnliogije, ki bo sprejemljiva za produkcijsko rabo.
Razvili bomo namizne in spletne aplikacije za (semantično) obdelavo, analitiko ter vizualizacijo dokumentov.
Na koncu sledi simulacija procesa klasifikacije in kategorizacije za dokumentne tokove iz različnih problemskih domen (različna strokovna področja besedil, različna zahtevnost besedila, različni poslovni dokumenti itd.).