Show simple item record

Adaptive System for Automated Semi-supervised Data Classification

dc.contributor.advisorKovačević, Aleksandar
dc.contributor.otherSurla, Dušan
dc.contributor.otherKonjović, Zora
dc.contributor.otherMilosavljević, Milan
dc.contributor.otherĆulibrk, Dubravko
dc.contributor.otherMalbaša, Vuk
dc.contributor.otherKovačević, Aleksandar
dc.creatorSlivka, Jelena
dc.date.accessioned2017-11-20T16:28:35Z
dc.date.available2017-11-20T16:28:35Z
dc.date.available2020-07-03T14:08:49Z
dc.date.issued2014-12-23
dc.identifier.urihttp://nardus.mpn.gov.rs/handle/123456789/8895
dc.identifier.urihttp://www.cris.uns.ac.rs/DownloadFileServlet/Disertacija141406053227292.pdf?controlNumber=(BISIS)91017&fileName=141406053227292.pdf&id=2921&source=NaRDuS&language=srsr
dc.identifier.urihttp://www.cris.uns.ac.rs/record.jsf?recordId=91017&source=NaRDuS&language=srsr
dc.identifier.urihttp://www.cris.uns.ac.rs/DownloadFileServlet/IzvestajKomisije141406057526188.pdf?controlNumber=(BISIS)91017&fileName=141406057526188.pdf&id=2922&source=NaRDuS&language=srsr
dc.description.abstractCilj – Cilj istraživanja u okviru doktorske disertacije je razvoj sistema za automatsku polu-nadgledanu klasifikaciju podataka. Sistem bi trebao biti primenljiv na širokom spektru domena gde je neophodna klasifikacija podataka, a teško je, ili čak nemoguće, doći do dovoljno velikog i raznovrsnog obučavajućeg skupa podataka Metodologija – Modeli opisani u disertaciji se baziraju na kombinaciji ko-trening algoritma i tehnika učenja sa grupom hipoteza. Prvi korak jeste obučavanje grupe klasifikatora velike raznolikosti i kvaliteta. Sa ovim ciljem modeli eksploatišu primenu različitih konfiguracija ko-trening algoritma na isti skup podataka. Prednost ovog pristupa je mogućnost korišćenja značajno manjeg anotiranog obučavajućeg skupa za inicijalizaciju algoritma. Skup nezavisno obučenih ko-trening klasifikatora se kreira generisanjem predefinisanog broja slučajnih podela obeležja polaznog skupa podataka. Nakon toga se, polazeći od istog inicijalnog obučavajućeg skupa, ali korišćenjem različitih kreiranih podela obeležja, obučava grupa ko-trening klasifikatora. Nakon ovoga, neophodno je kombinovati predikcije nezavisno obučenih klasifikatora. Predviđena su dva načina kombinovanja predikcija. Prvi način se zasniva na klasifikaciji zapisa na osnovu većine glasova grupe ko-trening klasifikatora. Na ovaj način se daje predikcija za svaki od zapisa koji su pripadali grupi neanotiranih primera korišćenih u toku obuke ko-treninga. Potom se primenjuje genetski algoritam u svrhu selekcije najpouzdanije klasifikovanih zapisa ovog skupa. Konačno, 163 najpouzdanije klasifikovani zapisi se koriste za obuku finalnog klasifikatora. Ovaj finalni klasifikator se koristi za predikciju klase zapisa koje je neophodno klasifikovati. Opisani algoritam je nazvan Algoritam Statistike Slučajnih Podela (Random Split Statistics algorithm, RSSalg). Drugi način kombinovanja nezavisno obučenih ko-trening klasifikatora se zasniva na GMM-MAPML tehnici estimacije tačnih klasnih obeležja na osnovu višestrukih obeležja pripisanih od strane različitih anotatora nepoznatog kvaliteta. U ovom algoritmu, nazvanom Integracija Višestrukih Ko-treninranih Klasifikatora (Integration of Multiple Co-trained Classifiers, IMCC), svaki od nezavisno treniranih ko-trening klasifikatora daje predikciju klase za svaki od zapisa koji je neophodno klasifikovati. U ovoj postavci se svaki od ko-trening klasifikatora tretira kao jedan od anotatora čiji je kvalitet nepoznat, a svakom zapisu, za koga je neophodno odrediti klasno obeležje, se dodeljuje više klasnih obeležja. Na kraju se primenjuje GMM-MAPML tehnika, kako bi se na osnovu dodeljenih višestrukih klasnih obeležja za svaki od zapisa izvršila estimacija stvarnog klasnog obeležja zapisa. Rezultati – U disertaciji su razvijena dva modela, Integracija Višestrukih Ko-treninranih Klasifikatora (IMCC) i Algoritam Statistike Slučajnih Podela (RSSalg), bazirana na ko-trening algoritmu, koja rešavaju zadatak automatske klasifikacije u slučaju nepostojanja dovoljno velikog anotiranog korpusa za obuku. Modeli predstavljeni u disertaciji dizajnirani su tako da omogućavaju primenu ko-trening algoritma na skupove podataka bez prirodne podele obeležja, kao i da unaprede njegove performanse. Modeli su na više skupova podataka različite veličine, dimenzionalnosti i redudantnosti poređeni sa postojećim ko-trening alternativama. Pokazano je da razvijeni modeli na testiranim skupovima podataka postižu bolje performanse od testiranih ko-trening alternativa. Praktična primena – Razvijeni modeli imaju široku mogućnost primene u svim domenima gde je neophodna klasifikacija podataka, a anotiranje podataka dugotrajno i skupo. U disertaciji je prikazana i primena razvijenih modela u nekoliko konkretnih 164 situacija gde su modeli od posebne koristi: detekcija subjektivnosti, više-kategorijska klasifikacija i sistemi za davanje preporuka. Vrednost – Razvijeni modeli su korisni u širokom spektru domena gde je neophodna klasifikacija podataka, a anotiranje podataka dugotrajno i skupo. Njihovom primenom se u značajnoj meri smanjuje ljudski rad neophodan za anotiranje velikih skupova podataka. Pokazano je da performanse razvijenih modela prevazilaze performanse postojećih alternativa razvijenih sa istim ciljem relaksacije problema dugotrajne i mukotrpne anotacije velikih skupova podataka.sr
dc.description.abstractAim – The research presented in this thesis is aimed towards the development of the system for automatic semi-supervised classification. The system is designed to be applicable on the broad spectrum of practical domains where automatic classification of data is needed but it is hard or impossible to obtain a large enough training set. Methodology – The described models combine co-training algorithm with ensemble learning with the aim to overcome the problem of co-training application on the datasets without the natural feature split. The first step is to create the ensemble of co-training classifiers. For this purpose the models presented in this thesis apply different configurations of co-training on the same training set. Compared to existing similar approaches, this approach requires a significantly smaller initial training set. The ensemble of independently trained co-training classifiers is created by generating a predefined number of random feature splits of the initial training set. Using the same initial training set, but different feature splits, a group of co-training classifiers is trained. The two models differ in the way the predictions of different co-training classifiers are combined. The first approach is based on majority voting: each instance recorded in the enlarged training sets resulting from co-training application is classified by majority voting of the group of obtained co-training classifiers. After this, the genetic algorithm is applied in order to select the group of most reliably classified instances from this set. The most reliable instances are used in 167 order to train a final classifier which is used to classify new instances. The described algorithm is called Random Split Statistic Algorithm (RSSalg). The other approach of combining single predictions of the group of co-training classifiers is based on GMM-MAPML technique of estimating the true hidden label based on the multiple labels assigned by multiple annotators of unknown quality. In this model, called the Integration of Multiple Co-trained Classifiers (IMCC), each of the independently trained co-training classifiers predicts the label for each test instance. Each co-training classifier is treated as one of the annotators of unknown quality and each test instance is assigned multiple labels (one by each of the classifiers). Finally, GMM-MAPML technique is applied in order to estimate the true hidden label in the multi-annotator setting. Results – In the dissertation the two models are developed: the Integration of Multiple Co-trained Classifiers (IMCC) and Random Split Statistic Algorithm (RSSalg). The models are based on co-training and aimed towards enabling automatic classification in the cases where the existing training set is insufficient for training a quality classification model. The models are designed to enable the application of co-training algorithm on datasets that lack the natural feature split needed for its application, as well as with the goal to improve co-training performance. The models are compared to their co-training alternatives on multiple datasets of different size, dimensionality and feature redundancy. It is shown that the developed models exhibit superior performance compared to considered co-training alternatives. Practical application – The developed models are applicable on the wide spectrum of domains where there is a need for automatic classification and training data is insufficient. The dissertation presents the successful application of models in several concrete situations where they are highly 168 beneficial: subjectivity detection, multicategory classification and recommender systems. Value – The models can greatly reduce the human effort needed for long and tedious annotation of large datasets. The conducted experiments show that the developed models are superior to considered alternatives.en
dc.languagesr (latin script)
dc.publisherУниверзитет у Новом Саду, Факултет техничких наукаsr
dc.rightsopenAccessen
dc.sourceУниверзитет у Новом Садуsr
dc.subjectIstraživanje podatakasr
dc.subjectData miningen
dc.subjectklasifikacijasr
dc.subjectpolu-nadgledano obučavanjesr
dc.subjectko-treningsr
dc.subjecttehnike učenja sa grupom hipotezasr
dc.subjectclassificationen
dc.subjectsemi-supervised learningen
dc.subjectco-trainingen
dc.subjectensemble learningen
dc.titleAdaptivni sistem za automatsku polu-nadgledanu klasifikaciju podatakasr
dc.title.alternativeAdaptive System for Automated Semi-supervised Data Classificationen
dc.typedoctoralThesissr
dc.rights.licenseBY-NC
dcterms.abstractКовачевић, Aлександар; Сурла, Душан; Коњовић, Зора; Милосављевић, Милан; Ћулибрк, Дубравко; Малбаша, Вук; Ковачевић, Aлександар; Сливка, Јелена; Aдаптивни систем за аутоматску полу-надгледану класификацију података; Aдаптивни систем за аутоматску полу-надгледану класификацију података;
dc.identifier.fulltexthttp://nardus.mpn.gov.rs/bitstream/id/42119/IzvestajKomisije15132.pdf
dc.identifier.fulltexthttp://nardus.mpn.gov.rs/bitstream/id/42118/Disertacija15132.pdf


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record