Приказ основних података о дисертацији

Reprezentacije i metrike za mašinsko učenje i analizu podataka velikih dimenzija

dc.contributor.advisorIvanović, Mirjana
dc.contributor.otherBudimac, Zoran
dc.contributor.otherIvanović, Mirjana
dc.contributor.otherNanopoulos, Alexandros
dc.contributor.otherTodorović, Branimir
dc.creatorRadovanović, Miloš
dc.date.accessioned2015-12-29T11:16:11Z
dc.date.available2015-12-29T11:16:11Z
dc.date.available2020-07-03T13:41:52Z
dc.date.issued2011-02-11
dc.identifier.urihttp://www.cris.uns.ac.rs/DownloadFileServlet/Disertacijadisertacija.pdf?controlNumber=(BISIS)77530&fileName=disertacija.pdf&id=300&source=NaRDuS&language=srsr
dc.identifier.urihttps://nardus.mpn.gov.rs/handle/123456789/1652
dc.identifier.urihttp://www.cris.uns.ac.rs/record.jsf?recordId=77530&source=NaRDuS&language=srsr
dc.description.abstractIn the current information age, massive amounts of data are gathered, at a rate prohibiting their effective structuring, analysis, and conversion into useful knowledge. This information overload is manifested both in large numbers of data objects recorded in data sets, and large numbers of attributes, also known as high dimensionality. This dis-sertation deals with problems originating from high dimensionality of data representation, referred to as the “curse of dimensionality,” in the context of machine learning, data mining, and information retrieval. The described research follows two angles: studying the behavior of (dis)similarity metrics with increasing dimensionality, and exploring feature-selection methods, primarily with regard to document representation schemes for text classification. The main results of the dissertation, relevant to the first research angle, include theoretical insights into the concentration behavior of cosine similarity, and a detailed analysis of the phenomenon of hubness, which refers to the tendency of some points in a data set to become hubs by being in-cluded in unexpectedly many k-nearest neighbor lists of other points. The mechanisms behind the phenomenon are studied in detail, both from a theoretical and empirical perspective, linking hubness with the (intrinsic) dimensionality of data, describing its interaction with the cluster structure of data and the information provided by class la-bels, and demonstrating the interplay of the phenomenon and well known algorithms for classification, semi-supervised learning, clustering, and outlier detection, with special consideration being given to time-series classification and information retrieval. Results pertaining to the second research angle include quantification of the interaction between various transformations of high-dimensional document representations, and feature selection, in the context of text classification.en
dc.description.abstractU tekućem „informatičkom dobu“, masivne količine podataka se sakupljaju brzinom koja ne dozvoljava njihovo efektivno strukturiranje, analizu, i pretvaranje u korisno znanje. Ovo zasićenje informacijama se manifestuje kako kroz veliki broj objekata uključenih u skupove podataka, tako i kroz veliki broj atributa, takođe poznat kao velika dimenzionalnost. Disertacija se bavi problemima koji proizilaze iz velike dimenzionalnosti reprezentacije podataka, često nazivanim „prokletstvom dimenzionalnosti“, u kontekstu mašinskog učenja, data mining-a i information retrieval-a. Opisana istraživanja prate dva pravca: izučavanje ponašanja metrika (ne)sličnosti u odnosu na rastuću dimenzionalnost, i proučavanje metoda odabira atributa, prvenstveno u interakciji sa tehnikama reprezentacije dokumenata za klasifikaciju teksta. Centralni rezultati disertacije, relevantni za prvi pravac istraživanja, uključuju teorijske uvide u fenomen koncentracije kosinusne mere sličnosti, i detaljnu analizu fenomena habovitosti koji se odnosi na tendenciju nekih tačaka u skupu podataka da postanu habovi tako što bivaju uvrštene u neočekivano mnogo lista k najbližih suseda ostalih tačaka. Mehanizmi koji pokreću fenomen detaljno su proučeni, kako iz teorijske tako i iz empirijske perspektive. Habovitost je povezana sa (latentnom) dimenzionalnošću podataka, opisana je njena interakcija sa strukturom klastera u podacima i informacijama koje pružaju oznake klasa, i demonstriran je njen efekat na poznate algoritme za klasifikaciju, semi-supervizirano učenje, klastering i detekciju outlier-a, sa posebnim osvrtom na klasifikaciju vremenskih serija i information retrieval. Rezultati koji se odnose na drugi pravac istraživanja uključuju kvantifikaciju interakcije između različitih transformacija višedimenzionalnih reprezentacija dokumenata i odabira atributa, u kontekstu klasifikacije teksta.sr
dc.formatapplication/pdf
dc.languageen
dc.publisherУниверзитет у Новом Саду, Природно-математички факултетsr
dc.rightsopenAccessen
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.sourceУниверзитет у Новом Садуsr
dc.subjectMachine learningen
dc.subjectMašinsko učenjesr
dc.subjectdata miningen
dc.subjectinformation retrievalen
dc.subjecttext categorizationen
dc.subjectcurse of dimensionalityen
dc.subjectconcentrationen
dc.subjectnearest neighborsen
dc.subjectclassificationen
dc.subjectsemi-supervised learn-ingen
dc.subjectclusteringen
dc.subjecttime seriesen
dc.subjectvector space modeen
dc.subjectdata miningsr
dc.subjecttraženje informacijasr
dc.subjectkategorizacija tekstasr
dc.subjectprokletstvo dimenzionalnostisr
dc.subjectkoncentracijasr
dc.subjectnajbliži susedisr
dc.subjectklasifikacijasr
dc.subjectpolu-supervizirano učenjesr
dc.subjectklasterizacijasr
dc.subjectvremenske serijesr
dc.subjectmodel vektorskog prostorasr
dc.titleHigh-Dimensional Data Representations and Metrics for Machine Learning and Data Miningen
dc.titleReprezentacije i metrike za mašinsko učenje i analizu podataka velikih dimenzijasr
dc.typedoctoralThesisen
dc.rights.licenseBY
dcterms.abstractИвановић Мирјана; Ивановић Мирјана; Будимац Зоран; Нанопоулос Aлеxандрос; Тодоровић Бранимир; Радовановић Милош; Репрезентације и метрике за машинско учење и анализу података великих димензија; Репрезентације и метрике за машинско учење и анализу података великих димензија;
dc.identifier.fulltexthttp://nardus.mpn.gov.rs/bitstream/id/37784/Disertacija.pdf
dc.identifier.fulltexthttps://nardus.mpn.gov.rs/bitstream/id/37784/Disertacija.pdf
dc.identifier.rcubhttps://hdl.handle.net/21.15107/rcub_nardus_1652


Документи за докторску дисертацију

Thumbnail

Ова дисертација се појављује у следећим колекцијама

Приказ основних података о дисертацији