Non-negative matrix factorization for integrative clustering
Алгоритми интегративног кластеровања података применом ненегативне факторизације матрице
Author
Brdar, SanjaMentor
Vukobratović, DejanCommittee members
Milutinović, Veljko
Šenk, Vojin
Crnojević, Vladimir
Škrbić, Srđan
Lončar-Turukalo, Tatjana
Vukobratović, Dejan
Metadata
Show full item recordAbstract
Integrative approaches are motivated by the desired improvement of robustness, stability and accuracy. Clustering, the prevailing technique for preliminary and exploratory analysis of experimental data, may benefit from integration across multiple partitions. In this thesis we have proposed integration methods based on non-negative matrix factorization that can fuse clusterings stemming from different data sets, different data preprocessing steps or different sub-samples of objects or features. Proposed methods are evaluated from several points of view on typical machine learning data sets, synthetics data, and above all, on data coming form bioinformatics realm, which rise is fuelled by technological revolutions in molecular biology. For a vast amounts of 'omics' data that are nowadays available sophisticated computational methods are necessary. We evaluated methods on problem from cancer genomics, functional genomics and metagenomics.
Предмет истраживања докторске дисертације су алгоритми кластеровања, односно груписања података, и могућности њиховог унапређења интегративним приступом у циљу повећања поузданости, робустности на присуство шума и екстремних вредности у подацима, омогућавања фузије података. У дисертацији су предложене методе засноване на ненегативној факторизацији матрице. Методе су успешно имплементиране и детаљно анализиране на разноврсним подацима са UCI репозиторијума и синтетичким подацима које се типично користе за евалуацију нових алгоритама и поређење са већ постојећим методама. Већи део дисертације посвећен је примени у домену биоинформатике која обилује хетерогеним подацима и бројним изазовним задацима. Евалуација је извршена на подацима из домена функционалне геномике, геномике рака и метагеномике.
Predmet istraživanja doktorske disertacije su algoritmi klasterovanja, odnosno grupisanja podataka, i mogućnosti njihovog unapređenja integrativnim pristupom u cilju povećanja pouzdanosti, robustnosti na prisustvo šuma i ekstremnih vrednosti u podacima, omogućavanja fuzije podataka. U disertaciji su predložene metode zasnovane na nenegativnoj faktorizaciji matrice. Metode su uspešno implementirane i detaljno analizirane na raznovrsnim podacima sa UCI repozitorijuma i sintetičkim podacima koje se tipično koriste za evaluaciju novih algoritama i poređenje sa već postojećim metodama. Veći deo disertacije posvećen je primeni u domenu bioinformatike koja obiluje heterogenim podacima i brojnim izazovnim zadacima. Evaluacija je izvršena na podacima iz domena funkcionalne genomike, genomike raka i metagenomike.