A framework for analysis and quality assessment of big and linked data
Окружење за анализу и оцену квалитета великих и повезаних података
Докторанд
Lakshen, Guma AbdulkhaderМентор
Vraneš, Sanja
Чланови комисије
Janev, Valentina
Nikolić, Boško


Метаподаци
Приказ свих података о дисертацијиСажетак
Linking and publishing data in the Linked Open Data format increases the interoperability
and discoverability of resources over the Web. To accomplish this, the process comprises
several design decisions, based on the Linked Data principles that, on one hand, recommend to
use standards for the representation and the access to data on the Web, and on the other hand
to set hyperlinks between data from different sources.
Despite the efforts of the World Wide Web Consortium (W3C), being the main international
standards organization for the World Wide Web, there is no one tailored formula for publishing
data as Linked Data. In addition, the quality of the published Linked Open Data (LOD) is a
fundamental issue, and it is yet to be thoroughly managed and considered.
In this doctoral thesis, the main objective is to design and implement a novel framework for
selecting, analyzing, converting, interlinking, and publishing data from diverse sources,
simultaneously paying great attention to quali...ty assessment throughout all steps and modules
of the framework. The goal is to examine whether and to what extent are the Semantic Web
technologies applicable for merging data from different sources and enabling end-users to
obtain additional information that was not available in individual datasets, in addition to the
integration into the Semantic Web community space. Additionally, the Ph.D. thesis intends to
validate the applicability of the process in the specific and demanding use case, i.e. for creating
and publishing an Arabic Linked Drug Dataset, based on open drug datasets from selected
Arabic countries and to discuss the quality issues observed in the linked data life-cycle. To that
end, in this doctoral thesis, a Semantic Data Lake was established in the pharmaceutical domain
that allows further integration and developing different business services on top of the
integrated data sources. Through data representation in an open machine-readable format, the
approach offers an optimum solution for information and data dissemination for building
domain-specific applications, and to enrich and gain value from the original dataset. This thesis
showcases how the pharmaceutical domain benefits from the evolving research trends for
building competitive advantages. However, as it is elaborated in this thesis, a better
understanding of the specifics of the Arabic language is required to extend linked data
technologies utilization in targeted Arabic organizations.
Повезивање и објављивање података у формату "Повезани отворени подаци" (енг.
Linked Open Data) повећава интероперабилност и могућности за претраживање ресурса
преко Web-а. Процес је заснован на Linked Data принципима (W3C, 2006) који са једне
стране елаборира стандарде за представљање и приступ подацима на Wебу (RDF, OWL,
SPARQL), а са друге стране, принципи сугеришу коришћење хипервеза између података
из различитих извора.
Упркос напорима W3C конзорцијума (W3C је главна међународна организација за
стандарде за Web-у), не постоји јединствена формула за имплементацију процеса
објављивање података у Linked Data формату. Узимајући у обзир да је квалитет
објављених повезаних отворених података одлучујући за будући развој Web-а, у овој
докторској дисертацији, главни циљ је (1) дизајн и имплементација иновативног оквира
за избор, анализу, конверзију, међусобно повезивање и објављивање података из
различитих извора и (2) анализа примена овог приступа у фармацeутском домену.
Предложена докторс...ка дисертација детаљно истражује питање квалитета великих и
повезаних екосистема података (енг. Linked Data Ecosystems), узимајући у обзир
могућност поновног коришћења отворених података. Рад је мотивисан потребом да се
омогући истраживачима из арапских земаља да употребом семантичких веб технологија
повежу своје податке са отвореним подацима, као нпр. DBpedia-јом. Циљ је да се испита
да ли отворени подаци из Арапских земаља омогућавају крајњим корисницима да добију
додатне информације које нису доступне у појединачним скуповима података, поред
интеграције у семантички Wеб простор.
Докторска дисертација предлаже методологију за развој апликације за рад са
повезаним (Linked) подацима и имплементира софтверско решење које омогућује
претраживање консолидованог скупа података о лековима из изабраних арапских
земаља. Консолидовани скуп података је имплементиран у облику Семантичког језера
података (енг. Semantic Data Lake).
Ова теза показује како фармацеутска индустрија има користи од примене
иновативних технологија и истраживачких трендова из области семантичких
технологија. Међутим, како је елаборирано у овој тези, потребно је боље разумевање
специфичности арапског језика за имплементацију Linked Data алата и њухову примену
са подацима из Арапских земаља.