Metadata descriptors and content descriptors for information retrieval in digital libraries

dc.contributor.advisorKrstev, Cvetana
dc.contributor.otherVraneš, Aleksandra
dc.contributor.otherStanković, Ranka
dc.contributor.otherDragićević, Rajna
dc.contributor.otherVitas, Duško
dc.creatorTrtovac, Aleksandra S.
dc.description.abstractУ овој докторској дисертацији испитују се перформансе проналажења информација у дигиталним библиотекама коришћењем различитих метода – дескриптора метаподатака и дескриптора садржаја. Развој библиотека од традиционалне, преко електронске до дигиталне довео је и до промене метода за проналажење информација Како је временом дошло до огромног пораста количине информација, тако су се променили и њихови носиоци, па је све већа количина дигитализоване аналогне грађе, али и изворно дигиталних објеката. Ови објекти имају своје особености које су значајне за проналажење информација. Дигиталне објекте је, у циљу проналажења информација, могуће описати дескрипторима метаподатака различитих врста и у различитим форматима зависно од система у којима су ти објекти похрањени. Такође, дигитални објекти, могу бити опремљени и дескрипторима садржаја што подразумева коришћење напредних технологија за пречишћавање текста (оптичко препознавање карактера, оптичку сегментацију чланака, препознавање именованих ентитета), као и лексичке ресурсе и алате који доприносе бољем и прецизнијем проналажењу информација у дигиталним библиотекама. Анализа претраге дигиталних објеката и проналажење информација о њима показује да без обзира на све функционалности које нуде различити формати за унос метаподатака, као и везе дигиталног објекта са семантичким вебом, претрага преко метаподатака не даје увек добре резултате у смислу прецизности. С друге стране, претрага преко комплетног текста коришћењем дескриптора садржаја нуди неупоредиво боље резултате нарочито у оним дигиталним колекцијама које су опремљене квалитетним лексичким ресурсима, у првом реду морфолошким речницима. У циљу побољшања проналажења информација у дигиталним библиотема из области библиотекарства и информатике надградили смо и вишечланим речима допунили лексичке ресурсе српског језика – терминолошки речник из поменуте области, као и општи речник српског језика при чему су поштовани стандарди за израду електронских терминолошких речника и терминолошких база података. У процесу допуне поменутих лексичких ресурса анализирани су текстови у доменском корпусу, испитана функционалност постојећих коначних трансдуктора у екстракцији вишечланих лема из доменског корпуса, проверена исправност препознатих лема и извршена тростепена евалуације екстрахованих вишечланих речи. Практични рад резултирао је допуном терминолошког речника са скоро 600 нових вишечланих термина, а надограђен је и општи електронски речник вишечланих речи српског језика. Допуњени речници примењени у екстракцији термина на новом корпусу текстова су дали веома добре резултате. На основу спроведеног истраживања и анализа закључили смо да напредне методе помажу у квалитетнијем проналажењу информација. То је потврђено и упоређивањем ефикасности и прецизности проналажења информација уз примену напредних метода у односу на класичне методе. Такође, можемо рећи да проналажење информација помоћу дескриптора садржаја даје немерљиво боље резултате у односу на проналажење информација које се ослања само на дескрипторе метаподатака. Неопходно је истаћи важност коришћења лексичких ресурса међу којима посебно место заузимају морфолошки речници што је од изузетног значаја за језике богате флексије какав је српски језик.sr
dc.description.abstractIn this doctoral dissertation we are investigating the performance of information retrieval in digital libraries using various methods – metadata descriptors and content descriptors. Development of libraries, starting from the traditional, through electronic to digital, has led to the change in methods of information retrieval. Due to the fact that the amount of information has significantly risen over time, data storage types have also changed leading to more analogue library materials being digitized, but also to more born-digital objects. Some characteristics of those objects are significant for information retrieval. For the purpose of information retrieval, digital objects can be described with the help of metadata descriptors of different types and in different formats depending on the systems in which the digital objects are stored. Likewise, digital objects can also contain content descriptors which implies the usage of advanced technologies for text refinement (optical character recognition, optical segmentation of articles, recognition of named entities), as well as lexical resources and tools that contribute to better and more precise information retrieval in digital libraries. Analysis of digital object search and information retrieval for those objects has shown that, regardless of all the functionalities offered by different formats for metadata input, as well as digital objects being connected to the Semantic web, metadata based search does not always yield good results, in terms of precision. On the other hand, search over the entire text using metadata descriptors offers incomparably better results, especially in those digital collections where lexical resources of good quality are involved, most notably, morphological dictionaries. With the goal of improving information retrieval in digital libraries related to Library science and information science, we have enhanced and complemented lexical resources for the Serbian language with Multi-word units (MWUs) – terminological dictionary in the above mentioned area of research, as well as the general dictionary of Serbian, keeping in mind the standards for building electronic terminological dictionaries and terminological data bases. In the process of adding new MWUs to lexical resources, we have analysed texts in a domain corpus and the effectiveness of the existing finite transducers for extraction of MWUs from the domain corpus was checked, after which triple evaluation of the extracted MWUs was performed. Practical work resulted in adding about 600 new MWUs to the terminological dictionary, and general dictionary of MWUs for Serbian was also enhanced with new units. These complemented dictionaries gave very good results in term extraction tasks. Based on the conducted research and analyses, we have concluded that advanced methods do aid in more substantial information retrieval. That was also confirmed by comparing the efficiency and precision of information retrieval using advanced methods, as opposed to using common methods. Likewise, we can say that information retrieval aided by content descriptors gives significantly better results compared with the results of metadata descriptor based information retrieval. It is necessary to stress the pertinence of using lexical resources, among which a special place belongs to the morphological dictionaries, which are of utmost importance for languages with rich flection such is the Serbian language.en
dc.publisherУниверзитет у Београду, Филолошки факултетsr
dc.sourceУниверзитет у Београдуsr
dc.subjectпроналажење информацијаsr
dc.subjectInformation retrievalen
dc.subjectдигиталне библиотекеsr
dc.subjectдескриптори метаподатакаsr
dc.subjectдескриптори садржајаsr
dc.subjectлексички ресурсиsr
dc.subjectелектронски речнициsr
dc.subjectтерминолошки речнициsr
dc.subjectсрпски језикsr
dc.subjectDigital librariesen
dc.subjectMetadata descriptorsen
dc.subjectContent descriptorsen
dc.subjectLexical resourcesen
dc.subjectElectronic dictionariesen
dc.subjectTerminological dictionariesen
dc.subjectSerbian languageen
dc.titleДескриптори метаподатака и дескриптори садржаја у проналажењу информација у дигиталним библиотекамаsr
dc.titleMetadata descriptors and content descriptors for information retrieval in digital librariesen
