Приказ основних података о дисертацији

Terminology development in power engineering based on natural language processing methods Развитие терминологии в энергетике на основе методов обработки естественного языка

dc.contributor.advisorKrstev, Cvetana
dc.creatorIvanović, Tanja D.
dc.date.accessioned2022-12-03T08:31:55Z
dc.date.available2022-12-03T08:31:55Z
dc.date.issued2022-03-09
dc.identifier.urihttps://eteze.bg.ac.rs/application/showtheses?thesesId=8825
dc.identifier.urihttps://fedorabg.bg.ac.rs/fedora/get/o:27008/bdef:Content/download
dc.identifier.urihttps://plus.cobiss.net/cobiss/sr/sr/bib/78664713
dc.identifier.urihttps://nardus.mpn.gov.rs/handle/123456789/20914
dc.description.abstractУ овом раду анализира се развој терминологије из области електроенергетике применом метода обраде природних језика. Рад је подељен на осам поглавља и обрађује општу теорију терминологије као научног домена, међународне и домаће институције које учествују у њеном креирању, развој специјализоване терминологије на српском језику, примену корпусне лингвистике у терминолошким истраживањима, као и корпусне алате и језичке ресурсе који се примењују приликом обраде текстова корпуса. Паралелни корпуси представљају двојезичне односно вишејезичне корпусе текстова који су веома значајни у лингвистичким истраживањима. Развој паралелног корпуса текстова из домена електроенергетике (ElEner) започет је упоредо са израдом ове докторске дисертације. У поступку њене израде, анализирано је 76 докумената насталим у периоду од 2005. до 2016. године, који и чине овај корпус. Реч је текстовима законодавне, техничке и научне природе на српском и енглеском језику. У дисертацији је темељно анализиран процес одабира и прикупљања материјала за корпус, обрада текстова применом одговарајућих језичких ресурса и алата за српски и енглески језик, паралелизација текстова, екстракција терминологије на српском и енглеском језику, поравнавање и упаривање комада и термина, као и евалуација резултата добијених термина и терминолошких парова. Након завршеног процеса евалуације, сви исправно евалуирани парови су укључени у терминолошку базу података Termi, која подржава развој терминолошких речника у различитим областима (математика, рачунарство, рударство, библиотекарство, рачунарска лингвистика, електроенергетика, итд.), као и обраду и презентацију термина на српском, енглеском, немачком и француском језику, и извоз у различите излазне формате. Ова база је тако допуњена новим лексичким јединицама из домена електроенергетике на српском и енглеском језику, као и њиховим синонимима. Добијена листа преводних парова послужила је за генерисање двојезичног речника из домена електроенергетике. Произведени паралелни корпус ElEner смештен је у дигиталну библиотеку Библиша која омогућава вишејезичко претраживање великих колекција поравнатих текстова. Претраживање ове дигиталне библиотеке обавља се помоћу лексичких ресурса који омогућавају морфолошко и семантичко проширење постављених упита. Добијени терминолошки парови представљају основу за развој новог модерног речника из области електроенергетике, чиме се уједно отвара могућност и за унапређење и проширивање терминолошке базе Електропедија. Поступак обраде текстова предложен овом дисертацијом показао се применљивим и корисним и у другим доменима. У истраживањима која ће уследити, циљ је да се побољша предложена техника укључивањем аутоматске валидације добијених двојезичних термина кандидата у постојећу процедуру, на основу најсавременијих техника машинског учења.sr
dc.description.abstractThis paper analyzes terminology development in power engineering domain using natural language processing methods. The paper is divided into eight chapters and deals with the theory of terminology as an academic field in general, with international and domestic institutions involved in terminology development, development of specialized terminology within power engineering domain in Serbian language, the application of corpus linguistics in terminological research, as well as corpus processing tools and language resources. Parallel corpora are bilingual or multilingual corpora of texts that are very important in linguistic research. The development of a parallel corpus composed of texts in power engineering domain (ElEner) started with the preparation of this doctoral dissertation. The corpus is composed of technical, scientific and legislative texts both in Serbian and English published from 2006 until 2015. The dissertation thoroughly analyzes the process of text selection and collection, text processing techniques using appropriate language resources and tools for Serbian and English, parallelization of texts, extraction of terminology in Serbian and English, alignment and matching of chunks and terms, and evaluation of obtained results. After the evaluation process is completed, all correctly evaluated pairs are included in the Termi terminology database, which supports the development of terminological dictionaries in various fields (mathematics, computing, mining, librarianship, computational linguistics, power engineering, etc.), as well as processing and presentation of terms in Serbian, English, German and French and their export to various output formats. This database is thus upgraded with new lexical units and synonyms from the power engineering domain in Serbian and English. The obtained list of translation pairs was used for power engineering bilingual dictionary development. The new aligned ElEner corpus is stored in digital library Bibliša, which enables multilingual search of large collections of aligned texts. The search of this digital library is performed using lexical resources that enable morphological and semantic expansion of the queries. The obtained terminological pairs represent the basis for the development of a new modern dictionary in the field of power engineering, and provide an opportunity for the improvement and expansion of the terminology base of Electropedia. The text processing procedure proposed by this dissertation has proven to be applicable and useful for application in other domains as well. In the future research, the goal is to improve the proposed technique by including automatic validation of the obtained bilingual terms of the candidates in this routine, based on the state-of-the-art machine learning techniques.en
dc.formatapplication/pdf
dc.languagesr
dc.publisherУниверзитет у Београду, Филолошки факултетsr
dc.rightsopenAccessen
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.sourceУниверзитет у Београдуsr
dc.subjectтерминологијаsr
dc.subjectTerminologyen
dc.subjectCorpus linguisticsen
dc.subjectParallel corporaen
dc.subjectPower engineeringen
dc.subjectNatural Language Processingen
dc.subjectLexical resourcesen
dc.subjectTerminology extractionen
dc.subjectкорпусна лингвистикаsr
dc.subjectпаралелни корпусиsr
dc.subjectелектроенергетикаsr
dc.subjectобрада природних језикаsr
dc.subjectлексички ресурсиsr
dc.subjectекстракција терминологијеsr
dc.titleРазвој терминологије из области електроенергетике коришћењем метода обраде природних језикаsr
dc.title.alternativeTerminology development in power engineering based on natural language processing methods Развитие терминологии в энергетике на основе методов обработки естественного языкаen
dc.typedoctoralThesis
dc.rights.licenseBY-NC-ND
dc.identifier.fulltexthttp://nardus.mpn.gov.rs/bitstream/id/147478/Disertacija_12834.pdf
dc.identifier.fulltexthttp://nardus.mpn.gov.rs/bitstream/id/152576/Referat.pdf
dc.identifier.rcubhttps://hdl.handle.net/21.15107/rcub_nardus_20914


Документи за докторску дисертацију

Thumbnail
Thumbnail

Ова дисертација се појављује у следећим колекцијама

Приказ основних података о дисертацији