Show simple item record

Composite pseudogrammars based on parallel language models of Serbian

dc.contributor.advisorStanković, Ranka
dc.contributor.otherTomašević, Jelena
dc.contributor.otherDevedžić, Vladan
dc.contributor.otherUtvić, Miloš
dc.contributor.otherStankov, Dragan
dc.creatorŠkorić, Mihailo
dc.date.accessioned2023-09-06T11:02:55Z
dc.date.available2023-09-06T11:02:55Z
dc.date.issued2023-06-06
dc.identifier.urihttps://eteze.bg.ac.rs/application/showtheses?thesesId=9173
dc.identifier.urihttps://fedorabg.bg.ac.rs/fedora/get/o:30489/bdef:Content/download
dc.identifier.urihttps://plus.cobiss.net/cobiss/sr/sr/bib/121486089
dc.identifier.urihttps://nardus.mpn.gov.rs/handle/123456789/21587
dc.description.abstractЦиљ овог рада је да предочи предности коришћења композитних интелигентних система заснованих на паралелним архитектурама, а пре свега предност композитних псеудограматика заснованих на паралелним језичким моделима у обради, генерисању и евалуацији природног језика, и то поготово српског. У њему је најпре дат кратак увод у теорију формалних језика, предочене су различите врсте граматика и дат је преглед радова из области креирања њихових апроксимација. Описани су појмови псеудограматика и језичких модела и приказан је њихов историјски развој, са највећим акцентом на тренутно стање и најактуалније методе моделовања језика и језичке моделе. Уведена је проблематика евалуације квалитета текста, и описане су различите методе полу-аутоматске и аутоматске евалуације. У другом делу рада описана су два експеримента која су имала за циљ да утврде методологију креирања композитних система за потребе моделовања српског језика, при чему су описани начини креирања различитих репрезентација докумената и различити начини комбиновања излаза самосталних система у обради природног језика. Паралелни системи су том приликом успешно тестирани на задацима обележавања врста речи и утврђивања ауторства кроз моделовања мини-језика, где су остварили значајно боље резултате од самосталних метода. Коначно, описан је процес обучавања серије генеративних предобучених трансформера над различитим репрезентацијама корпуса српског језика и креирања композитних псеудограматика заснованих на тим моделима и различитим методама комбиновања. Развијени системи су евалуирани на задацима оцењивања квалитета текста, те проналажења и исправљања грешака. Приказани резултати издвојили су наслагани обучени класификатор као оптимални метод комбиновања језичких модела у јединствену псеудограматику.sr
dc.description.abstractThe aim of this paper is to present the advantages of using composite intelligent systems based on parallel architectures and, above all, the advantage of composite pseudogrammars based on parallel language models in the processing, generation, and evaluation of natural languages, especially Serbian. First a brief introduction to the theory of formal languages is given, distinct types of grammars are described an overview of papers in the field of creating their approximations were presented. The concepts of pseudogrammars and language models were described together with their historical development, with the emphasis on the current state-of-the-art and the best methods of language modelling and currently top-performing language models. The issue of quality evaluation of a text is introduced, and various methods of semi-automatic and automatic evaluation are described. In the second part of the paper, two experiments were described that aimed to determine the methodology of creating composite systems for the needs of modelling the Serbian language, where the ways of creating different representations of documents and diverse ways of combining the outputs of independent natural language processing systems were described. On that occasion, parallel systems were successfully tested on the tasks of part-of-speech tagging and authorship attribution through mini-language modelling, for which they achieved significantly better results than independent methods. Finally, the process of training a series of generative pretrained transformers on different representations of the corpus of the Serbian language and creating composite pseudogrammars based on those models and different combining methods is described. The developed systems were evaluated on the tasks of text quality evaluation and finding and correcting errors in the text. The presented results singled out the stacked trained classifier as the optimal method of combining language models into a unique pseudogrammar.en
dc.formatapplication/pdf
dc.languagesr
dc.publisherУниверзитет у Београду, Студије при универзитету
dc.rightsopenAccessen
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.sourceУниверзитет у Београдуsr
dc.subjectмоделирање језикаsr
dc.subjectlanguage modelingen
dc.subjectlanguage modelsen
dc.subjectcomposite structuresen
dc.subjectmachine learningen
dc.subjectSerbian languageen
dc.subjecttext analysisen
dc.subjecttext generationen
dc.subjectautomatic evaluationen
dc.subjectјезички моделиsr
dc.subjectкомпозитне структуреsr
dc.subjectмашинско учењеsr
dc.subjectсрпски језикsr
dc.subjectанализа текстаsr
dc.subjectгенерисање текстаsr
dc.subjectаутоматска евалуацијаsr
dc.titleКомпозитне псеудограматике засноване на паралелним језичким моделима српског језикаsr
dc.title.alternativeComposite pseudogrammars based on parallel language models of Serbianen
dc.typedoctoralThesis
dc.rights.licenseBY-NC-ND
dc.identifier.fulltexthttp://nardus.mpn.gov.rs/bitstream/id/151679/Disertacija_13636.pdf
dc.identifier.fulltexthttp://nardus.mpn.gov.rs/bitstream/id/151680/ReferatSkoric.pdf
dc.identifier.rcubhttps://hdl.handle.net/21.15107/rcub_nardus_21587


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record