УНИВЕРЗИТЕТ У БЕОГРАДУ ФИЛОЛОШКИ ФАКУЛТЕТ УПУТСТВО ЗА ПИСАЊЕ ИЗВЕШТАЈА О ОЦЕНИ ДОКТОРСКЕ ДИСЕРТАЦИЈЕ I ПОДАЦИ О КОМИСИЈИ 1. Датум и орган који је именовао комисију 19. IV 2017. Научно-наставно веће Филолошког факултета 2. Састав комисије са назнаком имена и презимена сваког члана, звања, назива уже научне области за коју је изабран у звање, датума избора у звање и назив факултета, установе у којој је члан комисије запослен: 1. др Цветана Крстев, редовни професор, библиотечка информатика, 20. V 2014, Филолошки факултет Универзитета у Београду 2. др Балша Стипчевић, доцент, српски језик, 29. IV 2015, Филолошки факултет Универзитета у Београду 3. др Гордана Павловић-Лажетић, редовни професор, рачунарство и информатика, 22. I 2009, Математички факултет Универзитета у Београду 4. 5. II ПОДАЦИ О КАНДИДАТУ 1. Име, име једног родитеља, презиме: Бојана П. Ђорђевић 2. Датум рођења, општина, република: 6. VII 1976. Крушевац, Србија 3. Датум одбране, место и назив мастер рада: Кандидаткиња је уписала директно доктроске студије на основу успеха на основним студијама 4. Научна област из које је стечено академско звање мастера: / III НАСЛОВ ДОКТОРСКЕ ДИСЕРТАЦИЈЕ: Израда основа формалне граматике српског језика употребом метаграматике IV ПРЕГЛЕД ДОКТОРСКЕ ДИСЕРТАЦИЈЕ: Навести кратак садржај са назнаком броја страна поглавља, слика, шема, графикона и сл. Докторска дисертација се бави израдом формалне граматике српског језика за потребе његове аутоматске обраде. Истраживање посебно обухвата: • анализу постојећих ресурса и алата за аутоматску обраду српског језика; • представаље формалних граматика природних језика, а посебно граматике адјунгованих стабала (TAG) и метаграматике XMG као вида програмског језика за имплементацију TAG-а; • основу формалне граматике српског језика у формализму граматика адјунгованих стабала а на основу синтаксног описа српског језика проф. Љ. Поповића датог у Ж. Станојчић, Љ. Поповић „Граматика Српског језика“; • израда метаграматике српског језика и њена имплементација у синтаксичком парсеру TuLiPA. Истраживање се заснива на теорији формалних језика и њеној примени на формализацију описа природних језика, конкретно српског, за потребе аутоматске обраде. Као технолошка основа за подршку наведеној методологији коришћен је систем The Tübingen Linguistic Parsing Architecture (TuLiPA) који је развијен у у оквиру пројекта Emmy Noether на Универзитету у Тибингену у Немачкој, а примењени су ресурси (електронски речници) развијени у оквиру Групе за језичке ресурсе и технологије (Јертех). Дисертација обухвата 281 страну, а у оквиру тога 6 поглавља (213 страна), спиcак коришћене литературе (11 страна, 95 библиографских јединица и 15 веб извора), 4 прилога (57 страна). У дисертацији укупно има 192 слике и 15 табела. Поглавља дисертације су: 1. Увод (17страна, 2 слике, 3 табеле). 2. Формалне граматике (48 страна, 31 слика, 1 табела). 3. Израда основа формалне граматике српског језика (77 страна, 56 слика, 8 табела). 4. Метаграматика за SrpTAG (53 стране, 92 слике, 1 табела). 5. Примена метаграматике (14 страна, 11 слика, 1 табела). 6. Закључак и даљи рад (4 стране). Прилози дисертације су: Литература (11 страна). 1. DTD за лексикон лема и морфолошки лексикон (3 странe). 2. Лексикон лема (12 страна). 3. Морфолошки лексикон (40 страна). 4. Преглед типова зависних реченица и њихових конституентских вредности (2 стране, 1 табела). V ВРЕДНОВАЊЕ ПОЈЕДИНИХ ДЕЛОВА ДОКТОРСКЕ ДИСЕРТАЦИЈЕ: У уводном поглављу дисертације Обрада природних језика кандидаткиња Бојана Ђорђевић смешта своје истраживање у област обраде природних језика, те образлаже своју одлуку кратким описом историјата ове области, њеног објекта истраживања (природни језик), ресурса које користи (корпуси, речници, граматике), метода (засноване на правилима и статистичке) и неких од алата који су од значаја за само истраживање (тагери и парсери). У другом делу овог уводног поглавља, кандидаткиња представља неке од најзначајнијих ресурса и алата развијених за српски језик, пре свега корпусе, електронске речнике, тагере и граматике плитког парсирања. Кандидаткиња детаљније представља Српски морфолошки е-речник као посебно значајан за њено истраживање, те предсатваља са више детаља његов садржај и формалну структуру. У другом поглављу „Формалне граматике“, кандидаткиња представља формални оквир свог истраживања. На почетку кандидаткиња дефинише формалне граматике (у склопу теорије формалних језика), а потом их повезује са граматикама природних језика. Кандидаткиња познату типизацију формалних језика (хијерархија Чомског) као и појмове слаб и јак генеративни концепт разматра из угла главног фокуса свог истраживања, а то је израда формалне граматике српског језика за потребе обраде природних језика. Кандидаткиња се затим окреће унификационим граматикама које су се јавиле као одговор на разноврсне критике трансформационих граматика и представља њихове основне карактеристике: интеграција лексикона, синтаксе и семантике у јединствену структуру, директно описивање површинске реализације, описивање односа између структура лексичким правилима, додељивање нискама (речи, фразе, реченице) информација у виду обележја, декларативна уместо процедуралне дефиниције граматичности, дефинисање операције унификација, заснованост на логичким и математичким моделима што олакшава њихову практичну рпимену. Кандидаткиња представља три најпознатије унификационе граматике које су истовремено и формализми за обраду природних језика и синтаксичке теорије, а то су LFG, HPSG и TAG. Како се формална граматика српског језика која се развија у наредним поглављима заснива на граматикама адјунгованих стабала (TAG), кандидаткиња их формално дефинише и представља основне типове стабала: иницијална стабла и помоћна стабла, и основне операције на стаблима: замена и припајање. Кандидаткиња потом представља лексичка правила као механизма осмишљен да замени операцију трансформације и представља два основна типа ових правила: правила реализације и правила редистрибуције. TAG граматике данас представљају општи појам из кога је изведено више врста ових граматика. У свом раду, кандидаткиња се одлучила за FBLTAG, лексикализоване TAG засноване на обележјима, па се ове граматике у наставку овог поглавља детаљније представљају. Кандидаткиња, пре свега представља концепт двоструких обележја и објашњава како се операција унификације одвија над оваквим обележјима, а потом објашњава везу ових граматика са лексиконима те представља структуру лексикона које ове граматике захтевају. У последњем делу овог поглавља кандидаткиња уводи појам метаграматика, које су настале као одговор на велику редундантност TAG (па и FBLTAG). Метаграматика није синтаксичка теорија, већ логички или математички конструкт настао с циљем описивања дате формалне граматике и као такав се састоји од две компоненте: формалног језика којим се описује циљна формална граматика и програмског дела, тј. компилатора, који на основу метаграматике генерише структуре формалне граматике. Кандидаткиња се определила за метаграматику XMG, коју дефинише генерализација структура и повезивање алтернатива, чију формалну дефиницију даје. Коначно, кандидаткиња представља програмско окружење и парсер TuLiPA за FBLTAG који је коришћен за парсирање српског језика коришћењем метаграматике српског која је описана у наредним поглављима. Цело ово поглавље прате илустративни примери на српском језику који олакшавају разумевање уведених концепата и процедура. Најважнији резултати истраживања изложени су у поглављима 3, 4 и 5. Трећем поглавље „Израда основа формалне граматике српског језика“ (назване SrpTAG) састоји од више целина. У првом делу даје се морфосинтаксички опис SrpTAG који се заснива на морфосинтаксичком опису који се користи у електронским речницима српског језика (SrpMD), али има и своје особености које се прецизно наводе. Развој формалне граматике типа SrpTAG се природно мора заснивати на некој дескриптивној граматици српског језика, те у наредном делу кандидаткиња образлаже свој избор, а то је Граматика српског језика – уџбеник за I, II, III и IV средње школе Живојина Станојчића и Љубомира Поповића. Осим што је ова граматика најчешће коришћена и најпознатија у нашој јавности, она је и из других разлога погодна да буде основа израде формалног модела: богато коришћење дијаграма и табела при опису структура, опсежан и темељан попис реченичних модела који се заснивају на функцијама а не на категоријама, као и чињеница да глагол у овој граматици нема доминантну улогу што је чини умерено вербоцентричном каква је и граматика TAG. У наредном делу се преко конкретних FBLTAG стабала дају основне структуре српског језика. Кандидаткиња пре свега објашњава однос појма „елементарног стабла“ у TAG и реченице српског језика (како је она дефинисана у изабраној граматици). За овај однос су пресудна два основна принципа добре формираности елементарних стабала, а то су принцип лексичког усидрења (из кога произилази да нереализовани аргументи као ни функционалне речи не могу бити сидра) и принцип заједничког јављања предиката и аргумената унутар једног елементарног стабла. Стога нема потпуног поклапања између појмова елементарног стабла у TAG и предикатске реченице, на пример, у погледу третирања глагола у неличним облицима, зависних реченица (посебно односних), субординатора (који се не морају структурно налазити уз своју зависну реченицу), и структура са модалним и аспектуалним глаголима. У наредном делу овог поглавља кандидаткиња детаљно представља и образлаже како су у SrpTAG представљени основни реченични конституенти, пре свега предикати и какав је њихов однос према опису у дескриптивној граматици Станојчића и Поповића. Тако кандидаткиња детаљно излаже и поткрепљује конкретним примерима какве одлуке је донела при представљању у SrpTAG модалних и фразних глагола, копулативних и семикопулативних глагола, помоћних глагола, пасивних глагола и рефлексивних глагола. Потом се кандидаткиња бави глаголским аргументима, пре свега реализацијом аргумената глагола као појединачних категорија, фраза и зависних реченица, а потом и функцијама глаголских аргумената: субјектима (граматичким и логичким) и допунама (рекцијским и прилошким) и допунским предикативима. У последњем делу овог поглавља кандидаткиња се бави реченичним моделима о којима се у терминима TAG граматике говори као о породицама стабала под којима су обједињене све алтернативе датог речничког модела, изведене помоћу лексичких правила. И у овом делу кандидаткиња као полазну основу узима речениче моделе дате у у дескриптивној граматици Станојчића и Поповића, при чему се ограничава само на предикатске (субјекатско- предикатске и безличне) реченице, и то 10 субјекатско-предикатских модела (глагол без допуне, факултативно прелазни глагол, прелазни глагол, непрелазни рекцијски глагол, непрелазни глагол с прилошком допуном, непрелазни глагол са логичким субјектом, глагол давања или саопштавања, прелазни глагол с прилошком допуном, именски рпедикат, прилошки предикат) и 4 безлична модела (безлични глагол, прилошки предикат, безлични глагол с логичким субјектом, прилошки предикат с логичким субјектом). У TAG граматикама се стабла која представљају алтернације исте аргументске структуре глагола, то јест, истог реченичног модела, повезују лексичким правилима. Кандидаткиња је обрадила сва правила која мењају структуру стабала (правила редистрибуције) – пасив (партиципски и рефлексивни), обезличавање и рефлексивизацију. Од правила измештања, кандидаткиња је обрадила питања, а од правила која мењају место и реализацију аргумената (правила реализације) обрадила је клитизацију и делимично ред речи. Потом следи попис свих 14 реченичних модела, с примерима, пописом карактеристичних глагола које у њих улазе као и лексичких правила која се на њих могу применити. Већини реченичних модела одговара више породица стабала TAG граматике. На крају, кандидаткиња даје попис случајева које у овој дисертацији није обрадила и наводи разлоге због којих то за сада није учињено. Поглавље 4 „Метаграматика за српски“ посвећено је конкретној реализацији граматике развијене у претходном поглављу. У овом поглављу кандидаткиња описује како је реализовала граматику за српски језик коришћењем објектно-оријентисаног програмског језика специјалне намене XMG помоћу кога је креиран парсер за сегмент српског језика описан у претходном поглављу. С обзиром на природу овог програмског језика, метаграматика се дефинише путем модула и класа. Дефинисање класа почиње од оних најопштијих, док специфичније класе наслеђују особине општијих класа. Опис развоја парсера кандидаткиња отпочиње навођењем операција и симбола овог програмског језика помоћу којих се дефинишу типови чворова, успостављају односи међу њима и задају њихова доња и горња обележја. Пре описа развоја саме метаграматике, кандидаткиња представља укратко интерфејс XMG компилатора који је коришћен, његов улаз и излаз. За сам развој метаграматике кандидаткиња је следила методологију која је примењена за француски језик. Према овој методологији метаграматика се израђује у четири фазе, односно кроз четири нивоа генерализације: генерализовање реченичних сегмената у класе, организовање класа у функције, дефинисање класа које описују промене дијатезе и дефинисање класа које описују породице стабала. Класе које су развијене у прве две фазе генерализације покривају глаголе и копулативне предикате, затим глаголске аргументе (субјекте и несубјекатске – прави и неправи објекат), прилошке допуне и логичке субјекте. Класе које су развијене у друге две фазе генерализације кандидаткиња описује кроз реченичне моделе – субјектско-предикатске и безличне – који су представљени у претходном поглављу. На крају овог поглавља кандидаткиња представља допунске класе које служе за повезивање развијене метаграматике с парсером као и класе потребне за парсирање помоћних, неаргументских реченичних делова, као што су негација, помоћни глагол и нерагументска питања (с упитном речцом да ли). Пето поглавље „Примена метаграматике“ кандидаткиња Бојана Ђорђевић је посветила конкретној реализацији метаграматике, то јест њеном повезивању са лексиконима које омогућава парсирање конкретних реченица парсером TuLiPA. Кандидаткиња пре свега представља садржај и формат два основна лексикона која парсер користи, а то су лексикон лема и морфолошки лексикон и начин њиховог повезивања са развијеном метаграматиком. У овом тренутку само мали део овог лексикона је релаизован, колико је било потребно за тестирање метаграматике и парсера. Но, с обзиром да се српски морфолошки речник (SrpMD) такође у основи састоји од два лексикона – лексикона лема и лексикона облика – те да су при развоју граматике SrpTAG и њене метаграматике коришћен велики број истих категорија са истим или сличним вредностима (кодовима), кандидаткиња представља како би се на аутоматски начин, уз извесну ручну дораду и контролу, лексикони SrpTAG могли трансформисати у лексиконе парсера. На крају овог поглавља кандидаткиња систематично излаже које све реченичне структуре, то јест глаголске аргументе и саме глаголе, метаграматика и парсер тренутно препознају. Такође су систематично изложени и тренутно непокривени делови који су подељени у две групе: оне, чија реализација не би требало да представља ни технички ни језички проблем, и друге, чија реализација би могла да захтева модификовање постојеће SrpTAG и класа метаграматике, као и преиспитивање неких одлука донетих у току њихове изградње. У шестом поглављу „Закључак и даљи рад“ кандидаткиња Бојана Ђорђевић даје сажет приказ свог рада и постигнутих резултата. Кандидаткиња се посебно осврће на правце даљег развоја формалне граматике српског језика, што би требало да обухвати оспособљавање свих реализација појединих реченичних функција, додавање непокривених сложених глаголских времена и начина, решавање проблема реда речи, уношење модификатора фраза и реченичних модификатора, проширивање домена питања и изградњу лексикона полуаутоматском трансформацијом е-речника српског језика SrpMD. На самом крају, кандидаткиња указује на могуће импликације развоја формалне граматике спрског језика на развој других значајних ресурса потребних у обради природних језика. На крају дисертације Бојана Ђорђевић је приложила четири додатка: 1. Дефиниција типа документа (DTD) за лексикон лема и морфолошки лексикон записане у XML формату. 2. Лексикон лема у XML формату за примену са развијеном метаграматиком са примерима лема свих врста речи. 3. Морфолошки лексикон у XML формату са примерима облика лема из лексикона лема датог у Прилогу 2. 4. Табеларни приказ типова зависних реченица и њихових конституентских вредности са субординаторима које користе, функцијом коју имају и примерима. VI СПИСАК НАУЧНИХ И СТРУЧНИХ РАДОВА КОЈИ СУ ОБЈАВЉЕНИ ИЛИ ПРИХВАЂЕНИ ЗА ОБЈАВЉИВАЊЕ НА ОСНОВУ РЕЗУЛТАТА ИСТРАЖИВАЊА У ОКВИРУ РАДА НА ДОКТОРСКОЈ ДИСЕРТАЦИЈИ, уз напомену: Навести називе радова, где и када су објављени. Bojana Đorđević. 2017. "SRPTAG: leksikalizovana gramatika adjungovanih stabala za srpski jezik". Анали Филолошког факултета 29 (1) – рад прихваћен за штампу Bojana Đorđević.. “Formal Representation of Clitic Ordering in Serbian”. In Proceedings of 7th Language & Technology Conference, November 27-29, 2015, Poznań, Poland, eds. Zygmunt Vetulani & Joseph Mariani, ISBN 978-83-932640-8-7, pp. 219-223, Fundacja Uniwersytetu im. A. Mickiewicza, Poznań, 2015. pp 514-518. Bojana Đorđević, "Initial Steps in Building Serbian Treebank; Morphological Annotation," in iNatural Language Processing for Serbian - Resources and Applications, eds. G. Pavlović-Lažetić et al., University of Belgrade, Faculty of Mathematics, Belgrade, 2015, pp. 41-53. У случају радова прихваћених за објављивање, таксативно навести називе радова, где и када ће бити објављени и приложити потврду о томе. VII ЗАКЉУЧЦИ ОДНОСНО РЕЗУЛТАТИ ИСТРАЖИВАЊА Резултати изложени у овој дисертацији говоре да је кандидаткиња Бојана Ђорђевић остварила циљеве зацртане у пријави дисертације. Рад Бојане Ђорђевић представља пионирски подухват на подручју формалног описа српског језика за потребе аутоматске обраде. Изложени формални опис је подржан програмском имплементацијом која омогућава да се аутоматски анализира реченица српског језика. Овај рад представља изузетно значајан корак ка даљем формализованом опису српског језика који отвара нове правце у његовој обради, и пружа нове могућности за различите лингвистичке и информатичке применама. Све детаље овог описа кандидаткиња је у дисертацији ставила на располагање чиме је омогућила репродукцију резултата истраживања као и будуће надградње. Сам текст дисертације, као и списак литературе наведен на крају рада, говоре да је Бојана Ђорђевић користила релевантну и савремену литературу, те да је постављене проблеме обрадила детаљно и сагледавајући их из разних углова. Овим радом Бојана Ђорђевић је отворила једно ново поље истраживања у области обраде српског језика а будућим истраживачима ставила на располагање изузетно значајне ресурсе и алате за даљи рад. VIII ОЦЕНА НАЧИНА ПРИКАЗА И ТУМАЧЕЊА РЕЗУЛТАТА ИСТРАЖИВАЊА НАПОМЕНА: Навести позитивну или негативну оцену начина приказа и тумачења резултата истраживања. Комисија сматра да је кандидаткиња Бојана Ђорђевић у својој дисертацији Израда основа формалне граматике српског језика употребом метаграматике успешно обрадила ову комплексну и изузетно значајну тему, да је текст дисертације урађен према одобреној пријави дисертације, и да је реч о раду који представља оригинално и самостално научно дело. X ПРЕДЛОГ: На основу укупне оцене дисертације, комисија предлаже: Научно-наставном већу Филолошког факултета Универзитета у Београду да прихвати извештај о дисертацији Израда основа формалне граматике српског језика употребом метаграматике кандидаткиње Бојане Ђорђевић и упути га Већу за друштвено-хуманистичке науке Универзитета у Београду, како би кандидаткиња била позвана на усмену одбрану рада. ПОТПИСИ ЧЛАНОВА КОМИСИЈЕ 1. др Цветана Крстев, редовни професор Филолошки факултет Универзитета у Београду 2. др Балша Стипчевић, доцент Филолошки факултет Универзитета у Београду 3. др Гордана Павловић-Лажетић, редовни професор Математички факултет Универзитета у Београду 4.