UNIVERZITET U BEOGRADU FILOLOŠKI FAKULTET Bojana P. Đorđević IZRADA OSNOVA FORMALNE GRAMATIKE SRPSKOG JEZIKA UPOTREBOM METAGRAMATIKE doktorska disertacija Beograd, 2017 UNIVERSITY OF BELGRADE FACULTY OF PHILOLOGY Bojana P. Đorđević CONSTRUCTION OF A FORMAL GRAMMAR OF SERBIAN USING A METAGRAMMAR Doctoral Dissertation Belgrade, 2017 Mentor: dr Cvetana Krstev, redovni profesor, Univerzitet u Beogradu, Filološki fakultet Članovi komisije: dr Gordana Pavlović-Lažetić, redovni profesor, Univerzitet u Beogradu, Matematički fakultet dr Balša Stipčević, docent, Univerzitet u Beogradu, Filološki fakultet Datum odbrane: _______________________________ Ovaj rad nikada ne bi ugledao svetlost dana da nije bilo moje mentorke dr Cvetane Krstev i profesora dr Duška Vitasa. Neizmerno im hvala na dobrim idejama, podršci, strpljenju i poverenju koje su mi pružali svih ovih godina. Posebno hvala Janiku Parmentjeu (Yannick Parmentier) i Simonu Petižanu (Simon Petitjean) sa Univerziteta u Orleanu u Francuskoj, koji su me uveli u formalizme TAG gramatike i metagramatike XMG i dali početni vetar u leđa za rad na razvoju ovih formalizama za srpski jezik. Veliku zahvalnost dugujem i svim kolegama saborcima iz grupe za jezičke tehnologije JERTEH na saradnji na projektima iz računarske lingvistike, i uopšte, na lepom druženju. Hvala i mojim kolegama sa letnje škole EGG, oni su mi pokazali koliko lingvistika može biti zabavna, kao i to da se istrajnost isplati. Zahvaljujem se i svojim kolegama i direktorki škole Azbukum, kao i svim svojim studentima koji su me s puno razumevanja podržavali. Za Acu Izrada osnova formalne gramatike srpskog jezika upotrebom metagramatike Rezime Ovaj rad predstavlja proces izrade osnova FBLTAG gramatike srpskog jezika, a zatim i proces izrade njene metagramatike, čija primena na osnovne modele rečenica u srpskom jeziku omogućava njihovu automatsku sintaksičku analizu. Prvo pogavlje rada daje uvod u polje obrade prirodnih jezika, navodeći istorijat discipline i njene podgrane. Veća pažnja posvećuje se automatskoj obradi srpskog jezika, gde se daje pregled dosad ostvarenih rezultata, počevši od analize fonetike i fonologije, pa sve do analize sintakse. Za svaku od navedenih sfera navode se i konkretni alati i resursi koji su dosad razvijeni za srpski jezik. Drugo poglavlje donosi pregled pojma formalna gramatika, da bi se zatim usmerilo na oblast unifikacionih gramatika kao modela koji čini okvir ovog rada. U nastavku se detaljno iznosi struktura unifikacione gramatike koja će u nastavku rada biti primenjena na srpski jezik ‒ FBLTAG. U drugom delu poglavlja uvodi se pojam metagramatike, kao i konkretne metagramatike koja se u ovom radu koristi za sažeto predstavljanje gramatike FBLTAG ‒ XMG. XMG se obrađuje detaljno, pri čemu se opisuje njegova struktura, namena i princip funkcionisanja, kao i perspektive za primenu na srpski jezik. Treće poglavlje predstavlja prvo ključno poglavlje rada, kako se u njemu iznose osnove FBLTAG gramatike srpskog jezika nazvane SrpTAG. Polazi se od izbora morfosintaksičkog opisa, kao i izbora deskriptivne gramatike srpskog jezika koja se koristi kao osnov pri izradi formalne gramatike. Kroz strukturna poređenja između FBLTAG gramatike i deskriptivne gramatike srpskog jezika vrše se i izbori za izradu same SrpTAG. Nakon toga se navode konkretne analize delova rečenične strukture ‒ predikata i glagolskih argumenata. U poslednjem delu poglavlja je data detaljna struktura rečeničnih modela unutar SrpTAG, prema modelima koji su definisani u izabranoj deskriptivnoj gramatici. U četvrtom poglavlju je predstavljena metagramatika definisana za SrpTAG, kao mehanizam koji olakšava izradu SrpTAG, njeno nadograđivanje, izmenu i primenu. Osnov ovog poglavlja su rezultati trećeg poglavlja, pri čemu se detaljno, po klasama i rečeničnim modelima, formira apstrahovan i sažet pregled SrpTAG, koji će se dalje koristiti za direktnu primenu prilikom automatske obrade srpskog jezika. Peto poglavlje se bavi načinom na koji je moguća primena metagramatike napravljene u četvrtom poglavlju. S više detalja predstavljaju se leksikoni koji su neophodan deo automatske obrade, a zatim se u delu o evaluaciji daju konkretni rezultati dobijeni pri automatskoj obradi srpskog jezika primenom metagramatike napravljene u četvrtom poglavlju. U šestom poglavlju daje se zaključak rada, prikazuju njegovi generalni i spacifični rezultati, i daju perspektive za dalji rad. Poslednje, sedmo poglavlje sadrži nekoliko dodataka: sintaksički i morfološki leksikon koji se trenutno koriste za automatsku obradu teksta, shemu (DTD) koja se koristi za definisanje leksikona i pregled modela zavisnih rečenica kakav je ponuđen u deskriptivnoj gramatici srpskog jezika. Možemo zaključiti da je rad ispunio svoju svrhu ‒ na osnovu metagramatike napravljene u ovom radu moguće je generisati formalnu gramatiku za srpski jezik. Ova gramatika obrađuje osnovne strukture srpskog jezika, onako kako su definisane u rečeničnim modelima korišćene deskriptivne gramatike, kao i njihove osnovne transformacije (negacija, pitanje, pasiv, obezličene forme). Napravljena gramatika se može koristiti za prepoznavanje i analizu teksta, ali se potencijalno može koristiti i za generisanje teksta. U svom trenutnom stanju ona ispravno generiše i prepoznaje obrađene strukture srpskog jezika, ali i uspešno odbacuje negramatične realizacije obrađenih struktura. Ključne reči: formalna gramatika srpskog jezika, FBLTAG, SrpTAG, XMG, metagramatika, parsiranje, automatska sintaksička analiza, obrada prirodnih jezika Naučna oblast: računarska lingvistika Uža naučna oblast: obrada prirodnih jezika UDK broj: ____________________________________________ Construction of a Formal Grammar of Serbian Using a Metagrammar Abstract This paper presents the process of creating the basis of FBLTAG grammar of the Serbian language, followed by the process of building its metagrammar, whose application on basic sentence models of Serbian allows for their automatic syntactic analysis. The first chapter of the thesis gives an introduction to the field of natural language processing by outlining the history of the discipline and its subfields. The chapter focuses on automatic processing of the Serbian language, providing an overview of the results achieved so far, spanning from the analysis of phonetics and phonology to parsing. Tools and resources that have been developed for the Serbian language are listed for each of the stated fields. The second chapter offers an overview of the concept of formal grammar, only to focus on the area of unification grammars as a framework for the thesis. The structure of the unification grammar that will later be applied to Serbian ‒ FBLTAG ‒ is presented in detail. The second part of the chapter introduces the concept of metagrammar, as well as the specific metagrammar ‒ XMG ‒ used in the thesis in order to describe FBLTAG in an abstract way. XMG is presented in detail, through describing its structure, purpose and its principles, as well as prospects for its use on the Serbian language. The third chapter is the key chapter of the thesis since it presents the basics of FBLTAG grammar for Serbian named SrpTAG. The chapter starts with the choice of the morphosyntactic description, as well as the choice of the descriptive grammar of Serbian language, used as a guide for the development of the formal grammar. Through structural comparisons between FBLTAG and the descriptive grammar of Serbian language, choices are made for the construction of SrpTAG. This part is followed by detailed analyses of specific parts of the sentence structure ‒ predicate and verbal arguments. The final part of the chapter gives a detailed structure of sentence models within SrpTAG, according to the models defined in the selected descriptive grammar. The fourth chapter presents the metagrammar defined for SrpTAG, as a mechanism that facilitates the creation of SrpTAG, as well as its upgrading, modification, and implementation. The basis of this chapter are the results of the third chapter, where the abstracted and concise overview of SrpTAG is built through detailed classes and sentence models, which will continue to be used for direct application in automatic processing of Serbian language. The fifth chapter deals with the way in which the application of metagrammar constructed in the fourth chapter is possible. Lexicons needed for the automatic processing are presented in more detail, while the section on evaluation provides concrete results obtained during parsing of Serbian using the given metagrammar. The sixth chapter gives the conclusion of the thesis, showing its general and specific results, and provide perspectives for future work. The thesis contains a few appendices ‒ morphological and syntactic lexicon that are currently used for parsing, DTD used to define the lexicons, and an overview of dependent clause model as offered in the mentioned descriptive grammar of the Serbian language. We can conclude that the thesis has fulfilled its purpose ‒ based on the metagrammar made in this thesis it is possible to generate a formal grammar for Serbian language. This grammar handles basic structures of Serbian, as defined in the sentence models used in the descriptive grammar, as well as their basic transformations (negation, question, passive, depersonalized forms). The constructed grammar can be used to identify and analyze text, but can potentially also be used to generate it. In its current state, it correctly generates and recognizes the mentioned structures of Serbian language, but also successfully rejects ungrammatical realizations of the given structures. Key words: formal grammar of Serbian, FBLTAG, SrpTAG, XMG, metagrammar, parsing, automatic syntax analysis, NLP Scientific field: computational linguistics Scientific area: natural language processing UDC number: ____________________________________________ Sadržaj 1 UVOD ................................................................................................................................................... 1 1.1 Obrada prirodnih jezika ......................................................................................................................... 2 1.2 Automatska obrada srpskog jezika – resursi i alati .................................................................... 8 1.2.1 Korpusi srpskog jezika ............................................................................................................... 8 1.2.2 Elektronski rečnici i MSO za srpski jezik ......................................................................... 10 1.2.3 Obeležavanje teksta i tageri .................................................................................................. 14 1.2.4 Plitka sintaksička analiza i srpski jezik ............................................................................. 15 1.2.5 Ostali alati ..................................................................................................................................... 16 2 FORMALNE GRAMATIKE ............................................................................................................ 18 2.1 Definicija formalne gramatike .......................................................................................................... 19 2.2 Formalna gramatika i prirodni jezik .............................................................................................. 21 2.3 Unifikacione gramatike ....................................................................................................................... 28 2.4 Gramatika adjungovanih stabala (TAG) ....................................................................................... 35 2.4.1 Definicija gramatike ................................................................................................................. 35 2.4.2 Stabla u TAG ................................................................................................................................ 37 2.4.3 Operacije u TAG.......................................................................................................................... 39 2.4.4 Leksička pravila i porodice stabala .................................................................................... 43 2.4.5 Tipovi TAG.................................................................................................................................... 46 2.4.5.1 FBLTAG ................................................................................................................................. 48 2.4.6 Relevantnost FBLTAG za obradu prirodnih jezika ....................................................... 52 2.5 Metagramatika ....................................................................................................................................... 54 2.5.1 XMG ................................................................................................................................................. 55 2.5.1.1 Teorijski principi .............................................................................................................. 55 2.5.1.2 Definicija metagramatike .............................................................................................. 57 2.5.1.3 Mehanizam nasleđivanja ............................................................................................... 59 2.5.1.4 Dodavanje specifičnih ograničenja ............................................................................ 60 2.5.1.5 Parsiranje TAG pomoću metagramatike .................................................................. 62 3 IZRADA OSNOVA FORMALNE GRAMATIKE SRPSKOG JEZIKA ....................................... 66 3.1 Morfosintaksički opis........................................................................................................................... 68 3.2 O izboru deskriptivne gramatike srpskog jezika ...................................................................... 74 3.3 Elementarno stablo i rečenica srpskog jezika ............................................................................ 76 3.4 Pojam i sastav predikata ..................................................................................................................... 87 3.4.1 Modalni i fazni glagoli u TAG ................................................................................................ 91 3.4.2 Kopulativni i semikopulativni glagoli u TAG .................................................................. 91 3.4.3 Pomoćni glagoli u TAG ............................................................................................................. 93 3.4.4 Pasivni glagoli u TAG ................................................................................................................ 95 3.4.5 Negacija ......................................................................................................................................... 96 3.4.6 Refleksivni glagoli ..................................................................................................................... 97 3.5 Glagolski argumenti .......................................................................................................................... 101 3.5.1 Realizacija argumenata glagola ......................................................................................... 101 3.5.2 Funkcije glagolskih argumenata ....................................................................................... 111 3.5.2.1 Gramatički subjekat ...................................................................................................... 111 3.5.2.2 Logički subjekat .............................................................................................................. 113 3.5.2.3 Dopune ............................................................................................................................... 114 3.6 Rečenični modeli ................................................................................................................................ 117 3.6.1 Leksička pravila ...................................................................................................................... 122 3.6.1.1 Pravila redistribucije .................................................................................................... 122 3.6.1.2 Pravila izmeštanja ......................................................................................................... 127 3.6.1.3 Pravila realizacije .......................................................................................................... 130 3.6.2 Subjekatsko-predikatski modeli ....................................................................................... 133 3.6.3 Bezlični modeli ........................................................................................................................ 139 3.7 Neobrađeni slučajevi......................................................................................................................... 141 4 METAGRAMATIKA ZA SRPTAG .............................................................................................. 143 4.1 Metodologija ......................................................................................................................................... 144 4.2 Jezik za opis metagramatike .......................................................................................................... 148 4.3 Generalizovanje rečeničnih segmenata u klase i organizovanje klasa u funkcije ..... 155 4.3.1 Glagoli ......................................................................................................................................... 156 4.3.2 Glagolski argumenti ............................................................................................................... 165 4.3.2.1 Subjekat ............................................................................................................................. 165 4.3.2.2 Nesubjekatski argumenti ............................................................................................ 171 4.4 Definisanje klasa koje opisuju promenu dijateze i porodice stabala ............................. 184 4.4.1 Subjekatsko-predikatski modeli ....................................................................................... 184 4.4.1.1 Klase prvog rečeničnog modela ............................................................................... 184 4.4.1.2 Klase drugog i trećeg rečeničnog modela............................................................. 185 4.4.1.3 Klase četvrtog rečeničnog modela .......................................................................... 186 4.4.1.4 Klase petog rečeničnog modela ................................................................................ 187 4.4.1.5 Klase šestog rečeničnog modela .............................................................................. 188 4.4.1.6 Klase sedmog rečeničnog modela ........................................................................... 189 4.4.1.7 Klase osmog rečeničnog modela .............................................................................. 189 4.4.1.8 Klase devetog rečeničnog modela ........................................................................... 189 4.4.1.9 Klase desetog rečeničnog modela ........................................................................... 190 4.4.2 Bezlični modeli ........................................................................................................................ 190 4.4.2.1 Klase prvog bezličnog modela .................................................................................. 190 4.4.2.2 Klase drugog bezličnog modela ................................................................................ 191 4.4.2.3 Klase trećeg bezličnog modela ................................................................................. 191 4.4.2.4 Klase četvrtog bezličnog modela ............................................................................. 191 4.5 Dodatne klase ...................................................................................................................................... 191 5 PRIMENA METAGRAMATIKE ................................................................................................. 196 5.1 Leksikoni ............................................................................................................................................... 197 5.2 Evaluacija............................................................................................................................................... 204 6 ZAKLJUČAK I DALJI RAD .......................................................................................................... 210 6.1 Zaključak ................................................................................................................................................ 211 6.2 Dalji rad .................................................................................................................................................. 212 7 LITERATURA ................................................................................................................................ 214 7.1 Korišćena literatura........................................................................................................................... 215 7.2 Referentne veb lokacije .................................................................................................................... 223 8 PRILOZI.......................................................................................................................................... 225 8.1 DTD za leksikon lema i morfološki leksikon ............................................................................ 226 8.2 Leksikon lema ...................................................................................................................................... 228 8.3 Morfološki leksikon ........................................................................................................................... 240 8.4 Pregled tipova zavisnih rečenica i njihovih konstituentskih vrednosti ........................ 280 9 BIOGRAFIJA AUTORA ................................................................................................................ 282 10 IZJAVE O DISERTACIJI ............................................................................................................... 284 1 1 UVOD 2 1.1 Obrada prirodnih jezika Ovaj rad započinjemo kratkim uvodom u obradu prirodnih jezika1. Termin obrada prirodnih jezika (nadalje OPJ) ćemo koristiti u najširem mogućem značenju da označimo obradu pisanog ili govornog prirodnog jezika pomoću računara, ali ćemo svejedno na ovom mestu podrobnije objasniti svaki od njegovih segmenata. Najpre, pod terminom prirodni jezik podrazumeva se svaki ljudski jezik nastao prirodnim procesom. Nasuprot njemu stoji termin veštački jezik, koji s jedne strane označava takozvani međunarodni ili pomoćni jezik, veštački lingua franca stvoren za komunikaciju među ljudima koji govore različitim jezicima. Primer takvog jezika je esperanto. S druge strane, veštački jezik je i bilo koji programski jezik (Java ili C++…), koji se koristi za komunikaciju između računara i čoveka. Sledeća stavka termina OPJ je obrada prirodnog jezika. Obrada prirodnog jezika podrazumeva jezičku analizu, ali isto tako i generisanje jezika, odnosno određenog segmenta jezika. Obrada se može vršiti na svim jezičkim nivoima – počevši od fonetike i fonologije (prepoznavanje audio signala i raspoznavanje reči od kojih se taj signal sastoji, kao i generisanje audio signala od niza reči), preko morfologije (prepoznavanje i generisanje odgovarajućih formi reči zavisno od konteksta) i sintakse (prepoznavanje i generisanje struktura koje se sastoje od grupa reči u određenom redosledu), do semantike (prepoznavanja značenje reči i njihovih kombinacija), pragmatike (prepoznavanje i generisanje jezika s odgovarajućom komunikacijskom svrhom) i nivoa diskursa (prepoznavanje i generisanje kohezivnog i koherentnog teksta). Tako aplikacije za proveravanje pravopisa u programima za obradu teksta rade na nivou fonologije i morfologije, uzimajući u obzir i segmente sintakse. Aplikacije koje se koriste za obeležavanje vrsta reči rade na morfosintaksičkom nivou. Na sintaksičkom nivou rade programi koji mogu vršiti analizu na „plitkom“ nivou, uzimajući u obzir samo segmente rečenica (npr. sintagme, složene glagolske oblike, vremenski izraze), i na „dubokom“ nivou na kome se vrši analiza strukture čitave rečenice. 1 Neki naučnici kao hiperonime za ovu oblast koriste termine računarska lingvistika (Mitkov, 2005) ili obrada govora i jezika (Jurafsky & Martin, 2000) 3 Potreba da se jezička obrada prepusti računaru prvi put se javila paralelno sa prvim računarima – sredinom prošlog veka. Ti napori su u početku bili usmereni na automatsko tj. mašinsko prevođenje i bili su direktno vezani za tadašnje političke prilike u svetu – potrebu da se u vreme hladnog rata na brz način i automatski prevodi između ruskog i engleskog. Nakon memoranduma Vorena Vivera (Warren Weaver) iz 1949. godine, u kome se iznosi stav da bi mašinsko prevođenje moglo biti moguće, napori počinju da se usmeravaju na tu stranu. Prvi zvanični sistem za mašinsko prevođenje, Džordžtaun-IBM sistem, predstavljen 1954. godine2, sastojao se od 250 reči i 6 pravila, dovoljnih za prevod 60 odabranih rečenica sa ruskog na engleski jezik. Prezentacija ovog događaja izazvala je značajnu pažnju u javnosti i ostavila jak utisak, kako među laicima tako i među naučnicima, da će u relativno kratkom vremenskom periodu biti napravljen sistem koji će davati visokokvalitetan prevod. Narednih deset godina značajne sume novca su ulagane u razvoj mašinskog prevođenja, međutim, nakon deset godina, rezultati izveštaja o napretku na tom polju bili su razočaravajući. Prvi problemi na koje su naišli naučnici baveći se mašinskim prevođenjem jesu problemi koji su gorući i dan danas, i s jedne strane se mogu pripisati problemu dvosmislenosti u jeziku, kao posledici homomorfnosti i idiomatičnosti, a s druge strane strukturnim razlikama među jezicima, uključujući i red reči. Ovaj događaj je preusmerio pažnju naučnika sa mašinskog prevođenja na druge sfere u kojima su zajednički napori programera i lingvista mogli da daju značajnije rezultate. Oblast OPJ je danas veoma razgranata i sastoji se od velikog broja postupaka za obradu jezika i različitih disciplina, od kojih su neke, pored već pomenutog mašinskog prevođenja, i pronalaženje informacija, ekstrakcija informacija, odgovaranje na pitanja, sumarizacija teksta, ekstrakcija termina, automatsko indeksiranje teksta, učenje jezika uz pomoć računara, prepoznavanje i generisanje govora, i mašinsko učenje. Generalno posmatrano, pristup OPJ može biti statistički ili zasnovan na pravilima. Statistički pristupi podrazumevaju automatsko uočavanje obrazaca u strukturama na različitim nivoima analize i izođenje pravila na osnovu tih obrazaca. Za taj proces obično je potrebno postojanje određenog korpusa materijala koji se koristi za obuku sistema. Dati sistem nadalje na osnovu naučenih obrazaca može sam vršiti odgovarajući tip analize. Ovi 2 Za detaljan pregled javnog predstavljanja Džordžtaun-IBM sistema 1954. godine pogledati (Hutchins, 2005) 4 sistemi minimizuju ljudski, ručni doprinos analizi, iako nikada ne mogu biti potpuno samostalni i zahtevaju proveru u finalnim fazama procesa odlučivanja. Pristupi zasnovani na pravilima najčešće podrazumevaju postojanje tima ljudi koji izrađuje pravila za određeni nivo jezičke strukture, a na osnovu kojih se zatim vrši jezička analiza na tekstu. Ovaj pristup je temeljniji, precizniji, i tek se zahvaljujući njemu mogu definisati npr. odnosi među nesusednim delovima rečenice. Ova dva sistema se često kombinuju kako bi se poboljšao učinak oba pristupa, dajući takozvani hibridni metod analize. Ovo nas dovodi do sledećeg segmenta koji je od ključnog značaja za OPJ – resursi. Temelj automatske jezičke analize čine tri vrste resursa: korpus, rečnici i gramatike. Neophodni alati potrebni za obradu ovih resursa jesu programi za obeležavanje teksta (tageri), koji se koriste za obeležavanje morfosintaksičkih informacija u tekstu, i programi za sintaksičku analizu (parseri) koji se koriste za prepoznavanje i obeležavanje struktura različitog nivoa. Pogledajmo svaku od pomenutih stavki s malo više pažnje. Uopšteno govoreći, korpus predstavlja kolekciju tekstova u elektronskoj formi koja je reprezentativna po svojoj veličini, tematici tekstova, funkcionalnom stilu i vremenskom periodu u kome su tekstovi nastali. To šta je reprezentativno za određeni korpus zavisi od namene korpusa3. Korpusi mogu biti jednojezični i dvojezični ili višejezični. Višejezični korpusi se obično sastoje od tekstova od kojih jedan predstavlja original, a drugi njegov prevod, pri čemu je za različita jezička istraživanja od posebne koristi to da tekstovi budu međusobno upareni na nivou rečenice. Korpus se može sastojati od tekstova u sirovom obliku, odnosno tekstova koji ni na koji način nisu obeleženi. Međutim, da bi korpus mogao efikasno da se koristi – kako za pretraživanje i ekstrakciju informacija, tako i za statističku obradu, potrebno je obeležiti (anotirati, etiketirati) tekst. Tekstovi se obeležavaju primenom programa za obeležavanje teksta ili tagera. Tageri su programi koji vrše obeležavanje određenih informacija u tekstu. Obeležavanje podrazumeva dodavanje informacija različitog tipa, od opštih bibliografskih informacija kao što su autor, funkcionalni stil ili informacije o procesu digitalizacije teksta, 3 Za podrobnije raščlanjenje definicije korpusa i pojma reprezentativnosti korpusa videti (Utvić, 2013, pp. 14– 23) 5 preko informacija o logičkoj strukturi teksta – početku i kraju poglavlja, paragrafa i rečenica, do jezičkih informacija, kao što su morfosintaksičke kategorije reči u tekstu, njihova funkcija ili značenje. Pod obeležavanjem korpusa u terminima OPJ se ipak najčešće podrazumeva obeležavanje morfosintaksičkim informacijama4, koje se može vršiti ili na osnovu informacija u rečnicima, o kojima će biti reči nešto niže, ili na osnovu statističkih metoda. Obeležavanje korpusa se u nedostatku rečnika u početnoj fazi obrade vrši ručno, što postaje materijal na kome se tageri koji vrše statističko obeležavanje teksta obučavaju. U procesu obeležavanja, rečima5 u korpusu se pridodaju informacije na osnovu odeđenog tagseta, odnosno standarda za morfosintaksički opis (MSO). Tagset predstavlja skup svih oznaka (tagova, anotacija ili etiketa) koje se u procesu obeležavanja morfosintaksičkim (i semantičkim) informacijama može dodeliti rečima jednog jezika. Način na koji je svaka oznaka unutar tagseta organizovana se može zamisliti kao šablon po kome se za reči jednog jezika definišu informacije koje su od značaja za njihovo identifikovanje. Taj šablon tipično polazi od tekstualne reči – forme reči koja se pojavljuje u tekstu, a koja se zatim vezuje za lemu reči, odnosno njen osnovni oblik (nominativ jednine za imenice, infinitiv za glagole…). Šablon može da sadrži i morfosintaksičke, a ponekad i semantičke karakteristike reči. Informacije o kategorijama i karakteristikama reči u tagsetu su po pravilu kodirane – obeležene slovom, brojem ili skraćenicom. Oznake koje se javljaju u tagsetu mogu biti intuitivne (m – muški rod, 3 – treće lice), ali ne moraju (x – prvo lice, y – drugo lice, z – treće lice), i zato se vrlo često uz tagset prilažu i uputstva za dekodiranje njihovog sadržaja. Imajući sve ovo u vidu, može se reći da tagset predstavlja standard za rečnički unosak, koji se doduše od standardnog rečničkog unoska po mnogo čemu razlikuje. Ovo nas dalje vodi na temu rečnika, ili preciznije rečeno – elektronskog rečnika. Rečnici o kojima se govori u domenu OPJ su takozvani elektronski ili mašinski čitljivi rečnici. Ovo ime, pored toga što treba da naznači da se rečnici nalaze u elektronskom formatu, koristi se da bi se naznačilo da se razlikuju od rečnika namenjenih 4 engl. Part-of-Speech tagging ili PoS tagging. 5 Napominjeno da u ovom kontekstu (i nadalje u tekstu) pod pojmom reči podrazumevamo takozvanu korpusnu reč – nisku koja se sastoji isključivo od slovnih karaktera. U skladu sa tom definicijom, reč veb-sajt se sastoji od dve korpusne reči. 6 ljudskoj upotrebi. Naime, ove rečnike čitaju, odnosno koriste, skoro isključivo računari. Druga značajna karakteristika elektronskih rečnika jeste što su to rečnici upotrebe, i u najjednostavnijem slučaju rečnici teksta, odnosno određenog korpusa. Objasnimo šta pod time podrazumevamo. Dok je osnovna jedinica tradicionalnog rečničkog unoska osnovni oblik reči ili lema, i dok se uz nju najčešće navode samo nepravilne forme te reči, u elektronskom rečniku je osnovna jedinica forma reči, i to, zavisno od rečnika, ne samo jedna forma reči, već ili sve njene forme ili one koje se pojavljuju u određenom tekstu, odnosno korpusu. Uz formu reči se dalje definiše njena lema, a onda i sve ostale morfosintaksičke, a ponekad i semantičke, karakteristike – kako same leme, tako i konkretne forme reči. Rečnicima se, pored tagera, koriste i gramatike, kojima se mogu obeležiti strukture različitog nivoa složenosti. Ovde ćemo govoriti o dva osnovna tipa gramatika – gramatikama koje se koriste za plitku sintaksičku analizu (tzv. plitko parsiranje) i gramatikama za opsežnu sintaksičku analizu (tzv. duboko parsiranje). Plitka sintaksička analiza je proces u kome se u tekstu prepoznaju određeni, ali ne nužno i najčešće ne svi segmenti rečenice. To su mahom niske reči, u čiju se strukturu i funkciju u rečenici ne ulazi. Zadatak plitke sintaksičke analize podrazumeva tzv. komadanje rečenice6, čime se ona razdvaja na segmente koji se često mogu poistovetiti sa sintagmama. Obrasci koji se koriste za prepoznavanje ovih rečeničnih segmenata mogu se prikazati pomoću regularnih izraza – niske simbola i karaktera koja predstavlja nisku ili šablon koji se traži. Regularni izrazi su sasvim zadovoljavajući za ovaj zadatak ukoliko se traže segmenti koji se sastoje od dve ili tri reči, za čiji odnos je potrebno postaviti minimum uslova. Međutim, za analizu komplikovanijih segmenata koji se sastoje od više reči čiji je odnos potrebno precizno definisati koristi se predstava u vidu konačnih automata (ili konačnih transduktora ukoliko automat pored prepoznavanja generiše i odgovarajući izlaz). Konačni automat je graf koji se sastoji od početnog stanja, određenog broja međustanja i završnog stanja. Stanja su međusobno povezana lukovima, koji predstavljaju uslove za prelazak u novo stanje. Jedan segment teksta se smatra prepoznatim ukoliko graf iz početnog stanja, čitajući reči unutar segmenta, dođe do završnog stanja i istovremeno prepozna sve reči u redosledu i obliku u kome se javljaju u datom segmentu. Ovako 6 engl. chunking. 7 prepoznati segmenti mogu se zatim iskoristiti u procesu duboke sintaksičke analize. Niz grafova konstruisanih za određeni zadatak organizovan je u lokalne gramatike. Unutar lokalne gramatike grafovi mogu biti organizovani u takozvane kaskade. Kaskada podrazumeva organizovanje grafova prema prioritetu, pri čemu se oni koji prepoznaju jednostavnije i nedvosmislenije jedinice primenjuju prvi nad tekstom, da bi se na njihovim rezultatima – određenoj leksičkoj oznaci koja se unosi oko prepoznatog izraza, primenili složeniji grafovi. Ovo je metod koji značajno povećava preciznost i brzinu sistema, smanjujući pritom i dvosmislenost. Pored zadatka plitke sintaksičke analize, konačni automati se koriste i u procesu pretraživanja i ekstrakcije informacija. Ovi zadaci najčešće podrazumevaju dve glavne oblasti: 1) Prepoznavanje imenovanih entiteta – prepoznavanje vlastitih imena (ljudi, organizacija, lokacija), vremenskih izraza (datum, vreme, vremenski intervali) i numeričkih izraza (izraza za količinu i meru, procenata, novčanih vrednosti, kardinalnih brojeva) i 2) Ekstrakciju termina – pronalaženje termina u korpusu koji su specifični za određenu oblast. Duboka sintaksička analiza podrazumeva raščlanjivanje rečenice na njene sastavne delove, uz određivanje njihove funkcije u rečenici i njihove interne strukture. Gramatike koje vrše ovakvu analizu su obično vrlo opsežne i prave se s težnjom da pokriju što veći broj struktura u jeziku. Da bi se napravila razlika između ovih gramatika i gramatika namenjenih ljudskoj upotrebi, često se za ovaj tip gramatika koristi naziv formalna gramatika, što je naziv koji ćemo i mi koristiti u ovom radu. Kao i elektronski rečnici, i ovaj tip gramatika je napravljen za računar, a naziv formalna između ostalog dolazi i od metoda izrade ove gramatike, koji se zasniva na principima logike i matematike. Ovakve gramatike mogu biti ručno pisane, što je zadatak koji zahteva puno truda i vremena, ili statistički izvedene na osnovu obrazaca pojavljivanja koje odgovarajući program ‒ parser ‒ uoči na obeleženom tekstu. I pored količine posla koju ručno pisanje formalne gramatike zahteva, ovakva gramatika je uvek preciznija, temeljnija i najčešće kvalitetnija od gramatike nastale statističkim putem, iako je po opsegu često značajno manja. Ručno pisana gramatika ovog tipa je tema ovog rada i o njoj će biti više reči počevši od poglavlja 2. 8 1.2 Automatska obrada srpskog jezika – resursi i alati U ovom poglavlju ćemo dati pregled resursa i alata razvijenih za srpski jezik, a koji su od direktnog ili indirektnog značaja za razvoj i primenu formalne gramatike koju opisujemo u ovom radu. Treba napomenuti da dok za srpski jezik postoji značajna podrška u smislu resursa koji omogućavaju morfosintaksičku i plitku sintaksičku analizu, gramatika koja je tema ovog rada predstavlja pionirski rad na izradi sistema koji omogućava potpunu ili duboku sintaksičku analizu. 1.2.1 Korpusi srpskog jezika Prvi korpus na ovim prostorima, napravljen sa ciljem razvoja jezičkih tehnologija za prepoznavanje govora i mašinsko prevođenje (Dobrić, 2012) je dijahronijski korpus srpskog jezika Đorđa Kostića (A. Kostić, 2003), čije je pravljenje započeto 1957. godine. Ovaj korpus sadrži tekstove počevši od 12. veka pa sve do trenutka trajanja projekta, 1962. godine, i sastoji se od oko 11 miliona reči. Digitalizovan je i ručno lematizovan. Danas se ovaj korpus koristi primarno u svrhe kvantitativnog opisa srpskog jezika (Đ. Kostić, 2001). Trenutno najveći korpus savremenog srpskog jezika, SrpKor (Krstev & Vitas, 2005; Utvić, 2013), razvijen je na Matematičkom fakultetu u Beogradu. Njegova izrada je počela 1981. godine, a njegovo dopunjavanje traje i danas. Ovaj korpus sadrži književne i umetničke tekstove pisaca 20. i 21. veka, naučne tekstove iz oblasti društvenih i prirodnih nauka, administrativne tekstove i tekstove iz dnevnih novina, časopisa i magazina počevši od 1991. godine. Manji deo korpusa čine prevodi književnih, umetničkih i novinskih tekstova. Njegova trenutna veličina je 122 miliona reči. Tekstovi u korpusu su obeleženi bibliografski i morfološki. Bibliografska oznake nose informacije o autoru, registru teksta, kao i izvornom jeziku teksta, dok morfološke oznake podrazumevaju da je svakoj reči pridružena lema i njena vrsta reči. Ovaj korpus je slobodno dostupan na vebu za korišćenje u naučne svrhe. Od manjih korpusa mogu se pomenuti Rastko projekat, započet 1997. godine, koji sadrži kolekciju tekstova počevši od srednjovekovnih pa sve do savremenih tekstova. Tu je i elektronski korpus dela Laze Kostića, čija je izrada započeta 2009. godine pod okriljem 9 Matice srpske. Na kraju ćemo pomenuti i korpus Antologija srpske književnosti, razvijen na Učiteljskom fakultetu u Beogradu. Ovaj korpus se sastoji od 130 dela stare i savremene književnosti,. Što se paralelnih korpusa tiče, može se pomenuti šest korpusa. Jedan od njih je paralelizovani francusko-srpski korpus SrpFranKor (Vitas & Krstev, 2006; Vitas, Krstev, & Laporte, 2006) sastavljen od književnih i novinskih tekstova, koji sadrži nešto manje od milion reči po jeziku. Tu je zatim i englesko-srpski korpus SELFEH, koji se sastoji od književnih, novinskih i tekstova iz domena ekonomije, prava i zdravstva, sa milion reči po jeziku, kao i srpsko-engleski korpus SrpEngKor (Krstev & Vitas, 2009), sa tekstovima iz domena beletristike, novina, naučnih časopisa, zdravstva, prava, udžbenika i filmskih titlova, sa nešto više od dva miliona reči po jeziku. Sva tri korpusa su poravnata na nadrečeničnom nivou, kao i na nivou rečenice. Četvrti korpus je paralelni francusko- englesko-srpski korups ParCoLab (Balvet, Stošić, & Miletić, 2014). Korpus se sastoji od nešto manje od četiri miliona reči za sva tri jezika, i sadrži mahom književna dela originalno napisana na francuskom, a prevedena na preostala dva jezika. Srpski jezik se nalazi u još dva višejezična korpusa. Jedan od njih je korpus koji se sastoji od originala i prevoda 1984 Džordža Orvela na preko 10 jezika (bugarski, češki, engleski, estonski, francuski, mađarski, rumunski, slovački, slovenački, ukrajinski, persijski, makedonski, poljski, ruski, srpski, litvanski i dijalekat slovenačkog jezika, rezijski), i predstavlja deo projekta MULTEXT-East na izgradnji multilingvalnih resursa (korpusa, rečnika, MSO)7. Ovaj korpus se sastoji od oko 100.000 reči i obeležen je kako strukturnim oznakama (poglavlja, paragrafi, rečenice…), tako i morfosintaksičkim oznakama8. Na osnovu ovog korpusa izrađen je elektronski rečnik za svaki od jezika, o kome će biti više reči u odeljku o rečnicima srpskog jezika. Drugi višejezični korpus je takođe korpus sastavljen od originala i prevoda dela, ovoga puta Puta oko sveta za 80 dana Žila Verna. Korpus se sastoji od verzija teksta na francuskom i 16 prevoda (engleski, nemački, španski, portugalski, italijanski, rumunski, ruski, srpski, hrvatski, bugarski, makedonski, poljski, mađarski, grčki, danski i slovenački). 7 Više informacija o projektu može se naći na: http://nl.ijs.si/ME/ 8 Korpus je dostupan preko platforme Clarin: https://www.clarin.si/repository/xmlui/handle/11356/1043 10 Tekst je uparen između 12 jezika. Korpus je obeležen strukturno i morfološki, primenom elektronskih rečnika (Vitas, Koeva, Krstev, & Obradović, 2008). 1.2.2 Elektronski rečnici i MSO za srpski jezik Rad na morfološkim elektronskim rečnicima takođe je započet na Matematičkom fakultetu u Beogradu (Krstev, 2008), a njihovo dopunjavanje neprekidno traje. Ovi rečnici se nalaze u takozvanom LADL9 formatu, prema imenu laboratorije tvorca rečnika, Morisa Grosa (Maurice Grosse), koji se koristi i za niz drugih jezika (francuski, engleski, grčki, portugalski, ruski, arapski, korejski, italijanski, španski, norveški, nemački, poljski i bugarski). Format ovog rečnika podrazumeva postojanje dve izdvojene grupe rečnika – rečnika prostih reči DELAS i njihovih flektivnih oblika DELAF s jedne strane (Tabela 1), i rečnika višečlanih reči10 DELAC i njihovih flektivnih oblika DELACF (Tabela 2). Tabela 1 Izgled unoska prostih reči (DELAS) i njihovih oblika (DELAF) u elektronskom rečniku srpskog jezika DELAS DELAF Obrazac lema.kodKlase[+sinSem]* oblikReči.lema.vrstaReči[+sinSem]*[:kategorije]* Primer devojka.N618+Hum+Ek devojci,devojka.N+Hum+Ek:fs3v:fs7v Objašnjenje oznaka N618: kod imeničke klase Hum: semantička oznaka za ljudsko biće Ek: ekavski izgovor *: nula ili više pojavljivanja N: imenica f: ženski rod s: singular 3: dativ 7: lokativ v: živo biće Rečnik DELAS sastoji se od leme, koda flektivne klase, koja predstavlja tip promene date reči, i sintaksičkih, semantičkih i derivacionih svojstava leme. Kod flektivne klase je zapravo ime odgovarajućeg konačnog transduktora koji je izrađen ručno tako da od leme generiše sve njene morfološke oblike. Svi ovi oblici nalaze se u rečniku DELAF. Unosak u 9 fran. Laboratoire d'Automatique Documentaire et Linguistique 10 engl. multi-word units (MWE) 11 DELAF-u sastoji se od oblika proste reči i njoj pripadajuće leme, kao i morfosintaksičkih karakteristika leme i datog morfološkog oblika. Rečnici DELAC i DELACF prate format rečnika DELAS i DELAC, s tim što u sastav leme i morfološkog oblika, kako su u pitanju višečlane reči, ulaze i karakteri koji se mogu DELAC Obrazac lemaVišečlaneReči.KodKlaseVišečlaneLeme[+SinSem]* lemaVišečlaneReči = Oblik1(lema1.kodKlase[:kategorije]) oblik2(lema2.kodKlase[:kategorije]) oblik3(lema3.KodKlase[:kategorije]) … Primer drveni(drven.A6:adms1g) duvački(duvački.A2:adms1g) instrument(instrument.N29:ms1q), NC_AXAXN+Conc Objašnjenje oznaka A6, A2: kodovi pridevskih klasa N29: kod imeničke klase NC_AXAXN: kod klase višečlane reči a: pozitivan oblik d: određen vid 1: nominativ g: animatnost ne utiče na promenu q: neanimatan Conc: oznaka za konkretan pojam DELACF Obrazac OblikVišečlaneReči,lemaVišečlaneReči.kodVišečlaneKlase[:kategorije]+ Primer drvenim duvačkim instrumentom,drveni duvački instrument.NC_AXAXN+Conc:ms6q Objašnjenje oznaka 6: instrumental Tabela 2 Izgled unoska višečlanih reči (DELAC) i njihovih oblika (DELACF) u elektronskom rečniku srpskog jezika 12 naći između reči, kao što su praznina, crtica ili apostrof11. Slika 1 daje izvod iz rečnika DELAF za srpski jezik. Slika 1 Izvod iz DELAF rečnika srpskog jezika Pored rečnika opšteg sadržaja, razvijen je i niz specijalnih rečnika, među kojima rečnici vlastitih imena: DELA-Top i DELAC-Top ‒ rečnici prostih i višečlanih geografskih imena, DELA-First i DELA-Last ‒ rečnici imena i prezimena stanovnika Srbije, DELA-EN- First i DELA-EN-Last ‒ rečnici transkribovanih engleskih imena i prezimena, i DELA-Enc ‒ rečnik prostih imena koja spadaju u enciklopedijsko znanje. Ovi rečnici su od posebnog značaja pri obeležavanju imenovanih entiteta. Rečnik se trenutno sastoji od 140.000 prostih i 18.000 višečlanih reči, pri čemu se taj broj skoro svakodnevno uvećava. Može se koristiti unutar sistema za obradu korpusa Unitex12 i Nooj13. Unitex je istovremeno i platforma u okviru koje je razvijena većina resursa za srpski jezik, kao što će se videti u daljem tekstu. Drugi elektronski rečnik koji postoji za srpski jezik je rečnik teksta Orvelove 1984 razvijen u okviru MULTEXT-East projekta (Krstev, Vitas, & Erjavec, 2004). Ovaj rečnik sadrži 20.294 unosaka, od toga 16.907 različitih oblika reči, 8.392 lema i 906 MSO. Rečnik u 11 Detaljniji pregled oznaka može se naći u (Đorđević, 2014; Krstev, 2008). 12 Unitex http://www-igm.univ-mlv.fr/~unitex/ 13 Nooj: http://www.nooj-association.org 13 ovom obliku postoji za sve jezike koji su učestvovali u formiranju korpusa sastavljenog od originala i prevoda pomenutog dela. Slika 2 prikazuje srpsku verziju teksta obeleženu na ovaj način. Slika 2 Deo teksta srpske verzije Orvelove 1984 anotiran etiketama u MULTEXT-East formatu Unosak ovog rečnika (Tabela 3) sastoji se od tekstualnog oblika reči, njegove leme i MSO, koji se nalaze unutar XML etikete14. Ovaj MSO je pozicioni – unutar svake vrste reči postoji unapred propisan broj pozicija koje zauzimaju morfosintaksička svojstva te reči. Vrednost svakog svojstva obeležava se pojedinačnim karakterom. Kako su svojstva definisana tako da pokrivaju veliki broj strukturno različitih jezika, ne moraju svi jezici imati popunjene sve pozicije unutar MSO – u takvom slučaju na mestu nepostojećeg obeležja stoji samo crtica. Tabela 3 Izgled unoska u elektronskom rečniku srpskog jezika u MULTEXT-East formatu MULTEXT-East MSO Obrazac oblikReči Primer danom Objašnjenje oznaka w i /w: početna i završna XML etiketa za reč xml:id=”Osr.1.2.2.1.7”: identifikator rečenice (Osr.1.2.2.1) i redni broj reči u rečenici (7) 14 Detaljan opis MULTEXT-East MSO može se naći na: http://nl.ijs.si/ME/V4/msd/html/ 14 N: imenica c: zajednička imenica m: muški rod s: singular i: instrumental -: ne postoji dato obeležje (u ovom slučaju - određenost, klitika) n: neanimatan 1.2.3 Obeležavanje teksta i tageri Ne postoje tageri koji su razvijeni konkretno za primenu na srpskom jeziku, međutim postoji niz tagera koji su dosad korišćeni u ove svrhe. (Popović, 2010) navodi rezultate evaluacije pet tagera dostupnih u nekomercijalne ili akademske svrhe ‒ TnT15, Tree Tagger16, Rule Based Tagger17, MXPOST18 i SVMTool19. Obeležavanje pomoću ovih tagera nije vršeno na osnovu pravila, već zahvaljujući statističkim metodama. Projekat je podrazumevao postojanje obeleženog korpusa na kome je vršena obuka programa, koji su se dalje koristili u svrhe obeležavanja. Korpusi koje je autor koristio, a koji su bili sastavljeni u ove svrhe, bili su obeleženi MULTEXT-East oznakama. Rezultati autora su pokazali da TnT i TreeTagger daju najbolje rezultate, sa 94,39% kao najboljom ocenom performansi u prvom slučaju i 86,18% u drugom slučaju. U (Utvić, 2011, 2013) mogu se naći postupak i rezultati anotiranja korpusa srpskog jezika SrpKor. Autor navodi da je pri izboru tagera za automatsko obeležavanje tekstova birao između tri programa za anotaciju. Dva su programi koji su dali najbolje rezultate u prethodno pomenutoj evaluaciji, a treći je okruženje Unitex, kao okruženje u okviru koga se mogu direktno koristiti elektronski rečnici srpskog jezika. Izbor autora je na kraju bio TreeTagger, kao jedini od ranije pomenutih tagera koji rečima u korpusu mogu da pridruže i lemu. 15 http://www.coli.uni-saarland.de/~thorsten/tnt/ 16 http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ 17 http://www.ling.gu.se/~lager/mogul/brill-tagger/ 18 http://www.inf.ed.ac.uk/resources/nlp/local_doc/MXPOST.html 19 http://www.cs.upc.edu/~nlp/SVMTool/ 15 Još jedan primer tagiranja koji se zasniva na statističkim metodama je onaj predstavljen u (Gesmundo & Samardžić, 2012). Autori navode postignute rezultate prilikom lematizacije teksta na srpskom jeziku korišćenjem programa Btagger20, a koji ukazuju na čak 99,51% tačnosti pri lematizaciji poznatih i 84,98% pri lematizaciji nepoznatih reči. (Constant, Krstev, & Vitas, 2015) predstavljaju primere obeležavanja imenovanih entiteta i višečlanih reči primenom hibridnog metoda. Ovaj metod podrazumeva unošenje informacija koje dolaze iz postojećih elektronskih rečnika i lokalnih gramatika za srpski jezik u statistički model, obučen na obeleženom korpusu. U zaključku, autori navode da primena leksičkih resursa ‒ rečnika i gramatike ‒ značajno povećava preciznost tagera, koja dostiže 99,09% za neke od primenjenih tehnika ovog metoda. 1.2.4 Plitka sintaksička analiza i srpski jezik Za srpski je dosad razvijeno nekoliko sistema za pretraživanje i ekstrakciju određene vrste rečeničnih segmenata. Svi sistemi koji će biti pomenuti baziraju se na pravilima definisanim kroz automate konačnih stanja, odnosno transduktore, implementirane unutar sistema Unitex. Primena svih navedenih sistema direktno zavisi od faze predobrade teksta u Unitexu, koja podrazumeva podelu teksta na rečenice i prepoznavanje oblika reči u tekstu, na osnovu čega se formira rečnik teksta koji transduktori dalje koriste u obradi. U domenu sintakse razvijen je sistem za prepoznavanje složenih glagolskih oblika (Vitas & Krstev, 2003; Đorđević, 2012), koji prepoznaje sva složena glagolska vremena i načine uz pomoć konačnih transduktora organizovanih u lokalne gramatike. Kao rezultat prepoznavanja, sistem oko prepoznate jedinice, a unutar teksta, unosi odgovarajuće etikete. Sistem razvijen u (Vitas & Krstev, 2003) napravljen je za Intex, preteču Unitexa, koji se od njega razlikuje po nemogućnosti rada sa Unicode kodnim rasporedom. Drugonavedeni sistem izrađen je u Unitexu i trenutno se koristi kao jedna od pripremnih faza obrade teksta pri pretraživanju imenovanih entiteta. U domenu prepoznavanja višečlanih imenovanih entiteta, razvijeno je nekoliko sistema. 20 http://clcl.unige.ch/SOFTWARE.html 16 Sistem za prepoznavanje i ekstrakciju vlastitih imena (Gucul-Milojević, 2010) omogućava prepoznavanje imena i prezimena ljudi, uz niz mogućih dodataka (titula, drugo prezime, nadimak, puno ime oca ili inicijal imena oca). Metodologija napravljena u okviru ovog rada može se koristiti za različite vrste analiza pojavljivanja određenih ličnosti u korpusu, što dalje vodi automatskoj analizi stava, tj. proceni tona teksta u odnosu na datu osobu, ili za analizu razlika u zastupljenosti rodova u korpusu, kao što je učinjeno u (Krstev, Utvić, & Jaćimović, 2015). Sistem za prepoznavanje vremenskih izraza (Jaćimović, 2016) definisan je preko transduktora konačnih stanja organizovanih u kaskade. Ovaj sistem prepoznaje apsolutno (17.marta 2011. godine), kao i relativno vreme (nekoliko dana). Sistem istovremeno omogućava i normalizaciju vremenskih izraza, koja podrazumeva prilagođavanje i izmenu pronađenih vremenskih izraza prema unapred definisanom obrascu usklađenim sa međunarodnim standardom. Oblast kojoj se trenutno posvećuje značajna pažnja jeste ekstrakcija višečlanih termina (Krstev, Stanković, Obradović, & Lazić, 2015; Stankovic, Krstev, Obradović, Lazić, & Trtovac, 2016), a koja se zasad vrši za oblasti bibliotekarstva (Trtovac & Andonovski, 2014) i rudarstva i geologije (Stanković, Obradović, & Utvić, 2014). Pored ekstrahovanja, ovi sistemi istovremeno automatski i opisuju pronađene jedinice i omogućavaju njihovo dodavanje u rečnik višečlanih reči. 1.2.5 Ostali alati Na samom kraju pomenućemo alat razvijen najpre pod imenom WS4LR21 (Krstev C., Stanković R., Vitas D., 2006), danas pod nazivom LeXimir. LeXimir je jezički nezavisan softverski alat napravljen sa idejom da objedini resurse napravljene za srpski jezik i olakša njihovo korišćenje, kao i održavanje i dopunjavanje. LeXimir zasad objedinjuje niz resursa i ima niz funkcionalnosti, od kojih će ovde biti pomenute samo tri koje su od značaja za naš rad: 21 engl. Workstation for Lexical Resources 17 1) Konvertovanje resursa, uglavnom iz starijeg formata Intex u Unitex i Unitex formata u NooJ, što podrazumeva konverziju rečnika i sa njima povezanih lokalnih gramatika; 2) Olakšano korišćenje i održavanje sistema morfoloških rečnika DELAS i DELAC – pretraživanje rečnika na osnovu leme i parametara dodeljenih unoscima, pregledanje i ispravljanje automata povezanih sa njima, unošenje novih lema i proveru automatski dodeljenih automata za izvođenje njihovih flektivnih oblika, što trenutno nije lako izvodljivo unutar Unitex-a. 3) Mogućnost izgradnje i pretrage paralelizovanih tekstova, i uopšte, paralelni rad sa više tekstova. 18 2 FORMALNE GRAMATIKE 19 2.1 Definicija formalne gramatike Formalna gramatika, kao gramatika izražena sredstvima matematike i logike, čini sastavni deo formalne teorije jezika. Da bismo mogli da govorimo o definiciji i terminima formalne gramatike, neophodno je poći od određenja osnovnih pojmova formalne teorije jezika. Kao i u prirodnom jeziku, osnovnu, nedeljivu jedinicu formalnog jezika čini azbuka ili alfabet. Alfabet, koji se po konvenciji obeležava grčkim slovom Σ predstavlja konačan skup svih slova ‒ nedeljivih simbola ili karaktera jednog jezika. Slova formalnog jezika se obeležavaju malim slovima abecede (a, b, c). U terminima prirodnih jezika alfabet se sastoji od svih malih i velikih slova, kao i od svih karaktera koji se mogu javiti u tekstu, uključujući prazninu. U formalnom smislu alfabet je bilo koji skup karaktera i ne mora striktno sadržati slova. Primer jednog formalnog alfabeta je {a, b} ‒ ovaj alfabet se sastoji od dva mala slova abecede. Nad alfabetom se definiše operacija konkatenacije ili dopisivanja, koja pridodaje slova formalnog jezika jedna na druga. Rezultat operacije konkatenacije je reč ili niska. Reč se označava simbolom x i predstavlja konačan niz simbola x = (a1, a2, … , an) takav da je n ≥ 0 i ai ∊ Σ. Ukoliko je dužina reči 0, odnosno ukoliko se reč ne sastoji ni iz jednog slova, govori se o praznoj reči (ε). Niska u terminima prirodnih jezika može odgovarati pojmu reči, ali i pojmu sintagme, odnosno bilo kom skupu reči, kao i pojmu rečenice. Na primeru našeg malog alfabeta možemo formirati sledeće niske: a, b, aa, ab, aab, bbb, .... Skup Σ* naziva se i Klinijevo zatvorenje skupa Σ i predstavlja skup svih reči nad alfabetom Σ, uključujući i praznu reč. U teoriji formalnih jezika generalno, znak * označava neobavezno pojavljivanje, odnosno 0 ili više pojavljivanja simbola ili grupe simbola u čijem se superskriptu nalazi. Skup Σ+ predstavlja skup svih nepraznih reči nad alfabetom Σ. Znak + u teoriji formalnih jezika označava obavezno pojavljivanje, odnosno 1 ili više pojavljivanja simbola ili grupe simbola u čijem se superskriptu nalazi. Jezik (L) nad alfabetom Σ je bilo koji podskup skupa Σ*, što se formalno beleži kao L ⊆ Σ*. Skup već pomenutih niski a, b, aa, ab, aab, bbb... tako predstavlja jedan jezik. Taj jezik se može formalno opisati sledećom formulom: L = {anbm | n,m ≥ 0} koja kaže da će se sve niske našeg jezika sastojati od nula ili 20 više pojavljivanja slova a, za kojim sledi nula ili više pojavljivanja slova b, pri čemu broj pojavljivanja slova a i b u niskama ne mora biti isti. Tako je niska a opisana formulom a1b0, niska bbb formulom a0b3 itd. Ukoliko niska x pripada jeziku L: x ∈ L, kažemo da ona predstavlja rečenicu jezika L. Za jezik koji se sastoji od prebrojivog broja niski ili rečenica kažemo da je konačan jezik; u suprotnom, jezik je beskonačan. Ukoliko je jezik konačan i sastoji se od malog broja rečenica, to da li jedna rečenica pripada datom jeziku možemo proveriti prostim upoređivanjem sa skupom rečenica koje mu pripadaju. Međutim, za jezike koji se sastoje od velikog broja rečenica ili su beskonačni, potrebno je osmisliti drugačiji mehanizam provere. Mehanizam koji može da pokaže da li jedna rečenica pripada datom jeziku naziva se gramatika. Za gramatiku ujedno kažemo i da generiše jezik koji opisuje. Formalno, gramatika G je uređena četvorka (Σ, N, P, S) gde je:  Σ završni alfabet, koji se sastoji od završnih (terminalnih) simbola. Za potrebe našeg rada, pod ovim pojmom ćemo podrazumevati kategorije reči (N – imenica, V – glagol itd.);  N nezavršni alfabet, koji se sastoji od nezavršnih (pomoćnih, neterminalnih) simbola takav da je Σ ∩ N = Ø. Za potrebe našeg rada, pod ovim pojmom ćemo podrazumevati sintagme ili fraze (NP – imenička fraza, VP – glagolska fraza itd.)  S početni (rečenični, startni) simbol, takav da S ∈ N; S će u našem radu označavati rečenicu.  P konačni skup pravila takav da je P ⊆ (Σ ∪ N)* N (Σ ∪ N)* × (Σ ∪ N)*. Pravilo se sastoji od leve i desne strane pravila (npr. S ⟶ NP VP), pri čemu leva strana pravila mora sadržati makar jedan element skupa N. Sve niske koje se sastoje od terminalnih simbola, a koje su izvedene od početnog simbola određene gramatike, pripadaju jeziku koji je opisan tom gramatikom. Pogledajmo kako ovo izvođenje izgleda na primeru našeg malog jezika. Gramatika koja definiše i generiše niske našeg jezika je sledeća: G = ({a, b}, {A, B}, S, P), gde je P = { S ⟶ AB, A ⟶ Aa, A ⟶ ε, B ⟶ Bb, B ⟶ ε} 21 Definicija ove gramatike kaže da se završni alfabet sastoji od slova a i b, da su nezavršni simboli koji se koriste pri izvođenju A i B, da je početni simbol S, i da su pravila ona koja su navedena. Pravila su data u formi takozvanih pravila prepisivanja (produkcije, proizvodnje, izvođenja), a pokazuju u šta se simbol sa leve strane pravila transformiše, što je prikazano s desne strane pravila. Pravila prepisivanja su rekurzivna ukoliko se isti neterminalni simbol sa leve strane pravila nađe i sa desne strane pravila (pravila tipa A ⟶ Aa i B ⟶ Bb)22. Koristeći ovu gramatiku, možemo proveriti da li niska abbb pripada našem jeziku, odnosno da li može biti generisana ili izvedena pravilima naše gramatike. Tom prilikom polazimo od početnog simbola i dalje primenjujemo pravila koja bi potencijalno mogla da generišu ovakvu nisku. Rezultat je sledeći: S ⟶ AB ⟶ AaBb ⟶ εaBbb ⟶ aBbbb23 ⟶ aεbbb ⟶ abbb Kako smo primenom postojećih pravila uspeli da generišemo datu nisku, zaključujemo da ona pripada jeziku opisanom našom gramatikom. Isto tako bismo primenom pravila naše gramatike mogli da vidimo da niska abaa ne pripada našem jeziku, kako u gramatici našeg jezika ne postoji pravilo koje može da generiše slovo ili slova a posle slova b. 2.2 Formalna gramatika i prirodni jezik Ideja da se jezik može izraziti formalnim (matematičkim i logičkim) sredstvima datira sa početaka dvadesetog veka. 1914. godine Aksel Tju (Axel Thue), norveški matematičar, predstavlja formalizovan prikaz transformacija među niskama, koji je u osnovi bio sistem prepisivanja niski čiji smo primer mogli da vidimo u prethodnom poglavlju. Teorijom prepisivanja nastavlja da se bavi Emil Post (Emil Post), čiji rad (Kracht, 2003, p. 22 Rekurzija kao metod podrazumeva pozivanje samog sebe. 23 Dopisivanje prazne reči ε ne utiče na reč kojoj se dopisuje: εa = aε = a 22 65) navodi kao inspiraciju za klasifikaciju formalnih jezika koju je dao Noam Čomski (Noam Chomsky). U radu Tri modela za opis jezika24 (Chomsky, 1956) Čomski navodi podelu formalnih gramatika na četiri grupe prema strukturi pravila prepisivanja koju koriste, odnosno kompleksnosti same gramatike. Svaka od ovih gramatika opisuje (generiše) tip jezika koji prepoznaje odgovarajući tip automata. Primarni interes koji Čomski navodi pri definisanju gramatika jeste pronalaženje gramatike koja bi generisala sve ispravne i samo ispravne rečenice engleskog jezika, u nadi da takva gramatika može voditi otkrivanju generalne teorije jezičke strukture tj. univerzalne gramatike svih prirodnih jezika. Četiri tipa formalnih gramatika uređeno je u hijerarhiju od najjednostavnije do najkompleksnije i po svom autoru nose naziv hijerarhija Čomskog: 1. Tip 3 ili regularne (engl. regular), još zvane i Klinijeve gramatike. Struktura pravila ovog tipa gramatika je takva da sadrže jedan pomoćni (nezavršni) simbol s leve strane pravila, dok se desna strana pravila sastoji od najviše jednog pomoćnog simbola i bilo kog broja terminalnih (završnih) simbola. U zavisnosti od toga s koje strane se na desnoj strani pravila nalazi pomoćni simbol, ove gramatike mogu biti desno-linearne (pravilo tipa A → aB) ili levo-linearne (pravilo tipa A → Ba). Ovo je ujedno i najjednostavniji tip gramatika u hijerarhiji. Regularne gramatike opisuju regularne jezike i prepoznaju se konačnim automatima25. Prema tipu automata koji ih prepoznaje ovi jezici se ponekad nazivaju i jezicima konačnih stanja. Ove jezike je moguće opisati i regularnim izrazima. 2. Tip 2 ili kontekstno slobodne (engl. context-free), još poznate i kao algebarske gramatike. Pravila ovih gramatika sadrže jedan pomoćni simbol s leve strane i bilo koji broj terminalnih ili neterminalnih simbola s leve strane: A → β, A ∈ N, a β ∈ (Σ ∪ N)*. Kontekstno slobodne gramatike opisuju kontekstno slobodne jezike, a prepoznaju se nedeterminističkim potisnim automatom. Mala gramatika koju smo definisali u prethodnom poglavlju pripada ovom tipu gramatika. 24 engl. Three Models for the Description of Language 25 Kako teorija automata prevazilazi okvire ovog rada, za detaljan opis strukture i funkcionisanja automata koji će biti pomenuti u ovom poglavlju upućujemo na (Chomsky, 1963) ili na srpskom jeziku (Vitas, 2006). Konačni automati pomenuti u poglavlju Error! Reference source not found.. su zapravo ova vrsta automata. 23 Tip 0 Tip 1 Tip 2 Tip 3 3. Tip 1 ili kontekstno osetljive gramatike (engl. context-sensitive). Pravila ovog tipa gramatika ne smeju imati više simbola s leve strane pravila nego s desne strane, i sledećeg su tipa: uXv → uyv, X ∈ N, y ≠ ε, u, v ∈ (Σ ∪ N)*. Ove gramatike opisuju kontekstno osetljive jezike, a prepoznaju se linearno ograničenom nedeterminističkom Tjuringovom mašinom. Nazivaju se kontekstno osetljivima jer su to prve gramatike koje pri prepisivanju uzimaju u obzir kontekst (u navedenom pravilu – u i v). 4. Tip 0 ili gramatike bez ograničenja (engl. unrestricted). Jedina ograničenja na strukturu pravila ove gramatike jesu da leva strana pravila ne sme biti prazna i da mora sadržati makar jedan pomoćni simbol. Ove gramatike opisuju jezike bez ograničenja ili rekurzivno prebrojive jezike, a prepoznaju se Tjuringovom mašinom. Gramatike ovog tipa su ujedno i najkompleksnije formalne gramatike. Gramatike tipa 1, 2 i 3 su odlučive, što znači da za svaku nisku terminalnih simbola mogu da odrede da li pripadaju datom jeziku. U slučaju gramatika tipa 0, to nije uvek slučaj. Svaka od ovih gramatika predstavlja podskup sebi nadređene gramatike, pa je tako, na primer, svaka regularna gramatika je istovremeno i kontekstno slobodna, dok obrnuto ne važi. Slika 3 daje grafički prikaz ove zakonitosti. Slika 3 Čomskijeva hijerarhija formalnih gramatika 24 Pogledajmo sada kakav je odnos ovih gramatika i prirodnih jezika. U već pomenutom radu iz (1956), Čomski kao uslov adekvatnosti lingvističke teorije, odnosno njene gramatike, navodi sledeće: „... ukoliko je određena rečenica S dvosmislena, možemo proveriti adekvatnost date lingvističke teorije postavljajući pitanje da li ili ne najjednostavnija gramatika izgradiva u terminima ove teorije za dati jezik automatski obezbeđuje različite načine za generisanje rečenice S“26. Pojmove čiji se začetak vidi u ovoj definiciji Čomski definiše u (Chomsky, 1965) kao slab i jak generativni kapacitet gramatike. Slab generativni kapacitet gramatike odnosi se na ukupan skup rečenica (niski) koje jedna gramatika može da generiše. Jak generativni kapacitet gramatike odnosi se na skup strukturnih opisa koje jedna gramatika može da dodeli rečenicama (niskama) koje generiše. Adekvatna gramatika prirodnog jezika tako ne samo da treba da generiše sve gramatične i samo gramatične rečenice jednog jezika, već treba da im pripiše i odgovarajuće strukture, po kojima bi se dvosmislene rečenice međusobno mogle razlikovati. Ideja da odgovarajuća gramatika generiše rečenice datog jezika polazeći od konačnog vokabulara i konačnog broja pravila dala je naziv generativna čitavoj klasi gramatika, kao i pravcu u lingvističkoj teoriji, čijim rodonačelnikom se smatra upravo Čomski. U skladu sa navedenim parametrima, Čomski (1956) ispituje kapacitet regularne i kontekstno slobodne gramatike za opisivanje prirodnog jezika i zaključuje da složenost prirodnog jezika prevazilazi slab i jak generativni kapacitet obe gramatike, odnosno da postoji veći broj rečenica i pojava u jeziku nego što ove dve gramatike mogu da opišu27. Štaviše, regularne gramatike ne dodeljuju strukturu rečenicama koje prepoznaju. Za njih, rečenica je niz reči, a jezik niz rečenica te se u slučaju regularnih gramatika može govoriti samo o slabom generativnom kapacitetu. Imajući to u vidu, ne postoji način da regularne gramatike na različite načine opišu dvosmislene strukture. Kontekstno slobodne gramatike, s druge strane, dodeljuju određenu strukturu svojim rečenicama, i to strukturu koju Čomski naziva fraznom strukturom. Naime, ove gramatike predviđaju postojanje složenih struktura, fraza, koje obuhvataju reč ili grupe 26 Prevod autorke. U originalu: ... if a certain sentence S is ambiguous, we can test the adequacy of a given linguistic theory by asking whether or not the simplest grammar constructible in terms of this theory for the language in question automatically provides distinct ways of generating the sentence S. 27 Za detalje dokaza upućujemo na sam rad (Chomsky, 1965). 25 susednih reči, čijim se daljim kombinovanjem dolazi do rečenice. Izvođenje jedne ovakve strukture počevši od startnog simbola rečenice S moguće je prikazati preko pravila prepisivanja, koja smo videli u prethodnom poglavlju, ili grafički, preko stabala frazne strukture28. Tako strukturu dvosmislene rečenice Marko gleda scenu na brodu, možemo ilustrativno opisati sledećom gramatikom: G = ({N, V, Prep}, {NP, VP, PP}, S, P) P = {S ⟶ NP VP, S ⟶ NP VP PP, NP ⟶ N, NP ⟶ N PP, VP ⟶ V NP, PP ⟶ Prep NP, PP ⟶ ε, N ⟶ Marko|29scenu|brodu, V ⟶ gleda, Prep ⟶ na }) Izvođenje date rečenice na osnovu ove gramatike možemo predstaviti na dva različita načina u zavisnosti od čitanja: 1) Marko se nalazi na brodu i na njemu gleda neku scenu: S ⟶ NP VP PP ⟶ N V NP Prep NP ⟶ Marko gleda N na N ⟶ Marko gleda scenu Prep NP ⟶ Marko gleda scenu na N ⟶ Marko gleda scenu na brodu Slika 4 prikazuje stablo frazne strukture za ovo čitanje. Slika 4 Stablo frazne strukture za prvo tumačenje rečenice Marko gleda scenu na brodu. 28 Ali, između ostalog, i tabelarno ili obeležavanjem pomoću zagrada. 29 Uspravna crta “|” označava logički operator ILI – kategorija N se može realizovati kao Marko ili scenu ili brod. S S N Marko NP V gleda VP NP N scenu NP PP Prep na N brodu 26 2) Marko gleda scenu koja se odvija na brodu: S ⟶ NP VP ⟶ N V NP ⟶ Marko gleda N PP ⟶ Marko gleda scenu Prep NP ⟶ Marko gleda scenu na N ⟶ Marko gleda scenu na brodu Slika 5 prikazuje stablo frazne strukture za ovakvo čitanje. Slika 5 Stablo frazne strukture za drugo tumačenje rečenice Marko gleda scenu na brodu Ono sa čim gramatika frazne strukture ipak ne može da izađe na kraj jesu rečenice ili fraze koje su po strukturi identične, ali predstavljaju drugačiji tip dvosmislenosti. Primer ove pojave bile bi imeničke fraze zavijanje mačaka i uzgajanje cveća30. Njihova struktura je identična – u pitanju su imeničke fraze koje se prepisuju kao imenica (u nominativu) koja je praćena imenicom (u genitivu), međutim, u slučaju prve fraze, mačke predstavljaju aktivnog vršioca, odnosno rečenica koja se nalazi u njenoj osnovi jeste rečenica Mačke zavijaju. U drugom primeru, cveće trpi radnju, što se može videti kada se fraza transformiše u rečenicu (Neko) uzgaja cveće. 30 Fraze su inspirisane primerima iz (Chomsky, 1965) V gleda VP NP S N Marko NP N scenu PP Prep NP na N brodu 27 Da bi strukture ovog i sličnog tipa31 mogle biti ispravno analizirane u jeziku, Čomski u istom radu u kontekstno slobodne gramatike uvodi operaciju transformacije. Ova operacija podrazumeva postojanje dve strukture u jeziku – dubinske, koja se sastoji od bazičnih32 rečenica jezika (Mačke zavijaju.) i površinske u kojoj se iste rečenice nalaze u obliku u kakvom ih srećemo u svakodnevnoj upotrebi (zavijanje mačaka). Transformacije su operacije koje povezuju ove strukture tako što transformišu bazične rečenice u njihove strukturne varijante (kao što su npr. i pasiv ili pitanje). Prva formulacija transformacija u teoriji Čomskog podrazumevala je da one mogu vršiti brisanje rečeničnih delova, njihovo dodavanje, zamenu i menjanje njihovog mesta. Ova rana definicija je kritikovana kao izrazito nerestriktivna (Müller, 2016). Zbog mogućnosti da segmente rečenice zamenjuju drugim proizvoljnim segmentima, transformacije su značajno povećavale generativni kapacitet gramatike, čineći je čak formalizmom tipa 0 (Peters & Ritchie, 1973). Isto tako, nije bilo definisano na koji način transformacije međusobno deluju – u kom redosledu i u kom broju, posebno uzevši u obzir operaciju brisanja. Kao reakciju na ove kritike, u sledećim verzijama svoje teorije (Chomsky, 1981) ograničava moć transformacija, uvodeći između ostalog i zahtev da u površinskoj strukturi za obrisanim ili izmeštenim elementom mora ostati trag, realizovan kao niska bez fonološke realizacije (prazna niska)33. Tvrdnja Čomskog da prirodni jezici ne mogu biti opisani kontekstno slobodnom gramatikom bila je opšteprihvaćena preko dvadeset narednih godina. Ranih osamdesetih (Pullum & Gazdar, 1982) sakupili su na jednom mestu sve argumente koji su se u toku godina navodili u prilog ovoj tezi. Argumenata je bilo ukupno pet34, međutim za svaki od njih autori navode odgovarajuće kontraargumente. Kao pokušaj da dâ još jednu potporu za svoju tvrdnju da je prirodne jezike moguće opisati ovim tipom gramatika, Gezdar (Gerald Gazdar) krajem sedamdesetih godina razvija gramatiku za engleski jezik sa kontekstno 31 Čomski (1956) kao primer navodi tretman pasiva, ali nećemo ovde rekonstruisati njegovu analizu. 32 engl. kernel 33 (Pelletier, 1980, pp. 29–33) navodi još nekoliko metodoloških pokušaja različitih autora da ograniče snagu transformacija. 34 Za argumente i njihova opovrgavanja upućujemo direktno na (Pullum & Gazdar, 1982) 28 slobodnom osnovom – generalizovanu gramatiku frazne strukture ili GPSG35(Gazdar, Klein, Pullum, & Sag, 1985)36. S druge strane, na osnovu dokaza iz germanskih jezika, (Shieber, 1985) i nešto kasnije (Miller, 1991) navode da ni slab ni jak generativni kapacitet kontekstno slobodnih gramatika nisu dovoljni da opišu prirodne jezike. Krajem šezdesetih i početkom sedamdesetih godina se već pojavio niz autora koji uz tvrdnju da su prirodni jezici umereno kontekstno osetljivi, razvijaju formalizme koji se po slabom generativnom kapacitetu svrstavaju između kontekstno slobodnih i kontekstno osetljivih gramatika. Jedan od ovih formalizama je i gramatika adjungovanih stabala – TAG37 (Joshi, Levy, & Takahashi, 1975). Osnovni objekti kojima operiše TAG više nisu niske, ali ni frazne strukture, već strukturirani objekti – stabla. Još jedna klasa gramatika koja se u literaturi navodi kao odgovarajuća za prestavljanje prirodnih jezika jeste takozvana indeksna gramatika (Aho, 1968). Indeksna gramatika prema slabom generativnom kapacitetu spada između kontekstno slobodnih i kontekstno osetljivih gramatika, i obuhvata umereno kontekstno osetljive gramatike. (Gazdar, 1988) daje moguće primene ove gramatike na prirodne jezike, navodeći da je moguće da postoje segmenti prirodnih jezika koje čak ni indeksna gramatika ne može da opiše. Kao korak još dalje, (Kaplan & Bresnan, 1982) definišu leksičko-funkcionalnu gramatiku ili LFG38, koja spada u klasu kontekstno osetljivih gramatika. Kao zaključak, navodimo tvrdnju iz (Walter J. Savitch, 1987) po kojoj nije poznat dokaz da je bilo koja struktura prirodnog jezika van dometa kontekstno osetljivih gramatika, i to je stav koji je prihvaćen i danas danas. 2.3 Unifikacione gramatike Počevši od sedamdesetih godina prošlog veka, sa različitih strana dolazi kritika transformacione gramatike (Abeillé, 2007). Osnovna grupa zamerki dolazi od interpretacije 35 engl. Generalized Phrase Structure Grammar 36 U literaturi (Berwick, 1984) postoje naznake da dodaci uvedeni u u GPSG ipak čine ovu gramatiku jačom od kontekstno slobodne. 37 engl. Tree-Adjoining Grammar 38 engl. Lexical Functional Grammar 29 dokaza u (Peters & Ritchie, 1973) koja govori u prilog tome da transformacije generišu jezik tipa 0, za koji se smatra da ima previše jak generitivni kapacitet za OPJ. Druga grupa zamerki stiže od psiholingvista koji u svojoj praksi nisu pronašli dokaze za transformacije kao mentalne operacije. S druge strane, upotreba stabala frazne strukture nije se pokazala pogodnom za prikazivanje rečenične strukture nekonfiguracionih jezika, odnosno jezika sa slobodnim redom reči, zbog čega se javila potreba za drugačijim reprezentacijama strukture. Dalje, transformacioni model nije bio praktičan za primenu u automatskoj analizi teksta, kako primenjuje suprotan postupak od onog od koga se u analizi polazi – polazi od dubinske strukture umesto od površinske. Iz tog razloga transformaciona gramatika je i danas najpre lingvistička teorija. Međutim, možda najžustrija kritika transformaciono- generativne teorije uopšte data je u radu Morisa Grosa (Gross, 1979), i bazirana je na Grosovom iskustvu pri pravljenju gramatike francuskog jezika na transformacionim osnovama (Gross, 1975). Osnovna zamerka izneta u ovom radu jeste to što se generativna teorija usmerava na definisanje apstraktnih pravila univerzalne gramatike, odbijajući da se posveti konkretnim zadacima – pravljenju gramatika konkretnih jezika, i pre svega temeljnoj klasifikaciji reči u leksikonu, koji za Grosa predstavlja osnov svih strukturnih razlika među konstrukcijama višeg reda. Po Grosu, generalizovanjem reči na opšte kategorije (NP, VP itd.), generativna gramatika propušta da primeti da karakteristike reči unutar iste klase nisu nužno iste, i da su zapravo češće vrlo različite, te da je izbor struktura u kojima se mogu naći za svaku leksemu mnogo ograničeniji nego što to generativna gramatika pretpostavlja39. Kao rezultat navedene kritike, počevši od sredine sedamdesetih godina javlja se nova vrsta formalizama koji mogu biti grupisani pod naziv unifikacione gramatike. Prema (Shieber, 2003; Abeillé, 2007) unifikacione gramatike se karakterišu time što:  integrišu leksikon, sintaksu i semantiku u jedinstvenu strukturu. Unifikacione gramatike su mahom leksikalizovane, što znači da su gramatičke strukture direktno povezane sa određenim leksemama (ili skupom leksema). Takođe, uz 39 Grosovo pridavanje značajne uloge leksikonu pri definisanju sintakse uobličeno je u formalizam nazvan leksikon-gramatika (engl. Lexicon-Grammar). Ovaj formalizam je zapravo nastao u toku izgradnje pomenute gramatike na transformacionim osnovama (Gross, 1975). Na temelju ove teorije definisan je i LADL format elektronskih rečnika o kome je bilo reči u poglavlju 1.2.2. 30 svaku leksikalizovanu strukturu paralelno se daje i njena semantička struktura, pre svega za potrebe razrešavanja višeznačnosti i tretmana složenih izraza kakvi su idiomi.  direktno opisuju konkretnu površinsku realizaciju niske. Unifikacione gramatike se vraćaju staroj tradiciji konstituentske analize. Budući da ne podrazumevaju postojanje dubinske strukture, gubi se potreba za mehanizmom transformacija.  odnos između struktura opisuju leksičkim pravilima. Unifikacione gramatike pokušavaju da operaciju transformacije učine potpuno suvišnom. U te svrhe se definišu takozvana leksička pravila (metapravila), koja predstavljaju svojevrstan pandan transformacijama, s tim što se od njih razlikuju na dva značajna načina. Pre svega, dok se transformacije primenjuju na rečenice (niske), leksička pravila se primenjuju na lekseme. Imajući u vidu da je u ovim gramatikama leksema dominantni nosilac sintaksičke informacije, leksičkim pravilima se osnovne strukture jedne lekseme povezuju sa svim drugim strukturama u kojima se ona može naći. S druge strane, transformacije predstavljaju proces, tj. definišu način na koji se od jedne strukture kroz niz koraka izvodi druga strukture. Leksička pravila su najčešće obrazac na osnovu koga se proverava da li je određena struktura gramatična.  dodeljuju svojim niskama (rečima, frazama i rečenicama) određene informacije u vidu obeležja. Obeležje predstavlja par koji se sastoji od atributa (npr. rod) i njegove vrednosti (muški|ženski|srednji). Da bi fenomen kao što je slaganje, recimo između prideva i imenice, mogao da se definiše preko klasičnih pravila prepisivanja gramatika frazne strukture, potrebno je za svaku kombinaciju kategorija u kojima se pridev i imenica slažu napraviti posebno pravilo (NP1 ⟶ A1 N1, NP2 ⟶ A2 N2 itd. gde A1 predstavlja pridev u nominativu jednine muškog roda, a N1 imenicu s istim kategorijama, A2 predstavlja pridev u genitivu jednine muškog roda a N2 imenicu s istim kategorijama i tako dalje za svaku kombinaciju odgovarajućih kategorija). Umesto umnožavanja pravila, ovakva vrsta informacija se kod unifikacionih gramatika unosi u strukturu kroz obeležja za koje se definiše međusobno slaganje (NP ⟶ A N, = = =). Obeležja se dodeljuju i leksemama, čime se uslovljavaju strukture u 31 koje date lekseme mogu ući (npr. =+|- u slučaju glagola označava da li dati glagol može ući u pasivnu konstrukciju). Struktura obeležja se često predstavlja u vidu matrice, i kao takvu ćemo je nadalje koristiti u ovom uvodnom delu. Struktura obeležja može biti atomična – kada atribut sadrži samo proste vrednosti. U slučaju prideva, to može biti obeležje tip s vrednostima opisni|gradivni|prisvojni. Za pridev lep imaćemo ovakvu matricu: Ipak, inovacijom unifikacionih gramatika smatra se složena struktura obeležja40, gde se vrednost sastoji od nove strukture obeležja, u ovom slučaju kod obeležja SLAGANJE: Primer slaganja između prideva i imenice mogao bi se pomoću matrice predstaviti ovako: Činjenica da pridev i imenica dele vrednosti obeležja SLAGANJE može biti prikazana i na sledeći način: 40 Uvedena u (Kay, 1984). 32 Simbol broja u kućici – 1 koristi se da označi deljene ili takozvane uvučene41 strukture obeležja.  gramatičnost definišu deklarativno, a ne proceduralno. Pristup generativne gramatike po kome je određena rečenica gramatična ukoliko je moguće generisati je kroz niz propisanih pravila prepisivanja je primer proceduralne definicije gramatičnosti. Unifikacione gramatike, s druge strane, definišu gramatičnost preko skupa ograničenja koje niska mora da zadovolji42. Skup ograničenja može biti lokalan, kao onaj za slaganje između prideva i imenice, ili generalan i primenjiv na sve strukture u jeziku, oličen u takozvanim principima dobre formiranosti. Određivanje gramatičnosti prema tome da li niska zadovoljava uslove koje postavlja određena gramatika naziva se deklarativnim pristupom.  definišu novu operaciju pod imenom unifikacija. Unifikacija je operacija koja vrši proveru usklađenosti (kompatibilnosti) među strukturama obeležja pri izvođenju rečeničnih struktura. Rezultat unifikacije dve strukture obeležja X i Y, koji se označava kao X∪Y, je minimalna struktura koja sadrži sve informacije sadržane u X i u Y. Ukoliko nije moguće formirati takvu strukturu, unifikacija se ne može izvršiti (što se obeležava znakom ⏊). Pogledajmo kako izgledaju različiti primeri unifikacije na našim primerima prideva i imenice43: 1) ∪ = ⏊ 2) ∪ = 3) ∪ = 4) ∪ = 5) ∪ = ⏊ 41 engl. reentant 42 Zbog čega se ova grupa gramatika često definiše kao bazirana na ograničenjima (engl. constraint-based), videti (Müller, 2016, pp. 488–497) 43 Primeri unifikacije, kao i generalno primeri u ovom poglavlju, inspirisani su primerima u (Abeillé, 2007) 33 Unifikacija nije mogla da se izvrši u prvom i petom slučaju, u prvom kako strukture obeležja i ne postoje, a u petom kako strukture nisu kompatibilne. Unifikacija u primerima dva i tri dovodi do usložnjavanja strukture, dok se u četvrtom primeru već postojeće obeležje ne udvaja, već struktura ostaje ista.44.  zasnivaju se na logičkim i matematičkim modelima za koje su definisane programske metode. Tri najranije unifikacione gramatike, iako konstruisane za potrebe OPJ, zapravo su u velikoj meri i dalje bile pre matematički konstrukti nego teorije sintaksičke strukture. U pitanju su PATR-II (Shieber, Uszkoreit, Pereira, Robinson, & Tyson, 1983), funkcionalna unifikaciona gramatika – FUG45 (Kay, 1984) i gramatika DCG (Pereira & Warren, 1980). Ono što (Abeillé, 2007, pp. 24–25) navodi kao nedostatke ova tri formalizma u smislu OPJ jeste to što ne mogu da postignu deskriptivnu adekvatnost za jezik koji opisuju drugačije nego umnožavanjem pravila i principa koje koriste. Ne zasnivaju se na opštim jezičkim principima ili metodu koji bi se mogao uspešno primeniti i na druge jezike, i kao takvi ne mogu se iskoristiti za konstruisanje opsežnih gramatika prirodnih jezika, niti se mogu nazvati sintaksičkim teorijama. Ipak, mogu se vrlo uspešno koristiti u krajnjim fazama primene gramatika, kao formalizmi koji opisuju same formalne gramatike (takozvane metagramatike)46. Tri dominantne unifikacione gramatike, koje su istovremeno i formalizmi za OPJ i sintaksičke teorije, su LFG (Kaplan & Bresnan, 1982), HPSG47 (Pollard & Sag, 1994) i TAG (Joshi et al., 1975). LFG nastavlja tradiciju Čomskog u smislu da teži da definiše univerzalnu gramatiku ljudskog jezika, iako na potpuno drugačijim osnovama. LFG na velika vrata vraća sintaksičku analizu u terminu sintaksičkih funkcija (koju naziva funkcionalna struktura), čije kombinovanje sa analizom u terminima sintaksičkih kategorija (koju naziva konstituentska struktura) omogućava uspešnu analizu nekonfiguracionih jezika. Pod 44 U terminima logike, za operacije sa ovim svojstvom kaže se da su idempotentne. 45 engl. Functional Unification Grammar 46 O pojmu metagramatike govorićemo u poglavlju 2.5 47 engl. Head-driven Phrase Structure Grammar ili gramatika preokrenute frazne strukture. GPSG, o kome je bilo reči u poglavlju 2.2 predstavlja preteču ove gramatike. 34 uticajem FUG, koji kao alternativu stablima frazne strukture prvi uvodi predstavljanje rečenice u vidu strukture obeležja (u formi ranije navedenih matrica), LFG prihvata ovaj metod za predstavljanje funkcionalne strukture. Za predstavljanje konstituentske strukture LFG i dalje zadržava predstavu u vidu stabala frazne strukture (Slika 6).48 Konstituentska struktura Funkcionalna struktura 49 50 Slika 6 Struktura rečenice Marko spava. u formalizmu LFG HPSG je formulisan je sa idejom jasne integracije fonologije, sintakse i semantike. Ova ideja je realizovana u formi složenih struktura obeležja pridodatih svakoj leksemi unutar leksikona, čineći HPSG istovremeno i primerom izrazito leksikalizovanog formalizma. Predstava rečenica koja se koristi u ovoj gramatici podseća na stabla frazne strukture, s tim što su čvorovi stabla zapravo strukture obeležja. Svaka struktura obeležja sastoji se od atributa FON (fonološka predstava), SINTAKSA i SEMANTIKA u okviru kojih se dalje definiše data jedinica. Grane stabla obeležene su prema funkciji jedinice do koje vode (S – subjekat, G – glava51, odnosno upravni član jedinice) (Slika 7). Kao i LFG, i HPSG pretenduje na to da bude formalizam koji može da predstavi svojstva svih jezika. 52 48 Za više detalja o LFG upućujemo na (Abeillé, 2007; Dalrymple, 2001; Kaplan & Bresnan, 1982) 49 PRED kao funkcija označava glagolski predikat, a kao obeležje postoji u svakoj frazi i za vrednost uzima leksemu koja nosi datu frazu. 50 Unutar šiljastih zagrada, neposredno iza glagola, daje se njegov supkategorizacioni okvir. U slučaju glagola spavati u taj okvir ulazi samo subjekat. 51 engl. head 52 Za više detalja o HPSG upučujemo na (Abeillé, 2007; Levine & Meurers, 2006; Pollard & Sag, 1994) S V NP Marko spava 35 Formalizam TAG, kao treća dominantna unifikaciona gramatika, je tema ovog rada, i kao takav će biti detaljno predstavljen u narednom poglavlju. 2.4 Gramatika adjungovanih stabala (TAG) 2.4.1 Definicija gramatike Gramatika adjungovanih stabala TAG začeta je sedamdesetih godina prošlog veka, najpre kao matematički model (Joshi et al., 1975). Leksikalizacijom, odnosno povezivanjem formalno definisanih struktura s leksikonom, ova gramatika je postala upotrebljiva za opisivanje konkretnih prirodnih jezika. Leksikalizovana verzija gramatike ili LTAG (Schabes, Abeillé, & Joshi, 1988; Schabes, 1990) je ono na šta nadalje u radu mislimo kada koristimo naziv TAG. Specifičnost ove gramatike ogleda se u činjenici da TAG ne operiše niskama, kao ostale gramatike opisane u ovom radu, već stablima. Iz tog razloga postoji potreba da damo njenu formalnu definiciju. Formalno, TAG je kvintet (Σ, NT, I, A, S) gde je:  Σ konačan skup terminalnih simbola  NT konačan skup neterminalnih simbola takav da Σ ∩ NT = Ø Slika 7 Struktura rečenice Marko spava. u formalizmu HPSG G S 36  I konačan skup konačnih stabala koja se nazivaju inicijalna stabla, sa sledećim karakteristikama:  njihovi unutrašnji čvorovi su obeleženi neterminalnim simbolima;  čvorovi na granici inicijalnih stabala su terminalni ili neterminalni; neterminalni čvorovi su obeležni za zamenu53 strelicom nadole (↓), sem sidra54 koje se obeležava rombom (◊). Inicijalna stabla se konvencionalno obeležavaju simbolom α (Slika 8).  A konačan skup konačnih stabala koja se nazivaju pomoćna stabla, sa sledećim karakteristikama:  njihovi unutrašnji čvorovi su obeleženi neterminalnim simbolima  čvorovi na granici pomoćnih stabala su terminalni ili neterminalni; neterminalni čvorovi su obeleženi za zamenu, sem priključnog čvora55 koji se obeležava asteriskom (*). Oznaka priključnog čvora mora biti identična oznaci korenog čvora stabla. Inicijalna stabla se konvencionalno obeležavaju simbolom β. (Slika 8)  S je istaknuti neterminalni simbol takav da je S ∈ NT. Slika 8 prikazuje model inicijalnog stabla za rečenicu i pomoćnog stabla za pridevsku frazu u svom neleksikalizovanom obliku. Neleksikalizovan oblik podrazumeva da stablo nije povezano sa konkretnom leksemom, odnosno da stablo predstavlja samo opštu shemu date konstrukcije. Definicija ove gramatike donosi niz potpuno novih pojmova – inicijalna i pomoćna stabla, zamena, priključivanje, sidro i priključni čvor – koje ćemo jedan po jedan razjasniti u narednim poglavljima. 53 engl. substitution 54 engl. anchor 55 engl. foot node 37 Inicijalno stablo istaknuti neterminalni simbol, koreni čvor čvor obeležen za zamenu sidro Pomoćno stablo priključni čvor Slika 8 Inicijalno i pomoćno stablo LTAG gramatike 2.4.2 Stabla u TAG TAG pravi razliku između dva tipa stabala: 1. Inicijalna stabla odgovaraju minimalnim nerekurzivnim jezičkim strukturama. Za stablo čije je sidro glagol u funkciji predikata, minimalna jezička struktura se sastoji od svih obaveznih argumenata datog glagola. Kako primer inicijalnog stabla (Slika 8) sadrži samo jedan dodatni čvor pored glagolskog čvora, ovo stablo je ispravna reprezentacija isključivo neprelaznih glagola kakav je glagol spavati (Slika 9). Slika 9 Inicijalno stablo za glagol spavati VP α S S NP↓ V◊ VP α1 S S NP↓ V spavati β NP S NP* AP A◊ 38 Inicijalna stabla se koriste i za predstavljanje manjih struktura od rečenice, odnosno za predstavljanje fraza. Slika 10 prikazuje stabla za imeničku frazu. Stablo α2 je neleksikalizovano, i kao takvo šablon za imeničku frazu, dok je stablo α3 leksikalizovano ‒ povezano sa konkretnom leksemom Marko. To da inicijalna stabla odgovaraju nerekurzivnim konstrukcijama znači da se npr. nikada ne mogu javiti u funkciji modifikatora u rečenici. 2. Pomoćna stabla odgovaraju minimalnim rekurzivnim jezičkim strukturama i najčešće se koriste kao modifikatori. Slika 11 prikazuje pomoćno stablo β1 za pridev u funkciji modifikatora (nastalo leksikalizacijom stabla β, Slika 8) i stablo β2 za prilog u funkciji modifikatora56. Slika 11 Pomoćno stablo β1 za pridev lep i pomoćno stablo β2 za prilog čvrsto. 56 Prilog se nalazi sa desne strane glagola umesto tipične, leve, da bi se pokazalo da postoje različiti tipovi pomoćnih stabala. Slika 10 Inicijalna stablo za imenice ‒ α2 opšte stablo, α3 stablo za imenicu Marko NP N◊ α2 NP Marko N α3 β1 lep NP S NP* AP A β2 VP S VP* čvrsto ADV ADVP 39 Stablo β1 na istoj slici je primer levog pomoćnog stabla, kako se njegov priključni čvor nalazi sa desne strane, dok je stablo β2 primer desnog pomoćnog stabla, kako se njegov priključni čvor nalazi sa leve strane. Skup svih inicijalnih i pomoćnih stabala (I ∪ A) čini elementarna stabla. Svako stablo se može imenovati po svom korenom čvoru; tako su stabla α i α1 stabla tipa S, stabla α2, α3, β i β1 stabla tipa NP, i stablo β2 stablo tipa VP. 2.4.3 Operacije u TAG Kombinovanje stabala se može izvršiti pomoću jedne od dve operacija koje propisuje TAG: 1. Zamena predstavlja proizvod leksikalizacije TAG i kao takva, zadužena je za unošenje leksičkih elemenata u stablo. Može se odvijati samo na neterminalnim čvorovima na granici stabala, koji po konvenciji nose oznaku ↓57. Na jednom čvoru se zamena može izvršiti samo jednom58, pri čemu se on se zamenjuje korenim čvorom stabla koje kao svoje sidro ima leksemu59. Vrsta čvorova koji se spajaju mora biti ista – čvor NP↓ može se zameniti jedino stablom čiji je koreni čvor NP. Za zamenu se mogu iskoristiti samo inicijalna stabla ili ona koja su izvedena od inicijalnih stabala. Na čvoru koji je obeležen za zamenu nije moguće izvršiti drugu TAG operaciju – pripajanje. Rezultat zamene je takođe inicijalno stablo, koje se još naziva i izvedeno stablo i po konvenciji obeležava grčkim slovom γ (Slika 12). Slika 12 Shematski prikaz operacije zamene. 57 Na čvorovima obeleženim rombom, sidrima, ne vrši se zamena. Stabla sa sidrom koriste se samo kao opšte sheme konkretnih leksikalizovanih stabala. 58 Odnosno operacija zamene je nerekurzivna. 59 Za konkretan primer operacije zamene na srpskom jeziku videti nastavak testa (Slika 15). ⇒ X↓ X α X α γ 40 Gramatika koja se sastoji samo od inicijalnih stabala i operacije zamene je po slabom generativnom kapacitetu ekvivalentna kontekstno slobodnim gramatikama. Ono što ovu gramatiku čini umereno kontekstno osetljivom, i samim tim prikladnom za OPJ, je sledeća operacija – operacija pripajanja. 2. Pripajanje je operacija specifična za TAG koja ovoj gramatici obezbeđuje rekurzivnost. Pripajanje podrazumeva spajanje pomoćnog stabla i bilo kog drugog stabla, uključujući i pomoćno. Već je napomenuto da je oznaka korenog čvora i priključnog čvora u pomoćnim stablima ista. Da bi pripajanje moglo da se izvrši, u stablu na kome će se izvršiti pripajanje mora postojati čvor koji nosi istu takvu oznaku. Pored tog osnovnog uslova, kao mehanizam ograničenja rekurzije, za svaki čvor je moguće definisati i ograničenja na pripajanje. Tako pripajanje može biti: 1) Selektivno (SP) – samo članovi skupa T ⊆ A (podskup skupa pomoćnih stabala) mogu biti pripojeni na datom čvoru. Pripajanje u ovom slučaju nije obavezno. 2) Nulto (NP) – zabranjuje bilo kakvo pripajanje na datom čvoru. 3) Obavezno (OP) – pomoćno stablo koje je član skupa T ⊆ A mora biti pripojeno na datom čvoru. Slika 13 Shematski prikaz operacije pripajanja Pripajanje može biti izvedeno na bilo kom čvoru stabla sem na onom koji je obeležen za zamenu ili obeležen oznakom NP (nulto pripajanje). Rezultat pripajanja je takođe izvedeno stablo, takođe označeno grčkim slovom γ (Slika 13). Slika 14 predstavlja primer operacije pripajanja za srpski jezik. U pitanju je pripajanje pomoćnog stabla za prilog β1 na rečenično stablo α1. β1 je ovde primer levog X ⇒ β γ X β X X* X 41 pomoćnog stabla. U rečeničnom stablu α1 čvor VP je obeležen za selektivno pripajanje60, što znači da mu se može, ali ne mora, pripojiti odgovarajuće pomoćno stablo, odnosno da je rečenica kompletna i bez njega. Rezultat pripajanja je izvedeno inicijalno stablo γ1. Slika 15 daje primer za operaciju zamene. Ovde je zamena izvršena u prethodno izvedenom stablu γ1 (Slika 14). Rezultat zamene je izvedeno stablo γ2. Slika 15 Primer operacije zamene na srpskom jeziku U TAG se pravi jasna razlika između izvedenih stabala i stabala izvođenja. Kako iz izvedenog stabla – stabla nastalog spajanjem elementarnih stabala – nije moguće zaključiti tačno kako je do njegovog izvođenja došlo, za svako izvedeno stablo postoji i odgovarajuće 60 Oznaka SP se ovde koristi samo u ilustrativne svrhe i zapravo se nikad zaista ne sreće u stablima. Ograničenja na pripajanje će nadalje biti definisana drugačijim sredstvima. Za detalje videti poglavlje o FBLTAG (2.4.5.1) ⇒ γ1 S S NP↓ VP VP ADVP V peva ADV dobro α2 NP N Marko γ2 S S NPm VP VP ADVP V peva ADV dobro N Marko Slika 14 Primer operacije pripajanja na srpskom jeziku (SP) ⇒ NP↓ S S peva VP SP V α1 β1 VP VP* ADVP dobro ADV γ1 S S NP↓ VP VP ADVP V peva ADV dobro 42 stablo izvođenja. Kao što i ime kaže, stabla izvođenja su takođe stabla, ali njihovi čvorovi predstavljaju stabla od kojih je izvedena data rečenica, dok grane predstavljaju operacije kojima su data stabla uneta u konačnu strukturu. Konvencija koja se obično prati jeste da se u stablima izvođenja zamena prikazuje isprekidanom linijom a pripajanje punom linijom. Čvorovi stabala izvođenja obeleženi su adresama stabala, koje se sastoje od tri elementa – imena stabla (αx, βx ili γx), imena čvora (leksema), i broja čvora. Broj čvora se određuje počevši od korenog čvora izvedenog stabla, koji je obeležen kao 0. Čvorovi neposredno ispod korenog čvora obeležavaju se prema svom linearnom rasporedu (1, 2...) gledano s leva na desno, a čvorovi ispod svakog od njih brojem svog natčvora i brojem koji označava njihov linearni redosled unutar datog čvora (1.1., 1.2., 2.1., 2.2....). Slika 16 Izvedeno stablo i njegovo stablo izvođenja Gledajući stablo γ2 (Slika 16), njegovo stablo izvođenja, obeleženo brojem 1, pokazuje da je početno stablo na kome su izvođenja izvršena bilo stablo α1 (Slika 14), i da su nad njime izvršene operacije pripajanja na adresi 2 stabla α1 (čvor VP), i zamene na adresi 1 stabla α1 (čvor NP). Stablo izvođenja ne definiše redosled operacija. Stabla izvođenja mogu se iskoristiti za uspešno razrešavanje semantičke dvoznačnosti u situacijama kada je struktura stabala ista, kao kod idioma. Naime, idiomi se unutar TAG tretiraju kao jedinstvena jedinica u leksikonu. U slučaju rečenice koja sadrži idiom ‒ Marko probija led. ‒ u osnovnom čitanju su u inicijalno stablo probija, ovde predstavljeno kao podebljani deo na već izvedenom stablu 1 (Slika 17) (nazovimo ovo stablo α) zamenom uneta inicijalna stabla za Marko (α1) i led (α2), što je strukturno γ2 S S NPm VP VP ADVP V peva ADV dobro N Marko α1 (pevati) α2 (Marko) (1) β1 (dobro) (2) 1 43 prikazano izvedenim stablom 1 i odgovarajućim stablom izvođenja (stablo 2). U slučaju idiomatičnog čitanja, u inicijalno stablo idioma (podebljani deo izvedenog stabla 3 nazovimo ovo stablo α3) zamenom je uneto samo inicijalno stablo za Marko (α1). Ovakva struktura stabla za idiome – jedno inicijalno stablo sa dva sidra, po jedno za svaku leksemu idioma (probija i led) umesto odvojenih stabala za svaku od ovih leksema, predložena je u (Abeillé, 1990)61. Stabla izvođenja omogućavaju jasno prikazivanje odnosa zavisnosti među rečeničnim delovima, čak i onda kada se čvorovi u izvedenom stablu više ne nalaze neposredno jedan do drugog (Slika 16, direktan odnos između Marko i peva). 2.4.4 Leksička pravila i porodice stabala U poglavlju o unifikacionim gramatikama pomenuli smo leksička pravila kao mehanizam osmišljen da zameni operaciju transformacije. Na ovom mestu ćemo bliže 61 Kako se u ovom radu nećemo detaljnije baviti idiomima, upućujemo na ovaj rad za njihovu podrobniju analizu. S S NP NP VP probija V led N Marko N 1 S S NP NP VP probija V led N Marko N 3 α (probijati) α1 (Marko) (1) α2 (led) (3) 2 α3 (probijati led) α1 (Marko) (1) 4 Slika 17 Izvedena stabla i stabla izvođenja za dva tumačenja rečenice Marko probija led. 44 objasniti njihovu konkretnu realizaciju unutar TAG. Leksička pravila su prvi put primenjena na TAG u (Vijay-Shanker & Schabes, 1992). Kao što je pomenuto, leksička pravila povezuju osnovnu strukturu u koju može ući jedna leksema (ili grupa leksema) sa svim njenim strukturnim varijantama. Pogledajmo šta ovo znači u praksi. Uzmimo za primer glagol kupovati. Osnovna struktura u koju ulazi ovaj glagol je subjekat–predikat–pravi objekat (Žena kupuje kafu.), kako kupovati zahteva informaciju o onome ko kupuje i onome što se kupuje. U upotrebi, ovaj glagol se može javiti u različitom tipu alternativnih struktura, kao što je recimo pasivna, u obliku participskog pasiva (Kafa je kupovana.), pasivna, u obliku refleksivnog pasiva (Kafa se kupuje.) ili upitna (Šta kupuje?). Ovom prilikom može biti promenjen oblik glagola (kao u pasivu), neki od argumenata mogu biti izostavljeni (participski pasiv, pitanje) ili potpuno uklonjeni iz konstrukcije (refleksivni pasiv), ili im pak može biti promenjena funkcija (participski pasiv). Leksička pravila se koriste da povežu sve ovakve alternativne strukture i istovremeno opišu strukturne promene karakteristične za svaku od njih. Za svaku od alternacija u strukturi definiše se zasebno leksičko pravilo, pri čemu je opšta struktura leksičkog pravila uvek ista. Svako leksičko pravilo se tako sastoji od leve strane pravila, gde je dato stablo osnovne, polazne strukture, i desne strane pravila, gde je dato stablo u kome je došlo do alternacije. Sva leksička pravila su deklarativnog tipa, što znači da predstavljaju model na osnovu koga se procenjuje da li je određena struktura ispravno formirana, a ne proces na osnovu koga se strukture izvode. Slika 18 prikazuje ilustrativno pravilo za participski pasiv62. Slika 18 Model leksičkog pravila za pasiv u srpskom jeziku 62 Za detalje potrebne za razumevanje strukture desne strane ovog pravila upućujemo na poglavlje 3.6.1.1. Na ovom mestu ćemo samo reći da ako gledamo pasivnu rečenicu Kafa je kupovana (od strane žene), na desnoj strani pravila čvor V koji je obeležen za prepisivanje stoji na mestu pomoćnog glagola je i nosi obeležje cop – kopula. Sidro stabla je glagol kupovana, s obeležjem oblika glagola: form i njegovom vrednošću: gpt – glagolski pridev trpni. Agentivna odredba je obeležena kao fakultativna stavljanjem PP u zagradu, dok je složeni predlog od strane označen trouglom, što znači da njegova struktura neće biti detaljno prikazana. S Xsub↓ V◊ Ydir↓ ⇒ V◊ V↓ PREP S Ysub↓ (PP) X↓ od strane cop=+ form=gpt 45 Sva stabla koja su međusobno povezana leksičkim pravilima organizovana su u porodicu stabala. Na taj način je pri definisanju rečeničnih modela dovoljno navesti strukturu predstavnika porodice tj. osnovnu rečeničnu strukturu, i leksička pravila koja se mogu primeniti na tu strukturu, čime se dobijaju i svi ostali članovi porodice. Leksička pravila se mogu podeliti na dva tipa koja se značajno razlikuju: 1. Pravila redistribucije utiču na supkategorizacioni okvir glagola – dodaju ili brišu broj argumenata glagola, menjaju njihove kategorije, kao i njihove funkcije. Ova pravila mogu dodati i nova sidra i izmeniti obeležja originalnog sidra. Primeri pravila redistribucije su:  pravila za pasiv: o participski – Žena kupuje kafu. ⇒ Kafa je kupljena. o refleksivni – Žena kupuje kafu. ⇒ Kafa se kupuje.  pravilo za obezličavanje – Ljudi putuju ⇒ Putuje se.  refleksivizacija – Žena češlja bebu. ⇒ Žena se češlja.  relativizacija – Vidim čoveka. ⇒ Čovek koga vidim. U poseban tip pravila redistribucije spadaju pravila izmeštanja, kojima se opisuje odnos između stabala u kojima je došlo do izmeštanja argumenata sa njihove uobičajene pozicije. Pravila izmeštanja se koriste da opišu strukturu pitanja:  pitanje putem izmeštanja dopune ‒ Žena kupuje kafu. ⇒ Šta žena kupuje?  subjekatsko pitanje ‒ Žena kupuje kafu. ⇒ Ko kupuje kafu? Iako su oba tipa pitanja svrstana u ovu grupu, njihova struktura se međusobno značajno razlikuje, posebno zato što, tehnički, u slučaju subjekatskog pitanja izmeštanje i ne postoji. Pitanja u koja je uneta upitna reč – Zašto žena kupuje kafu? – ne potpadaju pod leksička pravila63. 2. Pravila realizacije ne menjaju supkategorizacioni okvir glagola, kao ni funkcije glagolskih argumenata, već utiču samo na njihov redosled u rečenici, na to da li će argumenti biti realizovani ili na njihov pojavni oblik, i definišu vrednosti njihovih već postojećih obeležja. Primeri pravila realizacije su pravila za obradu:  varijacija u redu reči – Žena kupuje kafu. ⇒ Kupuje žena kafu. 63 Strukturu pravila izmeštanja detaljnije obrađujemo u poglavlju 3.6.1.2. 46  izostavljanja argumenata – Žena kupuje kafu. ⇒ Kupuje kafu.  kliticizacije – Žena kupuje kafu. ⇒ Žena je kupuje.64 Kao pravila koja određuju broj argumenata u izmenjenoj strukturi, pravila redistribucije se moraju primeniti prva, pre pravila realizacije. Pravila realizacije se primenjuju na pojedinačne argumente, dok pravila redistribucije utiču na čitavu strukturu ili više elemenata istovremeno. Za razliku od pravila redistribucije, koja podležu strogim leksičkim ograničenjima, pravila realizacije nemaju veliki broj izuzetaka. Dobro formirano elementarno stablo je rezultat od nula do dva leksička pravila redistribucije i od nula do dva leksička pravila realizacije za svaki od argumenata sa rečeničnom funkcijom65. Elementarno stablo na koje nije primenjeno nijedno leksičko pravilo i koje se sastoji od kanonske realizacije svih argumenata predikata, u njihovoj kanonskoj funkciji, zove se kanonsko elementarno stablo. 2.4.5 Tipovi TAG Na ovom mestu ćemo napraviti kratak pregled tipova TAG gramatika, kako je nastavak rada izrađen upravo na jednoj od tih varijanti. U toku godina razvijen je niz gramatika koje dosad predstavljenu osnovu TAG gramatika neznatno menjaju ili nadograđuju. Neke od tih verzija su: 1. FBLTAG66 (Vijay-Shanker & Joshi 1988; Vijay-Shanker & Joshi 1991). LTAG zasnovana na obeležjima specifična je po tome što svakom čvoru u stablu pridodaje strukturu obeležja. Ova struktura obeležja se od onih koja smo mogli da vidimo u poglavlju 2.3 razlikuje po tome što je dupla, pa tako sadrži gornja obeležja, koja pokazuju odnos datog čvora prema sebi nadređenoj strukturi i donja obeležja, koja pokazuju odnos datog čvora prema sebi podređenoj strukturi. FBLTAG propisuje operaciju unifikacije koja odobrava ili zabranjuje spajanje stabala s obzirom na 64 Za strukturni prikaz ovih leksičkih pravila upućujemo na poglavlje 3.6.1.3. 65 Ovaj broj se razlikuje od jezika do jezika, tako da su ovo podaci za srpski. Maksimalan broj primena pravila redistribucije javlja se u slučaju primene pravila za pitanje na pravilo za pasiv. Kod pravila realizacije, maksimalan broj primena odnosi se na primenu pravila za promenu mesta reči nakon kliticizacije. 66 engl. Feature-Based Lexicalized Tree Adjoining Grammar 47 usklađenost njihovih obeležja. Ove karakteristike FTAG će biti detaljno prikazane u narednim poglavljima kako je to gramatika koju ćemo koristiti za izradu formalne gramatike srpskog jezika. FTAG gramatike postoje za engleski (XTAG Research Group, 2001), francuski (Abeillé, 2002), italijanski (Candito, 1999), korejski (Han, Yoon, Kim, & Palmer, 2000) i nemački (kao varijanta FBLTAG) (Gerdes, 2002) 2. MCTAG67 (Weir, 1988). Specifičnost multikomponentne TAG ogleda se u tome što grupiše stabla u setove stabala koja se pri pripajanju sva pripajaju odjednom. Postoji nekoliko tipova MCTAG od kojih se dva osnovna razlikuju po tome da li se pripajanje seta stabala vrši na jednom stablu: TL-MCTAG68 ili na setu stabala: SL-MCTAG69. Dok TL-MCTAG generiše jezik koji je istog slabog i jakog generativnog kapaciteta kao TAG, i slab i jak generativni kapacitet SL-MCTAG je jači nego TAG70. MCTAG i posebno njene varijante s jakim generativnim kapacitetom pokazale su se pogodne za tretman specifičnog ponašanja glagola u nemačkom jeziku. Gramatike bazirane na MCTAG postoje za nemački (Kallmeyer, Lichte, Maier, Parmentier, & Dellert, 2008; Kallmeyer & Yoon, 2004; Rambow & Lee, 1994) i korejski (Rambow & Lee, 1994). 3. Sinhrona TAG71 (Shieber & Schabes 1990). Sinhrona TAG je napravljena sa ciljem da poveže određeni sintaksički opis predstavljen pomoću TAG sa njegovom semantičkom reprezentacijom ili sa njegovim prevodnim ekvivalentom na nekom drugom jeziku, koji je takođe dat u formi TAG. Ta dva opisa su međusobno sinhronizovana. 4. Probablilistička TAG (Resnik, 1992). Ova TAG gramatika povezuje verovatnoću sa svakim stablom u gramatici, na osnovu čega izračunava verovatnoću određene derivacije. 67 engl. Multi-Component Tree Adjoining Grammar 68 engl. tree-local 69 engl. set-local 70 Za pregled opštih karakteristika MCTAG i pomenutih tipova, upućujemo dalje na (Schuler, Chiang, & Dras, 2000). 71 engl. Synchronous TAG 48 2.4.5.1 FBLTAG FBLTAG je TAG proširena strukturom obeležja i stavljena u unifikacioni okvir. U ovom poglavlju ćemo se baviti implementacijom ova dva pojma u TAG gramatiku. Postoje dva glavna razloga za unošenje obeležja u TAG:  stavljanje jasnijih ograničenja na izbor struktura u koje mogu ući lekseme. U FBLTAG svaka leksema nosi obeležja koja ograničavaju strukture u koje može ući. Tako se za prelazan glagol (kao npr. znati), za koji se tradicionalno vezuje prelazna struktura, može pomoću obeležja pasiv=‒ označiti da ne ulazi u pasivnu konstrukciju, odnosno da se na njega ne može primeniti leksičko pravilo za participski pasiv.  stavljanje ograničenja na izvođenja koja se mogu izvršiti. U strukturu obogaćenu obeležjima mogu biti uneta samo stabla koja su po obeležjima kompatibilna sa datim stablom. Pomoću obeležja je isto tako moguće formalizovati ograničenja na priključivanje. U nastavku teksta predstavićemo taj mehanizam. U FBLTAG struktura obeležja se javlja kao dodatna informacija uz čvorove u elementarnom stablu. FBLTAG ne koristi složenu strukturu obeležja72, ali kao svoju specifičnost uvodi dve strukture obeležja za čvorove na kojima se može vršiti pripajanje (Slika 19)73. Postojanje dve strukture obeležja zasniva se na činjenici da svaki čvor ima: 72 O složenoj strukturi obeležja bilo je reči u poglavlju 2.3. 73 Nadalje u tekstu ćemo za obeležja koristiti oznake koje mahom koristimo i u samoj gramatici (detaljnije u poglavlju 3.1). Na slici 19, num označava broj, gen rod, case padež a modif zahtev za modifikatorom („+“ označava zahtev za modifikatorom). Vrednosti x, y i z koriste se samo da označe jednakost obeležja, koja god da je njihova vrednost. Od svih obeležja jedino je obeležje modif fiktivno i koristimo ga samo u ilustrativne svrhe. Slika 19 Dve strukture obeležja na primeru imeničke fraze 1 2 NP t: num=x gen=y case=z b: num=x gen=y case=z NP t: num=x gen=y case=z modif=- b: num=x gen=y case=z modif=+ 49  Odnos prema nadstablu, koji predstavlja pogled na čvor odozgo. Ovaj odnos je prikazan gornjom strukturom obeležja koju ćemo obeležavati sa t74.  Odnos prema podređenim čvorovima, koji predstavlja pogled na čvor odozdo. Ovaj odnos je prikazan donjom strukturom obeležja i obeležavaćemo ga sa b75. Ipak, osnovni razlog za primenu duple strukture obeležja leži u prirodi operacije pripajanja. Ono što se prilikom pripajanja dešava jeste da se čvor na kome se vrši pripajanje (Slika 20, čvor ) deli na dva dela – jedan koji se spaja sa korenim čvorom pomoćnog stabla ( ) i drugi koji se spaja sa priključnim čvorom pomoćnog stabla ( ). Dvostruka struktura obeležja na tom čvoru omogućava mu ovakvo deljenje. Tom prilikom se gornje obeležje čvora na kome se vrši priključivanje (t:f) spaja (unifikuje)76 sa gornjim obeležjem korenog čvora pomoćnog stabla (t:f1), a donje obeležje čvora na kome se vrši priključivanje (b:g) spaja sa donjim obeležjem priključnog čvora (b:g2). Da bi do spajanja moglo da dođe, potrebno je proveriti da li su vrednosti navedenih obeležja međusobno kompatibilne, odnosno iste. Ukoliko jesu, dolazi do njihove unifikacije. Slika 20 Shematski prikaz unifikacije struktura obeležja pri pripajanju Na čvorovima na kojima u toku izvođenja ne dođe do pripajanja, t i b svojstva datog čvora se međusobno unifikuju. U konačnom, izvedenom stablu svi čvorovi su međusobno unifikovani i ne postoji više nijedan čvor sa duplom strukturom obeležja. 74 t od engl. top (vrh) 75 b od engl. bottom (dno) 76 Pojam unifikacije koristimo u terminima opisanim u poglavlju 2.3. β ⇒ γ β 50 Slika 21 prikazuje strukture obeležja za čvorove VP u inicijalnom (α1) i pomoćnom stablu (β1) za srpski jezik. Stablo γ1-1 predstavlja prvi korak nakon pripajanja na čvor VP u stablu α, u kome još uvek nije došlo do unifikacije obeležja. Stablo γ1-2 prikazuje izgled izvedenog stabla na kome su unifikovana sva obeležja na čvorovima VP. Slika 21 Primer za unifikaciju pri pripajanju Način na koji se formalizuju ograničenja na pripajanje je sledeći. Ako se vratimo na sliku 19, možemo videti da čvor 1 ima kompatibilna gornja i donja obeležja. Ovo omogućava da se, ukoliko ne dođe do pripajanja na ovom čvoru, njegova t i b obeležja unifikuju. Ipak, ukoliko se pojavi stablo čiji koreni i priključni čvor nose obeležja s istim vrednostima (num=x, gen=y, case=z), ono se može pripojiti na ovom čvoru. Na taj način se formalno reguliše ograničenje selektivnog pripajanja (SP). U slučaju stabla 2, možemo videti da njegova obeležja nisu kompatibilna – vrednost obeležja modif se razlikuje. Kako obeležje modif ima pozitivnu vrednost u donjoj strukturi obeležja, to označava da leksema zahteva modifikaciju u obliku neke vrste atributa. Negativna vrednost u gornjoj strukturi obeležja označava da modifikator ne postoji u datoj t: - b: form=pres num=s pers=3 NP↓ S S peva VP V α1 β1 VP VP* ADV dobro t: form=x num=y pers=z b: - t: - b: form=x num=y pers=z S S γ1-1 NP↓ VP ADV dobro V VP* peva t: - b: form=x num=y pers=z t: form=x num=y pers=z b: form=pres num=s pers=3 S S γ1-2 NP↓ VP ADV dobro V VP* peva form=pres num=s pers=3 form=pres num=s pers=3 51 strukturi. Ova obeležja se zbog razlike u vrednostima ne mogu unifikovati, tako da se na ovom čvoru mora pripojiti stablo koje će zadovoljiti oba uslova. Slika 22 prikazuje takvo stablo, zajedno sa stablom 2 sa slike 19. Na ovaj način, međusobnom neusklađenošću obeležja na istom čvoru regulisano je ograničenje obaveznog pripajanja (OP). Čvorovima koji nose obeležje NP (nulto pripajanje) kao što je priključni čvor, dodeljuje se samo gornja struktura obeležja, čime se sprečava njegovo deljenje, neophodno za proces pripajanja. Čvoru obeleženom za zamenu se tako takođe dodeljuje se samo gornja struktura obeležja (Slika 23, obeležje t:f). S druge strane, koreni čvor stabla koje služi kao zamena ima i obeležje t i b. Prilikom zamene, potrebno je izvršiti unifikaciju t obeležja oba stabla (t:f i t:f1), a zatim i međusobnu unifikaciju t i b obeležja (t:f ∪ f1 i b:g1). Slika 23 Shematski prikaz unifikacije struktura obeležja pri zameni ⇒ α α X↓t:f α γ Slika 22 Formalizacija ograničenja obaveznog pripajanja na primeru pripajanja pridevske na imeničku frazu AP* AP b : - b: num=x gen=y case=z modif=- t: num=x gen=y case=z modif=+ t: - NP t: num=x gen=y case=z modif=- b: num=x gen=y case=z modif=+ 52 Slika 24 prikazuje proces unifikacije pri operaciji zamene na konkretnom primeru. Stablo γ2-1 prikazuje izgled izvedenog stabla u kome je čvor NP zamenjen inicijalnim stablom α2, ali u kome još uvek nije izvršena unifikacija gornjih i donjih obeležja. U stablu γ2-2 su unifikovana sva gornja i donja obeležja. Slika 24 Primer za unifikaciju pri zameni 2.4.6 Relevantnost FBLTAG za obradu prirodnih jezika TAG ima tri obeležja koja je čine prikladnom za OPJ, posebno za nekonfiguracione jezike kakav je srpski: 1. Prošireni domen lokalnosti77 Ovo svojstvo proizlazi iz same prirode TAG kao formalizma koji za osnovnu jedinicu ima elementarno stablo. Dobro formirano predikatsko elementarno stablo zahteva da se unutar njega nalaze svi argumenti predikata. Prateći ovaj princip, u TAG se rečenice sa 77 engl. Extended domain of locality α2 NP N Marko t: - b: num=s pers=3 case=nom S S V γ1 NP↓ VP VP* ADV dobro peva form=pres num=s pers=3 t: num=s pers=3 case=nom S S t: num=s pers=3 case=nom b: num=s pers=3 case=nom γ2-1 NPm N Marko V VP VP* ADV dobro peva form=pres num=s pers=3 S S num=s pers=3 case=nom γ2-2 NPm N Marko V VP VP* ADV dobro peva form=pres num=s pers=3 53 izmeštenim argumentima definišu ne kao izvedena, već kao primarna elementarna stabla. Na ovaj način se postiže to da su odnosi među svim argumentima glagola, bez obzira na to gde se nalaze u odnosu na svoju osnovu poziciju, i dalje definisani lokalno, odnosno u okviru istog stabla. Iz ovog razloga u TAG ne postoji potreba za operacijom transformacije koja bi generisala izmenjene niske i tražila način da izmeštenoj niski dodeli odgovarajuća obeležja. 2. Rekurzija čuva domen zavisnosti78 Rekurzija u TAG obezbeđuje se primenom operacije pripajanja. Pripajanje se vrši na elementarnom stablu (lokalnom domenu zavisnosti) u koje se na taj način unosi nov element. Budući da je zavisnost već jasno definisana među argumentima elementarnog stabla, unošenje novog stabla ni na koji način ne menja njihov odnos – skup njihovih deljenih obeležja i dalje je onaj iz početne elementarne strukture. U tom smislu se zapravo i ne može govoriti o udaljenosti argumenata, koji su i pored linearne udaljenosti uvek lokalni. Rečenica Šta Marko misli da Ivan voli, u kojoj se argument šta tipično smatra izmeštenim iz zavisne rečenice Ivan voli, u TAG se rekonstruiše kao elementarna rečenica Šta Ivan voli, u koju je zatim pripajanjem uneta „glavna” rečenica Marko misli da+zavisna rečenica. 3. Leksikalizovanost Zahtev LTAG gramatika da svako stablo bude povezano sa leksikonom čini ovaj formalizam u potpunosti leksikalizovanim. Na ovaj način morfosintaksička i sintaksička svojstva svake lekseme definišu se direktno u leksikonu (Slika 25). probiti 79 80 81 led 82 Slika 25 Leksički unosci za reči probiti i led 78 engl. Factoring recursion from the domain of dependencies 79 Model obuhvata: imenicu u funkciji subjekta (n0) i imenicu u funkciji pravog objekta (n1dir). Ovaj glagol može ući u još modela, ali ovde koristimo jedan u ilustrativne svrhe. 80 Morfosintaksička 81 Glagolski vid 82 Neglagolske lekseme takođe imaju svoje modele, koji se zasebno prave za svaku od vrsta reči (imenice, pridevi i prilozi). U ovom slučaju je u pitanju model definisan za imenice. 54 Leksikalizovanost obezbeđuje međusobno razdvajanje leksema koje inače pripadaju istoj porodici. Takođe, leksikalizovanost omogućava olakšano predstavljanje idioma i složenih izraza, koji za svoje metaforičko (ili složeno) značenje imaju odvojen unosak, u okviru kojih su grupisani u isto stablo (Slika 26). probiti led 83 Slika 26 Leksički unosak idioma probiti led Složenost leksikona, kao jedna od ključnih karakteristika koje TAG čine pogodnom za opis i obradu prirodnih jezika, ipak ima i svoje mane. TAG generalno, bez obzira na svoju varijantu, nosi sa sobom značajnu količinu redundantnosti. Unutar leksikona, za svaku leksemu je vezano najmanje jedno, a najčešće niz stabala koja predstavljaju sve obrasce stabala u kojima se leksema može naći. Takođe, ovi isti obrasci stabala se ponavljaju uz sve lekseme koje u njih mogu ući. Na ovaj način, leksikon TAG gramatika vrlo brzo postaje prevelik i skoro nemoguć za održavanje ili dopunjavanje. Zapravo, samo generisanje TAG gramatike pod ovim uslovima predstavlja pretežak zadatak. Zato se u ove svrhe, kao i svrhe održavanja i menjanja TAG gramatika koristi metagramatika, o kojoj će biti više reči u narednom poglavlju. 2.5 Metagramatika Metagramatika u domenu OPJ predstavlja formalizam koji za cilj ima generalizovano predstavljanje određene formalne gramatike. Iako je metagramatika suštinski formalna gramatika, to nije sintaksička teorija, već logički ili matematički konstrukt napravljen sa 83 U okviru modela veliko slovo označava sidro modela, tj. porodice stabala. U ovom slučaju, sidra su i glagol probiti i imenica led. 55 ciljem da sažeto opiše odgovarajuću formalnu gramatiku. U većini slučajeva, ona podrazumeva postojanje dve komponente:  formalnog jezika kojim se opisuje ciljna formalna gramatika;  programskog dela (kompilatora) koji na osnovu metagramatike generiše strukture formalne gramatike. Prva metagramatika za TAG razvijena je za potrebe automatskog generisanja TAG za francuski i italijanski (Candito, 1996, 1999). Na njenim postavkama definisana je metagramatika koju ćemo koristiti za generisanje TAG gramatike srpskog jezika, a koju ćemo predstaviti u narednom poglavlju. 2.5.1 XMG 2.5.1.1 Teorijski principi Proširiva metagramatika84,85 je formalizam kreiran i opisan u radu (Crabbé, 2005) kao jezik za predstavljanje gramatika baziranih na stablima, kao i kompilator za taj jezik. XMG definiše TAG gramatike zahvaljujući njihovoj generalizaciji, koja je dvojaka:  generalizacija struktura;  povezivanje alternativa. Objasnimo šta znači svaki od ovih pojmova. 1. Generalizacija struktura Već pomenutu redundantnost XMG rešava uočavanjem još jedne specifičnosti stabala, što je činjenica da se različita stabla sastoje od istih segmenata. Slika 27 tako prikazuje segment koji označava subjekat. Kako bi omogućio uočavanje obrazaca i regularnosti u strukturama, kao i definisanje daljih generalizacija, XMG operiše ovakvim fragmentima kao svojim osnovnim jedinicama. 84 engl. eXtensible MetaGrammar ‒ XMG 85 XMG je dizajniran za Linux operativni sistem, ali se na Windows operativnim sistemima može koristiti unutar virtuelne mašine. Uputstvo za instalaciju u oba slučaja nalazi se na adresi: http://dokufarm.phil.hhu.de/xmg/?animal=xmg#getting_started 56 Jezgro metagramatike XMG čine osnovni rečenični fragmenti (kao što su subjekat, predikat, pravi ili nepravi objekat) koji su po svojim karakteristikama organizovani u grupe koje se nazivaju klase. Kombinovanjem klasa pomoću dve operacije – konjunkcije86 i disjunkcije87, dobijaju se sva stabla TAG gramatike. Slika 27 Uočavanje istog segmenta u različitim stablima (slika je uz neznatne izmene preuzeta iz (Le Roux, 2005)) Slika 28 prikazuje povezivanje tri segmenta stabla organizovana u klase – Subjekat (fragment 1), Aktivni predikat (fragment 2) i Objekat (fragment 3) – operacijom konjunkcije, čiji je rezultat klasa Aktivna prelazna konstrukcija (stablo 4)88. Slika 28 Kombinovanje klasa operacijom konjunkcije 86 Logička operacija koja je ekvivalent veznika i u prirodnom jeziku. Obeležava se simbolom ⋀. 87 Logička operacija koja je ekvivalent veznika ili u prirodnom jeziku. Obeležava se simbolom ⋁. 88 Nazivi klasa koji se koriste ovom prilikom su ilustrativni i upotrebljeni u svrhe olakšanog prikaza koncepta. S N↓ V N↓ mange N↓ S V S N* N N↓ mange N* N S N↓ V N↓ mange Jean mange une pomme. Žan jede jabuku. La pomme que Jean mange… Jabuka koju Žan jede… Jean qui mange une pomme… Žan koji jede jabuku… 1 2 3 4 ⇒ NP↓ VP NP↓ S videti ∧ ∧ NP↓ VP P S VP S videti VP S NP↓ 57 2. Povezivanje alternativa Drugi nivo generalizacije podrazumeva povezivanje različitih realizacija iste argumentske strukture. Ovakve alternative, kakve su, na primer, aktivna i pasivna konstrukcija, se u TAG povezuju leksičkim pravilima, dok se u XMG za ove potrebe koristi samo disjunkcija, pomoću koje se alternativne strukture udružuju u natklase. Ranije definisanu klasu Aktivna prelazna konstrukcija (Slika 28) možemo prikazati i na sledeći način: Aktivna prelazna konstrukcija ⟶ Subjekat ∧ Aktivni predikat ∧ Objekat Da bismo definisali alternaciju aktiv-pasiv, potrebno je da definišemo još jednu klasu, Pasivna prelazna konstrukcija. Ova klasa će izgledati ovako: Pasivna prelazna konstrukcija ⟶ Subjekat ∧ Pasivni predikat ∧ Agentivna odredba Alternacija zatim može biti definisana u okviru natklase pod imenom Prelazna konstrukcija, kao disjunkcija prethodno definisanih klasa: Prelazna konstrukcija ⟶ Aktivna prelazna konstrukcija ˅ Pasivna prelazna konstrukcija 2.5.1.2 Definicija metagramatike XMG se formalno definiše sledećim formulama: A Klasa ::= Ime → Sadržaj B Sadržaj ::= Ime ∣ Sadržaj ∨ Sadržaj ∣ Sadržaj ∧ Sadržaj ∣ Opis C Opis ::= n1 → n2 ∣ n1 →+ n2 ∣ n1 →* n2 ∣ n1 ≺ n2 ∣ n1 ≺+ n2 ∣ n1 ≺* n2 ∣ n[f:E] ∣ n(p:E) D Upit ::= Ime Deo A opisuje klasu kroz ime i sadržaj klase. U primeru Aktivna prelazna konstrukcija ⟶ Subjekat ∧ Aktivni predikat ∧ Objekat – deo s leve strane strelice je ime klase (Aktivna prelazna konstrukcija), a deo s desne, sadržaj klase (Subjekat ∧ Aktivni predikat ∧ Objekat). 58 Deo B predstavlja sadržaj klase. On može biti:  Ime: Ime potklase. Subjekat → Imenički subjekat Subjekat → Zamenički subjekat  Sadržaj ∨ Sadržaj: Disjunkcija ili izbor sadržaja. Subjekat → Imenički subjekat ∨ Zamenički subjekat Prelazan → Prelazan sa subjektom ∨ Prelazan bez subjekta  Sadržaj ∧ Sadržaj: Konjunkcija ili spoj sadržaja. Prelazan sa subjektom → Subjekat ∧ Predikat ∧ Pravi objekat Prelazan bez subjekta → Predikat ∧ Pravi objekat  Opis: Konkretno TAG stablo (ili stabla) na koje referiše ime date klase. U primeru je to stablo imeničkog subjekta, odnosno disjunkcija stabala imeničkog i zameničkog subjekta. Subjekat → Subjekat → Deo C definiše odnos između dva bilo koja čvora u stablu. Uzmimo za primer sledeće stablo:  → označava odnos direktne nadređenosti (S i NP ili S i VP); →+: indirektne nadređenosti (S i N); →*: nadređenosti ili jednakosti (S i fakultativna PP); (PP↓) NP VP S N NP↓ VP S NP↓ VP S PRO↓ VP S ∨ 59  ≺ označava neposredno linearno prethođenje (NP i VP); ≺+: posredno linearno prethođenje (NP i PP); ≺*: posredno linearno prethođenje ili jednakost (VP i PP);  n[f=E] se odnosi na obeležje f čvora n sa vrednošću E (na primer NP[gen=m])  n(p=E) označava svojstvo89 p čvora n sa vrednošću E (na primer PP(mark=subst)). Deo D predstavlja ime natklase od koje se polazi pri kompilaciji metagramatike. Ako je za kompilaciju označena klasa Prelazna konstrukcija, kompilator će kompilirati sve klase od kojih se ona sastoji, počevši od klasa Aktivna prelazna konstrukcija i Pasivna prelazna konstrukcija, do svih klasa za subjekat, predikat i objekat. Pozivanjem klasa određenog nivoa može se ograničiti broj klasa koji se poziva pri kompilaciji. 2.5.1.3 Mehanizam nasleđivanja U XMG se za upućivanje na segmente klase, tj. konkretne čvorove, koriste promenljive. Promenljive su lokalne, tj. vezane su za klasu unutar koje su definisane, međutim, XMG podržava njihovu upotrebu i van date klase zahvaljujući mehanizmu izvoza90. Za svaku klasu je moguće definisati sve promenljive za koje je u planu da se koriste nelokalno. Mehanizam uvoza91 podrazumeva ili uvoženje svih izvezenih promenljivih jedne klase, ili uvoženje pojedinih promenljivih na koje se može referisati preko imena klase i naziva promenljive. Tako ukoliko klasa pod imenom Subjekat sadrži čvorove V i NP, i ukoliko su u toj klasi date promenljive definisane za izvoz (formulom export V NP), na te čvorove se u drugim klasama može referisati kao Subjekat.V i Subjekat.NP. Druga mogućnost je da se pozove čitava klasa Subjekat (formulom import Subjekat) kada će u klasi u kojoj je klasa Subjekat pozvana moći da se koristite sve promenljive te klase koje su definisane za izvoz (u ovom slučaju V i NP). Mehanizam nasleđivanja omogućava definisanje apstraktnih klasa (npr. Argument glagola) koje definišu opšte nadstrukture i koje se zatim koriste kao model za definisanje odgovarajućih potklasa (Subjekat, Pravi objekat, Nepravi Objekat). Isto tako, omogućava 89 XMG definiše dva tipa svojstava za čvorove: 1) tip čvora (subst ‒ čvor za zamenu, foot ‒ priključni čvor, flex ‒ terminalni čvor tj. leksema, nadj ‒ čvor na kome pripajanje nije dozvoljeno, anchor ‒ sidro, coanchor ‒ dodatno sidro) i 2) boja čvora (crvena, bela i crna). Za sistem upotrebe boja pogledati poglavlje 2.5.1.4. 90 engl. export 91 engl. import 60 upotrebu istih naziva čvorova u klasama, među kojima se razlika pravi na osnovu imena klase u okviru koje se nalaze (Subjekat.NP i PraviObjekat.NP). 2.5.1.4 Dodavanje specifičnih ograničenja 1. Boje Da bi se olakšalo pisanje gramatike i proces kombinovanja fragmenata učinio poluautomatskim, uveden je princip ograničavanja na kombinovanje čvorova putem boja (Crabbé & Duchier, 2005). Kombinovanje ili identifikacija je vrsta unifikacije koja prateći matricu (Tabela 4) određuje koji fragmenti se mogu spajati sa kojim drugim fragmentima92. U upotrebi su tri boje – crvena, bela i crna. Beli čvorovi obavezno podležu identifikaciji – mogu se identifikovati i sa drugim belim čvorovima, ali na kraju se uvek moraju identifikovati sa nekim crnim čvorom. Crni čvorovi se mogu identifikovati sa belim čvorovima, ali ne moraju, odnosno mogu ostati crni. Crveni čvorovi se nikad ne identifikuju ni sa jednom vrstom čvorova. Jedno stablo opisano na ovaj način je prihvatljivo samo ako su svi njegovi čvorovi posle identifikacije obeleženi crnom ili crvenom bojom93. Tabela 4 Logika sistema boja u XMG Slika 29 daje primer koji smo videli ranije, ali ovoga puta obeležen bojama. Bela boja na čvorovima S i V stabala za subjekat i objekat pokazuje da se oni moraju identifikovati sa 92 Ovo je istovremeno i zamena za unifikaciju koja se unutar ove metagramatike ne vrši. 93 Primena ovog sistema na konkretnim klasama za srpski može se videti u poglavlju 4. •B •R ∘W •B ⊥ ⊥ •B •R ⊥ ⊥ ⊥ ∘W •B ⊥ ∘W 61 odgovarajućim čvorovima obeleženim crnom bojom, u ovom slučaju čvorovima S i V glagola. Čvor N je na svim stablima označen crvenom bojom, kako ne treba, i ne sme da se identifikuje ni sa jednim od čvorova u datim stablima. Slika 29 Primer stabala obeleženih bojama i njihova identifikacija 2. Redosled enklitika XMG sadrži zaseban modul, razvijen za francuski jezik (Crabbé, 2005), koji omogućava automatsko raspoređivanje enklitika u pravilnom redosledu. On se zasniva na dva principa: principu jedinstvenosti čvora i principu redosleda čvora. Svakom čvoru koji nosi oznaku enklitika (cat=cl) dodeljuje se obeležje ranga sa celobrojnom vrednošću n koje će imati onoliko vrednosti koliko ima pozicija za enklitike u datom jeziku. Princip jedinstvenosti čvora obezbeđuje da u jednom stablu ne postoje dva čvora sa istom vrednošću svojstva rang. Princip redosleda čvorova dalje zahteva da u finalnom stablu čvorovi budu linearno raspoređeni prema vrednosti njihovog ranga (Slika 30). Slika 30 Raspoređivanje enklitika u francuskom (prema (Crabbé et al., 2013)) Prema tradicionalnom gramatičkom opisu, srpski ima pet pozicija za enklitike, koje se, u slučajevima kada se javljaju istovremeno, javljaju u sledećem redosledu: 1) enklitika N↓ V' S ≺+ ˄ Cl↓3 V V' ≺+ ˄ Cl↓4 V V' ≺+ ˄ ⇒ V' S V◊ N↓ S Cl↓3 V◊ V' Cl↓4 N↓ S Cl↓4 V◊ V' Cl↓3 ⇒ NP↓ VP NP↓ S videti ∧ ∧ NP↓ VP S VP S videti VP S NP↓ α β δ γ • • ∘ ∘ ∘ ∘ • • • • • • 62 li94, 2) enklitički oblici pomoćnih glagola (sem oblika je), 3) enklitički oblici ličnih zamenica u dativu, 4) enklitički oblici ličnih zamenica u akuzativu ili genitivu i 5) rečca se ili pomoćni glagol je. Tako će maksimalna vrednost n za srpski biti 5. Svakoj od enklitika se dodeljuje odgovarajući rang u skladu sa njenom pozicijom (npr. enklitika dativ [rank=3], enklitika akuzativ [rank=4]), tako da će se pri njihovom istovremenom javljanju u rečenici, rasporediti u odgovarajućem redosledu. 2.5.1.5 Parsiranje TAG pomoću metagramatike Postoji nekoliko parsera koji su razvijeni za TAG – parser za FBLTAG koji je deo gramatike XTAG za engleski (Doran, Egedi, Hockey, Srinivas, & Zaidel, 1994), parser za LTAG razvijen za francuski pod imenom LLP2 (Lopez, 2000), parser za FBLTAG razvijen za francuski pod imenom DyALog (de La Clergerie, 2005) i parser za FBLTAG i MCTAG razvijen za nemački i francuski pod imenom TuLiPA (Kallmeyer, Lichte, Maier, Parmentier, Dellert, et al., 2008). Za potrebe ovog rada biće korišćen parser TuLiPA95. TuLiPA96 je okruženje za parsiranje napravljeno sa ciljem da omogući:  parsiranje većeg broja formalizama, i to ne nužno gramatika stabala  grafički interfejs prilagođen potrebama korisnika  integrisanu obradu semantičkih informacija. Multiformalizam, i ujedno modularnost ovog okruženja, omogućen je time što je gramatika konkatenacije opsega ili RCG97 uzeta za njegov centralni formalizam. Sve gramatike koje su manjeg slabog generativnog kapaciteta i koje se mogu konvertovati u RCG mogu potencijalno biti analizirane ovim parserom, a sve što je potrebno je da se u okruženje 94 U ovoj fazi enklitiku li ipak obrađujemo samo u okviru upitne reči da li, koju kao celinu tretiramo kao rečcu. Ovo rešenje je, iako praktično, kruto za buduću primenu, kada će biti potrebe da se rečca li izdvoji kao kategorija nezavisna od ove upitne reči. 95 Od engleskog Tübigen Linguistic Parsing Architecture 96 Uputstvo za instalaciju za Windows/Linux/Mac može se naći na adresi: https://sourcesup.renater.fr/tulipa/overview.html 97 engl. Range Concatenation Grammar ‒ gramatika sa većim slabim generativnim kapacitetom od blago kontekstno osetljivih formalizama, koja ih sadrži u sebi kao svoj podskup. 63 doda modul koji vrši konverziju iz njih i u njih. Proces parsiranja u parseru TuLiPA odvija se tako u tri faze: 1. Ulazna metagramatika se konvertuje u RCG, 2. RCG očitava nisku unetu u parser i analizira je, 3. Rezultat parsiranja se prevodi iz RCG u ciljni formalizam. Da bi mogla da obavi parsiranje, TuLiPA mora da dobije četiri vrste informacija: 1. Metagramatiku u .xml formatu koja je ručno formirana putem formalizma XMG. Metagramatika obezbeđuje opis shema stabala. 2. Leksikone napravljene po ugledu na dvoslojni leksikon XTAG (2001), a koji se sastoje od:  morfološkog dela, koji sadrži forme reči, njihove leme i morfološka obeležja  leksičkog dela, u kome se definišu lema, sintaksička kategorija leme, semantičke informacije, naziv porodice stabala čije je ova lema sidro, filteri koji sadrže obeležja koja definišu ograničenja na primenu stabala iz date porodice, izjednačenja koja definišu imena za čvorove sa određenim karakteristikama, i potencijalna dodatna sidra za složene reči i idiome. 3. Takozvani aksiom, kojim se definiše tip niske koji će biti unet u parser. Dostupni aksiomi su oni koji su definisani kao neterminalne kategorije u metagramatici, pa tako unošenje S kao aksioma znači da će niske zadate za parsiranje biti rečenice, dok NP znači da će biti unete imeničke fraze i sl. Slika 31 prikazuje grafički interfejs parsera TuLiPA. 64 Slika 31 Grafički interfejs parsera TuLiPA Rezultat rada parsera su leksikalizovana stabla izvođenja (Slika 32) i izvedena stabla (Slika 33) za unetu nisku. Niska koja je parsirana za ovu priliku je niska Marko voli Sonju. Ukoliko je definisana semantička dimenzija za datu gramatiku, dobija se i semantička reprezentacija niske. 65 Slika 32 Izgled stabla izvođenja za srpski jezik u parseru TuLiPA Slika 33 Izgled izvedenog stabla za srpski jezika u parseru TuLiPA 66 3 IZRADA OSNOVA FORMALNE GRAMATIKE SRPSKOG JEZIKA 67 Na ovom mestu ćemo predstaviti osnove formalne gramatike koju smo izradili za srpski jezik, a koju smo nazvali SrpTAG. Za izradu ovog segmenta koristili smo formalizam FBLTAG, predstavljen u poglavlju 2.4.5.1. Pored karakteristika same gramatike, koja omogućava olakšano prikazivanje zavisnosti među rečeničnim delovima, ovu gramatiku smo odabrali i zbog primene strukture obeležja, koja omogućava njeno povezivanje sa već postojećim elektronskim rečnicima. Kao uzor za FBLTAG gramatiku koristili smo mahom formalnu gramatiku francuskog jezika, detaljno opisanu u (Abeillé, 2002). Data gramatika se u velikoj meri bazira na rečeničnim modelima opisanim u leksikon-gramatici Morisa Grosa (Gross, 1975), a na čijim principima je izrađen i sam LADL format elektronskih rečnika. Na taj način gramatika koju izrađujemo i rečnici koji su već razvijeni za srpski jezik čine jednu organsku celinu. Za osnovni, kanonski red reči u srpskom jeziku uzimamo red SVO ili subjekat predikat objekat. Subjekat, objekat i priloške dopune smatramo argumentima glagola ili rečeničnim konstituentima koji su određeni valentnošću glagola98. U tom smislu, argumente glagola u stablima, i kasnije u modelima, obeležavaćemo brojčano, prema njihovom linearnom redosledu u rečenici s osnovnim redom reči (gledano s leva). Slika 34 daje ilustrativan prikaz stabla koje je označeno na ovaj način. Broj 0 označava subjekat, a ostali brojevi redom sledeće argumente koji se pojave u strukturi. Argumenti koji mogu biti označeni istim brojem u različitim strukturama (npr. pravi i nepravi objekat), međusobno se razlikuju po obeležju funkcije. Oznaku X ili XP u stablima (ista slika) koristićemo da označimo da se dati čvor može realizovati kao više različitih kategorija, najčešće kao imenička fraza ili zamenica. Na taj način sažeto predstavljamo dva stabla koja se razlikuju samo po tom čvoru, ali ovo sažimanje koristimo samo u tekstu – u gramatici svejedno moraju postojati dva, odnosno odgovarajući broj stabala s različitim kategorijama. 98 Valentnost glagola ili valenca, pojam koji se vezuje za Lisjena Tenijera (Lucien Tesnière) i dependencijalnu gramatiku (Tesnière, 1959), označava opštu sposobnost glagola da za sebe veže određen broj argumenata, odnosno dopuna. Prema valentnosti, glagoli u srpskom mogu biti minimalno nulte valentnosti (sevati), a maksimalno trovalentni (davati). 68 ć h (poglavlje 3.1), izbor deskriptivne gramatike srpskog jezika (poglavlje 3.2), đ ( 3.3), odnos i sastav pojma predikata u SrpTAG i izabranoj deskriptivnoj gramatici (poglavlje 3.4), prikaz izgleda glagolskih argumenata u SrpTAG (poglavlje 3.5) i prikaz porodica stabala SrpTAG i njihovog odnosa prema ( 3.6). 3.1 Morfosintaksički opis Kao polazište za morfosintaksički opis (MSO) gramatike SrpTAG, a samim tim i njene metagramatike, uzeli smo MSO koji se koristi u elektronskim rečnicima u LADL formatu opisanim u (Krstev, 2008), a o kojima je bilo reči u poglavlju 1.2.2. Kako je ovaj rečnik već prilagođen za potrebe automatske obrade teksta, format njegovih obeležja bio je sasvim prikladan za MSO naše gramatike. Ovoj grupi obeležja dodali smo obeležja koja su proizašla iz potreba same formalne gramatike. Tabela 5 daje pregled kategorija koje smo koristili u formalnoj gramatici. Prvih deset terminalnih kategorija u tabeli preuzeto je, zajedno sa oznakama, iz LADL rečnika. Kategoriju CONJ (veznik) iz ovih rečnika, a koja se u njima koristi za označavanje naporednih (koordinativnih) i subordinativnih veznika, za potrebe formalne gramatike koristimo samo za obeležavanje naporednih veznika99. Za subordinativne veznike koristimo novounetu kategoriju C. Kategoriju PAR trenutno koristimo samo za označavanje upitne konstrukcije da li, dok kategoriju Cl uvodimo za označavanje enklitičkih oblika zamenica, 99 Naporedni odnosi ipak ostaju van okvira ovog rada te se u daljem tekstu nećemo njima baviti. S t: func=dir XP0↓ S VP NP1↓ S V◊ Slika 34 Primer stabla za prelazni glagol 69 kao i za rečcu se100. Za potrebe formalne gramatike, rečcu ne ne svrstavamo u kategoriju PAR, već u zasebnu kategoriju pod imenom NEG. U ovoj fazi izrade formalne gramatike ne koristimo nijednu semantičku oznaku koja je u upotrebi u elektronskim rečnicima101. Što se frazalnih kategorija tiče, definisane su svuda gde terminalna kategorija dozvoljava neku vrstu modifikacije, odnosno može da formira frazu ili sintagmu. Na dnu tabele nalazi se oznaka za samu rečenicu. Iako je oznaka za oba tipa rečenica (zavisne i nezavisne) ista, u stablima se zavisna rečenica razlikuje od nezavisne po tome što nosi oznaku broja glagolskog argumenta uz sebe (npr. S0 – subjekat), dok je nezavisna rečenica uvek samo ‒ S. 100 Zameničke enklitike, zajedno sa rečcom se, izdvojene su u zasebnu kategoriju između ostalog i da bi u jednom trenutku bila moguća primena mehanizma za raspored enklitika u metagramatici. Potpuna primena tog mehanizma bi ipak podrazumevala da i pomoćni glagoli nose ovu oznaku, ali i to da se rečca se i pomenuti pomoćni glagoli ne nalaze unutar glagolske fraze (VP), već na istom nivou kao i zameničke enklitike, odnosno direktno ispod čvora S. 101 Oznake za tip imenice (apstraktna, konkretna, gradivna, koja označava osobu itd.), vrstu priloškog značenja, vrstu vlastitih imena (imena ljudi, toponima...), oblasti iz koje je data reč (matematika, vojska, bibliotekarstvo...), tip priloškog značenja (spacijalno, direktivno, ablativno...), jezičku varijantu (ekavski, ijekavski) itd. Tabela 5 Terminalne i frazalne kategorije u formalnoj gramatici srpskog jezika TERMINALNE KATEGORIJE FRAZALNE KATEGORIJE 1. N imenica NP imenička fraza 2. PRO zamenica / / 3. V glagol VP glagolska fraza (predikat) 4. A pridev AP pridevska fraza 5. ADV prilozi ADVP priloška fraza 6. PREP predlozi PP predloška fraza 7. NUM brojna reč NUMP brojna fraza 8. PAR rečca / / 9. CONJ naporedni veznik / / 10. INT uzvik 11. C subordinativni veznik / / 12. Cl enklitika / / 13. NEG negacija / / 14. / / S nezavisna rečenica zavisna rečenica 70 Tabela 6 daje pregled obeležja koja smo koristili u gramatici. Kako elektronski rečnik najšešće ne sadrži nazive za ono što u tabeli zovemo atributima102, nazive smo definisali prema (Abeillé, 2002) ili intuitivno u skladu sa nazivom samog obeležja. Vrednosti atributa i njihove oznake mahom smo preuzeli iz LADL rečnika. Vrednosti “+” i “–“ u tabeli označavaju posedovanje ili neposedovanje vrednosti datog atributa103. U koloni nosilac nalaze se kategorije za koje je dato obeležje relevantno. Ukoliko obeležje mogu nositi i terminalna i frazalna kategorija, u tabelu smo uneli samo terminalnu104. Tabela 6 Obeležja i njihove vrednosti u formalnoj gramatici srpskog jezika105 ATRIBUT ZNAČENJE VREDNOST NOSILAC 1. gen rod m – muški rod f – ženski rod n – srednji rod MG – prirodni muški rod106 FG – prirodni ženski rod107 NG – prirodni srednji rod108 N, A, PRO, V, Cl, S 2. num broj s – jednina p – množina PL – semantička množina109 N, A, PRO, V, Cl, S 3. case padež 1 – nominativ 2 ‒ genitiv 3 – dativ 4 – akuzativ 5 – vokativ 6 – instrumental N, A, PRO, Cl, PREP110 102 Uz retke izuzetke kao što su wh za upitne reči, aux za pomoćne glagole i ref kao oznaku za refleksivnost. U unoscima u rečniku se direktno beleže vrednosti atributa, uglavnom prikazane kao jedan karakter (slovo ili broj). 103 “+“ i “–“ se još nazivaju bulovski atributi, a date vrednosti bulovske vrednosti. 104 Na primer, obeležje roda koristi se kao obeležje i terminalne kategorije N i njene frazalne kategorije NP, za razliku od obeležja funkcije, koje u ovom slučaju nosi samo NP. 105 Format tabele preuzet iz (Abeillé, 2002) 106 Za imenice koje su gramatičkog ženskog a prirodnog muškog roda: trojica, Nikola, tata. 107 Za imenice gramatičkog ženskog roda koje označavaju osobe oba prirodna pola: osoba, budala, pristalica. 108 Za zbirne imenice gramatičkog ženskog roda: deca, braća 109 Za zbirne imenice kao što su braća ili deca koje su gramatički u obliku jednine. 110 Kod predloga, obeležje padeža označava padež regirane imenice ili zamenice. 71 7 – lokativ 4. def određenost d – određen k – neogređen A 5. pers lice x – prvo lice y – drugo lice z – treće lice V, PRO, N111, S 6. neg negacija +, - PRO, VP, S 7. aux pomoćni glagol +, - V 8. wh upitni oblik +, - S, C, PRO, N 9. ref refleksivni oblik +, - V, Cl 10. ord redni broj +, - A 11. asp vid glagola imperf – nesvršeni vid perf – svršeni vid V 12. mod modus glagola W – infinitiv I – indikativ Y – imperativ G – radni glagolski pridev T – trpni glagolski pridev S – glagolski prilog sadašnji X – glagolski prilog prošli V, S 13. form prosta i složena glagolska vremena i složeni načini u indikativu P – prezent F – futur A – aorist I ‒ imperfekat R – prošlo vreme C – potencijal L - pluskvamperfekat D – futur II V 14. cop kopulativni glagol +, - V 15. func funkcija sub – subjekat lsub – logički subjekat dir – pravi objekat indir – nepravi objekat S, NP, AP, PRO, PP, ADVP, NUMP, Cl 111 Obeležje lica koristimo i kod imenica za potrebe kongruencije sa glagolom, iako ima podrazumevanu vrednost trećeg lica. 72 pdop – priloška dopuna 16. subg slaganje sa subjektom u rodu m – muški rod f – ženski rod n – srednji rod MG – prirodni muški rod FG – prirodni ženski rod NG – prirodni srednji rod S, V 17. subp slaganje sa subjektom u licu x – prvo lice y – drugo lice z – treće lice S, V 18. subn slaganje sa subjektom u broju s – jednina p – množina PL – semantička množina112 S, V 19. modal modalni glagol +, - V 20. fazni fazni glagol +, - V Obeležja od broja 12 do 20 su ona koja smo uneli za potrebe formalne gramatike. Obeležje mod uneli smo da označimo razliku između glagola u ličnom glagolskom obliku (označenom kao I – indikativ) od načina (imperativ) ili glagola u neličnim glagolskim oblicima. Za glagole koji nose vrednost “indikativ” dalje razlikujemo vremena i složene glagolske oblike (vremena i načine), koje označavamo kroz obeležje form. Oznaku cop koristimo da označimo kopulativne glagole113. U stablima koristimo i funkcije, koje unosimo kroz obeležje func. Izbor funkcija napravljen je prema gramatici (Stanojčić & Popović, 1997), s tim što za potrebe ovog rada koristimo isključivo funkcije koje se navode unutar rečeničnih modela u datoj gramatici, kao i one koje unutar formalne gramatike imaju konstituentsku tj. argumentsku vrednost114. To istovremeno znači da ne obeležavamo funkcije glagolskih odredbi. 112 Za zbirne imenice kao što su braća ili deca koje su gramatički u obliku jednine. 113 Za to koji se sve glagoli smatraju kopulativnima u SrpTAG videti 3.4.2. 114 Na taj način su isključene dve dopune koje se pominju u gramatici (Stanojčić & Popović, 1997) – aktuelni kvalifikativ, kako nisu navedeni rečenični modeli u kojima se pojavljuje, i predikativ, kako u formalnoj gramatici nema konstituentsku vrednost. Za detalje videti 3.5.2.3. 73 Obeležja subg, subp i subn koristimo da naznačimo da subjekat zavisne rečenice deli kategorije broja, lica i roda sa subjektom glavne rečenice.115 Za označavanje modalnih i faznih glagola koristimo oznake modal i fazni s bulovskom vrednošću. Tabela 7 Obeležja koja ograničavaju primenu leksičkih pravila NAZIV ZNAČENJE VREDNOST NOSILAC pasiv pasivizacija je moguća (participski pasiv) +,- V bez1 izostavljanje prve dopune +,- V bez2 izostavljanje druge dopune +,- V Tabela 7 prikazuje obeležja koja se definišu unutar leksikona i odnose se na čitavu rečeničnu porodicu. Ova obeležja ograničavaju primenu odgovarajućih leksičkih pravila – pasivizacije i izostavljanja argumenata. Obeležje pasiv s negativnom vrednošću koristi se one glagole koji ne dozvoljavaju pasivizaciju (npr. znati) i obrnuto, s pozitivnom vrednošću uz glagole koji je dozvoljavaju (npr. voleti). Oznake bez se koriste da se označi da dopune datog glagola mogu ili ne mogu biti izostavljene116. Obeležja unutar formalne gramatike i metagramatike koristimo u formi atribut=vrednost, kao na primer case=7 ili pasiv=+. Uz stabla koja koristimo kao ilustracije u radu stajaće minimum obeležja potreban da se prikaže pojava o kojoj je reč. Isto tako, nećemo beležiti gornja i donja obeležja uz čvorove sem ako se ona međusobno ne razlikuju. Tako, kada nadalje u stablima u tekstu uz čvor postoji samo jedna grupa obeležja, to znači da gornja i donja obeležja tog čvora imaju iste vrednosti, odnosno da su potpuno kompatibilna. Razlog za to je prosto nedostatak prostora. 115 Kao u primeru Marko želi da dođe., u kome je subjekat zavisne rečenice nerealizovan. Za detalje o tretmanu nerealizovanog subjekta u SrpTAG videti 3.5.2.1. 116 Na primer, kod glagola sa dve dopune – u akuzativu i dativu, obično je moguće izostavljanje dopune u dativu, ali ne i izostavljanje dopune u akuzativu: Marko0 je poklonio (Ivani)1 *(mačku)2. Data porodica glagola će tako imati sledeća obeležja: bez1=+, bez2=-. 74 U stablima gramatike koja se koriste za parsiranje se, ipak, uz svaki čvor stabla nalazi kompletan skup obeležja koji odgovara kategoriji datog čvora. 3.2 O izboru deskriptivne gramatike srpskog jezika Gramatike namenjene ljudskoj upotrebi generalno se smatraju nezadovoljavajućim za primenu u formalne svrhe usled nedovoljne eksplicitnosti, nedovoljne pokrivenosti jezičkih pojava, teškoća pri implementaciji u formalne svrhe, a katkad i netačnosti gramatičkog opisa (Erbach & Uszkoreit, 1990). Ipak, budući da je formalna gramatika koju pravimo prva formalna gramatika srpskog jezika i da nemamo na raspolaganju drugu formalizovanu predstavu srpskog jezika ovog tipa, verujemo da je neophodno da se u ovom poslu oslonimo na neki tip tradicionalne gramatike. Pod ovime ne mislimo da ćemo vršiti bilo kakav direktan automatski tretman ovakve gramatike, već na to da nam ovakva gramatika služi kao vodič i uvid u strukturu rečenice srpskog jezika, kao i vrsta podsetnika i svojevrsna lista zadataka pri građenju SrpTAG. Pri izboru takve gramatike, imali smo u vidu sledeće parametre: 1) Gramatika treba da bude gramatika savremenog srpskog jezika; 2) Treba da pruža pregled kompletnog sintaksičkog sistema srpskog jezika; 3) Treba da daje iscrpan i detaljan pregled rečeničnih modela, oblika predikata i njegovih argumenata; 4) Treba da bude organizovana pregledno. Nismo mogli da očekujemo da metod koji koristi bilo koja od deskriptivnih gramatika srpskog jezika bude sličan metodu koji se primenjuje u TAG, ali svaka bliskost sa ovim metodom bila je, naravno, poželjna. Nekoliko nama dostupnih gramatika je zadovoljilo većinu kriterijuma – Sintaksa savremenog srpskog jezika (Piper et al., 2005), Gramatka srpskog jezika – udžbenik za I, II, III i IV razred srednje škole (Stanojčić & Popović, 1997) i Gramatika srpskog jezika za strance (Mrazović, 2009). Svaka od ovih gramatika sasvim bi dobro poslužila u svrhe koje smo naveli. Ipak, smatrali smo da bi pri predstavljanju formalizma koji je manje poznat našoj 75 javnosti bilo najbolje za referentnu gramatiku uzeti najčešće korišćenu i najšire poznatu gramatiku srpskog jezika. Uzevši i taj kriterijum u obzir, naš izbor je bez dileme pao na gramatiku Živojina Stanojčića i Ljubomira Popovića. Ova gramatika ne samo da se koristi kroz čitavu srednju školu, već se koristi i kao glavni referentni udžbenik na Filološkom fakultetu, i u tom smislu u potpunosti ispunjava naš zahtev. Pored rasprostranjenosti njene upotrebe, postoji još nekoliko stvari koje ovu gramatiku čine pogodnom za naše potrebe:  Pri opisu struktura bogato koristi grafički prikaz (u vidu dijagrama (Slika 35) ili tabelaran (Tabela 8)), koji pruža direktan i jasan uvid u izložene strukture;  Popis i pregled rečeničnih modela je opsežan i temeljan, potkrepljen primerima i odgovarajućom grafičkom predstavom;  Rečenični modeli su bazirani na funkcijama (umesto na kategorijama), što je od posebnog značaja pri izradi metagramatike za TAG, koja se i sama bazira na konceptu funkcije;  Glagol nema po svaku cenu dominantnu ulogu u ovom modelu (kao npr. u kopulativnoj konstrukciji gde dominantnu ulogu ima predikativ, a ne kopula), što ovu gramatiku čini umereno verbocentričnom, kakva je i gramatika TAG. Tabela 8 Tabelarna analiza rečenice Marko voli Mariju. Konstituentska jedinica Tip leksičke jedinice i njeno leksičko jezgro Konstituentski oblik Sintaksička funkcija i dustribucija Marko Imenica “Marko” nominativ jednine SUBJEKAT u rečenici”voleti” voli Glagol “voleti” 3. l. jd. prezenta PREDIKAT u rečenici” voleti” Mariju Imenica “Marija” akuzativ jednine PRAVI OBJEKAT u rečenici”voleti” Rečenica”voleti” SUBJEKAT PREDIKAT PRAVI OBJEKAT Imenica “Marko” u nom. jed. Glagol “voleti” u 3. l. jd. prezenta Imenica “Marija” u akuz. jed. . . . . . . Marko voli Mariju. Slika 35 Analiza rečenice Marko voli Mariju pomoću dijagrama 76 U sledećim poglavljima ćemo koristiti ovu gramatiku kao referentnu literaturu za srpski jezik pri definisanju struktura u SrpTAG. Formalna gramatika SrpTAG koju izrađujemo u ovom radu zamišljena je kao minimalna gramatika srpskog jezika. U tom smislu, u ovoj gramatici ćemo obraditi osnovne rečenične argumente (gramatički subjekat, logički subjekat, pravi objekat, nepravi objekat, priloška dopuna) u svom minimalnom obliku i kanonskom redosledu, kao i osnovne subjekatsko-predikatske i bezlične rečenične modele navedene u (Stanojčić & Popović, 1997). Za sve jedinice i pojave koje opisujemo navodićemo definiciju njihove realizacije prema (Stanojčić & Popović, 1997), a zatim i njihov tretman u gramatici TAG, uključujući tretman koji smo mi odlučili da im damo. 3.3 Elementarno stablo i rečenica srpskog jezika Pogledajmo sada u kakvom odnosu stoje pojmovi elementarnog stabla i rečenice srpskog jezika. Najpre, prema definiciji koju smo mogli videti u poglavlju 2.4.2, pojam elementarnog stabla u TAG odgovara pojmu rečenice prirodnog jezika, ali isto tako i pojmu fraze ili sintagme, kao i na još nižem nivou – pojmu reči. U ovom poglavlju ćemo pojam elementarnog stabla svesti na onaj u kome označava rečenicu koja sadrži glagol117. U podeli elementarnih stabala koju smo naveli u poglavlju 2.4.2 mogli smo videti da se inicijalno elementarno stablo koristi za predstavljanje minimalnih nerekurzivnih struktura, dok se pomoćno elementarno stablo koristi za definisanje minimalnih rekurzivnih struktura. Pored ovog osnovnog određenja i strukturnih obeležja koja ova stabla nose, za elementarna stabla su definisani takozvani principi dobre formiranosti stabala (Kroch & Joshi, 1985), koji oblikuju sve odluke vezane za njihov sastav: 1. Princip leksičkog usidrenja. Prema ovom principu, svako elementarno stablo TAG (LTAG) gramatike mora imati makar jedno leksičko sidro, odnosno mora biti direktno povezano sa leksikonom. Takođe, ovo sidro mora biti fonetski realizovano i, u slučaju stabala koja predstavljaju rečenice ‒ punoznačno. U skladu sa ovim principom, 117 Glagol umesto predikat, što je osnovno određenje predikatske rečenice srpskog jezika prema (Stanojčić & Popović, 1997), ovde koristimo s namerom. Videti poglavlje 3.4 koje govori o ovom odnosu. 77 nerealizovani argumenti nikada ne mogu biti sidra elementarnih stabala, kao što to ne mogu biti ni funkcionalne reči poput predloga, iako mogu predstavljati dodatno sidro u rečeničnom stablu. 2. Princip zajedničkog javljanja predikata i njegovih argumenata. Ovaj princip zahteva da se svako elementarno stablo sastoji minimalno od predikata i svih njegovih argumenata, odnosno da se predikat i njegovi argumenti moraju javiti zajedno unutar istog elementarnog stabla. Ovaj princip je ujedno i ključni princip TAG gramatike i značajno utiče na odluke donete u vezi sa oblikom i načinom predstavljanja elementarnih stabala118. Naspram ove podele i određenja, stoji ona za rečenice srpskog jezika kao predikatske rečenice date u (Stanojčić & Popović, 1997, pp. 194)119. Predikatske rečenice, kao prototip rečenica srpskog jezika, određene su kao rečenice koje sadrže glagol u ličnom glagolskom obliku i koji predstavlja njihovo leksičko jezgro. Predikatske rečenice su dalje podeljene na nezavisne rečenice (obaveštajne, upitne, zapovedne, željne i uzvične) i zavisne (izrične, odnosne, mesne, vremenske, uzročne, uslovne, dopusne, namerne, poredbene i posledične). Dok nezavisne predikatske rečenice imaju komunikativnu funkciju i mogu stajati samostalno, zavisne rečenice imaju konstituentsku funkciju i koriste se za građenje složenih predikatskih rečenica i sintagmi. Kao osnovni tip predikatske rečenice (Stanojčić & Popović, 1997, p. 188) definišu subjekatsko-predikatsku rečenicu, tj. rečenicu koja se sastoji od glavnih rečeničnih konstituenata – subjekta i predikata. Osim toga, određeni glagoli zahtevaju dopune, što su u tom slučaju konstituenti koji se javljaju u rečenici zajedno sa subjektom i predikatom. Određene zavisne rečenice mogu vršiti funkciju ovakvih dopuna, ali isto tako i funkciju subjekta u predikatskoj rečenici. 118 Postoje još dva principa dobre formiranosti elementarnih stabala – princip koji zahteva da svako sintaksičko elementarno stablo ima odgovarajuće semantičko stablo, kao i princip kompozacionalnosti koji zahteva da uvek postoji samo jedno takvo stablo. Mi se u ovom radu nećemo baviti semantičkom komponentom TAG gramatike, tako da ove principe izostavljamo i o njihovim implikacijama neće biti reči u daljem radu. 119 Osnovna podela rečenica u datoj gramatici jeste na komunikativne rečenice (rečenice u širem smislu), kao jedinice komunikacije, i predikatske i specijalne rečenice (rečenice u užem smislu), od kojih nezavisne predikatske rečenice i specijalne rečenice služe za realizovanje komunikativnih rečenica. Za predikatske rečenice videti nastavak teksta. Specijalne rečenice nisu predikatske tj. ne sadrže glagol u ličnom glagolskom obliku. Primeri specijalnih rečenica su Auto! ili Evo ga!. U radu se nećemo dalje baviti ovim tipom rečenica. 78 Rečenice srpskog jezika se prema složenosti dalje dele na proste i složene. Prosta rečenica se sastoji od jedne nezavisne predikatske rečenice, dok se složena rečenica sastoji od najmanje dva dela – takozvane glavne ili upravne rečenice (Stanojčić & Popović, 1997, p. 292) i zavisne rečenice. Jedno od najpre primetnih nepoklapanja pojmova elementarnog stabla i predikatske rečenice odnosi se na oblik glagola unutar njih. Dok je za predikatske rečenice srpskog jezika jasno određeno da se glagol mora nalaziti u ličnom glagolskom obliku da bi formirao predikat bilo nezavisne bilo zavisne rečenice, nigde u određenju elementarnih rečenica tako nešto nije definisano. Tako predikat u elementarnom stablu može biti i glagol koji se nalazi u neličnom glagolskom obliku, naime, glagol u infinitivu (Abeillé, 2002, p. 101), što u krajnjoj instanci proizlazi iz principa 2120. Ako dalje upoređujemo pojam srpske predikatske rečenice i elementarnog stabla, možemo se zapitati kakav je odnos između zavisne i nezavisne predikatske rečenice i inicijalnih i pomoćnih elementarnih stabala. Iako određeno poklapanje između ovih pojmova postoji (nezavisne rečenice = inicijalna stabla, zavisne rečenice = pomoćna stabla), ono ipak nije potpuno. Naime, dok su proste nezavisne rečenice uvek predstavljene kao inicijalna stabla, zavisne rečenice će ponekad biti predstavljene kao inicijalna stabla, a ponekad kao pomoćna, što nije određeno njihovom funkcijom u rečenici, već upravo principom 2. Ovo važi i za segment složene rečenice koji smo definisali kao glavnu rečenicu. Pogledajmo detaljnije ovaj odnos. U poglavlju 2.4.6 smo pomenuli da je jedna od glavnih karakteristika FBLTAG (i TAG gramatika generalno) to da pripajanje ne utiče na domen zavisnosti. Ovo je karakteristika TAG koja direktno proizlazi iz navedenog principa 2. Objasnimo kako. Glagol koji za svoju dopunu bira zavisnu rečenicu može biti sidro inicijalnog stabla s korenim čvorom S, ili pak pomoćnog stabla s korenim čvorom S. Ova razlika se pravi prema tome da li je moguće “izmestiti” argumente iz zavisne rečenice i napraviti pitanje kakvo je, na primer pitanje u rečenici 1, nastalo od „neizmeštene” rečenice kakva je rečenica 2: 120 Za demonstraciju delovanja principa 2 u ovom slučaju pogledati isto poglavlje niže. 79 1. Štai Marko misli da [Ivan voli ti121]. 2. Marko misli da Ivan voli jabuke. U ovakvom pitanju, ukoliko se Šta Marko misli analizira kao glavna rečenica, kao što naša tradicija analize složenih rečenica nalaže, argument šta glagola voleti, kao njegov pravi objekat, nalazi se van domena njegove elementarne rečenice (zavisne rečenice voleti). Ovakva analiza je, dakle, u neskladu sa ranije navedenim principom po kome svi argumenti predikata moraju zajedno s predikatom biti u istoj elementarnoj rečenici. Analiza koja se za „izmeštanje” iz dopunske zavisne rečenice koristi je tako ona koja podrazumeva postojanje stabla Šta Ivan voli kao bazičnog inicijalnog stabla, u koje se pripajanjem unosi segment Marko misli da u obliku pomoćnog stabla (Slika 36). Na odnos glavnog i zavisnog dela rečenice se iz ovog razloga drugačije gleda u okviru TAG. Međutim, nije tretman svih zavisnih rečenica isti u TAG, i ponovo, vođen je istim polaznim principom. Nasuprot prvom navedenom primeru nalazi se onaj u kome nije 121 Oznaka t se koristi unutar transformacione gramatike da označi trag, odnosno poziciju sa koje je izmešten određeni argument. Trag je sa izmeštenim argumentom povezan indeksom i. Ovu notaciju koristimo samo da bi bilo jasnije odakle je argument izmešten, u TAG se ne koristi trag niti zaista postoji izmeštanje u tom smislu reči. Videti nastavak teksta za objašnjenje. Slika 36 Izvođenje stabla za rečenicu Šta Marko misli da Ivan voli? α NP0 S N Ivan VP V voli S1 Šta PRO1 S S S N Marko NP0 VP V misli S S S1 S C da NP0 S PRO1 S S S S N Ivan Šta VP V voli β NP0 VP V misli S S S1 S S1* S C da N Marko γ ⟶ S 80 moguće izmeštanje iz dopunske rečenice. Takav slučaj predstavljaju zavisnoupitne izrične rečenice122: 3. a) Marko pita [zašto Ivan voli jabuke]. b) *Štai Marko pita [zašto Ivan voli ti]. 4. a) Marko pita da li Ivan voli Mariju. b) *Kogai Marko pita [da li Ivan voli ti]? Kako kod ovakvih rečenica nije moguće umetanje pomoćne rečenice Marko pita zašto/da li unutar upitne elementarne rečenice Šta Ivan voli?, nema potrebe da se zavisna rečenica analizira kao glavna. U ovom slučaju se ona analizira kao i bilo koji drugi argument glagola koji se u strukturu unosi kroz zamenu, te je predstavljena kao inicijalno stablo s korenim čvorom S, kao uostalom i struktura u kojoj se zamenjuje (glavna rečenica u našoj gramatičkoj tradiciji) (Slika 37). Ako obratimo pažnju stablo β (Slika 36), možemo videti da u dato stablo kao deo strukture ulazi i veznik, tj. subordinator da. Ovo je još jedno mesto razmimoilaženja naša dva pristupa. Naime, prema (Stanojčić & Popović, 1997, p. 293) glavno obeležje zavisnih rečenica jeste njihov subordinator (zavisni veznik ili veznički spoj – da, pre nego što..., rečce – li, da li, odnosne i upitne zamenice, pridevi i prilozi ‒ ko, šta, gde, koliko, zašto...), koji obavezno čini njihov sastavni deo. Subordinator bez sumnje ostaje obeležje zavisne rečenice i u TAG, ali se stukturno ne mora nalaziti uz svoju zavisnu rečenicu. Tako se u pomenutom stablu on nalazi unutar “glavne” rečenice, dok se u stablu α1 (Slika 37) nalazi unutar stabla zavisne rečenice. Ova odluka je direktna posledica već navedenog principa. 122 Termin zavisnoupitna izrična rečenica je termin gramatike (Stanojčić & Popović, 1997). Za punu klasifikaciju rečenica u ovoj gramatici, pogledati tabelu 19 u dodacima (Tabela 15). 81 Još jedna razlika u pristupu zavisnim rečenicama, a ponovo vezana za princip 2, odnosi se na tretman odnosnih rečenica. Prema (Stanojčić & Popović, 1997, p. 301) odnosne ili relativne rečenice predstavljaju vrstu zavisnih rečenica koje svoj sadržaj pripisuju imeničkim pojmovima na koje se odnose (ili nekoj rečenici), a koje se prepoznaju po takozvanim relativizatorima (koji, kakav, čiji, gde, kuda...). Ovakve konstrukcije se u TAG gramatici nazivaju relativima i smatraju se rezultatom leksičkog pravila izmeštanja (Abeillé, 2002, p. 220). Slika 38 prikazuje ovo pravilo. Njime se prikazuje odnos između inicijalnog elementarnog stabla kakvo je ono u primeru 5, i stabla s imeničkom frazom kao svojim korenim čvorom i umetnutom zavisnom rečenicom s istim glagolom (primer 6)123. Jedna odnosna konstrukcija tako nije predstavljena kao S, već zajedno sa imeničkom frazom na koju se odnosi, čini deo veće imeničke fraze. 123 Na mestu fraze PP s leve strane pravila (Slika 38) može se naći i imenička fraza. U tom slučaju će PP čvor s desne strane pravila biti zamenjen komplementizatorom (C) koji u odgovarajućem padežu (Marko voli ženu ⟶ Žena koju voli). Slika 37 Izvođenje stabla za rečenicu Marko pita zašto Ivan voli jabuke. Marko N NP0m VP V pita S S S1↓ S ADVP S S S S NP0 S VP NP1 S V ADV Zašto N Ivan N jabuke voli Marko N NP0m VP V pita S S ADVP S S S1 S NP0 S VP NP1 S V ADV zašto N Ivan N jabuke voli α S α1 S γ S 82 5. Pričaš o računaru. 6. računar o kome pričaš Isprekidana linija u stablu s leve strane pravila na istoj slici označava da će taj segment stabla biti izmešten. Slika 39 prikazuje izgled stabla za rečenicu Bojana ima računar o kome pričaš. dobijenu relativizacijom. U rečenici predstavljenoj stablom na datoj slici subjekat predikata pričaš je nerealizovan. Međutim, sve dok određeni argument postoji u argumentskoj strukturi glagola, on mora postojati i u elementarnom stablu, prateći isti princip dobre formiranosti. Nerealizovani argumenti glagola, bilo kog tipa, obeležavaju se oznakom za praznu reč – ε. Tretman infinitiva u TAG se, ponovo na osnovu istog principa, razlikuje od tretmana infinitiva u našoj referentnoj gramatici. Prema (Stanojčić & Popović, 1997, pp. 326–327) ⇒ S PPi S VP S Si S PPi NP n S NPi* VP Slika 38 Leksičko pravilo za relativizaciju Slika 39 Elementarno stablo za rečenicu Bojana ima računar o kome pričaš. V pričaš kome VPi S NP Bojana N NP0m VP V ima S S NP1 S NP1 S N računar o S Si S PP PRO S PREP N ε 83 infinitiv je centralni član jedinice pod nazivom glagolska sintagma. Prema daljem određenju, ovakvi glagoli nemaju svoj subjekat, te se uz njih javljaju samo njihove dopune. Glagolske sintagme dalje mogu imati imeničku konstituentsku vrednost i funkciju subjekta (primer 7), pravog objekta (primer 8) i ciljne (finalne) dopune (primer 9), kao i funkciju dopunskog dela predikata uz modalne i fazne glagole (primer 10). 7. Spavati je divno. 8. Ivan je želeo poći kući. 9. Otišao je spavati. 10. Hteo je/počeo je čitati knjigu. Ukoliko bismo u TAG ovu jedinicu analizirali kao glagolsku sintagmu (VP), naišli bismo najpre na nesklad u odnosu na tretman glagolskih dopuna generalno. Naime, za SrpTAG smo, prateći analizu i postavke date u (Abeillé, 2002, p. 80), kao i prateći analizu datu u (Stanojčić & Popović, 1997), dopune glagola ostavili van sintagme VP, kao argumente sa zasebnim frazalnim čvorom, kako bismo omogućili “izmeštanje” njihovih delova, kao i njihovo slobodno raspoređivanje u odnosu na glagol. Potrebno je, dakle, zarad uniformnosti analize u sistemu, ostaviti dopune ovakvih glagola van same VP fraze. Međutim, kako onda među njima uspostaviti vezu? TAG daje svoj specifičan odgovor na ovo pitanje. U TAG, infinitiv se analizira kao sidro inicijalnog stabla s korenim čvorom S, koje, pored odgovarajućih dopuna, uz sebe ima i svoj subjekat. Ovakva analiza infinitiva, kao i svojevrsno opravdanje da se infinitiv može analizirati na ovaj način, usko su povezani sa analizom modalnih i faznih ili aspektualnih glagola. Naime, prema analizi datoj u (Stanojčić & Popović, 1997, p. 248), modalni i fazni glagoli, kao glagoli nepotpunog značenja, traže dopunu u vidu punoznačnog glagola u obliku da+prezent ili u obliku infinitiva. Prema daljoj klasifikaciji, modalni i fazni glagoli u ovakvoj konstrukciji čine modalni deo predikata, dok glagol u infinitivu ili konstrukciji da+prezent čine dopunski deo predikata, a zajedno formiraju konstrukciju pod nazivom složeni predikat. Uvid u specifično ponašanje određenih modalnih i faznih glagola daje (Moskovljević Popović, 2007, p. 89) svrstavajući ih u glagole koji zahtevaju takozvano obligatorno 84 subjekatsko podizanje subjekta124. Ni fazni ni modalni glagoli, navodi Moskovljević, ne dodeljuju svom subjektu semantičku ulogu, već subjekat uvek dele sa subjektom glagola uz koji se javljaju, odnosno – njihov subjekat je zapravo subjekat punoznačnog glagola uz koji stoje (primeri 11-13). U skladu sa time, kada punoznačni glagol u funkciji dopunskog dela predikata nema subjekat u svojoj strukturi, neće ga biti ni u rečenici sa modalnim ili faznim glagolom (primeri 14-16) 125. 11. Marija peva. 12. Marija počinje da peva. / Marija počinje pevati. 13. Marija mora da peva. / Marija mora pevati. 14. °Grmi i seva. 15. °Počelo je da grmi i seva. / Počelo je grmeti i sevati. 16. °Posle onakve sparine, moralo je da grmi i seva. / Posle onakve sparine, moralo je grmeti i sevati. 17. *Marija počinje da ona peva. 18. *Marija mora da ona peva. Ukoliko pokušamo da unesemo subjekat ispred punoznačnog glagola, rezultat će biti negramatična rečenica (primeri 17 i 18), što još jednom pokazuje da je subjekat u strukturi već prisutan, ali da je izmešten, odnosno „podignut” sa pozicije subjekta punoznačnog glagola. Kako smo već videli u jednom od ranije navedenih primera, pojave izmeštanja argumenata iz originalne strukture u TAG zapravo nisu izmeštanje već proizvod pripajanja unutar inicijalne rečenice. Rečenica Marija počinje pevati. se tako tumači kao rezultat pripajanja pomoćnog stabla glagola počinje (Slika 40, stablo β) na inicijalno stablo Marija pevati (ista slika, stablo α). Stablo Marija pevati, obeleženo kao stablo α na datoj slici, zahteva pripajanje odgovarajućeg pomoćnog stabla, što je definisano neskladom između 124 Ovi glagoli se nazivaju glagolima podizanja (engl. raising verbs, fran. verbes „à monté“) zbog efekta „podizanja“ subjekta u strukturi, što je termin transformaciono-generativne gramatike. Pri „podizanju” se subjekat „pomera” levo u odnosu na poziciju u kojoj se nalazi, odnosno u „glavnu” rečenicu. Modalni glagoli koji su ovog tipa su moći, morati, smeti i trebati. 125 Primeri obeleženi kružićem preuzeti su direktno iz (Moskovljević Popović, 2007, p. 89) 85 gornjeg i donjeg obeležja na čvoru VP glagola pevati ‒ glagolska fraza je ovde obeležena istovremeno i kao indikativ (I) i kao infinitiv (W). Ovaj nesklad može biti razrešen jedino pripajanjem stabla koje na korenom čvoru nosi oznaku indikativa, a na priključnom čvoru oznaku infinitiva. Po istoj logici, rečenica Marija počinje da peva trebalo bi da predstavlja rezultat pripajanja pomoćnog stabla počinje da na rečenicu Marija peva. Ipak, dok je ovakva analiza prikladna za rečenice s infinitivom, ona nije moguća za rečenice s prezentom. Naime, da bi pomoćno stablo počinje da došlo na ispravno mesto u rečenici – unutar VP fraze glavne rečenice, ono mora biti glagolsko stablo, odnosno njegov koreni i priključni čvor moraju nositi oznaku VP. Međutim, glagolska fraza ne može sadržati komplementizator u svojoj strukturi, te tako pomoćno stablo sa komplementizatorom da, kakvo je stablo počinje da, može biti samo rečenično stablo. Ne postoji, dakle, način da se rečenice s glagolima podizanja i glavnim glagolom u obliku da+prezent u srpskom jeziku analiziraju ovim mehanizmom i zasad ostaju nerešiv slučaj za ovu teoriju126. S druge strane, kod glagola koji u svojoj argumentskoj strukturi imaju subjekat a primaju dopunu u obliku konstrukcije da+prezent ili u obliku infinitiva, kod takozvanih 126 Ukoliko želimo da ostanemo verni jezičkim principima. Slika 40 Pripajanje faznog glagola na stablo s glagolom u infinitivu počinje VP VPi S V S NP0 V pevati N Marija mod=I mod=W asp=imperf mod=I γ S β t: mod=I form=P t: mod=W asp=imperf VP S VP* počinje V t: - b: mod=I VP S S NP0 V pevati Marija N t: mod=I b: mod=W mod=W asp=imperf α S 86 glagola kontrole127, subjekat ove dopunske rečenice (stablo α, Slika 41 i Slika 42) je nerealizovan i deli kategorije sa subjektom glagola kontrole (stablo β, Slika 40 i Slika 41) preko obeležja subn, subp i subg. Primeri 19 i 20 su primeri rečenica s glagolom kontrole. 19. Markoi želi da ei ode. 20. Markoi želi ei otići. Stablo koje predstavlja glagole kontrole je pomoćno stablo koje se u oba slučaja pripaja na stablo dopune. Slika 41 prikazuje primer izvođenja strukture s dopunom u obliku da+prezent. Slika 42 prikazuje primer izvođenja strukture s dopunom u obliku infinitiva. 127 engl. control verbs, fran. verbes „à contrôle“. Neki od tih glagola su otići, doći, nameravati, omogućiti, bojati se, želeti, hteti, mrzeti, pokušati... (Moskovljević Popović, 2007, p. 95-105) Slika 41 Izvođenje stabla za rečenicu Marko želi da ode Slika 42 Izvođenje stabla za rečenicu Marko želi otići mod=I mod=I mod=I γ NP0 S N ε VP V ode S1 N Marko NP0 VP V želi S S S1 S C da b: mod= I form=P β NP0 VP V želi S S S1 S S1* S C da N Marko t: mod= I form=P subn=s subp=z subg=m num=s gen=m case=1 pers=z α b: mod= I form=P subn=s subp=z subg=m NP0 S N ε VP V ode S subn=s subp=z subg=m β num=s gen=m case=1 pers=z b: mod= I t: mod= W subn=s subg=m subp=z N Marko NP0 VP V želi S S S1* S γ mod=I NP0 S N ε VP V otići S1 N Marko NP0 VP V želi S S mod=W α subn=s subg=m subp=z b: mod=W subn=s subg=m subp=z NP0 S N ε VP V otići S 87 Osnovni princip kojim se možemo voditi pri određivanju načina na koji se kombinuju stabla jeste – ukoliko želimo da omogućimo da se delovi stabla jave udaljeno (kao u primeru Marko misli da Ivan voli jabuke. ⟶ Šta Marko misli da Ivan voli.), tretiraćemo ih kao inicijalna stabla na koja se vrši potencijalno pripajanje glavnog stabla (Marko misli da). Ukoliko pak želimo da sprečimo da se iz određenog segmenta vrši izmeštanje, tretiraćemo takva stabla kao inicijalna, koja se u strukturu glavne rečenice unose zamenom. Infinitivne konstrukcije u funkciji subjekta se po analogiji sa prethodnim primerom takođe mogu prikazati kao rečenično stablo sa nerealizovanim subjektom, međutim ovog puta se unose zamenom u inicijalno stablo glavne rečenice, kako ne želimo da dozvolimo bilo kakvo izmeštanje iz ovog segmenta (Slika 43). 3.4 Pojam i sastav predikata (Stanojčić & Popović, 1997, p. 212) sve predikate dele na: 1. Glagolski 2. Kopulativni, i to: 1. imenski kopulativni (kopula + imenski predikativ) 2. priloški kopulativni (kopula + priloški predikativ) Glagolski predikat se u pomenutoj gramatici definiše kao glagol u “ličnom (=finitnom) obliku, potvrdnom ili odričnom, kongruentnom sa subjektom” (Stanojčić & Slika 43 Izvođenje stabla za rečenicu Spavati je divno VP↓ ADVP S0↓ S S divno ADV t: func=sub mod=W t: mod=I cop=+ num=s pers=var VP S S NP V spavati ε N mod=W S V je VP S0 S NP V spavati ε N VP ADVPm S S divno ADV 88 Popović, 1997, p. 213). Podela glagola koja se u daljem tekstu pravi bazirana je na njihovoj valentnosti, odnosno sposobnosti da uz sebe vežu subjekat (jednovalentan glagol) i dopune (jedna dopuna – dvovalentan glagol, dve dopune – trovalentan glagol). Ova podela je u vezi sa glagolskom kategorijom koju autori nazivaju glagolski rod u širem smislu (Stanojčić & Popović, 1997, pp. 99–100), a po kojoj svi glagoli mogu biti:  prelazni (zahtevaju objekat u obliku akuzativa bez predloga, što ih čini najmanje dvovalentnim glagolima): 21. Marko zna Ivana. 22. Marija je dala Ivanu jabuku. 23. Ivan je stavio knjigu na sto.128  neprelazni (ne zahtevaju objekat u obliku akuzativa, što ih čini najmanje glagolima s nultom valentnošću): 24. Sviće. 25. Spavam. 26. Ivan pomaže bratu. 27. Boli me zub. 28. Stanujemo ovde. 29. Stanujemo u gradu.  povratni (u rečniku se pojavljuju sa rečcom se) 30. Smrkava se. 31. Šalim se. 32. Radujem se pismima. 33. Nalazim se u centru. Kopulativni predikat se definiše kao konstrukcija kojom se subjektu pripisuje određeno svojstvo, kojom se on identifikuje ili mu se dodeljuje izvestan priloški sadržaj (Stanojčić & Popović, 1997, p. 216). Realizuje se kao kopula – glagol jesam/biti u ličnom obliku, i imenski ili priloški deo predikata (predikativ): 128 Podvučeni delovi rečenica su takođe dopune. Nećemo ih ovde dalje definisati, o svakoj od njih će biti više reči detaljno u narednim poglavljima. 89  Imenski kopulativni predikativ se javlja kao imenička jedinica129 u nominativu bez predloga (34), ili kao pridevska jedinica130 u nominativu (35). Pridevi koji razlikuju vid stoje u neodređenom vidu. Zajedno sa kopulom obrazuje imenski predikat. 34. Marko je kuvar. / To je on. 35. Dan je lep. / Taj telefon je moj. / Marko je prvi.  Priloški kopulativni predikativ se javlja kao priloška jedinica131 (36), imenička jedinica u zavisnom padežu (37) ili kao predloško-padežna konstrukcija s priloškim značenjem (38). 36. Centar je daleko. / Centar je jako daleko. 37. Utakmice su sredom. 38. Marija je kod kuće. Na prelazu između ove dve grupe glagola, kao vrsta koja sadrži obeležja i jedne i druge grupe, jesu takozvani nepravi kopulativni glagoli (Stanojčić & Popović, 1997, p. 227). Nepravi kopulativni ili semikopulativni glagoli su prelazni ili neprelazni glagoli koji sadržaj svoje dopune – dopunskog predikativa, pripisuju svom subjektu (kada su neprelazni) ili objektu (kada su prelazni). Dopunski predikativ se može realizovati kao imenička ili pridevska jedinica u nominativu (39) ili instrumentalu bez predloga (40). Može se realizovati i kao predloško-padežna konstrukcija za+akuzativ (41). Autori još naglašavaju da ukoliko pridev razlikuje vid, u nominativu i akuzativu jednakom nominativu stoji u neodređenom vidu. 39. Marko je postao predsednik./ Vreme je postalo hladno. 40. Marka su proglasili pobednikom. / Nazvao ga je ludim. 41. Marija je izrabrala Tanju za deverušu. 129 Imenica, imenička sintagma, imenička zamenica 130 Pridev, pridevska sintagma, pridevska zamenica ili redni broj 131 Prilog, priloška sintagma 90 Pored ove podele, predikat se u datoj gramatici razvrstava prema složenosti na prost i složen (Stanojčić & Popović, 1997, p. 249), pri čemu je složen onaj koji uz sebe ima modalni (morati, moći, hteti, smeti, trebati)132 ili fazni glagol (početi, počinjati, nastaviti, nastavljati, prestati, prestajati...) (Tabela 9). Uzimajući u obzir sve navedene podele, u sastav predikata u gramatici (Stanojčić & Popović, 1997) tako ulaze:  modalni i fazni glagol i dopunski deo predikata, formirajući složeni predikat;  kopula i kopulativni predikativ, formirajući imenski/priloški predikat;133 Kako nas za potrebe formalne gramatike zanima i strukturni sastav samog glagola, pored navedenih delova predikata, možemo reći da, tehnički gledano, u sastav predikata ulaze i sledeći segmenti:  pomoćni glagoli hteti i jesam/biti u složenim glagolskim oblicima;  pomoćni glagol jesam/biti i glagol kod glagola u pasivu;  rečca se;  rečca ne. 132 Ove glagole autori navode kao najvažnije (Stanojčić & Popović, 1997, p. 247). U (Mrazović, 2009, p. 181,185) se u modalne glagole ubrajaju i umeti, želeti, znati i imati - Ujutro ima rano da ustaneš... Miloš zna lepo da priča. (Moskovljević Popović, 2007, p. 91) navodi i valjati i vredeti, kao bezlične glagole – Valja ustati rano, Vredi raditi. U prethodnom poglavlju smo već videli da status ovih glagola ipak nije isti – glagoli želeti i hteti spadaju u glagole kontrole, za razliku od ostalih modalnih glagola koji spadaju u glagole podizanja. 133 U konstrukciji sa dopunskim predikativom, ova jedinica se smatra dopunom glagola, a ne njegovim sastavnim delom. Tabela 9 Tipovi predikata (tabela uz neznatne izmene preuzeta iz (Stanojčić & Popović, 1997, p. 250)) glagolski predikat kopulativni predikat imenski priloški prosti predikat radim bio sam odličan bio sam tamo složeni predikat moram da radim/ moram raditi moram da budem odličan/ moram biti odličan moram da budem tamo/ moram biti tamo 91 Stavke navedene u drugoj podeli se u našoj referentnoj gramatici ne vide kao deo predikata koliko kao karakteristike samog glagola, definisane kroz kategorije glagolskog roda u užem smislu134, po kojoj se glagoli dele na aktivne, medijalne i pasivne, glagolskog roda u užem smislu, po kojoj se glagoli dele na prelazne, neprelazne ili povratne, glagolskog vremena, koje može biti prosto ili složeno i kategorije potvrdnosti/odričnosti. U poređenju sa ovakvim pristupom, sastav glagolske fraze u TAG je nešto drugačiji. Pogledajmo kako izgleda svaka od konstrukcija navedenih u prethodne dve podele. 3.4.1 Modalni i fazni glagoli u TAG Kao što smo mogli videti u prethodnom poglavlju, unutar glagolske fraze u TAG mogu se naći fazni i oni modalni glagoli koji imaju karakteristike glagole podizanja (Slika 44, stablo 1). U suprotnom, ukoliko modalni glagol pripada glagolima kontrole, biće predstavljen zasebnom glagolskom frazom, a njegov dopunski deo unutar stabla zavisne rečenice (Slika 44, stablo 2). Slika 44 Stabla s modalnim glagolima 3.4.2 Kopulativni i semikopulativni glagoli u TAG Kopulativne i semikopulativne konstrukcije se unutar TAG takođe definišu nešto drugačije nego u našoj referentnoj gramatici. U sastav glagolske fraze u TAG ulazi samo 134 Dijateze ili glagolskog stanja 1 počinje VP VPi S V S NP0 V spavati N Marija mod=I mod=W asp=imperf mod=I 2 mod=I NP0 S N ε VP V otići S1 N Marko NP0 VP V želi S S mod=W 92 kopula. S druge strane, sidro kopulativne konstrukcije je samo predikativ. Kopula se u ove konstrukcije unosi zamenom (Slika 45). Kopula se ne smatra nosiocem ove konstrukcije (sidrom ili makar drugim sidrom) iz nekoliko razloga:  njena vrednost je pre svega funkcionalna, odnosno povezivačka, čak i kada je glagol punoznačan (semikopulativan). U TAG se u kopulativne glagole ubrajaju i neki glagoli koji se u našoj referentnoj gramatici definišu kao nepravi kopulativni ili semikopulativni glagoli: postajati, činiti se, izgledati, dokazivati se... (Abeillé, 2002, p. 149).  predikativ kao sidro konstrukcije može direktno uticati na izbor subjekta – npr. na to da li se subjekat može javiti u formi infinitivnog rečeničnog stabla (Slika 45, stablo 3).  u ovom tipu rečenica predikativi su ti koji primaju dopune – i to iz kojih je izmeštanje uvek moguće (Abeillé, 2002, p. 149), a ne sam kopulativni glagol. Da bi “izmeštanje” poput onog prikazanog u primeru 42 bilo moguće, takvi predikativi se predstavljaju kao sidro pomoćnog stabla135 (Slika 46). 42. [Marko je srećan što] vidi Mariju. ⟶ Koga [je Marko srećan što] vidi? 135 Sa eventualnim drugim sidrom, kao što je komplementizator što (Slika 46). Slika 45 Stabla za kopulativni predikativ VP↓ ADVPmn X0↓/S0↓ S S lepo ADV t: mod=I cop=+ 3 VP↓ APmn X0↓ S S lep A num=s gen=m case=nom def=- t: func=sub num=s case=1 gen=m t: mod=I cop=+ num=s gen=m 2 VP↓ NPmn X0↓ S S kuvar N num=s gen=m case=1 pers=z t: func=sub num=s case=1 t: mod=I cop=+ num=s pers=var 1 93 3.4.3 Pomoćni glagoli u TAG Srpski jezik ima dva pomoćna glagola: jesam/biti i hteti, koji se koriste za građenje složenih vremena (prošlog vremena, budućeg vremena, pluskvamperfekta) i načina (potencijala i futura 2). Tipično čine deo predikata, zajedno sa punoznačnim glagolom uz koji stoje. U TAG se pomoćni glagol takođe nalazi unutar glagolske fraze, ali kao dodatak, odnosno jedinica koja u glagolsku frazu ulazi pripajanjem. Za to se navode dva razloga (Abeillé, 2002, p. 111):  punoznačni glagol je taj koji određuje broj i strukturu argumenata, ne pomoćni glagol.  subjekat je i sa semantičke i sa sintaksičke strane subjekat glavnog glagola, a ne pomoćnog glagola. U SrpTAG pomoćne glagole u neakcentovanom obliku predstavljamo kao sidra pomoćnih stabala čiji je koreni čvor VP, dok ih same obeležavamo kao glagole koji nose obeležje aux=+. Kao i kod modalnih glagola, ovakva analiza stoji za sve složene glagolske oblike sem onih koji se sastoje od konstrukcije da+prezent (futur), što je, još jednom, konstrukcija koja ne može biti analizirana tako da se ispoštuju i jezički principi i principi same TAG. Kao i na stablima s glagolom u infinitivu iz primera s modalnim glagolima, i na stablima participa (Slika 47, stablo α), tj. infinitiva (Slika 48, stablo α) pripajanje odgovarajućeg pomoćnog glagola se zahteva zahvaljujući međusobno nekompatibilnim gornjim i donjim obeležjima na čvoru VP. Slika 46 Pomoćno stablo za predikativ sa rečeničnom dopunom num1=num gen1=gen case1=case def=- t: func=sub num=s gen=m case=1 t: mod=I cop=+ num=s VP↓ X0↓ S S AP S1 S A srećan S1* S C što mod=I subn=num 94 Slika 47 Izvođenje konstrukcije s glagolom u prošlom vremenu Promenljiva var kao vrednost atributa form u gornjim obležejima čvora VP u stablima α (Slika 47, Slika 48) označava bilo koju vrednost koja se propisuje za dati atribut. U ovom slučaju, ona će biti unifikovana sa vrednošću atributa form u donjim obeležjima čvora VP u stablu β, pa će tako dobiti vrednost R (prošlo vreme) (Slika 47), odnosno vrednost F (buduće vreme) (Slika 48). Slika 48 Izvođenje konstrukcije u budućem vremenu num=s pers=z gen=f case=1 num=s pers=z gen=f case=1 β mod=I form=P num=s|p pers=z aux=+ t: mod=W VP S VP* će V b: mod=I form=F num=s|p pers=z α S VP S S NP0 V pevati Marija N t: mod=I form=var num=s pers=z b: mod=W će VP VPi S V S NP0 V spavati N Marija mod=I form=F num=s pers=z mod=W mod=I form=P num=s pers=z aux=+ γ num=s pers=z gen=m case=1 γ je VP VPi S V S NP0 V spavao N Marko mod=I form=R num=s pers=z mod=G num=s gen=m mod=I form=P num=s pers=z aux=+ α VP S S NP0 V spavao Marko N t: mod=I form=var num=s pers=z b: mod=G num=s gen=m num=s pers=z gen=m case=1 b: mod=I form=R num=s pers=z mod=I form=P num=s pers=z aux=+ β t: mod=G VP S VP* je V 95 Ukoliko je sam pomoćni glagol složen, kao u slučaju davno prošlog vremena (sam bio radio), vrši se duplo pripajanje – jedno na samom pomoćnom stablu, kada se pomoćni glagol u obliku prezenta pripaja na drugi pomoćni glagol u obliku radnog glagolskog prideva, a zatim i pripajanje takvog izvedenog pomoćnog stabla na osnovno stablo. 3.4.4 Pasivni glagoli u TAG Dok će o samoj pasivnoj konstrukciji biti reči u poglavlju 3.6.1.1. Ovde ćemo govoriti samo o strukturi pasivnog glagola. Osnovna razlika u tretmanu pasivnog glagola između naše referentne gramatike srpskog jezika i TAG jeste u tretmanu glagola jesam/biti. U gramatici (Stanojčić & Popović, 1997, p. 115) ovaj deo pasivnog glagola smatra se pomoćnim glagolom, koji zajedno sa glagolom u obliku glagolskog prideva trpnog čini pasivni glagol. U TAG s druge strane, pasiv se smatra potpuno ekvivalentnim konstrukciji sa kopulativnim predikatom. Kao i u ranije predstavljenim kopulativnim konstrukcijama, za nosioca (sidro) pasivne konstrukcije uzima se glagol u obliku glagolskog prideva trpnog, dok se glagol jesam/biti ne smatra pomoćnim glagolom, već kopulom. Kao jedan od argumenata koji (Abeillé, 2002, p. 182-183) navodi u prilog ovakvoj analizi za francuski jeste razlika između oblika pomoćnog glagola kod aktivnih glagola (primeri 43 i 45) i glagola u istom glagolskom vremenu u pasivnoj konstrukciji (primeri 44 i 46). 43. Jean est arrivé hier. (prošlo vreme, aktiv) Žan je stigao juče. (prošlo vreme, aktiv) 44. Jean a été soigné par Marie. (prošlo vreme, pasiv) Žan je negovan od strane Mari. (prošlo vreme, pasiv)136 45. Quand Jean a été arrivé... (davno prošlo vreme, aktiv) Kad je Žan bio stigao... (davno prošlo vreme, aktiv) 46. Quand Jean a eu été soigne... (davno prošlo vreme, pasiv) 136 (Stanojčić & Popović, 1997, pp. 115–116) oblik sa prezentom glagola jesam/biti (Posao je urađen.) smatraju isključivo prošlim vremenom. Isto i u (Piper et al., 2005). Ipak, (Mrazović, 2009, p. 109) ovakav oblik smatra jednim od oblika prezenta pasiva. 96 Kad je Žan bio negovan... (davno prošlo vreme, aktiv) Ovaj argument međutim ne stoji za srpski jezik. Kao što se može videti iz prevoda primera za francuski jezik, oblik pomoćnog glagola u odgovarajućim složenim vremenima je isti u oba navedena vremena te se ovakva paralela sa francuskim ne može napraviti. Međutim, razlika se može jasno uočiti u prezentu, u kome je kod glagola u pasivnom obliku i dalje potreban glagol jesam/biti, i to u obliku netipičnom za pomoćne glagole. 47. Marija stiže. (prezent, aktiv) 48. Marija biva negovana od strane Žana. (prezent, pasiv) Ovaj argument – postojanje glagola jesam/biti u pasivu u svakom od glagolskih vremena i načina, što ga čini obeležjem pasiva, je naš argument za njegovo razlikovanje od pomoćnih glagola, kao jedinica koje se javljaju samo u pojedinim vremenima i načinima. U nedostatku drugih argumenata za ili protiv TAG analize pasiva, prihvatili smo je kao takvu u ovoj verziji rada. Slika 49 daje prikaz stabla s pasivnom konstrukcijom. Slika 49 Stablo pasivnog glagola 3.4.5 Negacija Rečca ne, još jedan element koji se u gramatici (Stanojčić & Popović, 1997) uvek nalazi u okviru predikata, to mesto ima i u TAG. Rečcu ne smatramo sidrom pomoćnog mod=I form=P func= sub num=s case=1 gen=f pers=z V NP1 S VP (PP) NP0 S PP od strane VP N Marija V biva negovana N Žana mod=T num=s gen=f mod=I form=P num=s pers=z cop=+ num=s case=2 gen=m pers=z 97 glagolskog stabla, koje se pripaja na glagol u obliku indikativa. Pripajanjem čvora NEG na VP frazu, vrednost njenog obeležja neg, koje je dotad imalo neodređenu vrednost, dobija pozitivnu vrednost. Većina leksema u leksikonu ima negativnu vrednost ovog obeležja, sem negativnih oblika glagola hteti i jesam/biti, kao i oblika glagola nemati. Kako je svrha pomoćnih stabala u TAG generalno da omoguće rekurziju, ni ovde, kao ni u prethodnim slučajevima u kojima smo koristili pomoćna stabla (modalni i pomoćni glagoli), ne postoji način da onemogućimo više pripajanja istog pomoćnog stabla na isto mesto u polaznom elementarnom stablu. Tako je na donji VP čvor u stablu γ (Slika 50) i dalje moguće pripajanje istog stabla za negaciju, koje bi u tom slučaju dalo rečenicu Marko ne ne spava. Međutim, ovakva dupla ili višestruka pripajanja je moguće sprečiti u metagramatici, time što će gornji čvor VP dobiti obeležje NP ‒ zabranjeno pripajanje (videti poglavlje 4.5). 3.4.6 Refleksivni glagoli Refleksivna rečca se, prema klasifikaciji datoj u (Stanojčić & Popović, 1997, p. 100), stoji uz tri vrste glagola – prave povratne, u kojima se tumači kao akuzativ zamenice sebe (češljati se = češljati sebe, umivati se = umivati sebe), uzajamno povratne, kod kojih više vršilaca vrše radnju jedni na drugima (tući se, sprijateljiti se) i neprave povratne, za koje se Slika 50 Izvođenje stabla sa negacijom β t: mod=I neg=- VP S VP* ne NEG b: mod=I neg=+ VP S S NP0 V spava Marko N t: mod=I neg=var b: mod=I neg=- ne VP VPi S NEG S NP0 V spava N Marko mod=I neg=+ mod=I neg=- α γ 98 kaže da rečca se ne može biti tumačena kao akuzativ zamenice sebe (ljutiti se, bojati se). U gramatici nismo pronašli primer analize prva dva tipa glagola, te nismo sigurni kako se u rečenici analizira rečca se u odnosu na glagol137. U slučaju treće grupe pak, rečca se čini sastavni deo glagola. U francuskoj TAG, prva dva tipa refleksivnih konstrukcija nastaju kao proizvod leksičkog pravila refleksivizacije. Refleksivizacija kao pravilo redistribucije u francuskoj TAG vrši detranzitivizaciju prelaznog glagola (npr. laver – prati (nešto)), čime on postaje neprelazan (se laver – prati se, kupati se). Rečca se ostaje argument glagola samo semantički; u strukturi ona se nalazi u okviru VP fraze, u koju se unosi zamenom (Abeillé, 2002, p. 190). Ovo praktično znači da za ovakve glagole u leksikonu postoji samo jedan unosak – za njih kao prelazne, nerefleksivne glagole. Slika 51 predstavlja adaptiranu verziju stabla glagola prati nastalog refleksivizacijom. Slika 51 Stablo glagola prati dobijeno procesom refleksivizacije Druga mogućnost za tumačenje pravih i uzajamno povratnih glagola za srpski jezik jeste da su oni proizvod pravila kliticizacije. Pravilo kliticizacije je pravilo realizacije, tako da ne potiskuje sintaksičku funkciju direktnog objekta, već samo menja njegov pojavni oblik. U ovom slučaju, ovi povratni glagoli bi se i dalje tumačili kao prelazni, a rečca se bi bila u istom rangu kao i enklitički oblik ličnih zamenica u funkciji pravog objekta, i samim tim bi i dalje nosila funkciju pravog objekta (Slika 52). 137 Kao pravi objekat ili kao deo samog glagola. t: func=sub num=s case=1 pers=z ref=+ case=4 form=P num=s pers=z X0↓ S S S VP S pere Vn Cl↓ 99 Slika 52 Stablo glagola prati nastalo procesom kliticizacije I jedna i druga analiza imaju svoje prednosti. Analiza u kojoj je rečca se unutar glagolske fraze po tome je identična analizi nepravih povratnih glagola138, čime bi se postigla konzistentnost u predstavljanju refleksivnih glagola uopšte. S druge strane, predstavljanje rečce se kao čvora koji je direktno podređen čvoru S i paralelan drugim čvorovima dopuna, omogućio bi potpuno slobodnu primenu mehanizma raspoređivanja enklitika, bez pravljenja dodatnih stabala za rečcu se u zavisnosti od njene pozicije unutar VP, kao što bi se to moralo činiti kod nepravih nepovratnih glagola. U ovoj fazi rada na SrpTAG ipak smo odlučili da to bude prva analiza, sa rečcom se unutar fraze VP. Za treću grupu glagola, koji su inherentno refleksivni, se čini deo leksičkog unoska samog glagola i posledično predstavlja drugo sidro inicijalnih rečenica u kojima je glagol prvo sidro. Slika 53 tako daje izgled stabala za glagole radovati se ili smrći se. 138 Videti tekst u nastavku. Slika 53 Stabla inherentno refleksivnih (nepravih povratnih) glagola mod=G num=s pers=z gen =n ref=+ S S VP S se Cln smrklo V form=R num=s pers=z gen =n ref=+ ref=+ α2 S S S VP S raduje Vn se Cl α1 S ref=+ t: func=sub num=s case=1 pers=z form=P num=s pers=z ref=+ X0↓ S Vi X0↓ S Cl1↓ VP S S S pere t: func=sub num=s case=1 pers=z ref=+ case=4 func=dir form=P num=s pers=z 100 Kao što se može primetiti, refleksivna rečca se može javiti sa leve ili sa desne strane glagola. U određivanju toga koji ćemo od ova dva redosleda uzeti za primarni možemo se voditi bilo načinom na koji se refleksivni glagoli obično navode, sa rečcom se iza glagola (radovati se) ili onako kako se najčešće raspoređuju u rečeničnim konstrukcijama. Budući da smo već utvrdili da je u našim rečenicama podrazumevamo prisustvo subjekta kao prvog rečeničnog konstituenta za sve subjekatsko-predikatske rečenice, za osnovni redosled kod ovog tipa rečenica uzećemo onaj gde se rečca se nalazi ispred glagola. U stablima u kojima je subjekat izostavljen, alternativno stablo je sa osnovnim povezano leksičkim pravilom realizacije. Kod glagola koji u svojoj strukturi nemaju subjekat, osnovni redosled biće onaj u kome je rečca se iza glagola. Činjenica da glagol i njegov dodatak, ovde rečca se, predstavljaju jedan leksički unosak, kao paralelna sidra, ne podrazumeva istovremeno i to da se ove jedinice moraju u stablu nalaziti jedna pored druge. One mogu biti međusobno udaljene – između njih je moguće pripajanje, kao što je moguće i da se izmešteni argumenti nađu između njih. Za sam kraj navodimo neke minimalne strukture u kojima se mogu naći prelazni i neprelazni glagoli (Slika 54). Stablo α1 je primer stabla dvovalentnih prelaznih glagola, s pravim objektom u obliku akuzativa bez predloga. Stablo α2 je primer stabla jednovalentnih glagola, dok je stablo α3 primer stabla glagola nulte valence, ili bezličnih glagola koji u svojoj strukturi nemaju subjekat. Slika 54 Minimalna elementarna stabla glagola videti, spavati, sevati X0↓m S S spava VP V α2 t: func=sub num=s case=1 pers=z form=P num=s pers=z S S seva VP V α3 form=P num=s pers=z S S PRO0↓ VP V vidim X1↓ α1 form=P num=s pers=x t: func=sub num=s case=1 pers=x t: func=dir case=4 101 3.5 Glagolski argumenti 3.5.1 Realizacija argumenata glagola Glagolski argumenti se mogu realizovati na tri načina: 1. Kao pojedinačne kategorije 2. Kao fraze 3. Kao zavisne rečenice 1) Glagolski argumenti se realizuju kao dve pojedinačne kategorije – kao imenička zamenica (PRO)139 i kao enklitički oblik imeničke zamenice140 (Cl). Iako se u retkim situacijama može vršiti pripajanje čak i na zamenice141, odlučili smo da za njih ne uvodimo frazalnu kategoriju (PROP), budući da mahom nisu modifikovane. Pridevske zamenice se ne javljaju kao samostalni čvorovi pod čvorom S već isključivo kao modifikatori u okviru imeničkih fraza. Slika 55 prikazuje tipična stabla imeničkih zamenica. Stablo 1 prikazuje čvor imeničkih zamenica koji se kao takav javlja na odgovarajućem mestu u glavnom rečeničnom stablu. Vrednosti obeležene promenljivama vari ovde koristimo da označimo bilo koju vrednost unutar datog atributa. Na slikama α1-3 data su redom leksikalizovana inicijalna stabla lične, upitne i negativne zamenice, koje se međusobno razlikuju po vrednostima atributa neg (negacija) i wh (pitanje). 139 Zamenica se može javiti i kao realizacija predikativa u kopulativnim i semikopulativnom konstrukcijama, ali kako predikativ ne smatramo argumentom već predikatom, ovde ga nećemo zasebno predstavljati. Za analizu kopulativne konstrukcije upućujemo nazad na poglavlje 3.4.2. 140 Ili zamenice za svako lice sebe, se u slučaju refleksivnih glagola. 141 Kod odnosnih rečenica – ONAJ [koji je došao juče]. Slika 55 Imeničke zamenice u SrpTAG 1 PRO↓ t: func=var num=var0 pers=var1 gen=var2 case=var3 neg=+|- wh=+|- func=var num=s pers=z gen=m case=1 neg=- wh=+ α2 ko PRO α3 func=var num=s pers=z gen=m case=1 neg=+ wh=- niko PRO α1 func=var num=s pers=z gen=m case=1 neg=- wh=- on PRO 102 Slika 56 prikazuje izgled čvora za zameničke enklitike sa odgovarajućim atributima. Zameničke enklitike, kao i imeničke zamenice, u stablo se unose zamenom. Leksikalizovan primer takvog stabla je stablo α1 na istoj slici. 2) Većina argumenata realizuje se kao neka od fraza – imenička, pridevska142, priloška, predloška ili brojna. Pojam fraze je u neposrednoj vezi sa pojmom sintagme, koju (Stanojčić & Popović, 1997, p. 251) definišu kao jedinicu koja se sastoji od glavne reči (centra sintagme) tj. reči koja predstavlja leksičko jezgro sintagme i jednog ili više zavisnih članova ili konstituenata. Prema centru sintagme određuje se i tip sintagme. Tako će u slučaju kada je glavna reč imenica, u pitanju biti imenička sintagma, kada je glavna reč pridev – pridevska, kada je to prilog – priloška sintagma, a kada su u pitanju brojevi ili brojne reči – partitivna ili paukalna sintagma. Pod predloškom frazom (PP) ovde podrazumevamo jedinicu koja se sastoji od predloga i imeničke jedinice (imeničke sintagme ili zamenice). U datoj gramatici srpskog jezika, ovakve jedinice se nazivaju predloško-padežnim konstrukcijama i ne smatraju se sintagmama. Od svih pomenutih fraza, argumentsku vrednost imaju imenička, priloška, predloška i brojna, te ćemo njih predstaviti u nastavku teksta. Međutim, naglašavamo da u radu zapravo koristimo samo minimalne sintagme ili fraze, odnosno one koje se sastoje samo od centra sintagme. Izuzetak su partitivne i paukalne sintagme kod kojih ćemo uvek predstavljati i odgovarajuću imeničku dopunu, kao i predloške fraze ili predloško- padežne konstrukcije, gde ćemo uvek predstavljati predlog i odgovarajuću imeničku dopunu. 142 Pridevska fraza zapravo nema argumentsku vrednost, videti u nastavku teksta. func=var num=var0 pers=var1 gen=var2 case=2 |3|4 Cl↓ 1 mu Cl func=var num=s pers=z gen=m case=3 α1 Slika 56 Zameničke enklitike u SrpTAG 103 Slika 57 pod brojem 1 prikazuje izgled čvora unutar rečeničnog stabla na kome se unosi odgovarajuće imeničko stablo, poput onog prikazanog pod oznakom α1 na istoj slici. U stablima fraza (Slika 56) i dalje u stablima u radu nećemo beležiti obeležja na međučvorovima (N), osim kada se ona razlikuju od onih na frazalnom čvoru. U ovakvim situacijama dakle podrazumevamo da su gornja i donja obeležja ista, kao i da su data obeležja terminalne i frazalne kategorije ista. Imenička fraza se može javiti i kao sidro u rečenici – u kopulativnim konstrukcijama (Slika 58). Slika 58 Imenička fraza kao predikativ u TAG Pridevska fraza se ne javlja kao rečenični argument, odnosno nema svoju funkciju unutar SrpTAG. Ona može biti predikativ (Slika 59), koji, kao i upravo pomenutu imeničku frazu u istoj funkciji, ne smatramo argumentom glagola jesam/biti. Slika 57 Minimalna imenička fraza 1 t: func =var num=var0 pers=z gen=var2 case=var3 NP↓ α1 func =var num=s pers=z gen=m case=1 Marko NP N VP↓ NPmn X0↓ S S kuvar N num=s gen=m case=1 pers=z t: func=sub num=s case=1 pers=var2 t: mod=I cop=+ num=s pers=var2 pers=var α1 S num=var gen=var1 case=1 pers=z t: func=sub num=var case=1 pers=var2 t: mod=I cop=+ num=var pers=var2 1 S VP↓ NPmn X0↓ S S N◊ 104 Slika 59 Pridevska fraza kao predikativ u SrpTAG Prilog se kao glagolski argument u rečenično stablo takođe unosi zamenom. Čvor na kome se vrši zamena prikazan je pod brojem 1 (Slika 60). Stablo α1 na istoj slici je tipično minimalno stablo priloga kao glagolskog argumenta. Kao i imeničke i zameničke fraze, i priloška fraza se može javiti kao predikativ (Slika 61). Kao i u prethodno navedenim primerima, ni ona u datom slučaju nema argumentsku vrednost. Slika 61 Priloška fraza kao predikativ u SrpTAG t: deg=var ADVP↓ 1 ovde ADVP ADV deg=a α1 Slika 60 Priloška fraza u SrpTAG num=var gen=var1 case=1 def=- 1 S t: func=sub num=var case=1 pers=var2 t: mod=I cop=+ num=var pers=var2 VP↓ APmn X0↓ S S A◊ α1 S VP↓ APmn X0↓ S S lep A num=s gen=m case=1 def=- t: func=sub num=s case=1 pers=var2 t: mod=I cop=+ num=s pers=var2 α1 t: func=sub num=var pers=var2 t: mode=I cop=+ num=var pers=var2 VP↓ ADVPmn X0↓/S0↓ S S ADV◊ VP↓ ADVPmn X0↓/S0↓ S S lepo ADV t: func=sub num=var pers=var2 t: mode=I cop=+ num=s pers=var2 1 105 (Stanojčić & Popović, 1997, pp. 260–261) sintagme koje sadrže broj ili brojnu i količinsku reč klasifikuju u partitivne i paukalne sintagme. Partitivne sintagme se sastoje od partitivne reči, koja predstavlja centar ovih sintagmi, i partitivne dopune, realizovane kao imenička jedinica u obliku partitivnog genitiva. Sama partitivna reč može biti imenica koja označava deo ili skup (komad, veza...), kardinalni broj, počevši od broja pet, redni broj ili brojna imenica (pet, petoro, petorica) i prilog za količinu (koliko, mnogo...). U elektronskom rečniku srpskog jezika postoje oznake za neke reči iz prve grupe, koje su označene kao MesApp (aproksimativna mera), zatim za reči iz druge grupe, označene sa NUM kao vrstom reči za prave brojeve (dva) ili Num kao dodatnom oznaka za imenice (dvojica), kao i za neke od reči iz treće grupe ‒ one nose oznake Quant (kvantitet) i Amm (količina). Postojanje ovih oznaka će značajno olakšati prepoznavanje ovog tipa sintagmi u budućnosti. Paukalne sintagme su, prema autorima, drugačijeg tipa. Paukalne sintagme se sastoje od brojeva dva, tri, četiri, oba i obadva modifikatora imenice, koja je centar ovakve sintagme, a koja se nalazi u obliku paukala. Za SrpTAG potrebno je da definišemo brojnu frazu koja se javlja kao dopuna glagolima kakvi su koštati, iznositi ili težiti, koja se suštinski sastoji samo od osnovnog broja i imenice u odgovarajućem obliku (genitiv singulara/plurala ili paukal). Definisaćemo tako samo dve vrste stabala, jednu za brojeve kakvi ulaze u partitivne sintagme (Slika 62, stablo α1), a drugu za brojeve koji ulaze u paukalne sintagme (Slika 62, stablo α2). U oba slučaja ćemo broj smatrati sidrom stabala, što se može videti na opštem stablu (Slika 62, stablo α). Pod brojem 1 prikazan je izgled rečeničnog čvora na koji se zamenom unose stabla poput α1 i α2. 1 NUMP↓ NUMP NP↓ S NUM◊ case=2 α S num=p pers=z gen=m case=2 sto NP NUMP S NUM N litara α1 S dva NP NUMP S NUM N litra num=s pers=z gen=m case=2 α2 S Slika 62 Brojne fraze u SrpTAG 106 Brojne fraze se mogu javiti i kao predikativi, pri čemu broj predstavlja sidro čitavog stabla (Slika 63). Stablo α1 na istoj slici je stablo partitivne sintagme u funkciji predikativa. Što se predloških fraza u SrpTAG tiče, u njihovoj internoj strukturi predlog predstavlja sidro. Slika 64 prikazuje izgled interne strukture predloške fraze ‒ kao sheme (stablo 1), delimično leksikalizovane (stablo α1) i potpuno leksikalizovane (stablo α1). Slika 64 Predloška fraza u SrpTAG Unutar rečeničnog stabla, predloške fraze se javljaju se u dva oblika. Predlog može predstavljati sidro rečenice, paralelno sa glagolom koji ga regira143 (Slika 65, stabla 1 i α1). Kod takvih predloško-padežnih konstrukcija u rečenično stablo se zamenom unosi samo imenička fraza koja se nalazi unutar predloško-padežne konstrukcije. S druge strane, cela predloško-padežna konstrukcija, tj. predloška fraza se može unositi u stablo 143 Regirati = tražiti određenu jedinicu u konkretnom gramatičkom obliku kao dopunu. Ova pojava naziva se rekcija. t: case=var PP S XP↓ S PREP◊ t: case=var 1 PP S XP↓ S PREP od t: case=2 t: case=2 α1 kuće PP S NP↓ S PREP od t: case=2 t: case=2 num=s gen=f pers=z N α2 α1 1 t: func=sub num=var pers=var1 t: mode=I cop=+ num=var pers=var1 VP↓ X0↓ num=p pers=z gen=var2 case=2 NUM S S sto NP↓ NUMP S t: func=sub num=var pers=var1 t: mode=I cop=+ num=var pers=var1 VP↓ X0↓ S S NUMP NP↓ S NUM◊ case=2 Slika 63 Brojna fraza kao predikativ u SrpTAG 107 zamenom (Slika 65, stabla 2 i α2). Na ovaj način tretiramo predloške fraze u kojima predlog nije regiran. Slika 65 Odnos glagolske i predloške fraze u SrpTAG Predloška fraza se može realizovati i kao priloški predikativ, međutim nije sasvim jasno šta ovde treba uzeti kao sidro konstrukcije. Iz definicije u poglavlju 3.3 zaključuje se da predlog sam po sebi ne može biti sidro čitave rečenične konstrukcije, a kako se dati predlog može javiti u kombinaciji sa bilo kojom imenicom, nema smisla beležiti ih zajedno u leksikonu. Ovu konstrukciju ćemo zato zasad ostaviti kao nerešenu. 3) Glagolski argumenti se mogu realizovati i kao neki od tipova zavisnih rečenica ili kao rečenica sa glagolom u infinitivu. (Stanojčić & Popović, 1997) navode devet tipova zavisnih rečenica, koje se, zajedno sa svojim funkcionalnim vrednostima mogu videti u tabeli u dodacima (Tabela 15). Sve zavisne rečenice imaju jednu od tri konstituentske vrednosti – imeničku (izrične i odnosne rečenice, rečenice s infinitivom), pridevsku (odnosne rečenice) ili prilošku (mesne, vremenske, uzročne, uslovne, dopusne, namerne, poredbene i posledične). Kao što je već pomenuto u delu o elementarnoj rečenici u TAG, stabla zavisnih rečenica ćemo razlikovati prema tome da li je iz njih moguće vršiti izmeštanje ili ne. Svaka zavisna rečenica iz koje je izmeštanje moguće biće predstavljena kao inicijalno stablo, da bi se na nju dalje moglo pripojiti stablo glavne rečenice. U ovom slučaju, 2 S S X0↓ PP1↓ VP V◊ 1 S S NP↓ X0↓ PP1 PREP◊ VP V◊ t: case=7 α2 S S X0↓ PP1↓ VP živeti t: case=4 NP↓ S S X0↓ VP V računati PP1 PREP na α1 108 subordinator čini deo glavne rečenice i unosi se u zavisnu rečenicu tek pripajanjem. Ovakav tretman imaju izrične deklarativne rečenice (Slika 66). Slika 66 Izvođenje složene rečenice sa deklarativnom izričnom rečenicom Upitne deklarativne rečenice, kako iz njih nije moguće izmeštanje, unose se zamenom u osnovnu rečenicu, pri čemu subordinator čini njihov sastavni deo (Slika 67). Slika 67 Izvođenje složene rečenice sa upitnom izričnom rečenicom α S Marko N NP0m VP V pita S S S1↓ S α1 S ADVP S S S S NP0 S VP NP1 S V ADV Zašto N Ivan N jabuke voli γ S Marko N NP0m VP V pita S S ADVP S S S1 S NP0 S VP NP1 S V ADV zašto N Ivan N jabuke voli b: mod= I form=P subn=s subp=z subg=m NP0 S N Ivan VP V spava S subn=s subp=z subg=m α mod=I mod=I mod=I γ NP0 S N Ivan VP V spava S1 N Marko NP0 VP V voli S S S1 S C što o b: mod= I form=P β NP0 VP V voli S S S1 S S1* S C što N Marko t: mod= I form=P subn=s subp=z subg=m num=s gen=m case=1 pers=z 109 Rečenice s glagolom u infinitivu u funkciji dopune tretiramo kao inicijalne rečenice na koje se pripaja glavna rečenica. Slika 68 daje primer ovakve rečenice u funkciji pravog objekta. Slika 68 Izvođenje složene rečenice s rečenicom u infinitivu u funkciji dopune Rečenice s glagolom u infinitivu u funkciji subjekta unose se u glavno rečenično stablo procesom zamene (Slika 69). Slika 69 Izvođenje rečenice sa subjektom u obliku infinitiva (Stanojčić & Popović, 1997, pp. 305–307) navode da odnosne rečenice, imajući i imeničku konstituentsku vrednost, mogu da imaju funkcije glagolskih argumenata – subjekta i objekta. Ipak, u SrpTAG odnosne rečenice smatramo samo modifikatorima argumenta s određenom funkcijom. Slika 70 daje analizu rečenice Onaj ko radi, ne boji se gladi. Prema našoj analizi, ova rečenica je proizvod pripajanja pomoćnog stabla odnosne β α num=s gen=m case=1 pers=z b: mod= I t: mod= W subn=s subg=m subp=z N Marko NP0 VP V želi S S S1* S γ mod=I NP0 S N ε VP V otići S1 N Marko NP0 VP V želi S S mod=W subn=s subg=m subp=z b: mod=W subn=s subg=m subp=z NP0 S N ε VP V otići S VP↓ ADVP S0↓ S S divno ADV t: func=sub mod=W t: mod=I cop=+ num=s pers=var VP S S NP V spavati ε N mod=W S V je VP S0 S NP V spavati ε N VP ADVPm S S divno ADV 110 rečenice Ko radi (stablo β1) na nerealizovan subjekat u stablu glavne rečenice Ne boji se gladi (α). Zamenica onaj je kao koren pomoćnog stabla β najpre pripojena na stablo odnosne rečenice β1, čime je dobijen segment – Onaj ko radi, a zatim i na stablo α, dajući kao rezultat stablo izvedene rečenice γ. Ovako posmatrane, odnosne rečenice imaju isključivo modifikatorsku ulogu i kao takve mogu modifikovati bilo koji od imeničkih argumenata glagola. Nećemo se zato dalje baviti njima u ovom radu. Slika 70 Modifikovanje subjekta odnosnom rečenicom γ S boji VP V S Cl se N gladi S S VP S n ne NEG NP1 S S S C ko VP S S NP V radi ε N NP S NP S NP S Onaj PRO S N ε NP NP* S PRO Onaj b: gen=m case=1 t: gen=m case=1 β boji S S VP S n ne NEG NP S NP1 S N gladi α S VP V S Cl se N ε case=1 β1 S S S C Ko VP S S NP V radi ε N NP S NP* S b: gen=m case=1 t: gen=m case=1 num=s case=1 111 Od ostalih zavisnih rečenica, jedino namerne rečenice mogu imati argumentsku funkciju144, međutim njih nećemo uključiti u ovaj rad. 3.5.2 Funkcije glagolskih argumenata 3.5.2.1 Gramatički subjekat Gramatički subjekat se prema (Stanojčić & Popović, 1997, pp. 212–213) može realizovati na različite načine, ali njegova osnovna konstituentska vrednost jeste imenička jedinica u nominativu (49). On se dalje može realizovati i kao zavisna ‒ izrična rečenica (50) ili nelična glagolska jedinica u obliku infinitiva (51) (Stanojčić & Popović, 1997, pp. 296, 306, 327)145. Može biti i nerealizovan u površinskoj strukturi rečenice (52), ili potpuno nepostojeći u strukturi, kao u bezličnim rečenicama (53). 49. Mačka spava. / Ovo je moja sestra. 50. Svima odgovara da krenemo kući. 51. Spavati je divno. 52. Dolazim! / Idi! 53. Sevalo je. Takođe se navodi da glagol u predikatu kongruira (slaže se) sa subjektom u kategoriji broja, lica, i roda ukoliko glagolski oblik razlikuje rod. Treba napomenuti da se ova konstatacija odnosi samo na subjekat koji nije u obliku zavisne rečenice, realizovan kao glagolska jedinica u infinitivu, jer se u tom slučaju glagol nalazi u nekongruentnom obliku ‒ 3. licu jednine. 144 (Stanojčić & Popović, 1997) navode da i posledične i poredbene rečenice mogu imati funkciju dopuna. Međutim, pri pogledu na njihov oblik (Tabela 15) može se videti da ni jedan ni drugi tip rečenica ne predstavljaju argumente glagola, već dopune unutar odgovarajućih neglagoskih fraza ili sintagmi. 145 (Stanojčić & Popović, 1997) navode da i odnosne rečenice mogu imati funkciju subjekta. Ipak, u prethodnom poglavlju smo mogli videti da smo prihvatili analizu po kojoj su odnosne rečenice modifikatori, te ih nećemo dalje navoditi pri definisanju jedinica koje mogu imati neku od imeničkih argumentskih funkcija. Za primere funkcija odnosnih rečenica svakako pogledati dodatke (Tabela 15). 112 Kako bezlični glagoli nemaju subjekat u svojoj argumentskoj strukturi, on se ne nalazi u bezličnim rečenicama. Kod ličnih glagola, s druge strane, čak i kada je izostavljen, subjekat je prisutan u argumentskoj strukturi glagola, u šta se možemo uveriti zahvaljujući kongruentnom obliku glagola. Sve dok subjekat postoji u argumentskoj strukturi glagola, on mora biti prisutan i u njegovom stablu, čak i kada je nerealizovan. Nerealizovan subjekat, kao i bilo koji drugi nerealizovani argument, obeležava se simbolom ε (prazna reč). Kako je već napomenuto u poglavlju o leksičkim pravilima (2.4.4), struktura s nerealizovanim argumentom smatra se alternativnom u odnosu na strukturu u kojoj je on realizovan. Prateći princip 2 dobre formiranosti elementarnih stabala146, smatramo da i rečenice s glagolom u imperativu imaju subjekat (Slika 71). Slika 71 Subjekat u stablima s imperativom Kao što smo već imali prilike da vidimo u poglavlju 3.5.1 subjekat u formi glagola u infinitivu ima strukturu inicijalne rečenice, koja se u glavnu rečenicu unosi zamenom (Slika 69). Subjekat u formi izrične rečenice se, kako je moguće vršiti izmeštanja iz njega (primeri 54 i 55), predstavlja u formi inicijalnog stabla na koje se pripaja ostatak rečenice (Slika 72). 54. Svima odgovara da [krenemo kući]. 55. [Gde] svima odgovara da [krenemo]? Subjekat u stablima SrpTAG tipično nosi indeks 0. 146 Upućujemo nazad na poglavlje 3.3 pers=2 num=s VP S S NP0 V Dođi ε N mod=Y pers=2 num=s S S 113 Slika 72 Izvođenje stabla sa izričnim subjektom (stablo β) 3.5.2.2 Logički subjekat (Stanojčić & Popović, 1997, pp. 242) navode da je logički subjekat imenička jedinica u akuzativu (56), dativu (57) ili genitivu (58)147. Logički subjekat u akuzativu i dativu javlja se u subjekatsko-predikatskim rečenicama, paralelno sa gramatičkim subjektom. U ovom tipu rečenica glagol uvek kongruira sa gramatičkim subjektom. Logički subjekat u genitivu javlja se u bezličnim rečenicama, te će glagol u njima stajati u bezličnom obliku, odnosno 3. licu jednine (srednjeg roda). 56. Marka boli ruka. 147 Prilikom definisanja konstituentskih vrednosti zavisnih rečenica, (Stanojčić & Popović, 1997, p. 306) navode i da odnosne rečenice mogu vršiti funkciju logičkog subjekta, ali videti fusnotu 145. γ β NP1 VP V odgovara S S S0 S S0* S C da N Svima N majke func = sub form=P num=s pers=z t: func=lsub num=p case=3 pers=z V krenemo ε NP0 S VP S0 S N Svima NP1 VP V odgovara S S S0 S C da V krenemo ε NP0 S VP S S α S t: func=sub num=p case=1 pers=x form=P num=p pers=x 114 57. Marku se sviđa Marija. 58. Sutra nema časova. Uzimajući u obzir da je kanonski red reči u SrpTAG ‒ SVO, u ovde navedenim stablima za logički subjekat (Slika 73), gramatički subjekat se ne nalazi na poziciji koju očekujemo od njega (vrednost indeksa – 0). Na ovom mestu možemo pretpostaviti da ovakve strukture predstavljaju alternative osnovnih struktura – u kojima se gramatički subjekat nalazi sa leve strane glagola, a logički sa desne strane, o čemu će svedočiti i indeksi oba argumenta. 3.5.2.3 Dopune (Stanojčić & Popović, 1997) razlikuju nekoliko tipova glagolskih dopuna. Autori prave razliku između takozvanih rekcijskih dopuna (pravi i nepravi objekat), dopunskog predikativa i priloških dopuna. Kao i subjekat, i dopune se mogu izostaviti iz rečeničnog izraza, iako će uvek biti prisutne u argumentskoj strukturi glagola, pa samim tim i u njegovom elementarnom stablu. Pogledajmo svaku od ovih grupa detaljnije. a) Rekcijske dopune (Stanojčić & Popović, 1997, p. 223) definišu kao dopune uslovljene rekcijom glagola, deleći ih pritom na pravi i nepravi objekat.  Pravi objekat se može realizovati kao imenička jedinica u akuzativu bez predloga (59), kao imenica ili imenička sintagma u genitivu bez predloga (partitivni genitiv ‒ 60, slovenski genitiv ‒ 61), kao izrična rečenica (62) ili kao glagolska jedinica u obliku infinitiva (63) (Stanojčić & Popović, 1997, pp. 295, 306, 327). Može biti i nerealizovan u rečeničnoj strukturi (64). t: func=sub num=s case=1 pers=z t: func=lsub case=4 S S X0↓ VP V boli X1↓ α3 t: func=sub num=s case=1 pers=z S S X1↓ VP V boli X0↓ α3 t: func=lsub case=4 ⇒ Slika 73 Leksičko pravilo za promenu reda reči - logički i gramatički subjekat 115 59. Ivan čita novine. 60. Donesi mleka. 61. Nije rekao ni reči. 62. Ivan je čuo da je Marko otišao na utakmicu. 63. Marko želi krenuti kući. 64. Marko čita. Pravi objekat je tipična dopuna prelaznih glagola, o kojima je bilo reči u delu o predikatu (poglavlje 3.4).  Nepravi objekat može biti realizovan kao imenička jedinica u dativu (65), genitivu (66) ili instrumentalu bez predloga (67), kao predloško-padežna konstrukcija (68) i izrična rečenica (69) (Stanojčić & Popović, 1997, pp. 298, 306). 65. Marko se raduje poklonu. 66. Marko se boji mraka. 67. Bavim se sportom. 68. Marko liči na oca. 69. Ivan je razmišljao (o tome) da se upiše na prava. b) Priloške dopune su jedinice s nekim od priloških značenja (značenje mesta, vremena, načina, mere, namene, itd.) kojima se dopunjavaju glagoli odgovarajućeg značenja (Stanojčić & Popović, 1997, p. 230). Realizuju se kao prilog ili priloška sintagma (70), imenička jedinica u zavisnom padežu s priloškim značenjem (71), brojna (partitivna ili paukalna) sintagma148 (72), kao predloško-padežna konstrukcija s priloškim značenjem (73), kao zavisna (namerna) rečenica s glagolom u obliku infinitiva (74), odnosno glagolom u ličnom glagolskom obliku (75). 70. Nikola se ponašao čudno. [dopuna za način] 148 U SrpTAG i paukalnu i partitivnu sintagmu tretiramo istovetno, pogledati nazad poglavlje 3.5.1 116 71. Jasna ide kući. [dopuna za pravac kretanja] 72. Hleb košta 50 dinara. [partitivna dopuna] 73. Knjiga se nalazi na stolu. [dopuna za mesto] 74. Otišao je večerati. [dopuna za cilj] 75. Marko je da večera. [dopuna za cilj] c) Dopunski predikativ (Stanojčić & Popović, 1997, p. 227-229) definišu kao imeničku ili pridevsku jedinicu koja može biti dopuna prelaznog ili neprelaznog glagola koga, zbog svoje sličnosti sa kopulativnim glagolom, nazivaju nepravi kopulativni (semikopulativni) glagol. Svoj sadržaj preko semikopulativnog glagola pripisuje subjektu (76, 77, 78) u slučaju kada je glagol neprelazan, odnosno objektu (79, 80, 81) kada je glagol prelazan. Realizuje se kao imenička jedinica u nominativu (76) ili instrumentalu bez predloga (78, 79) ili kao pridevska jedinica ili redni broj u nominativu (77) ili instrumentalu bez predloga (80). Može se realizovati i kao predloško-padežna konstrukcija za+akuzativ (78, 81). Autori još naglašavaju da ukoliko pridev razlikuje vid, on u nominativu i akuzativu jednakom nominativu stoji u neodređenom vidu. 76. Marko je postao predsednik. 77. Vreme je postalo hladno. 78. Marko se proglasio pobednikom / za pobednika. 79. Marka su proglasili pobednikom. 80. Ljudi ga smatraju dobrim. 81. Marija je izrabrala Tanju za deverušu. Zbog nejasnoće oko toga kako tretirati sam glagol u konstrukcijama s dopunskim predikativom, koji je istovremeno i kopulativan i glagol koji traži dopunu, kao i dopunskog dela predikata, koji ima karakteristike i dopune i predikativa, odlučili smo da u ovoj fazi izrade rada isključimo ovaj tip glagola i argumenata iz analize. 117 3.6 Rečenični modeli Sada kada smo napravili pregled glagola i svih osnovnih glagolskih argumenata možemo da definišemo i rečenične modele, odnosno porodice stabala za SrpTAG. Kao polaznišnu tačku uzimamo rečenične modele definisane u (Stanojčić & Popović, 1997). Tabela 10 daje prikaz svih subjekatsko-predikatskih rečeničnih modela, sem modela sa semikopulativnim glagolima149, dok Tabela 11 daje prikaz svih bezličnih (besubjekatskih) rečeničnih modela. U terminima TAG gramatike, o ovim modelima ćemo govoriti kao o porodicama stabala, pod kojima su objedinjene sve alternative datog rečeničnog modela, izvedene pomoću leksičkih pravila150. Svi primeri navedeni u tabelama preuzeti su u neizmenjenom obliku iz (Stanojčić & Popović, 1997, pp. 206–329). U našem teorijskom modelu, a u skladu sa tipologijom rečenica u datoj gramatici bavićemo se samo predikatskim (subjekatsko-predikatskim i bezličnim) rečenicama, odnosno rečenicama koje u svojoj strukturi imaju predikat. Specijalne rečenice, odnosno rečenice koje ne sadrže predikat već kao svoje leksičko jezgro imaju neku neglagolsku jedinicu (Auto!, Evo autobusa!) ostaju van okvira ovog rada. Tabela 10 Rečenično modeli subjekatsko-predikatskih rečenica Redni broj Model Glagoli 1 Rečenicaglagol bez dopune = SUBJEKAT PREDIKAT Zoran spava. Dolazi autobus! Neko je došao. Ti se šališ. 2 Rečenicafakultativno prelazni glagol = SUBJEKAT PREDIKAT (PRAVI OBJEKAT) Jasna čita (knjigu). Zoran piše (pismo). 3 Rečenicaprelazni glagol = SUBJEKAT PREDIKAT PRAVI OBJEKAT Jasna je kupila knjigu. 4 Rečenicaneprelazni rekcijski glagol = SUBJEKAT PREDIKAT NEPRAVI OBJEKAT Otac pomaže sinu. Nikola je klimnuo glavom. Tanja se obradovala poklonu. Ivan se stidi brata. Nikola se zaljubio u Tanju. U koga se zaljubio Nikola? 149 (Stanojčić & Popović, 1997) navode dva takva modela: Rečenicaneprelazni nepravi kopulativni glagol = SUBJEKAT PREDIKAT DOPUNSKI PREDIKATIV i Rečenicaprelazni nepravi kopulativni glagol = SUBJEKAT PREDIKAT (PRAVI) OBJEKAT DOPUNSKI PREDIKATIV. 150 Rečenični modeli koji će biti navedeni u nastavku predstavljaju najviši nivo apstrakcije u metagramatici. O tome kako se ovi modeli (porodice) formiraju od alternativa povezanih leksičkim pravilima biće više reči u narednom delu (poglavlje 4.4). 118 Nikola se interesuje za slikarstvo. Tanja se navikla na novu sredinu. 5 Rečenicaneprelazni glagol sa priloškom dopunom = SUBJEKAT PREDIKAT PRILOŠKA DOPUNA Ja stanujem ovde. Knjiga se nalazi na stolu. Nikola se ponašao čudno. Račun iznosi 10.000 dinara. Ova sprava služi za košenje trave. Ovaj džak teži 10 kilograma. Torba leži na klupi. Koliko teži ovaj džak? Ivan živi u Beogradu. Nikola se drži pogrbljeno. 6 Rečenicaneprelazni glagol sa logičkim subjektom = LOGIČKI SUBJEKAT PREDIKAT (GRAMATIČKI) SUBJEKAT Marku se igrala košarka. Marku je zadrhtala ruka. Marku sevaju oči. Jasnu je boleo zub. Marka svrbi nos. Zastao mu je dah. 7 Rečenicaglagol davanja ili saopštavanja = SUBJEKAT PREDIKAT NEPRAVI OBJEKAT PRAVI OBJEKAT Tanja je vratila Zoranu knjigu. 8 Rečenicaprelazni glagol sa priloškom dopunom = SUBJEKAT PREDIKAT PRAVI OBJEKAT PRILOŠKA DOPUNA Ivan je ubacio pismo u sanduče. Marko je položio dokumenta na pisaći sto. Domaćin je uveo goste u salon. Marko je smestio stvari u torbu. Ko je ostavio knjige na klupi? Jasna je stavila knjigu na policu. Zoran je ubacio loptu u koš. 9 Rečenicaimenski predikat151 = SUBJEKAT KOPULA IMENSKI PREDIKATIV Jasna je bila bolesna. Jasna je pametna. Beograd je glavni grad Jugoslavije. Marko je ljut na Tanju. Ovo je moja sestra. Mi smo veoma zauzeti. Zima je bila blaga. Ovaj restoran je vrlo skup. Tanja je najbolja učenica. 10 Rečenicapriloški predikat = SUBJEKAT KOPULA PRILOŠKI PREDIKATIV Stanica je daleko. Ivan je u školi. Ivanov brat je bio na zimovanju. 151 U dijagramskoj predstavi rečenica sa npr. imenskim predikativnom „bolestan“, ovaj model se naziva: Rečenicaimenski predikat „bolestan“. Isto važi i za priloške predikative: njihovim centrom se smatra priloška jedinica pa će rečenica s priloškim predikativom „daleko“ biti imenovana kao Rečenicapriloški predikat „daleko“. 119 Predavanje je sutra. Gde je biblioteka? Biblioteka je vrlo blizu. Jasna je bila u šetnji. Kada je koncert? Mi smo bili u bioskopu. Oni su u teškoj situaciji. Kako je Nikola? Tanja je kod kuće Nikola je dobro. Mi smo bili na predavanju. Tabela 11 Rečenični modeli bezličnih rečenica Redni broj Model Primeri 1 Bezlična rečenicabezlični glagol = PREDIKAT (bezlični glagol u 3. licu jednine (srednjeg roda) ličnog (finitnog) oblika) (U daljini) je sevalo. (Juče) je zahladnelo. Smrklo se. 2 Bezlična rečenicapriloški predikat = GLAGOLSKI DEO PREDIKATA (bezlični glagol u 3. licu jednine (srednjeg roda) ličnog (finitnog) oblika) PRILOŠKI DEO PREDIKATA (Danas) je toplo. (Napolju) je hladno. Sparno je. 3 Bezlična rečenicabezlični glagol = LOGIČKI SUBJEKAT PREDIKAT (bezlični glagol u 3. licu jednine (srednjeg roda) ličnog (finitnog) oblika) Marku se spavalo. Marku je pozlilo. (Danas) ima/nema nastave. (Juče) (ni)je bilo nastave. Sutra (ne)će biti nastave. (Još) ima vremena. (Više) nema vremena. 4 Bezlična rečenicapriloški predikat = LOGIČKI SUBJEKAT GLAGOLSKI DEO PREDIKATA (bezlični glagol u 3. licu jednine (srednjeg roda) ličnog (finitnog) oblika) PRILOŠKI DEO PREDIKATA Marku je bolje. Marku je dosadno. (Sad) mi je lakše. (Ovde) nam je prijatno. Navedeni rečenični modeli definisani su u datoj gramatici kao sintaksički sistem koji reguliše sve tipove rečeničnih konstrukcija. Svaki takav model sastoji se od informacije o tipu glagola (prelazni, neprelazni, kopulativni), odnosno predikata (imenski, priloški) i konstituenatima tj. argumentima, kao jedinicama uslovljenim valencom glagola. Jedinice koje nisu uslovljene valencom glagola, ili odredbe, ne javljaju se u ovim modelima, te su oni u tom smislu minimalni. Raspored glagola i njegovih argumenata unutar modela određen je njihovom ulogom u formiranju rečenične perspektive (Stanojčić & Popović, 1997, p. 352), te su oni 120 raspoređeni tako da se informacija koja se datom rečenicom prenosi prima postepeno, ali i tako da konstituenti koji su blisko vezani stoje zajedno. Tako će tipičan raspored biti subjekat, zatim predikat i onda dopune, od kojih se ona tešnje povezana s glagolom javlja direktno uz njega, a sledeća se naslanja na datu dopunu. Ono što se takođe može primetiti kod navedenih modela jeste da su definisani preko funkcija rečeničnih argumenata. Nasuprot ovakvom definisanju modela stoji njihovo definisanje preko kategorija, karakteristično za transformaciono-generativnu gramatiku. I u TAG tradiciji rečenični modeli se definišu preko kategorija, dok se funkcije navode unutar obeležja. Razlog za to leži pre svega u nameni ovog opisa ‒ dati modeli se koriste kao ulaz za parsere i druge vrste programa za analizu teksta te je potrebno da detaljno opisuju konkretne realizacije rečeničnih segmenata. Pri definisanju rečeničnih modela, tj. porodica stabala za SrpTAG pratićemo konvenciju postavljenu u (Abeillé, 2002, pp. 170–175), uz određene izmene. Prema datoj konvenciji, univerzalni obrazac za beleženje rečeničnih modela jeste arg0Varg1 za modele sa glagolom kao svojim sidrom. Kao što se kategorije u samim stablima obeležavaju rednim brojem, tako se obeležavaju i u modelima, označavajući kanonsku poziciju tog argumenta u stablu tj. rečeničnoj strukturi. Budući da se na ovaj način za srpski jezik ne mogu razlikovati pojedine dopune koje se mogu naći na istoj poziciji (npr. pravi objekat prelaznih glagola i nepravi objekat neprelaznih), odlučili smo da uz kategorije iza indeksa argumenta beležimo i funkcije ‒ arg0Varg1dir. Oznake funkcija koje koristimo su dir (pravi objekat), ind (nepravi objekat), pril (priloška dopuna), lsub (logički subjekat). U sastav modela ulaze i konkretne lekseme, onda kada ih glagoli strogo regiraju. Zapravo, svaki put kada u stablu imamo sidro koje je paralelno s glagolom, leksema koja je nosilac tog sidra direktno će ulaziti u rečenični model. arg0Varg1 je obrazac modela koje ćemo mahom videti za srpski jezik, ali nije jedini. Naime, u modelima u kojima rečenično sidro nije glagol već predikativ, velikim slovom u modelu biće obeleženo primarno sidro tog modela – imenička (arg0vN)152, pridevska (arg0vA) ili priloška jedinica (arg0vAd). 152 Za oznake kategorija koje koristimo u modelima videti tabelu u nastavku teksta (Tabela 12). 121 Kao što u modele u našoj referentnoj gramatici srpskog jezika ne ulaze odredbe, ali ni jedinice kao što su pomoćni, modalni glagoli ili negacija, tako oni neće ulaziti ni u modele, tj. porodice SrpTAG gramatike. Subjekat se u oba modela beleži kao uvek prisutan, i pored činjenice da može biti izostavljen. Kategorije u upotrebi u rečeničnim modelima, odnosno nazivima porodica stabala, nešto su drugačije od onih koje koristimo u stablima. Tabela 12 prikazuje sve oznake koje se javljaju u modelima. Imenice i zamenice grupišemo u jednu kategoriju, obeleženu kao n ili N, kako njihovo razdvajanje unutar modela koji su minimalni (ne sadrže modifikatore) nema značaja. Predloška fraza, odnosno predloško-padežna konstrukcija predstavlja se isključivo kao predlog i imenica (pni), da bi bilo moguće oznaku za predlog zameniti konkretnim regiranim predlogom (npr. odni kod glagola zavisiti). Tabela 12 Simboli u upotrebi u nazivima porodica stabala u SrpTAG SIMBOL OBJAŠNJENJE n N imenička jedinica kao argument imenička jedinica kao sidro v V glagol koji se unosi zamenom glagol kao sidro A pridevska jedinica kao sidro ad Ad priloška jedinica kao argument priloška jedinica kao sidro num NUM brojna reč kao argument brojna reč kao sidro s sup sinf sad izrična deklarativna rečenica izrična upitna rečenica rečenični konsituent u infinitivu namerna rečenica s komplementizatorom c da, što komplementizator konkretan komplementizator kao sidro Cl refleksivna rečca se kao drugo sidro p u, za, iz... predlog konkretan predlog kao sidro dir, ind, lsub, pril rečenična funkcija 122 Pre nego što zasebno pogledamo svaki od modela navedenih u gramatici (Stanojčić & Popović, 1997) i damo njegov ekvivalent definisan preko kategorija za potrebe SrpTAG, predstavimo detaljno leksička pravila na primeru srpskog jezika. 3.6.1 Leksička pravila Kao što je već naglašeno u poglavlju 2.4.4, TAG ne propisuje operaciju transformacije. Ipak, potrebno je na neki način međusobno povezati stabla koja predstavljaju alternacije iste argumentske strukture glagola, odnosno rečeničnog modela. Ovo se u TAG čini pomoću leksičkih pravila. Sva stabla koja su međusobno povezana leksičkim pravilima čine jednu porodicu stabala. U tom smislu, rečenični modeli koji su definisani u prethodnom poglavlju predstavljaju formula kanonskog predstavnika porodice. U ovom delu, definisaćemo pravila koja povezuju te kanonske predstavnike sa njihovim strukturnim alternativama. Obradićemo sva pravila redistribucije, ili pravila koja menjaju strukturu stabala, sem pravila za relativizaciju153. Tako će u sledećem poglavlju biti reči o leksičkim pravilima za pasiv ‒ participski i refleksivni, obezličavanje i refleksivizaciju. Zasebno ćemo obraditi i pitanja, kao primere pravila izmeštanja. Od pravila realizacije, ili pravila koja menjaju mesto i realizaciju argumenata, obradićemo pravilo za izostavljanje argumenata, kliticizaciju i ukratko ćemo prokomentarisati pravila koja menjaju red reči. 3.6.1.1 Pravila redistribucije Pasiv Pod pasivom se u srpskom jeziku podrazumevaju dve vrste konstrukcija – konstrukcija pod nazivom participski pasiv, i konstrukcija pod nazivom refleksivni pasiv. Prema (Stanojčić & Popović, 1997, p. 115) u konstrukciju s participskim pasivom ulaze samo prelazni glagoli. Ipak postoji niz prelaznih glagola koji ne mogu ući u ovu konstrukciju. 153 Kako se relativizacijom ne dobijaju glagolski argumenti već modifikatori, ovo leksičko pravilo neće biti od značaja za nas u ovoj fazi oblikovanja porodica stabala. Leksičko pravilo relativizacije se ipak može se videti u poglavlju 3.3 (Slika 38), gde se može videti i jedan primer ovako izvedene konstrukcije (Slika 39). U poglavlju 3.5.1 može se videti primer izvođenja stabla s relativnom konstrukcijom (Slika 70). 123 (Moskovljević Popović, 2007, p. 59) kao takve navodi glagole hteti, jesti, mrzeti, obići, piti, rasplamtati, razgoreti, razumeti, sresti, znati... (Mrazović, 2009, p. 110) ovoj grupi dodaje i glagole posedovanja: imati, nemati, posedovati, kao i one koje naziva glagolima duhovnog posedovanja: saznati, poznavati. S druge strane, postoji i određena grupa neprelaznih glagola koja može ući u konstrukciju s participskim pasivom. (Moskovljević Popović, 2007, p. 61) tako navodi glagole atakovati, motriti, napadati, nasrtati, navaljivati. Iz ovog razloga je među obeležja glagola u leksikonu uvršteno obeležje pasiv s bulovskom vrednošću, kojim se označava da li glagol može ući u ovakvu konstrukciju. Drugi tip pasivne konstrukcije, takozvani refleksivni pasiv, nije restriktivan i primenjuje se na sve prelazne glagole. Iz tog razloga nećemo uvoditi posebnu oznaku da označimo da je moguće primeniti ovo leksičko pravilo. Pogledajmo sada obe konstrukcije s malo više detalja, kao i njihova leksička pravila. 1. Participski pasiv (Stanojčić & Popović, 1997, p. 245) pasivne rečenice, ili rečenice s pasivnom konstrukcijom svrstavaju u jedan od posebnih tipova predikatskih rečenica. To su rečenice sa ličnom pasivnom konstrukcijom, za razliku od lične ali aktivne konstrukcije subjekatsko- predikatskih rečenica. Razlika se ogleda u obliku glagola, koji je u ovom posebnom tipu rečenica u pasivu, kao i u rasporedu argumenata – subjektom je umesto agensa iskazan pacijens, dok se agens može potpuno izostaviti iz konstrukcije, ali ako je prisutan, javlja se kao agentivna odredba u obliku od (strane)+genitiv. U TAG aktivna i pasivna konstrukcija povezane su leksičkim pravilom, koje je prikazano na sledećoj slici (Slika 74). Kao što je obrazloženo u poglavlju 3.4.4, pasivni glagol iz naše referentne gramatike u TAG razlaže se na dva odvojena čvora. Glagol jesam/biti se u pasivnoj konstrukciji ne tretira kao pomoćni glagol, već kao kopula, te nosi obežje cop=+. Isto tako, u strukturu se unosi zamenom, tj. ne predstavlja sidro pasivne konstrukcije. Samo po sebi, pasivno stablo je inicijalno i njegovo sidro je glagol u obliku trpnog glagolskog prideva. Kongruencija se uspostavlja između pacijensa u funkciji subjekta i kopule u kategorijama broja i lica, kao i glagola u obliku trpnog glagolskog prideva u kategorijama roda i broja. Ukoliko glagol u svojoj strukturi ima još argumenata, njihova struktura ostaje neizmenjena. 124 Supskripte i i j koristimo da označimo vezu između argumenata s leve i desne strane pravila. Slika 74 Leksičko pravilo za participski pasiv Ovim leksičkim pravilom tako su povezana dva stabla na sledećoj slici (Slika 75). Slika 75 Primer leksičkog pravila za pasiv na glagolu voleti Xi S VP Xj S S S pasiv=+ ⇒ t: func= sub num=var case=var1 gen=var2 pers=var3 t: case=2 b: mod=I V◊ Xj S VP↓ (PPi) Xi S PP od strane VP t: cop=+ num=var pers=var3 mod=T num=var gen=var2 pasiv=+ mod=I form=P func= sub num=s case=1 gen=f pers=z V NP1 S VP (PP) NP0 S PP od strane VP N Marija V biva voljena N Marka mod=T num=s gen=f pasiv=+ mod=I form=P num=s pers=z num=s case=2 gen=m pers=z func= sub num=s case=1 gen=m pers=z voli Marko N NP0 Mariju NP1 V S S VP N mod=I form=P num=s pers=z pasiv=+ func= dir num=s case=4 gen=f pers=z mod=I form=P 125 2. Refleksivni pasiv Kao i u prethodnom slučaju, u našoj referentnoj gramatici srpskog jezika, konstrukcija s refleksivnim pasivom smatra se posebnim tipom subjekatsko-predikatske konstrukcije. Ona se koristi za izražavanje situacije s uopštenim ili kolektivnim agensom (Stanojčić & Popović, 1997, p. 246). Karakteristika ove konstrukcije, a u poređenju s odgovarajućom aktivnom, je to što se glagol nalazi u refleksivnom obliku. Subjekat se, iako podrazumevan, u ovim konstrukcijama ne iskazuje, dajući takozvanu deagentizovanu konstrukciju. Kako je agens svejedno implicitno prisutan u argumentskoj strukturi glagola, i dalje će za njega biti rezervisan prazan čvor u stablu. Rečca se postaje drugo sidro ovakve konstrukcije. Glagol kongruira sa pacijensom u funkciji subjekta u odgovarajućim kategorijama. Samo stablo s refleksivnim pasivom je inicijalno. Slika 76 prikazuje leksičko pravilo za ovakve konstrukcije. Slika 76 Leksičko pravilo za refleksivni pasiv Slika 77 prikazuje primer rečenica povezanih ovim pravilom. Slika 77 Primer leksičkog pravila za refleksivni pasiv na glagolu čitati ⇒ Xi S VP Xj S S S VP S V◊ S Cl se Xj S Xi S S S ε t: func=sub num=var gen=var1 pers=z case=1 t: num=var pers=z func= sub num=p case=1 gen=m pers=z čitaju Ljudi N NP0 knjige NP1 V S S VP N mod=I form=P num=p pers=z func= dir num=p case=4 gen=f pers=z mod=I form=P mod=I form=P num=p pers=z ref=+ S S VP S čitaju Vn se Cl NP0 S NP1 S N Knjige N ε S func=sub num=p case=1 gen=f pers=z mod=I form=P ref=+ 126 Obezličavanje Obezličene konstrukcije po (Stanojčić & Popović, 1997, p. 243) predstavljaju vrstu bezlične konstrukcije. Njihova sličnost ogleda se u obliku glagola – i u bezličnim i u obezličenim konstrukcijama glagol se nalazi u neutralnom ili bezličnom obliku – 3. licu jednine (srednjeg roda). Obezličena se od bezličnih konstrukcija ipak razlikuje po tome što se u obezličenim konstrukcijama i dalje podrazumeva postojanje subjekta, iako je on ovde neiskazan. Struktura obezličenih rečenica je refleksivna, te je tako slična onoj kod refleksivnog pasiva, gde je rečca se takođe sidro. Obezličavanje se ipak javlja samo kod neprelaznih glagola. Budući da je subjekat semantički prisutan, kao i u prethodno pomenutoj konstrukciji, i ovde će za agensa će biti rezervisan prazan čvor. I ova struktura je predstavljena inicijalnim stablom. Slika 78 predstavlja dato leksičko pravilo. Slika 78 Leksičko pravilo za obezličavanje Na ovaj način su povezana dva stabla na sledećoj slici (Slika 79). Slika 79 Primer leksičkog pravila za obezličavanje na glagolu putovati ⇒ X0 S VP S S t: func=sub case=1 num=var pers=var1 gen=var3 t: mod=I form=var2 num=var pers=var1 (gen=var3) V◊ X0 S S S ε VP S Cl S se t: func=sub t: mod=I form=var2 num=s pers=z (gen=n) ref=+ ref=+ Putuje ε VP S S NP V putuju Ljudi N func=sub case=1 num=p pers=z gen=m mod=I form=P num=p pers=3 V NP S S S N VP S Cl S se mod=I form=P num=s pers=3 ref=+ func=sub ref=+ 127 Refleksivizacija Refleksivizacijom smatramo proces u kome se prelazni glagol transformiše u povratni neprelazni glagol, kao u primeru: Marko češlja sebe. ⟶ Marko se češlja., pri čemu se dopuna u obliku pravog objekta zamenjuje rečcom se. Refleksivizovanima smatramo sve glagole koji se ubrajaju u grupu pravih i uzajamo povratnih glagola prema klasifikaciji datoj u (Stanojčić & Popović, 1997, p. 100). Slika 80 prikazuje dato leksičko pravilo. Slika 81 predstavlja dva stabla povezana ovim leksičkim pravilom. 3.6.1.2 Pravila izmeštanja Pitanje Za SrpTAG u ovom trenutku uzimamo u obzir tri vrste pitanja:  pitanje koje podrazumeva izmeštanje dopune glagola, u ovom slučaju objekatsko pitanje: 82. Marko jede jabuke. S S VP S N Marko NP Cl se V S func=sub case=1 num=s gen=m pers=z form=P num=s pers=z case=4 ref=+ češlja func=sub case=1 num=s gen=m pers=z func=dir case=4 ref=+ N Marko V češlja NP0 S VP PRO1 S S S sebe form=P num=s pers=z ⇒ Slika 81 Primer leksičkog pravila refleksivizacije Slika 80 Leksičko pravilo refleksivizacije t: func=dir case=4 X0↓ S VP PRO1↓ S S S t: func=sub case=1 num=var gen=var1 pers=var2 t: mode=I form=var3 num=var pers=var2 ⇒ t: func=sub num=var gen=var1 pers=var2 case=1 S S VP S X0 S Cl↓ V◊ S t: mode=I form=var3 num=var pers=var2 case=4 ref=+ 128 83. Šta Marko jede?  subjekatsko pitanje 84. Marko jede jabuke. 85. Ko jede jabuke?  pitanje s upitnim rečima koje ne predstavljaju varijante glagolskih argumenata: 86. Marko jede jabuke. 87. Zašto/Da li Marko jede jabuke? Od pomenutih pitanja, samo prvi i drugi tip pitanja se povezuju sa polaznom rečenicom pomoću leksičkih pravila. Pogledajmo kako izgleda svako od njih. Leksičko pravilo za prvi tip pitanja dato je na narednoj slici (Slika 82). Kada se pogleda desna strana pravila, može se primetiti da je pored toga što je promenjeno mesto dopune, promenjena i vrednost obeležja upitnosti u pozitivnu (wh=+) na glavnom rečeničnom čvoru S i čvoru koji predstavlja izmeštenu dopunu. Iza izmeštenog čvora ne ostaje trag ni prazan čvor. Slika 82 Izvođenje objekatskog pitanja – izmeštanje pravog objekta Slika 83 prikazuje primer datog pravila. Slika 83 Leksičko pravilo izmeštanja za glagol jesti ⇒ X1 S S S S b: wh=+ t: wh=- VP S X0 S b: wh=- t: wh=+ t: wh=- t: wh=- b: wh=- X0 S VP X1 S S S PRO1 S S S S b: wh=+ V VP S NP0 S b: wh=- wh=+ b: wh=- jede Marko N NP0 jabuke NP1 V S S VP N N Marko Šta jede 129 Subjekatska pitanja zapravo ne podrazumevaju izmeštanje već samo eventualnu promenu kategorije ‒ ukoliko je polazna jedinica bila imenica, njena kategorija će postati zamenica ‒ kao i promenu vrednosti obeležja upitnosti. Slika 84 prikazuje ovo leksičko pravilo. Slika 84 Leksičko pravilo za subjekatsko pitanje Primer pravila za subjekatsko pitanje dat je na narednoj slici (Slika 85). Slika 85 Primer leksičkog pravila za subjekatsko pitanje Ko jede jabuke? Treći tip pitanja nije povezan leksičkim pravilom sa svojom osnovnom verzijom. U ovom tipu pitanja dolazi samo do pripajanja upitne reči u obliku pomoćnog stabla s korenim čvorom S na koreni čvor S inicijalne rečenice. Pitanja uvedena upitnim rečima koje ne predstavljaju alternative glagolskih argumenata ne podrazumevaju izmeštanje. Upitna reč se ovde predstavlja pomoćnim stablom s korenim čvorom S. To stablo se pripaja na bilo koje rečenično stablo koje već nije upitno. Slika 86 prikazuje izvođenje stabla s upitnom rečju da li. Ne ulazimo ovde u b: wh=+ wh=+ + PRO0 X1 S S VP b: wh=- wh=- X0 X1 S S VP ⇒ jede Marko N NP0 jabuke NP1 V S S VP N b: wh=- wh=- b: wh=+ wh=- jede Ko PRO0 jabuke NP1 V S S VP N 130 strukturu jedinice da li, ali je inače tretiramo kao složenu jedinicu i svrstavamo je u kategoriju rečci (PAR)154. Slika 86 Primer izvođenja stabla Da li Marko jede jabuke? 3.6.1.3 Pravila realizacije Nerealizovani argumenti I pored toga što argumenti mogu da budu neiskazani u rečenici, sve dok su prisutni u argumentskoj strukturi glagola, potrebno je da budu predstavljeni i u strukturi odgovarajućeg stabla. Sami nerealizovani argumenti se predstavljaju kao inicijalno stablo čije je sidro prazno, a čiji je koren odgovarajuća kategorija. Na ovaj način se obežavaju subjekat ili dopuna izostavljena u rečenici155. Primer leksičkog pravila za nerealizovan subjekat dato je na sledećoj slici (Slika 87). Slika 87 Leksičko pravilo za nerealizovan subjekat. 154 Jedinicu da li posmatramo zajedno iz čisto praktičnih razloga, kako ovaj tip pitanja ne predstavlja pravu alternativu osnovnoj argumentskoj strukturi rečenica i kao takav nije od ključnog značaja u ovoj fazi izrade formalne gramatike. U budućnosti će svakako biti potrebe da se rečca li izdvoji kao upitna enklitika. 155 ali isto tako i subjekat koji se nikada ne javlja u rečenici, i pored toga što se nalazi u argumentskoj strukturi glagola. U poglavlju o gramatičkom subjektu (3.5.2.1) mogli smo videti da takvu situaciju imamo kod rečenica u kojima je glagol u infinitivu i imperativu. Ovakve realizacije subjekta ipak nisu proizvod leksičkog pravila. ε X0 S VP S S ⇒ X0 S VP S S V◊ jede Marko N NP0 jabuke NP1 V S S VP N b: wh=- wh=- b: wh=+ S t: wh=- S wh=+ S S S* S PAR Da li b: wh=+ b: wh=- NP1 S jede V Da li NP0 S S S S S N Marko ADV jabuke VP PAR 131 U leksičkom unosku svakog glagola nalaze se oznake bez1 i bez2 sa bulovskim vrednostima, koje koristimo da označimo da li dati glagol može imati izostavljene do dve dopune. Trovalentni glagol dobiti će tako imati sledeće vrednosti: bez1=‒ čime je označeno da ne može biti izostavljena prva dopuna (*Dobio sam od Marka156.), i bez2=+ koja označava da druga može biti izostavljena (Dobio sam poklon.). Pretpostavljamo da svi glagoli mogu imati izostavljen subjekat te za tu pojavu ne uvodimo posebno obeležje. Slika 88 prikazuje opšte leksičko pravilo za nerealizovanu dopunu. Slika 88 Leksičko pravilo za nerealizovanu dopunu Kliticizacija Pod pojmom kliticizacije podrazumevamo vezu koja se uspostavlja između jedinica u funkciji pravog objekta, nepravog objekta i logičkog subjekta i enklitika s odgovarajućom funkcijom. Budući da je podela zamenica na enklitike (Cl) i zamenice (PRO) tehnička, promenu kategorije koja se ovom prilikom dešava (PRO ⟶ Cl) ne smatramo dovoljnom da ovo pravilo proglasimo pravilom redistribucije. Još bitnije, funkcija ovih jedinica se ovom prilikom ne menja. Pored naziva kategorije, ono što se menja jeste njihov pojavni oblik, kao i pozicija u rečenici. Slika 89 daje leksičko pravilo kliticizacije za pravi objekat. Pravilo kliticizacije je usko vezano za redosled argumenata u stablu. Ako posmatramo stabla s kanonskim redosledom argumenata, ukoliko je subjekatski argument realizovan, enklitika će se naći između subjekta i glagola (leksičko pravilo 1). Ukoliko subjekat nije realizovan, enklitika će se nalaziti iza glagola (leksičko pravilo 2). Leksičko pravilo 3 povezuje stabla u kojima su kliticizirana dva argumenta – u ovom slučaju pravi objekat (Xi) i nepravi objekat (Xj) kod dvorekcijskih glagola. Enklitike se raspoređuju po unapred određenom pravilu po kome se enklitika u dativu uvek nalazi ispred enklitike u akuzativu. 156 Naravno, u odgovarajućem kontekstu i ova rečenica može biti gramatična. S S X0 S VP X1 S ⇒ ε S S S X0 S VP X1 S bez1=+ bez1=+ 132 Slika 89 Leksičko pravilo za kliticizaciju pravog objekta u slučaju realizovanog subjekta (1) i nerealizovanog subjekta (2), kliticizacije sa nepravim objektom (3) Raspored argumenata Opisivanje drugačijeg rasporeda argumenata u odnosu na kanonski podrazumeva definisanje po jednog stabla za svaki od tih redosleda. Ukoliko bismo to radili za, uzmimo, trovalentne glagole imali bismo 24 stabla koja propisuju različit raspored glagola i njegovih argumenata, i to u slučaju da nijedan od argumenata nije kliticiziran ili izostavljen. Jedno od rešenja za ovaj problem izrazite redundantnosti jeste definisanje stabala tako da budu neodređena po redosledu. I pored toga što smo uz čvorove stabala u našoj gramatici beležili indekse koji govore o linearnom rasporedu argumenata, mogli smo ih izostaviti i pretpostaviti da se argumenti mogu javiti u bilo kom redosledu. S druge strane, previše slobode u rasporedu argumenata predstavlja problem kod enklitika. Odluka koju smo doneli za SrpTAG jeste da za argumente stabala zadržimo oznake koje govore o njihovom linearnom rasporedu. Pitanjem reda reči se tako nećemo dalje baviti unutar same SrpTAG. Međutim, moguće je red reči učiniti manje ili više slobodnim ε (1) ⇒ X0 S VP X1 S S S X0 S Cl1 VP S S S (2) ⇒ ε X0 S VP Cl1 S S S X0 S VP X1 S S S (3) ⇒ X0 S VP Xj S S S X0 S Clj VP S S S Xi Cli func=dir case=4 func=dir case=4 ref=‒ func=dir case=4 ref=‒ func=dir case=4 func=dir case=4 func=indir case=3 func=indir case=3 ref=‒ func=dir case=4 ref=‒ 133 unutar metagramatike. U ovom trenutku smo, zarad veće preciznosti, zadržali kanonski redosled argumenata i u metagramatici, uz neznatne izmene u slučaju izostavljenih argumenata. Eksperimentalno smo za stabla jedne rečenične porodice (porodica koja odgovara rečeničnom modelu broj šest) definisali slobodan red reči u odnosu na glagol, o čemu će biti više reči u poglavlju 4.3.2. 3.6.2 Subjekatsko-predikatski modeli U ovom i narednom poglavlju dajemo pregled subjekatsko-predikatskih, a zatim i bezličnih modela, zajedno sa nazivima odgovarajućih porodica unutar SrpTAG. Uz modele navodimo i neke od glagola koji se javljaju u njima157, kao i leksička pravila koja se javljaju za svaku od porodica. Budući da pravila realizacije ili izmeštanja nisu strukturnog tipa – ne menjaju broj, kategoriju ni funkciju rečeničnih argumenata, i kao takva se mogu primeniti na većinu rečeničnih modela158, nećemo ih zasebno napominjati uz svaku porodicu, ali ćemo napominjati da li se na nju može primeniti neko od leksičkih pravila redistribucije. 1 Rečenicaglagol bez dopune = SUBJEKAT PREDIKAT 1) Zoran spava. Dolazi autobus! Neko je došao. 2) Ti se šališ. Prvi, prost subjekatsko-predikatski model biće razdvojen na dva modela u SrpTAG, u skladu sa analizom refleksivnih glagola kao glagola sa dva sidra – glagolom i rečcom se. Odgovarajući modeli će tako biti n0V za nerefleksivne i n0ClV za refleksivne glagole. Neki od glagola koji ulaze u prvi model su: spavati, dolaziti (doći), sedeti, stajati, trčati, pasti, ustati, (za)plakati, spavati, plivati, leteti, rasti, skitati a u drugi: šaliti se, (na)smejati se, šetati se. Leksičko pravilo koje je primenjivo na ovaj model je obezličavanje. 2 Rečenicafakultativno prelazni glagol = SUBJEKAT PREDIKAT (PRAVI OBJEKAT) Jasna čita (knjigu). Zoran piše (pismo). 157 Primere glagola mahom navodimo prema (Stanojčić & Popović, 1997). 158 U slučaju kliticizacije – svuda gde postoji imenička dopuna ili zamenička dopuna u akcentovanom obliku. 134 Drugi rečenični model ćemo predstaviti jednom SrpTAG porodicom u kojoj dozvoljavamo mogućnost da drugi argument glagola, pravi objekat, bude izostavljen. Glagol koji ulazi u ovaj model će tako u leksikonu nositi obeležje bez1 s pozitivnom vrednošću. Model, sam po sebi, izgledaće ovako: n0Vn1dir. U ovaj model ulaze glagoli: čitati, pisati, pevati, jesti, piti. Leksička pravila primenljiva na ovaj model su pasiv i refleksivni pasiv. 3 Rečenicaprelazni glagol = SUBJEKAT PREDIKAT PRAVI OBJEKAT 1) Jasna je kupila knjigu. 2) Marko je pokušao da nađe karte za utakmicu. 3) Marko želi otići. 4) Marko zna da li ima hleba. Pored modela identičnog kao u prethodnom primeru: n0Vn1dir, (primer 1) ovaj model može imati još svojih alternativa. Za glagole sa deklarativnom rečeničnom dopunom, u kom slučaju komplementizator predstavlja dodatno sidro u rečenici, definisali smo model: n0Vdas1 (primer 2), a za glagole s dopunom u obliku infinitiva n0Vsinf1dir (primer 3), i za glagole sa upitnom rečeničnom dopunom, n0Vsup1dir (primer 4). Neki od glagola koji ulaze u ovaj model su: kupiti, pokušati, želeti, znati, razumeti, uzeti, doneti, češljati, prati, umivati. Pored leksičkih pravila pasivizacije (participske i refleksivne), na pojedine glagole iz ovog n0Vn1dir modela primenljiva je i refleksivizacija (češljati, prati, umivati). 4 Rečenicaneprelazni rekcijski glagol = SUBJEKAT PREDIKAT NEPRAVI OBJEKAT 1) Otac pomaže sinu. / Nikola je klimnuo glavom. 2) Ivan se stidi brata. / Marko se napio vode. / Tanja se obradovala poklonu. / Nikola se služi voćem. 3) Marko je odustao od svoje ideje. 4) Nikola se zaljubio u Tanju. / Nikola se interesuje za slikarstvo. / Tanja se navikla na novu sredinu. 5) Ivan je razmišljao da se upiše na prava. / Ivan je pristao da on kupi karte za bioskop. 6) Ivan se pomirio da neće ići na skijanje. 135 Za ovaj rečenični model postoji niz ekvivalenata u SrpTAG. Ako pravimo jedan zajednički model za sve imeničke jedinice bez predloga, on bi izgledao ovako: n0Vn1ind (primer 1) ili ovako, ukoliko je glagol refleksivan: n0ClVn1ind (primer 2). Po padežima nepravog objekta, glagoli koji ulaze u ovaj model su:  genitiv: n0ClVn1nd ‒ najesti se, napiti se, prihvatiti se, latiti se, domoći se, zaželeti se  dativ: n0Vn1ind ‒ služiti, povlađivati, verovati, n0ClVn1ind ‒ obratiti se, zahvaliti (se), diviti se, radovati se  instrumental: n0Vn1ind ‒ upravljati, rukovoditi, vladati, rukovati, slegnuti (ramenima), klimnuti (glavom), mahnuti (rukom) i n0ClVn1ind ‒ služiti se, koristiti se, baviti se, zanimati se, oduševiti se. n0Vpn1ind (primer 3) i n0ClVpn1ind (primer 4) su generalni obrasci za stabala sa predlogom kao drugim sidrom i imeničkom jedinicom u zavisnom padežu. Kako su u pitanju regirani predlozi, svi će ulaziti direktno u sastav dosad navedenih modela. Konkretni modeli su tako:  n0Vodn1ind: (genitiv) zavisiti, odustati, odudarati i n0ClVodn1ind: (genitiv) odučiti se, uzdržati se  n0Vpreman1ind: (dativ) ohladneti  n0Vnan1ind: (akuzativ) ličiti, misliti, nasrnuti; (lokativ) insistirati i n0ClVnan1ind: (akuzativ) navići se, odvažiti se; (lokativ) iskaliti se, zasnivati se n0Vun1ind: (akuzativ) sumnjati; (lokativ) učestvovati, uživati, uspeti i n0ClVun1ind: (akuzativ) zaljubiti se, uveriti se  n0Vzan1ind: (instrumental) čeznuti, žudeti, žaliti, tugovati i n0ClVzan1ind: (akuzativ) zalagati se, opredeliti se, zanimati se, interesovati se  n0Vsan1ind: (instrumental) početi, nastaviti, prestati, odugovlačiti, saosećati  n0Von1ind: (lokativ) govoriti, pričati, pripovedati, raspravljati, diskutovati, razmišljati, misliti, maštati, sanjati, sanjariti Među primerima sa rečeničnim argumentima, tu su n0Vdas1ind (primer 5) i n0ClVdas1ind (primer 6). 136 Leksička pravila primenljiva na ovaj model su: participski pasiv (za pojedine glagole – npr. pomagati) i obezličavanje. 5 Rečenicaneprelazni glagol sa priloškom dopunom = SUBJEKAT PREDIKAT PRILOŠKA DOPUNA 1) Ja stanujem ovde. 2) Nikola se ponašao čudno. / Nikola se drži pogrbljeno. 3) Torba leži na klupi. / Ivan živi u Beogradu. / Ova sprava služi za košenje trave. 4) Knjiga se nalazi na stolu. 5) Račun iznosi 10.000 dinara. / Ovaj džak teži 10 kilograma. 6) Marko je otišao večerati. 7) Marko je otišao da večera. Tipični predstavnik ovog modela u SrpTAG je onaj u kome se priloška dopuna realizuje kao priloška fraza. Primer 1 je tako predstava sledećeg modela: n0Vad1. Refleksivni glagol s istim tipom dopune predstavljamo kao n0ClVad1 (primer 2). Neki glagoli koji ulaze u ove tipove modela su: n0Vad1 ‒ stanovati, živeti i n0ClVad1 ‒ nalaziti se, ponašati se, držati se. Priloška dopuna realizovana kao predloška fraza ili predloško-padežna konstrukcija javlja se u odgovarajuća dva modela: n0Vpn1pril (primer 3) i sa refleksivnim glagolima: n0ClVpn1pril (primer 4). U ove modele ulaze sledeći glagoli: n0Vpn1pril ‒ visiti, staviti, obesiti, stajati, stanovati, živeti, obitavati i n0ClVpn1pril ‒ nalaziti se, nadneti se. Model sa priloškom dopunom u obliku brojne fraze definišemo kao n0Vnumn1 (primer 5). Glagoli koji ulaze u ovaj model su težiti, koštati i iznositi. Priloška dopuna se može realizovati i kao namerna rečenica s glagolom u obliku infinitiva: n0Vsinf1pril (primer 6) ili glagolom u ličnom glagolskom obliku: n0Vsad1 (primer 7). Leksičko pravilo koje se može primeniti na ovaj model je obezličavanje. 137 6 Rečenicaneprelazni glagol sa logičkim subjektom = LOGIČKI SUBJEKAT PREDIKAT (GRAMATIČKI) SUBJEKAT 1) Marku je zadrhtala ruka. 2) Jasnu je boleo zub. 3) Marku smeta što puše. / Marku prija da pliva. 4) Marku se sviđa Marija. 5) Marku se sviđa da pušta muziku. / Marku se sviđa što Marija ne puši. Rečenični modeli sa logičkim subjektom u svom sastavu uvek imaju i gramatički subjekat, kao jedinicu sa kojom kongruira glagol. Osnovni model za ovaj tip rečenica je n1lsubVn0, gde se n1lsub realizuje kao imenička jedinica u dativu (primer 1) ili akuzativu (primer 2), a n0 kao gramatički subjekat. Gramatički subjekat se može realizovati i kao deklarativna izrična rečenica (primeri 3), čineći model n1lsubVcs0. Glagoli koji ulaze u ovaj model su: (dativ) zadrhtati, prijati, smetati, odgovarati, trebati, sevati159, (akuzativ) boleti, svrbeti, interesovati, zanimati, radovati, nervirati. U ekvivalentne modele ulaze i povratni glagoli, te tako imamo model n1lsubClVn0 (primer 4) i sa gramatičkim subjektom u obliku izrične rečenice n1lsubClVcs0 (primeri 5). Glagoli koji ulaze u ove konstrukcije su: sviđati se, dopadati se. Na ovaj model se ne primenjuje nijedno od leksičkih pravila redistribucije. 7 Rečenicaglagol davanja ili saopštavanja = SUBJEKAT PREDIKAT NEPRAVI OBJEKAT PRAVI OBJEKAT 1) Tanja je vratila knjigu Zoranu. 2) Marko je poručio Ivanu da mu vrati ploče. Glagoli koji ulaze u ove konstrukcije su takozvani dvorekcijski glagoli ili glagoli koji traže uz sebe dve rekcijske dopune: jednu u obliku pravog objekta, koji se može realizovati kao imenička jedinica u akuzativu bez predloga (primer 1) ili izrična rečenica (primer 2), a drugu u obliku nepravog objekta, koja se realizuje kao imenička jedinica u dativu bez predloga (primeri 1 i 2). Tipičan model u koji ulaze ovi glagoli je tako n0Vn1dirn2ind (primer 1). Ovi glagoli u leksikonu imaju pozitivnu vrednost obeležja bez2, koje označava da njihov nepravi objekat može biti izostavljen iz rečenice. 159 Kao u primeru Marku sevaju oči. 138 Pravi objekat ovih glagola može se javiti i u obliku deklarativne izrične rečenice, čineći model: n0Vn2inddas1dir (primer 2). Glagoli koji ulaze u navedene modele su: reći, kazati, saopštiti, informisati, javiti, poručiti, dati, pokloniti, preneti. Leksička pravila koja se mogu primeniti na ovaj model su: participski pasiv, refleksivni pasiv i refleksivizacija. 8 Rečenicaprelazni glagol sa priloškom dopunom = SUBJEKAT PREDIKAT PRAVI OBJEKAT PRILOŠKA DOPUNA 1) Marko je stavio kameru blizu. 2) Ivan je ubacio pismo u sanduče. 3) Marko je platio knjigu 100 dinara. Tipičan model glagola koji traže pravi objekat i prilošku dopunu kao svoje argumente jeste n0Vn1dirad2 (primer 1). Za prilošku dopunu realizovanu kao predloška fraza (primer 2), odgovarajući model je n0Vn1dirpn2pril. Priloška fraza se realizuje kao brojna sintagma u primeru 3, ulazeći u model n0Vn1dirnumn2. Glagoli koji ulaze u ovaj model su: ubaciti, položiti, uvesti, smestiti, ostaviti, staviti, rasporediti, izvaditi, izbaciti, skloniti, pomeriti, platiti. Leksička pravila koja se primenjuju na ovaj model su: participski pasiv, refleksivni pasiv i refleksivizacija. 9 Rečenicaimenski predikat = SUBJEKAT KOPULA IMENSKI PREDIKATIV 1) Ovo je Marija. 2) Jasna je pametna. Rečenice sa imenskim kopulativnim predikatom ulaze u dva osnovna modela. Oba modela su neglagolska, tj. glagol ne predstavlja njihovo sidro. Shodno tome, beležimo ga malim slovom, a nosioce modela, imenski predikativ, beležimo velikim. Primer 1 predstavlja model n0vN, u kome se imenica Marija javlja kao sidro stabla. Primer 2 je predstavnik modela n0vA, gde je pridev pametna odgovarajuće sidro. Na ovaj model se ne primenjuje nijedno od leksičkih pravila redistribucije. 139 10 Rečenicapriloški predikat = SUBJEKAT KOPULA PRILOŠKI PREDIKATIV 1) Stanica je daleko. 2) Hleb je 50 dinara. Tipičan model za ovaj tip rečenica u SrpTAG jeste onaj u kome se priloški predikativ realizuje kao priloška fraza: n0vAd (primer 1). Kao i u modelu 9, i ovde se glagol beleži malim slovom, a predikativ velikim, budući da predstavlja sidro odgovarajućeg stabla. U obliku brojne fraze (primer 2), priloški predikativ ulazi u model n0vNUMn. U ovim konstrukcijama za sidro uzimamo samo brojnu reč, ne i imenicu koja ulazi u datu brojnu sintagmu. Kako je već napomenuto u poglavlju 3.5.1, u ovom trenutku nećemo obrađivati realizaciju priloškog predikativa kao predloško-padežne konstrukcije, zbog čega ga i ne navodimo među primerima. Kao i u prethodnom modelu, ni na ovaj model se ne primenjuje nijedno od leksičkih pravila redistribucije. 3.6.3 Bezlični modeli Kako nemaju subjekat u svojoj strukturi, bezlične rečenice se karakterišu glagolom u 3. licu jednine (srednjeg roda). Autori navode da se ovaj tip rečenica koristi da se označe “atmosferske pojave, psihološka i fiziološka stanja i procesi, postojanje ili nepostojanje nekog pojma” (Stanojčić & Popović, 1997, p. 239). Pogledajmo i ove modele zasebno, navodeći uz svaki i odgovarajuće porodice u SrpTAG. 1 Bezlična rečenicabezlični glagol = PREDIKAT (bezlični glagol u 3. licu jednine (srednjeg roda) ličnog (finitnog) oblika) 1) Seva. 2) Smrkava se. Ovaj model je ujedno i najjminimalniji model predikatskih rečenica – sastoji se samo od glagola: V (primer 1). Ukoliko je glagol refleksivan, model će sadržati i rečcu se kao drugo sidro: VCl (primer 2). 140 U ove modele ulaze i sledeći glagoli: V ‒ svanjivati, svanuti, sevati, grmeti, duvati, pljuštati; VCl ‒ naoblačiti se, razvedriti se, otopliti, zahladneti, smračiti se, smrći se, smrkavati se. Na ovaj, kao ni na ostale modele bezličnih rečenica, ne primenjuju se leksička pravila redistribucije. 2 Bezlična rečenicapriloški predikat = GLAGOLSKI DEO PREDIKATA (bezlični glagol u 3. licu jednine (srednjeg roda) ličnog (finitnog) oblika) PRILOŠKI DEO PREDIKATA (Danas) je toplo. / Sparno je. Ni ovaj model ne poseduje subjekatsku poziciju. Umesto subjekta, na toj poziciji se ponekad može javiti prilog, doduše samo kao odredba, te kao takav neće ulaziti u modele. Odgovarajući model u SrpTAG je vAd. U ovakav model mogu ući prilozi: hladno, toplo, vruće, zagušljivo, sparno. 3 Bezlična rečenicabezlični glagol = LOGIČKI SUBJEKAT PREDIKAT (bezlični glagol u 3. licu jednine (srednjeg roda) ličnog (finitnog) oblika) 1) Marku je pozlilo. 2) Marku se slošilo. 3) (Danas) ima/nema nastave. U ovaj model ulaze glagoli koji kao svoju dopunu traže logički subjekat, i to u obliku dativa bez predloga (primeri 1 i 2) i genitiva bez predloga (primer 3). Primer 1 i primer 3 su tako primeri modela n0lsubV, odnosno Vn0lsub. U ovaj model ulaze glagoli: pozliti, presesti, dosaditi, dojaditi, svanuti. Primer 2, kako sadrži refleksivni glagol, je primer modela n0lsubClV. U ovaj model ulaze glagoli: slošiti se, smučiti se. 4 Bezlična rečenicapriloški predikat = LOGIČKI SUBJEKAT GLAGOLSKI DEO PREDIKATA (bezlični glagol u 3. licu jednine (srednjeg roda) ličnog (finitnog) oblika) PRILOŠKI DEO PREDIKATA Marku je dosadno. Nosilac ovog modela u SrpTAG je, kao i u subjekatskim rečenicama, priloški deo predikata, te će model kojim predstavljamo ove rečenice biti n0lsubvAd. 141 3.7 Neobrađeni slučajevi U ovom radu nismo obradili sledeće segmente srpske gramatike:  Aktuelni kvalifikativ ‒ (Stanojčić & Popović, 1997) uvode aktuelni kvalifikativ kao jedinicu koja može imati funkciju dopune uz pojedine glagole (ostaviti ili zateći) i funkciju odredbe, što je češće. Kao dopuna, ova jedinica definiše da je određena karakteristika subjekta (subjekatski aktuelni kvalifikativ ‒ primer 88) ili objekta (objekatski aktuelni kvalifikativ, primer 89) aktuelna u vreme realizovanja situacije. Budući da pripisuje sadržaj subjektu ili objektu, srodan je predikativima. Može se realizovati kao pridevska jedinica u nominativu (u slučaju subjekatskog aktuelnog kvalifikativa), odnosno akuzativu (u slučaju objekatskog aktuelnog kvalifikativa). Budući da se ova jedinica mahom javlja kao odredba i ne javlja ni u jednom od rečeničnih modela u pomenutoj gramatici, nismo je ni mi uključili u obradu. 88. Nikolu smo ostavili loše raspoloženi. 89. Ivan je zatekao brata bolesnog.  Dopunski predikativ i modele sa dopunskim predikativom ‒ takozvani semikopulativni glagoli, koji kao svoju dopunu traže dopunski predikativ, imaju istovremeno i karakteristike kopulativnih i punoznačnih glagola. Budući da ove dve vrste glagola potpuno drugačije tretiramo u SrpTAG, kao i njihove dopune, odnosno predikative (za detalje tretmana kopulativnih konstrukcija videti poglavlje 3.4.2) nije bilo potpuno jasno na koji način im treba pristupiti ovoj konstrukciji. Iz tog razloga smo ovu konstrukciju i rečenične modele sa njom za sada ostavili neobrađene.  Zavisne rečenice, sem izričnih zavisnih rečenica ‒ u ovom trenutku unutar formalne gramatike imamo datu detaljnu analizu izričnih rečenica. Iako ne dajemo detaljnu analizu namernih rečenica, one su uključene u modele porodica stabala. U radu dajemo i ilustrativnu analizu odnosnih rečenica (poglavlje 3.3 i 3.5.1), ali kako one u SrpTAG imaju samo modifikatorsku ulogu, i kao takve ne ulaze u sastav rečeničnih modela, 142 nismo ih uključili u sledeću fazu rada ‒ izradu metagramatike za SrpTAG. Kako se generalno nismo bavili zavisnim rečenicama s modifikatorskom funkcijom, nismo obrađivali nijednu od preostalih vrsta zavisnih rečenica s ovom funkcijom.  Odredbe, uključujući agentivnu odredbu, aktuelni kvalifikativ kao odredbu, apozitiv i apoziciju ‒ kao što u obradu nismo uključili rečenične segmente s modifikatorskom ulogom, tako nismo uključili ni fraze ili pojedinačne kategorije s odredbenom ili modifikatorskom ulogom, iz istih razloga.  Zavisne članove sintagmi – imeničkih sintagmi (zanimljiva knjiga, džemper sive boje, ptica selica, gospodin Nikola...), pridevskih i priloških sintagmi (veoma brz(o), brz(o) poput munje, brži (brže) nego munja, dostojan (dostojno) nečega, svestan da je pogrešio...). Ne postoji posebna tehnička poteškoća sa uključivanjem zavisnih članova sintagmi u rad. Jedini razlog što nisu u ovom trenutku uključeni jeste što postoji veliki broj različitih oblika zavisnih članova sintagmi, koji upravo zbog te raznovrsnosti i vremena koje zahtevaju za podrobnu izradu po nama zahtevaju posebnu pažnju i rad za sebe.  Realizacije pojedinih čvorova – kao što je predloška fraza kao predikativ. Kako predlog, kao funkcionalna reč, ne može biti sidro rečenične strukture, a javljanje predloške fraze unutar kopulativne konstrukcije to zahteva, nije sasvim jasno kako analizirati ovu frazu u funkciji predikativa.  Konstrukciju da+prezent kod faznih glagola ‒ kako ne postoji način da se unutar TAG gramatike na adekvatan način tretira ova konstrukcija. Za detalje analize fazne konstrukcije s da+prezent i infinitivom, pogledati poglavlje 3.3.  Red reči – u SrpTAG se ne bavimo eksplicitno redom reči, pre svega redosledom enklitika. Kako se neke od enklitika nalaze direktno pod čvorom S (enklitički oblici zamenica u funkciji pravog, nepravog objekta ili logičkog subjekta), a neke pod čvorom VP (rečca se, enklitički oblici pomoćnih glagola), nije u potpunosti jasno kako će njihov međusobni redosled moći da bude ostvaren. Više reči o tome kako se red reči može regulisati biće u delu o metagramatici.  Neke slučajeve uslovljenosti, kao kod upotrebe negativnih zamenica, za čije je unošenje u rečenično stablo potrebno da ono nosi oznaku negativnosti (wh=+). 143 4 METAGRAMATIKA ZA SRPTAG 144 4.1 Metodologija Prilikom izrade metagramatike za formalnu gramatiku srpskog jezika SrpTAG koristićemo metodologiju izloženu u (Crabbé, 2005). Prema ovoj metodologiji, metagramatika gramatike stabala izrađuje se u četiri faze, odnosno kroz četiri nivoa generalizovanja (Slika 90). Slika 90 Faze izrade metagramatike U poglavlju u kome smo napravili uvod u XMG (poglavlje 2.5.1) pomenuli smo da se XMG bazira na pojmu klase, i kao što iz navedenog dijagrama možemo videti, svaka od faza u izradi metagramatike podrazumeva izvesnu organizaciju u klase. Prva faza generalizacije sadrži klase koje čine osnovu cele metagramatike. Sve naredne faze u izradi metagramatike podrazumevaju manipulaciju ovim osnovnim klasama – udruženim u natklase, koje se dalje međusobno povezuju operacijom disjunkcije (ili) ili konjunkcije (i). Pogledajmo kako ovaj proces izgleda na jednom ilustrativnom primeru. Recimo da želimo da izradimo gramatiku koja bi mogla da opiše podskup jezika koji se sastoji od sledećih rečenica: Marko voli Mariju., On voli nju., Marko voli nju, Ona voli Marka., Marija je voljena od Marka., Ona je voljena od Marka., Marija je voljena od njega., Ona Generalizovanje rečeničnih segmenata u klase Organizovanje klasa u funkcije Definisanje klasa koje opisuju promene dijateze Definisanje klasa koje opisuju porodice stabala 145 je voljena od njega., Marija je voljena., Ona je voljena. Gramatika koju želimo da koristimo za opisivanje ovih rečenica je, podrazumevano, gramatika stabala. Kako se svaka od pomenutih rečenica razlikuje, u gramatici stabala je potrebno definisati po jedno stablo za svaku od njih. Slika 91 prikazuje stabla za neke od ovih rečenica. Iz ovog primera možemo videti da čak i jedan sveden jezik sadrži značajan broj stabala. Da ne bismo svako od ovih stabala generisali ručno, za njihovu izradu koristimo mehanizam za opisivanje i generisanje stabala, odnosno metagramatiku. Prvo što činimo kada pravimo metagramatiku jeste da utvrdimo da li postoje delovi stabala koji se ponavljaju, kao i koja je njihova funkcija. Tako možemo videti da se segmenti stabala (Slika 92) ponavljaju u većem broju stabala. Slika 91 Stabla ilustrativne gramatike S S NP0 NP1 VP voli V Mariju N Marko N S S PRO0 PRO1 On VP voli V nju voljena NP1 VP V S VP N Marija V je PP0 NP0 S PREP od N Marka voljena NP1 VP P V S VP N Marija V je Slika 92 Segmenti stabala ilustrativne gramatike S S NP0 VP N V 1 S S S PRO0 VP V 2 S S S VP V 3 S S VP P V VP V 4 S NP1 V S S VP N 5 S PRO1 V S S VP 6 S PP0 NP S PREP od N 7 S PP0 PRO S PREP od 8 S 146 U skladu sa najčešćim primerima upotrebe, nazvaćemo ove segmente redom, intuitivnim nazivima: ImeničkiSubjekat (1), ZameničkiSubjekat (2), PredikatAktiv (3), PredikatPasiv (4), ImeničkiObjekat (5), ZameničkiObjekat (6), ImeničkaAgentivnaOdredba (7), ZameničkaAgentivnaOdredba (8). Uradivši ovo, definisali smo osnovne klase naše metagramatike i samim tim završili prvu fazu u procesu izrade metagramatike. Od ove faze više ne operišemo konkretnim segmentima stabala, već njihovim nazivima. Kao što se može primetiti, među imenima klasa koja smo upravo definisali ima izvesnog poklapanja, koje pokazuje da se određene klase javljaju u istoj funkciji. U sledećoj fazi izrade metagramatike, sve takve klase udružujemo pod jednim zajedničkim imenom. U te svrhe koristimo operaciju disjunkcije (⋁), jednu od dve operacije koje propisuje metagramatika. Na taj način ćemo dobiti sledeće natklase: Subjekat ⟶ ImeničkiSubjekat ⋁ ZameničkiSubjekat Predikat ⟶ PredikatAktiv ⋁ PredikatPasiv Objekat ⟶ ImeničkiObjekat ⋁ ZameničkiObjekat AgentivnaOdredba ⟶ ImeničkaAgentivnaOdredba ⋁ ZameničkaAgentivnaOdredba Razliku među dvema klasama za predikat ćemo iskoristiti za definisanje sledeće grupe klasa. Ovakvim grupisanjem klasa ujedno smo završili i drugu fazu građenja metagramatike. U sledećoj fazi u izradi metagramatike želimo da grupišemo natklase koje smo napravili u prethodnoj fazi, i to tako da nove klase oslikavaju promene koje su se desile u predikatskoj strukturi naših rečenica. Ako pogledamo sve rečenice naše gramatike, videćemo da je jedan broj njih aktivan, odnosno da se njihov predikat sastoji od glagola u aktivnom obliku (aktivna dijateza). Drugi deo rečenica je pasivan, i njihov predikat se sastoji 147 od glagola u pasivnom obliku (pasivna dijateza). Ovo zapažanje pretočićemo u tri nove klase: AktivnaDijateza ⟶ Subjekat ⋀ PredikatAktiv ⋀ Objekat PasivnaDijatezaBezAgensa ⟶ Subjekat ⋀ PredikatPasiv PasivnaDijatezaSaAgensom ⟶ Subjekat ⋀ PredikatPasiv ⋀ AgentivnaOdredba h u jednu operacijom disjunkcije: PasivnaDijateza ⟶ PasivnaDijatezaBezAgensa ⋁ PasivnaDijatezaSaAgensom ć . , h h , . ć Prelazan: Prelazan ⟶ AktivnaDijateza ⋁ PasivnaDijateza š , ć h h . š ć apstraktnim klasama kakva je klasa Prelazan, metagramatika, odnosno kompilator , h 160. h aktivnu- . pr h , . ( ) ć h ć h . Pri predstavljanju klasa metagramatike za SrpTAG (poglavlje 4.3) odlučili smo da ih predstavljamo u paru – prva dva koraka zajedno, a zatim i druga dva koraka zajedno. Iz našeg iskustva se pokazalo da su ove faze vrlo blisko povezane i njihovo eksplicitno 160 XMG generiše isključivo sheme stabala, ne i leksikalizovana stabla. 148 izdvajanje u odvojena poglavlja bi bilo ne samo nepraktično, već bi i narušilo konzistentnost izlaganja sadržaja metagmatike. 4.2 Jezik za opis metagramatike Pre nego što krenemo u opis metagramatike srpskog jezika, pogledajmo bliže kako izgleda konkretan programski jezik kojim ćemo se služiti pri opisu metagramatike. Za opis metagramatike koristi se programski jezik objektno-orijentisanog tipa161. Čitavu metagramatiku smo organizovali u tri glavna dokumenta ili modula: 1. Zaglavlja, u kome definišemo tipove, obeležja i svojstva, i gde se pozivaju moduli koji se primenjuju u gramatici. Ovaj modul smo nazvali heder.mg162; 2. Definicije klasa, u kojima se definišu konkretne klase metagramatike. Podelili smo ih u četiri dokumenta – argumenti.mg u kome smo definisali klase glagolskih argumenata, glagoli.mg u kome smo definisali klase glagola i predikata, ostalo.mg gde smo definisali klase pojedinačnih čvorova i čvorova pojedinih pomoćnih stabala i modeli.mg gde smo definisali modele za porodice rečeničnih stabala; 3. Procedure za kompiliranje klasa. Ovaj modul smo nazvali final.mg. 1) U zaglavlju se definišu tipovi, obeležja i svojstva koja će biti korišćena u gramatici. Tipovi mogu biti ugrađeni (bulovski - bool, celobrojni – int, niske – string), može ih definisati sam korisnik, ili mogu biti nespecifikovani – za situacije kada ne želimo da definišemo prihvatljivu vrednost. Korisnik definiše obeležja i svojstva, i njihove vrednosti. Po konvenciji, za tipove se koriste velika slova, a za svojstva i obeležja mala. U ovom delu se takođe pozivaju i moduli koji će biti korišćeni u gramatici, u našem slučaju modul koji reguliše identifikaciju čvorova putem sistema boja (modul color) i modul za regulisanje reda 161 Ukratko, objektno-orijentisan jezik je programski jezik koji se bazira na konceptu objekata (modula, klasa) koji sadrže određen skup informacija i njima dodeljenih procedura (metoda, akcija), koje mogu da modifikuju ciljane objekte. Objekti međusobno mogu interreagovati pozivanjem drugih objekata unutar sebe, čime im se omogućava i korišćenje njihovih informacija i procedura. Za više detalja o logici objektno-orijentisanih jezika pogledati (Kunz, 1991). 162 .mg je ekstenzija koju nose svi dokumenti ove metagramatike. 149 reči među enklitikama (modul rank). Slika 93 daje primer zaglavlja koje smo definisali za srpski jezik. Dodatne opise, obeležene znakom „%”, dajemo unutar same slike. % pozivanje modula - boje, rang i redosled enklitika use color with () dims (syn) use rank with () dims (syn) use unicity with (rank=1) dims (syn) use unicity with (rank=2) dims (syn) use unicity with (rank=3) dims (syn) use unicity with (rank=4) dims (syn) use unicity with (rank=5) dims (syn) % definisanje tipova: type CAT={S, VP, V, N, NP, P, PP, ADV, ADVP, Cl, PRO, C, AUX, NUM, NUMP, A, AP, PAR, NEG, da} % 1) nabrajanjem vrednosti type BOOL={+,-} type MARK={flex,subst,foot,nadj,anchor,coanchor} type CASE={1,2,3,5,6,7} type RANK=[1 .. 5] % 2) davanjem intervala celobrojnih vrednosti type PERSON={x,y,z} type GENDER={m,f,n,MG,NG,FG} type NUMBER={s,p,PL} type FORM={P,R,F,A,I,C,L,D} type COLOR={red,black,white} type FUNC={sub,dir,indir,lsub,pdop} type ASPECT={perf,imperf} type MOD={W,I,Y,G,T,S,X} type NAME={se} type ATOMIC=[ % 3) davanjem strukturisane definicije form : FORM, num : NUMBER, gen : GENDER, pers : PERSON, ref : BOOL, cop : BOOL, func : FUNC, case : CASE, wh : BOOL, neg : BOOL, aux : BOOL, 150 pasiv : BOOL, mod : MOD, subg : GENDER, subp : PERSON, subn : NUMBER, def : BOOL, asp : ASPECT ] % definicije svojstava property mark : MARK property rank : RANK { i_ = 1, ii_ = 2, iii_ = 3, iv_ = 4, v_ = 5} property color : COLOR % definicije obeležja feature top : ATOMIC feature bot : ATOMIC Slika 93 Zaglavlje metagramatike srpskog jezika 2) Unutar fajla sa konkretnim klasama svaka klasa se definiše ključnom rečju class i jedinstvenim imenom klase. Informacije koje se nalaze u telu klase čine Sadržaj klase163. Nasleđivanje i razmena informacija među klasama omogućena je kroz stavke import – koja uključuje drugu klasu ili klase, i čiji se eksportovani čvorovi mogu nesmetano koristiti u ovoj klasi. Pod stavkom export navode se čvorovi koji će biti vidljivi kada se u nekoj drugoj klasi pozove ova klasa. Pod stavkom declare navode se svi čvorovi koji se po prvi put pominju u datoj klasi. Slika 94 daje izgled nekoliko klasa koje smo definisali u metagramatici srpskog jezika, sa pojašnjenjem simbola koji se u tom opisu koriste. Objašnjenja su i ovog puta data iza znaka „%”. 163 Definicija sadržaja klase data je u poglavlju 2.5.1.2 151 class GlagolskiArgument % ime klase export xS xVP fW % promenljive koje će biti vidljive pri uvozu ove klase. x stoji ispred čvorova, a f ispred obeležja. declare ?xS ?xVP ?fW % znak „?” uvodi promenljive { % opis se odnosi na sintaksičku dimenziju { node xS (color = white) [cat = S, bot = [wh = ?fW]]{ % svojstva se navode u oblim zagradama, a obeležja u uglastim. node xVP (color = white) [cat = vp] } } } class PraviObjekatRealizovanN import NeSubjekat[] % uvezena klasa { { node xX1 (mark=subst) [cat=n, top=[func=dir, case=@{2,4}, wh = -]] % @ označava disjunkciju vrednosti. } } class SlaganjeSubjekatPredikat % klasa koja uređuje konguenciju export xSubKon xVPKon declare ?xSubKon ?xVPKon ?fN ?fP ?fG { { node xSubKon [top=[num=?fN, pers=?fP, gen = fG]]; node xVPKon [top=[num=?fN, pers=?fP, gen = fG]] } } 152 class SubjekatRealizovan import GlagolskiArgument[] SlaganjeSubjekatPredikat[] export xSub declare ?xSub { { node xS { node xSub (color=red, mark=subst) [top=[func=sub, case=1, wh = fW]] node xVP }; xSub = xSubKon; % mapiranje čvorova xVP = xVPKon } } Slika 94 Definicije nekoliko klasa iz metagramatike za srpski jezik Zagrade oko čvorova, kao i određen broj drugih simbola, određuju njihov hijerarhijski i linearni odnos. Tabela 13 daje pregled tih simbola i zagrada. Tabela 13 Simboli za definisanje odnosa među čvorovima unutar XMG koda Značenje Simbol Alternativni prikaz nespecifikovan, nabrajanje ; ; neposredna nadređenost -> čvor { čvor } nadređenost ->+ čvor { ...+čvor } nadređenost ili jednakost ->* čvor { ...čvor } neposredno prethođenje >> čvor čvor prethođenje >>+ čvor ,,,+čvor prethođenje ili jednakost >>* čvor ,,,čvor jednakost = = 153 class Primer1 declare ?xS ?xN ?xV { { node xS; node xN; node xV; xS -> xN; x S ->x V; xN >> xV } } class Primer2 declare ?xS ?xN ?xV { { node xS { node xN node xV } } } 1) Navođenjem ključne reči value (vrednost) i imena određene klase, tražimo valuaciju164 date klase. Ukoliko je klasa neispravno formirana, kompilator će objaviti poruku o grešci, ali ukoliko je klasa ispravno formirana, XMG kompilator će je obraditi i kao izlaz proizvesti metagramatiku u formi .xml dokumenta koji sadrži svaki klasu čija je valuacija tražena. Slika 95 predstavlja primer poziva valuacije za dve porodice stabala – obe sa neprelaznim glagolom, ali u prvom slučaju sa glagolom koji je nerefleksivan (pomoću koje se prepoznaje rečenica npr. Marija spava.), a u drugom sa glagolom koji je refleksivan (Marija se smeje.). value n0V value n0ClV Slika 95 Primer poziva valuacija u XMG kodu Ovaj dokument je ulaz za XMG grafički interfejs u kome se može videti izgled svih stabala koja ulaze u sastav date klase (Slika 96)165. Stabla koja generiše XMG nisu leksikalizovana, već predstavljaju samo sheme stabala, kako se može i videti na datoj slici. 164 engl. valuation, određivanje vrednosti 165 Za detalje rada kompilatora upućujemo na (Petitjean, 2013) 154 Slika 96 Grafički korisnički interfejs za XMG 155 4.3 Generalizovanje rečeničnih segmenata u klase i organizovanje klasa u funkcije Da bismo olakšali definisanje osnovnih klasa koje opisuju rečenične segmente, formirali smo za njih određene obrasce. Ovi obrasci se nazivaju apstraktnim klasama, i predstavljaju najviši nivo generalizacije rečeničnih struktura, tj. struktura stabala. Jedna apstraktna klasa propisuje sve čvorove i sva obeležja koje sve klase koje je nasleđuju moraju imati te zato retko sadrži detaljnije opise čvorova. U našoj metagramatici postoje dve takve opšte klase: jedna za glagole, pod nazivom GlagolskiPredikat, a druga za sve argumente glagola, pod nazivom GlagolskiArgument. Ove dve klase će neposredno ili posredno nasleđivati sve ostale klase u našoj metagramatici, te ćemo ih predstaviti pre svih ostalih klasa. Prilikom predstavljanja svih klasa, čvorove i obeležja definišemo prateći konvenciju postavljenu u metagramatici za francuski, izrađenoj po principima izloženim u (Crabbé, 2005)166. Po toj konvenciji, ispred imena čvorova stabala stavljamo oznaku “x”, a ispred vrednosti obeležja oznaku “f”. Tako će čvor pod imenom S (rečenica), u metagramatici biti označen kao xS, dok ćemo promenljivu kojom označavamo vrednosti obeležja, recimo num (broj), predstavljati kao fN167. Ova konvencija je uvedena kako bi i za imena klasa i za imena obeležja mogle da se koriste iste oznake, a koje bi se onda razlikovale po pomenutom prefiksu. Uz svaku definiciju klase navodimo i neleksikalizovano stablo SrpTAG koje data klasa generiše. Poređenjem opisa klase i stabla, može se primetiti da nazivi čvorova nisu isti. Naime, nazivi čvorova u metagramatici su lokalni i definišu se nezavisno od imena čvorova u stablima. Nazivi čvorova u stablima definišu se kao vrednost kategorije cat unutar metagramatičkog opisa svakog čvora. Uz čvorove shema stabala nećemo navoditi obeležja, zbog nedostatka prostora, a i zato što se mogu pročitati iz samog metagramatičkog opisa. 166 Ta metagramatika se može naći na sledećoj adresi: http://subversion.renater.fr/xmg/trunk/METAGRAMMARS/FrenchTAG/. 167 Promenljiva var koju smo koristili u prethodnim poglavljima je ekvivalent ovakvim vrednostima koje počinju slovom „f“. 156 4.3.1 Glagoli Kao polaznu tačku u definisanju osnovnih klasa za glagole navodimo njihovu apstraktnu klasu – klasu GlagolskiPredikat (Slika 97). Ova klasa definiše osnovu svake glagolske klase, što su tri čvora: čvor samog glagola, definisan kao sidro, glagolska fraza, i rečenični čvor kao koreni čvor ove klase (anchor). Ako se pogleda reprezentacija ove klase u obliku stabla na istoj slici, biće jasno zašto se može reći da ova klasa definiše kičmu stabala – ovakvu spinalnu strukturu ćemo videti u istom obliku u svakom stablu unutar SrpTAG. class GlagolskiPredikat export xS xVP xV declare ?xS ?xVP ?xV ?fNeg { { node xS (color = black) [cat = S] [bot = [neg = fNeg]] { node xVP (color = black) [cat = VP] [top = [neg = fNeg]]{ node xV (mark = anchor, color = black) [cat = V] [top = [neg = fNeg]] } } } } Slika 97 Apstraktna klasa za glagole Sva tri čvora ove klase definisana su kao crna168, što znači da se mogu sjediniti sa drugim (crnim ili belim) čvorovima, ali mogu ostati i takvi kakvi jesu, što će biti slučaj kod, na primer, bezličnih neprelaznih glagola. Kako je u pitanju visoko apstraktna klasa, za svaki od ovih čvorova smo definisali svega jedno obeležje – obeležje neg, kojim ćemo označiti da li je u pitanju pozitivan ili negativan glagol, odnosno čitava struktura. Ista vrednost ovog obeležja na svim čvorovima, definisana kao fNeg, omogućava prenošenje iste vrednosti sa sidra na ostale čvorove – ukoliko je glagol u leksikonu definisan kao negativan (npr. glagol nemati). U slučaju kada se negacija unosi u strukturu pripajanjem, obeležje negativnosti se prenosi sa korenog čvora S na niže čvorove (VP i V)169. Nijedno od preostalih obeležja nije opšte za sve glagolske klase, te ćemo ih zasebno definisati u klasama koje nasleđuju ovu klasu. 168 Za opis sistema boja upućujemo na poglavlje 2.5.1.4. 169 Pri pripajanju negacije čvor V zapravo treba i dalje da nosi negativnu vrednost obeležja negativnosti, dok čvorovi S i VP nose pozitivnu. Iz tog razloga tehnički ovakva jednaka distribucija vrednosti ovog obeležja nije S S VP V◊ 157 Ovu klasu nasleđuju tri ključne klase glagolskih predikata: AktivniGlagol, PasivniGlagol i Refleksivnost. Klasa AktivniGlagol je polazna klasa za glagole aktivne dijateze. U definiciji klase (Slika 98) vidi se da nasleđuje klasu GlagolskiPredikat preko metode import. Kada se na ovaj način nasledi klasa, u sadržaju same klase naslednika dovoljno je pomenuti samo one čvorove iz originalne klase čija se vrednosti bliže definiše. U ovom slučaju, to su čvorovi VP i V. Za ove čvorove se definišu i obeležja osnovnih kongruentnih kategorija – broja, roda i lica, kao i obeležja form, u kome se navodi glagolsko vreme datog glagola, i mod, u kome se navodi oblik glagola. class AktivniGlagol import GlagolskiPredikat[] declare ?fM ?fF ?fN ?fP ?fG { { node xVP [top = [mod = fM, form = fF, num = fN, pers = fP, gen = fG]] { node xV [top = [mod = fM, form = fF, num = fN, pers = fP, gen = fG]] } } } Slika 98 Klasa za glagole aktivne dijateze Klasu BezlicniAktivniGlagol (Slika 99) definišemo za bezlične rečenične porodice. Od polazne klase AktivniGlagol razlikuje se po dodeljenim vrednostima kategorija roda, broja i lica. class BezlicniAktivniGlagol import AktivniGlagol[] { { node xVP [top = [num = s, pers = z, gen = n]] { node xV [top = [num = s, pers = z, gen = n]] } } } Slika 99 Klasa za bezlične glagole aktivne dijateze tačna za slučaj pripajanja negacije, ali zbog prirode procesa pripajanja prilikom parsiranja, ona ipak funkcioniše. Za pripajanje prilikom parsiranja pogledati poglavlje 4.5. S S VP V◊i S S VP V◊i 158 Klasa PasivniGlagol koristi se za sve glagole u pasivnom obliku (Slika 100). I ova klasa nasleđuje klasu GlagolskiPredikat, pritom je proširujući za dva nova čvora ‒ čvorove glagola jesam/biti koji čine sastavni deo pasivne konstrukcije. Novi čvorovi se unose u već postojeću glagolsku strukturu definisanjem njihovog odnosa prema njima nadređenom čvoru (S), sestrinskom čvoru (VP), kao i definisanjem međusobnog odnosa samih novih čvorova (VPCop i Vcop). class PasivniGlagol import GlagolskiPredikat[] export xVPcop xVcop declare ?xVPcop ?xVcop ?fT ?fF ?fN ?fG ?fP { { node xS { node xVPcop (color = black) [cat = VP, top = [mod = fT, form = fF]] { node xVcop (color = black, mark = subst) [cat = V, top = [mod = fT, form = fF, num = fN, gen = fG, pers = fP, cop = +]] } node xVP [bot = [mod = T, num = fN, gen = fG]] { node xV [top = [mod = T, num = fN, gen = fG]] } } } } Slika 100 Klasa za glagole pasivne dijateze Klasu Refleksivnost (Slika 101) koristimo kao apstraktnu klasu za sve glagole s refleksivnom strukturom (inherentno refleksivne, nastale refleksivizacijom, u refleksivnom pasivu i obezličene). I ova klasa nasleđuje klasu GlagolskiPredikat, u čiju strukturu unosi novi čvor, ovog puta čvor refleksivne rečce se, koji nosi pozitivnu vrednost obeležja ref. U ovoj klasi nije definisana priroda tog čvora – da li se unosi zamenom ili je sidro, i to će biti definisano u konkretnim klasama koje je nasleđuju. Obeležje rank ukazuje na rang ili redosled koji bi automatski zauzela ova eklitika ukoliko bi se pored nje našle druge VP S S VP V◊ V↓ 159 enklitike (zameničke i glagolske). Kao vrednost obeležja name daje se interni naziv čvora, koji se koristi da bi se na dati čvor referisalo unutar leksikona. Ovo ime predstavlja id čvora i neophodno je da bi se dati čvor definisao kao dodatno sidro (Slika 183 daje takav primer). class Refleksivnost import GlagolskiPredikat[] export ?xCl declare ?xCl ?fN ?fP ?fF ?fG { { node xVP [bot = [num = fN, pers = fP, gen = fG]]; node xCl (color = red, rank = 5, name = se) [cat = Cl, top = [ref = +]]; node xV [top = [num = fN, pers = fP, gen = fG]]; xVP -> xCl; xVP -> xV; } } Slika 101 Klasa za refleksivnu strukturu Za razliku od prethodno navedenih klasa, kod kojih smo pomoću zagrada definisali odnos među čvorovima, u ovoj klasi (Slika 101) najpre samo navodimo njene čvorove, ne definišući odnos među njima, a zatim navodimo samo da se i čvor Cl i čvor V nalaze direktno pod čvorom VP, ne definišući odnos između Cl i V. Na ovaj način ostavljamo prostor za definisanje tog odnosa u klasama koje će naslediti ovu. Slika 102 prikazuje jednu od tih klasa, u kojoj je poslednjim redom opisa definisano da čvor V prethodi čvoru Cl. Ovakvo stablo smo definisali za primere refleksivnih konstrukcija u kojima je subjekat nerealizovan. Ovo je istovremeno i klasa koju koristimo za inherentno refleksivne glagole, što se može videti iz definicije čvora CL kao dodatnog sidra (coanchor). Za stabla u kojima se čvor Cl nalazi sa leve strane glagola definisali smo klasu RefleksivniGlagolLevi, koja se od navedene S S VP S V◊n Cl◊ 160 klase razlikuje samo po redosledu čvorova u poslednjem redu opisa (xCl >>+ xV), te je iz tog razloga nećemo posebno navoditi. class RefleksivniGlagolDesni import Refleksivnost[] { { node xVP; node xCl (mark = coanchor); node xV; xVP -> xCl; xVP -> xV; xV >>+ xCl } } Slika 102 Klasa desno refleksivne strukture Ove dve klase se pomoću disjunkcije (ovde označene kao „|”) udružuju u klasu Refleksivni (Slika 103). class Refleksivni { RefleksivniGlagolLevi[] | RefleksivniGlagolDesni[] } Slika 103 Klasa za refleksivne glagole gde je rečca se dodatno sidro Za potrebe rečenica s obezličenom i bezličnom konstrukcijom, u kojima nema subjekta pa tako ni kongruencije s njim, definišemo klasu BezlicniDesni (Slika 104), koja uvozi klasu RefleksivniGlagolDesni, a zatim dodatno definiše kategorije roda, broja i lica na glagolu. Samo stablo je isto kao u pomenutoj klasi, pa ga ovde nećemo ponavljati. Za potrebe obezličenih i bezličnih konstrukcija sa logičkim subjektom (Marku se pomaže.) definisali smo klasu BezlicniLevi, koja se od klase BezlicniDesni razlikuje po tome što uvozi klasu RefleksivniGlagolLevi. Ovu klasu nećemo posebno navoditi ovde. class BezlicniDesni import RefleksivniGlagolDesni[] { { node xCl (name = se); node xV [top = [pers = z, num = s, gen = n]]; } } Slika 104 Klasa za obezličenu glagolsku konstrukciju S S VP S Cl◊n V◊ 161 Postojala je potreba da definišemo zasebne refleksivne klase za konstrukcije sa refleksivnim glagolom u koje se rečca se unosi zamenom (stabla dobijena refleksivizacijom). Slika 105 prikazuje takvo stablo, u kome se rečca raspoređuje desno od glagola. I ovde smo definisali klasu u kojoj se rečca raspoređuje s leve strane, ali kako nema posebnih razlika u odnosu na ovu klasu, ne navodimo je posebno. class RefleksivniGlagolDesniSubst import Refleksivnost[] { { node xVP; node xCl (mark = subst); node xV; xVP -> xCl; xVP -> xV; xV >>+ xCl } } Slika 105 Klasa desno refleksivne strukture za čvorom za zamenu Ove dve klase se udružuju u klasu RefleksivniSubst (Slika 106). class RefleksivniSubst { RefleksivniGlagolLeviSubst[] | RefleksivniGlagolDesniSubst[] } Slika 106 Klasa za refleksivne glagole gde se rečca se unosi zamenom Kopulativni predikat Segment stabla kopulativnog predikata ima istu strukturu kao i segment pasivnog glagola (Slika 100), te smo mogli da za ove dve klase definišemo odgovarajuću apstraktnu klasu koju bi klase PasivniGlagol i KopulativniPredikat zatim nasleđivale. Ipak, za potrebe metagramatike u ovom trenutku rešili smo da definišemo samo terminalne neglagolske čvorove, kako trenutno ne obrađujemo modifikatore sintagmi. Zato smo samo za kopulativni predikat definisali apstraktnu klasu koja ima sidro – predikativ – direktno ispod čvora S (Slika 107). Ovu klasu dalje nasleđuju sve klase kopulativnih glagola – imenički predikat (Slika 108), pridevski predikat (Slika 110) i priloški predikat (Slika 111). S S VP S Cl↓ V◊ 162 Može se primetiti da smo za kopulu definisali i obeležje roda, koje ona nema u slučaju prostih glagolskih oblika. Kako subjekat ove konstrukcije definišemo odvojeno, bilo je potrebno na neki način usloviti to da npr. pridevski predikativ bude istog roda kao i subjekat, kako bismo izbegli da se kao tačne prepoznaju rečenice tipa: Marko je pametna. Ovo obeležje na kopuli ima dakle samo povezivačku vrednost, odnosno služi za uspostavljanje kongruencije između subjekta i predikativa. class KopulativniPredikat export xS xPred xVP xV declare ?xS ?xPred ?xVP ?xV ?fN ?fP ?fG ?fW { { node xS (color = black) [cat = S, bot = [mod = I, wh = fW]]{ node xVP (color = black) [cat = VP, top = [cop = +, num = fN, pers = fP, gen = fG]] { node xV (color = black, mark = subst) [cat = V, top = [cop = +, num = fN, pers = fP, gen = fG]] } node xPred (color = black, mark = anchor) [top = [num = fN, pers = fP, gen = fG]] } } } } Slika 107 Apstraktna klasa za kopulativni predikat Slika 106 prikazuje jednu od klasa imeničkog predikata – onu gde je imenički predikativ definisan kao imenica. U metagramatici imamo definisanu i klasu za imenički predikativ kao zamenicu – ImenickiPredikatPro. Osim što je morfološka kategorija ovog predikativa drugačija, od klase s imenicom kao predikativom razlikuje se po otvorenoj vrednosti obeležja pers, koje nije nužno u 3. licu (pers = fP). Klasu ImenickiPredikat tako definišemo kao disjunkciju ove dve klase (Slika 109). V↓ X◊ S S VP 163 class ImenickiPredikatN import KopulativniPredikat[] { { node xPred [cat = N, top = [case = 1, pers = z]] } } } Slika 108 Klasa za imenički predikat u obliku imenice class ImenickiPredikat { ImenickiPredikatN[] | ImenickiPredikatPro[] } Slika 109 Klasa za imenički predikat Jedino karakteristično obeležje pridevskog predikativa (Slika 110) jeste obeležje određenosti (def), kako je pridevski predikativ uvek određenog vida. class PridevskiPredikat import KopulativniPredikat[] { { node xPred [cat = A, top = [case = 1, pers = z, def = +]] } } } Slika 110 Klasa za pridevski predikat Za priloški predikat subjekatsko-predikatskih rečenica trenutno imamo definisanu samo klasu koja na mestu predikativa prepoznaje prilog (Slika 111). Odluka da u ovom trenutku ne obrađujemo predikative kao fraze uticala je i na prepoznavanje priloških predikativa u obliku predloško-padežne konstrukcije i u obliku brojne sintagme. Da bismo mogli da prepoznajemo ovakve fraze, i predikative kao fraze generalno, bilo bi potrebno da u klasi KopulativniPredikat definišemo predikativ kao frazu s nespecifikovanim sidrom, i da zatim u nove dve klase ‒ PriloskiPredikatPP i PriloskiPredikatNum ‒ definišemo dodatni čvor za imenicu kao sestrinski čvor terminalnog čvora pod tom frazom (PP ili NUMP). U slučaju obrade predloških fraza generalno, kao što smo već pomenuli u poglavlju 3.5.1, postoji dodatna poteškoća jer je potrebno odrediti da li će i koji još čvor pored predloškog čvora biti posmatran kao sidro. V↓ N◊ S S VP V↓ A◊ S S VP 164 class PriloskiPredikatAd import KopulativniPredikat[] { { node xPred [cat = ADV] } } } Slika 111 Klasa za priloški predikat Za potrebe bezličnih rečenica s priloškim predikatom170, bilo je potrebno da definišemo obrnut raspored kopule i predikativa, te smo definisali apstraktnu klasu koja ima drugačiji redosled glagolske fraze i samog predikativa (Slika 112). class KopulativniPredikatLevi export xS xPred xVP xV declare ?xS ?xPred ?xVP ?xV ?fN ?fP ?fG { { node xS (color = black) [cat = S, bot = [mod = I, wh = fW]]{ node xPred (color = black, mark = anchor) [top = [wh = fW]] node xVP (color = black) [cat = VP, top = [cop = +, num = fN, pers = fP, gen = fG]] { node xV (color = black, mark = subst) [cat = V, top = [cop = +, num = fN, pers = fP, gen = fG]] } } } } Slika 112 Apstraktna klasa za levi kopulativni predikat Slika 113 tako predstavlja klasu priloškog predikata za bezlične rečenice. Za iste potrebe smo definisali i klasu PriloskiPredikatAdDesni, koja uvozi klasu KopulativniPredikatDesni, i koju zatim koristimo za klasu četvrtog bezličnog rečeničnog modela (Slika 178). Nijednu od ove dve pomenute klase nećemo zasebno definisati ovde. 170 Ali isto tako i za potrebe kopulativnih rečenica koje imaju izostavljen subjekat, iako nećemo ovde zasebno definisati takve slučajeve. V↓ ADV◊ S S VP V↓ VP S S X◊ 165 class PriloskiPredikatAdLevi import KopulativniPredikatLevi[] { { node xPred [cat = ADV] node xVP [top = [num = s, pers = z, gen = n]] { node xV [top = [num = s, pers = z, gen = n]] } } } Slika 113 Priloški predikat za bezlične rečenice 4.3.2 Glagolski argumenti Apstraktna klasa koju nasleđuju svi glagolski argumenti jeste klasa GlagolskiArgument (Slika 114). Budući da je u pitanju najopštija klasa koja treba da predstavi bilo koji glagolski argument, ona definiše samo segment rečeničnog stabla koji služi da se argument spoji sa nekom od klasa za glagole – koreni čvor S i sestrinski čvor datog argumenta, VP. Na to da ovakve klase ne mogu stajati same, odnosno da se moraju sjediniti sa nekim od naslednika klase GlagolskiPredikat govori njihova boja – bela. Jedina informacija koja se uz čvor S ovde još javlja jeste obeležje upitnosti (wh) na čvoru S, s opštom, nedefinisanom vrednošću. class GlagolskiArgument export xS xVP fW declare ?xS ?xVP ?fW { { node xS (color = white) [cat = S, bot = [wh = fW]]{ node xVP (color = white) [cat = VP] } } } Slika 114 Apstraktna klasa za sve glagolske argumente 4.3.2.1 Subjekat Kongruencija Pre nego što krenemo u definisanje subjekatskih klasa, potrebno je da definišemo još jednu apstraktnu klasu kojom ćemo obezbediti slaganje između subjekta i predikata u odgovarajućim kategorijama (rod, broj i padež). Slika 115 prikazuje tu klasu. Čvorovi S S VP V↓ VP S S ADV◊ 166 SubKon i VPKon označavaju čvor Subjekta i čvor VP, za koje se definišu obeležja sa istim vrednostima. Da bi se ova klasa stavila u upotrebu, uvozimo je pri definisanju subjekatskih klasa i tom prilikom vršimo izjednačavanje čvorova (Slika 117). class SlaganjeSubjekatPredikat export xSubKon xVPKon declare ?xSubKon ?xVPKon ?fN ?fP ?fG { { node xSubKon [top = [num = fN, pers = fP, gen = fG]]; node xVPKon [top = [num = fN, pers = fP, gen = fG]] } } Slika 115 Klasa za slaganje subjekta i predikata Dve apstraktne subjekatske klase su klase za nerealizovan subjekat – SubjekatNerealizovan (Slika 116, primer 1) i za realizovan subjekat – SubjekatRealizovan (Slika 117). Klasa SubjekatNerealizovan zapravo neće sadržati nijedan čvor osim čvorova klase GlagolskiArgument. Iako se čvor nerealizovanog subjekta javlja u stablima u SrpTAG, u stablima koja trenutno generiše metagramatika za njih nećemo definisati poseban čvor. Razlog za to je činjenica da ova metagramatika generiše strukture koje se koriste kao ulaz za parser, i da ispravno parsiranje ne bi bilo moguće ukoliko bi se u stablu nalazio i prazan čvor bilo kog tipa. Ovaj opis ipak u svakom trenutku možemo promeniti tako da generiše stabla sa praznim čvorom, ukoliko želimo da metagramatika zaista generiše samo originalna FBLTAG stabla. Klasu SubjekatNerealizovan nasleđuje klasa SubjekatImperativ u kojoj se glagol definiše kao glagol u imperativu (Slika 116, primer 2). Klasa na slici koristi se za obradu imperativa u drugom licu jednine i množine. 1. 2. class SubjekatNerealizovan import GlagolskiArgument[] class SubjekatImperativ import SubjekatNerealizovan[] { { node xVP [top = [mod = Y, pers = 2, num = @{s,p}]] } } Slika 116 Apstraktna klasa za nerealizovan subjekat (primer 1) i njena implementacija u obliku subjekta predikata u imperativu S S VP 167 U osnovnu klasu za realizovan subjekat (Slika 117) uvozimo i ranije navedenu klasu za kongruenciju. U poslednja dva reda klase mogu se videti jednačine u kojima se navodi da je čvor za subjekat definisan u ovoj klasi (xSub) identičan subjekatskom čvoru definisanom u klasi SlaganjeSubjekatPredikat – xSubKon. Isto to definišemo i za čvorove VP unutar klase za realizovan subjekat i čvora xVPKon iz klase za kongruenciju između subjekta i predikata. Na ovaj način smo za sve klase koje nasleđuju datu klasu za realizovan subjekat obezbedili da se sa predikatom slaže u licu, broju i rodu. class SubjekatRealizovan import GlagolskiArgument[] SlaganjeSubjekatPredikat[] export xSub declare ?xSub { { node xS { node xSub (color = red, mark = subst) [top = [func = sub, case=1, wh = fW]] node xVP }; xSub = xSubKon; xVP = xVPKon } } Slika 117 Apstraktna klasa za realizovan subjekat Dve konkretne klase koje nasleđuju ovu klasu su: klasa za imenički subjekat, koju smo nazvali SubjekatDeklarativniN (Slika 118) i zamenički subjekat – SubjekatDeklarativniPro, koju nećemo ovde navoditi zasebno kako se od imeničke klase razlikuje samo po vrednosti obeležja cat. Ove dve klase disjunkcijom spajamo u klasu SubjekatDeklarativni (Slika 119, primer 1). Ova klasa stoji nasuprot klasi SubjekatUpitni (ista slika, primer 2), koju smo definisali za subjekat u obliku upitne zamenice. class SubjekatDeklarativniN import SubjekatRealizovan[] { { node xSub [cat = N, top = [wh = -]] } } Slika 118 Klasa za imenički subjekat X↓ S VP S S N↓ S VP S S 168 Ako se pogledaju unazad klase za RealizovanSubjekat (Slika 117) i klasa za GlagolskiArgument (Slika 114), može se videti da je vrednost obeležja upitnosti za čvorove xS i xSub postavljena tako da ima istu vrednost. Zahvaljujući tome će se pozitivna vrednost obeležja upitnosti sa čvora xSub u klasi SubjekatUpitni preneti i na čvor S, te će cela rečenica biti obeležna kao upitna. Isto tako, ukoliko je subjekat deklarativan, čvor S će imati negativnu vrednost obeležja upitnosti, prenetu sa čvora xSub iz klasa unutar klase SubjekatDeklarativni. 1. 2. class SubjekatDeklarativni { SubjekatDeklarativniN[] | SubjekatDeklarativniPro[] } class SubjekatUpitni import SubjekatRealizovan[] { { node xSub [cat = PRO, top = [wh = +]] } } Slika 119 Klase za deklarativni subjekat (1) i upitni subjekat (2) Spajanjem dve navedene klase (Slika 119) ostvarujemo drugi nivo apstrakcije u metagramatici – udružujemo realizacije određene funkcije pod zajedničkim nazivom – Subjekat (Slika 120). Ovo je univerzalna klasa koju koristimo za refleksivne strukture u kojima subjekat mora biti prisutan da bi se generisao pravilan redosled reči. Za subjekat nerefleksivnih konstrukcija definisali smo i klasu Subjekat1, koju ne navodimo posebno ovde, a koja pored date dve klase sadrži i klasu SubjekatNerealizovan. class Subjekat { SubjekatDeklarativni[] | SubjekatUpitni[] } Slika 120 Klasa za subjekat Za potrebe modela s logičkim subjektom, definisali smo i klasu za deklarativni subjekat koji se slobodno raspoređuje u odnosu na glagol. Takav subjekat smo nazvali SubjekatDeklarativniSlobodan (Slika 121) i probno ga definisali samo za imenice. Takva klasa, naravno, može da postoji i za zamenice. 169 class SubjekatDeklarativniSlobodan import GlagolskiArgument[] SlaganjeSubjekatPredikat[] export xSub declare ?xSub { { node xS; node xSub (color = red, mark = subst) [cat = N, top = [func = sub, case = 1, wh = fW]]; node xVP; xS -> xSub; xS -> xVP; xSub = xSubKon; xVP = xVPKon } } Slika 121 Klasa za nefiksirani imenički deklarativni subjekat Ova klasa, zajedno sa klasama SubjekatUpitni i SubjekatImperativ čini klasu SubjekatSlobodan (Slika 122), koju ćemo dalje koristiti u modelima s logičkim subjektom (Slika 170). class SubjekatSlobodan { SubjekatDeklarativniSlobodan[] | SubjekatUpitni[]| SubjekatImperativ[] } Slika 122 Klasa za nefiksirani subjekat U metagramatici trenutno imamo dva tipa rečeničnih subjekata – izrični i infinitivni. Slika 123 daje opis i strukturu izričnog subjekta. Čvor komplementizatora xC nosi oznaku flex, što znači da je u stablo direktno uneta leksema ‒ u ovom slučaju komplementizator da171. Vrednost obeležja mark na čvoru xS00 je foot, čime se označava da je u pitanju priključni čvor. 171 Identično izgleda i stablo s komplementizatorom što, u kome je vrednost obeležja cat na čvoru xC sto. N↓ S VP S S VP S N↓ S S 170 class IzricniSubjekat import GlagolskiArgument[] declare ?xS0 ?xC ?xS00 { { node xS{ node xS0 (color = red) [cat = S, top = [func = sub]] { node xC (color = red, mark = flex) [cat = da] node xS00 (color = red, mark = foot) [cat = S, top = [func = sub, mod = I, wh = -]] } node xVP } } } Slika 123 Klasa za izrični subjekat Slika 124 prikazuje klasu za infinitivni subjekat. class SubjekatInfinitiv import SubjekatNerealizovan[] declare ?xS0 { { node xS{ node xS0 (color = red, mark = subst) [cat = S, top = [func = sub, mod = W, wh = -]] node xVP } } } Slika 124 Klasa za infinitivni subjekat Ove dve rečenične klase, povezane disjunkcijom, daju natklasu RecenicniSubjekat (Slika 125). class RecenicniSubjekat { SubjekatInfinitiv[] | IzricniSubjekat[] } Slika 125 Klasa za rečenični subjekat Klase Subjekat i RecenicniSubjekat su klase koje ćemo nadalje koristiti kao predstavnike ove funkcije u složenijim klasama. S↓ S VP S S VP S S S0* S0 S C da 171 4.3.2.2 Nesubjekatski argumenti Za nesubjekatske rečenične argumente definisali smo jednu centralnu apstraktnu klasu pod imenom NeSubjekat (Slika 126). Za razliku od klase Subjekat (Slika 120), koja propisuje javljanje subjekatskog argumenta s leve strane glagola, ova klasa propisuje poziciono javljanje nesubjekatskih argumenata s desne strane glagola. U ovoj klasi imamo definisana dva obeležja – obeležje funkcije, koje ostaje otvoreno za definisanje u klasama koje je nasleđuju, i obeležje upitnosti. Čvor nesubjekatskog argumenta smo ovog puta odredili kao čvor koji se nalazi desno od čvora VP, ali ne neposredno do njega, kako bismo omogućili prepoznavanje većeg broja redosleda među nesubjekatskim argumentima. class NeSubjekat import GlagolskiArgument[] export ?xX1 declare ?xX1 ?fF ?fW { { node xS{ node xVP ,,,+node xX1 (color=red) [top = [wh = fW, func = fF]] } } } Slika 126 Apstraktna klasa za nesubjekatske argumente Tri apstrakne klase, za svaki od već pomenuta tri tipa nesubjekatskih argumenata, definisaćemo u narednim tabelama. Za argumente u obliku predloško-padežne konstrukcije definisali smo klasu PP (Slika 127). class PP import NeSubjekat[] export xPREP xX declare ?xPREP ?xX ?fK { { node xX1 [cat = PP, top = [wh = -]]{ node xPREP (color = red) [top = [case = fK]] node xX (color = red, mark = subst) [top = [case = fK, gen = fG, num = fN, pers = fP]] } } } Slika 127 Apstraktna klasa za predloške fraze VP S X S S PREP S X↓ PP S 172 Za rečenične konstituente, konkretnije, konstituente u obliku izrične rečenice, definisali smo klasu RecenicniNeSubjekatKomp (Slika 128), koja definiše opšte karakteristike nesubjekatskog rečeničnog argumenta – koji sadrži komplementizator. class RecenicniNeSubjekatKomp import NeSubjekat[] export ?xC ?xXX1 declare ?xC ?xXX1 ?fX { { node xX1 [cat = S, top = [mod = I]] { node xC (color = red, mark = flex) [top = [wh = fW]] node xXX1 (color = red) [cat = S, top = [mod = I, wh = fX]] } } } Slika 128 Apstraktna klasa za izrične rečenice u funkciji dopune Rečenični konstituenti koji ne sadrže komplementizator su oni u obliku infinitiva, i za njih smo definisali zasebnu klasu. Za potrebe definisanja ove klase bilo je, ipak, potrebno definisati tri odvojene klase. Dve od tih klasa koristimo da definišemo subjekatsku kontrolu – slaganje između subjekta glavne rečenice i glagola zavisne rečenice u infinitivu (Slika 129, primeri 1 i 2). 1. 2. class Infinitiv export xKontrolisani declare ?xKontrolisani { { node xKontrolisani (color = red) [top = [mod = W, wh = -]] } } class SubjekatskaKontrola import Infinitiv[] export xVPKontroler declare ?xVPKontroler ?fN ?fG ?fP { { node xKontrolisani [top = [subn = fN, subg = fG, subp = fP]]; node xVPKontroler (color = white) [top = [subn = fN, subg = fG, subp = fP]] } } Slika 129 Klase za definisanje subjekatske kontrole C S S S S 173 Apstraktna klasa koju će, pored klase SubjekatskaKontrola, nasleđivati argumenti u obliku infinitiva jeste klasa ZavisneReceniceBezKomp (Slika 130). class ZavisneReceniceBezKomp import NeSubjekat[] { { node xX1 (color = red, mark = foot) [cat = S, top = [mod = W, wh = -, func = fF]] } } Slika 130 Klasa za zavisne rečenice bez komplementizatora Još jedna apstraktna klasa koju definišemo jeste klasa Izmestanje, za potrebe izmeštenih argumenata u pitanjima. Ova klasa direktno nasleđuje klasu GlagolskiArgument. Čvorovi xSizm i xIzm su čvorovi koji se unose na već postojeći čvor S klase GlagolskiArgument. Čvor izmeštenog argumenta, xIzm, se, u zavisnosti od tipa dopune, može realizovati kao zamenica (u slučaju imeničke ili zameničke dopune), predloško- padežna konstrukcija (u slučaju nepravog objekta ili priloške dopune u ovom obliku) ili priloga (u slučaju priloške dopune), te će u samom stablu biti obeležen kao X (Slika 131). class Izmestanje import GlagolskiArgument[] export xSizm xIzm declare ?xSizm ?xIzm ?fF { { node xSizm (color = red) [cat = S, bot = [wh = +]] { node xIzm (color = red, mark = subst) [top = [func = ?fF, wh = +]] node xS [top = [wh = -]] } } } Slika 131 Apstraktna klasa za izmeštene dopunske argumente Pogledajmo sada kako se ovde definisane apstraktne klase primenjuju na konkretne rečenične argumente. VP S S* S S X↓ S S S S 174 Pravi objekat Pravi objekat definišemo kao klasu koja direktno nasleđuje klasu NeSubjekat. Kao i kod subjekta, za pravi objekat razlikujemo dve osnovne klase – onu za realizovan i za nerealizovan pravi objekat. Slika 132 prikazuje klasu za realizovan pravi objekat u obliku imenice. Klasa u kojoj se pravi objekat realizuje kao zamenica nosi naziv ObjekatRealizovanPro i ne navodimo je ovde posebno kako se od klase na pomenutoj slici razlikuje samo po kategoriji. Ove dve klase spajamo u natklasu ObjekatRealizovan (Slika 133, primer 1), a klasu za nerealizovan subjekat možemo videti na istoj slici, u primeru 2. Klasu za nerealizovan objekat definišemo identično kao i klasu za nerealizovan subjekat (Slika 116, primer 1) ‒ preko klase GlagolskiArgument, budući da ni ovde nećemo imati zaseban prazan čvor za nerealizovan pravi objekat. class PraviObjekatRealizovanN import NeSubjekat[] { { node xX1 (mark = subst) [cat = N, top = [func = dir, case = @{2,4}, wh = -]] } } Slika 132 Klasa za imenički realizovan objekat 1. 2. class PraviObjekatRealizovan { PraviObjekatRealizovanN[] | PraviObjekatRealizovanPro[] } class PraviObjekatNerealizovan import GlagolskiArgument[] Slika 133 Klasa za realizovan pravi objekat (1) i nerealizovan pravi objekat (2) Za tretman izmeštenog pravog objekta u pitanjima koristimo već definisanu apstraktnu klasu Izmeštanje (Slika 131). Klasu Izmestanje zatim nasleđuje klasa IzmestenPraviObjekat (Slika 134). Izmešteni čvor je u klasi Izmestanje već definisan kao upitan, tako da ćemo mu u ovoj klasi dodeliti samo kategoriju i funkciju. class IzmestenPraviObjekat import Izmestanje[] { { node xIzm [cat = PRO, top = [func = dir]] } } Slika 134 Klasa za izmešten pravi objekat VP S N↓ S S PRO↓ S S S S 175 Realizovane tipove pravog objekta organizovaćemo u klasu PraviObjekat (Slika 135). Za potrebe stabala koja mogu ali ne moraju imati realizovan objekat definisaćemo još jednu klasu identičnog sadržaja, kojoj ćemo dodati i klasu PraviObjekatNerealizovan. Ovu klasu, koju nećemo zasebno predstavljati ovde, nazvali smo ObjekatPlusNerealizovan. class PraviObjekat { PraviObjekatRealizovan[] | IzmestenPraviObjekat[] } Slika 135 Klasa za pravi objekat Za rečenični pravi objekat definišemo ukupno tri klase. Prva od njih je apstraktna i ima istu strukturu kao i apstraktna klasa koju nasleđuje, RecenicniNeSubjekatKomp, s tim što se za koreni čvor S (xX1) definiše njegova funkcija kao pravog objekta (Slika 136). class ObjekatRecenicniKomp import RecenicniNeSubjekatKomp[] { { node xX1 [top = [func = dir]] { } } } Slika 136 Klasa za rečenični objekat s komplementizatorom Sledeća klasa predstavlja deklarativnu izričnu rečenicu, te će S (xXX1) čvor unutar ove zavisne rečenice biti obeležen kao priključni (Slika 137). class ObjekatRecenicniKompDeklarativni import ObjekatRecenicniKomp[] { { node xX1 [top = [wh = -]] { node xC [cat = da] node xXX1 (mark = foot) [top = [wh = -]] } } } Slika 137 Klasa za deklarativni rečenični objekat Treća klasa predstavlja upitnu izričnu rečenicu (Slika 138). Tip komplementizatora ovde nije definisan, ali se njegova pozitivna vrednost obeležja upitnosti automatski prenosi na čvor xX1. C S S S S da C S S* S S da 176 class ObjekatRecenicniKompUpitni import ObjekatRecenicniKomp[] { { node xX1 { node xC [cat = C, top = [wh = +]] node xXX1 (mark = subst) [top = [wh = -]] } } } Slika 138 Klasa za upitni rečenični objekat Infinitivni pravi objekat nasleđuje generalnu klasu za zavisne rečenice bez komplementizatora (Slika 130), kao i klasu koja definiše subjekatsku kontrolu (Slika 129, primer 2). Ovom klasom se definiše slaganje u obeležjima između umetnutog čvora S zavisne rečenice i glagola unutar nje (Slika 139). class ObjekatInfinitiv import ZavisneReceniceBezKomp[] SubjekatskaKontrola[] { { node xX1 [top = [func = dir]]; xKontrolisani = xX1; xVPKontroler = xVP } } Slika 139 Klasa za rečenični objekat u infinitivu Sve klase koje opisuju rečenični objekat smo spojili u klasu RecenicniObjekat (Slika 140). class RecenicniObjekat { ObjekatRecenicniKompDeklarativni[] | ObjekatRecenicniKompUpitni[] | ObjekatInfinitiv[] } Slika 140 Klasa za rečenični pravi objekat Nepravi objekat Klasa koju smo definisali za imenički nepravi objekat (Slika 141) identična je onoj za imenički pravi objekat, s razlikom u funkciji i padežu čvora nepravog objekta, koji je kod C S S↓ S S 177 nepravog objekta definisan kao genitiv, dativ ili instrumental. Kao i kod pravog objekta, nećemo ovde posebno davati klasu za zamenički nepravi objekat. class NepraviObjekatN import NeSubjekat[] { { node xX1 (mark = subst) [cat = N, top = [func = indir, wh = -, case = @{2,3,6}]] } } Slika 141 Klasa za imenički nepravi objekat Imenički i zamenički nepravi objekat spajamo u klasu NepraviObjekatRealizovan (Slika 142, primer 1). Klasa NerealizovanNepraviObjekat (Slika 142, primer 2) izgleda potpuno isto kao odgovarajuća klasa za pravi objekat (Slika 133, primer 2). 1. 2. class NepraviObjekatRealizovan { PraviObjekatRealizovanN[] | PraviObjekatRealizovanPro[] } class NepraviObjekatNerealizovan import GlagolskiArgument[] Slika 142 Klasa za realizovan nepravi obekat (1) i nerealizovan nepravi objekat (2) Klasa za izmešten nepravi objekat u pitanjima (Slika 143) se od one za izmešten pravi objekat (Slika 134) razlikuje samo po funkciji. class IzmestenNepraviObjekat import Izmestanje[] { { node xIzm [cat = PRO, top = [func = indir]] } } Slika 143 Klasa za izmešten nepravi objekat Ovakve realizacije nepravog objekta, nasuprot kojima stoje rečenične i predloško- padežne realizacije, spojićemo u klasu NepraviObjekatIm (Slika 144). class NepraviObjekatIm { NepraviObjekatRealizovan[] | NepraviObjekatNerealizovan[] | IzmestenNepraviObjekat[] } Slika 144 Klasa za realizovan, nerealizovan i izmešten nepravi objekat VP S N↓ S S PRO↓ S S S S 178 Za nepravi objekat u obliku predloško-padežne konstrukcije razlikujemo dve varijante, u zavisnosti od toga da li se dopuna predloga realizuje kao imenica ili kao zamenica. Slika 145 prikazuje imeničku varijantu predloško-padežne konstrukcije, i ponovo, zameničku varijantu – NepraviObjekatPPPro nećemo ovde zasebno prenositi. class NepraviObjekatPPN import PP[] { { node xX1 [top = [func = indir]]{ node xPREP (mark = anchor) [cat = P] node xX [cat = N] } } } Slika 145 Klasa za imenički predloški nepravi objekat Klasa NepraviObjekatPP predstavlja disjunkciju ove dve klase (Slika 146). class NepraviObjekatPP { NepraviObjekatPPN[] | NepraviObjekatPPPro[] } Slika 146 Klasa za predloški nepravi objekat Trenutno nemamo definisanu klasu za izmešteni predloški nepravi objekat, i za izmeštene predloške argumente uopšte, kako je za nju bilo potrebno napraviti malu izmenu u klasi Izmestanje. Naime, da bi klasa Izmestanje mogla da služi za analizu predloške fraze, potrebno je definisati frazalni nivo i terminalni nivo na izmeštenom čvoru, kako bi PP čvor mogao da se sjedini sa čvorom koji je trenutno definisan kao xIzm, a čvor predloga sa terminalnim čvorom koji bi mogao da bude definisan ispod čvora xIzm, nazovimo ga xIzm2. Na samom kraju, natklasu NepraviObjekat (Slika 147) definišemo kao disjunkciju dosad definisanih klasa za nepravi objekat. class NepraviObjekat { NepraviObjekatIm[] | NepraviObjekatPP[] } Slika 147 Klasa za nepravi objekat PREP◊ S N↓ PP S 179 Za definisanje rečeničnog nepravog objekta koristmo klasu RecenicniNepraviObjekatKomp, u kojoj smo najpre definisali funkciju ove jedinice (Slika 148). class RecenicniNepraviObjekatKomp import RecenicniNeSubjekatKomp[] { { node xX1 [top = [func = indir]] } } Slika 148 Apstraktna klasa za rečenični nepravi objekat Ovu klasu nasleđuju dve klase rečeničnog nepravog objekta – deklarativni nepravi objekat (Slika 149) i upitni nepravi objekat (Slika 150). U slučaju deklarativnog nepravog objekta, ovde je dat primer sa komplementizatorom da. class RecenicniNepraviObjekatKompDeklarativni import RecenicniNepraviObjekatKomp[] { { node xX1 [top = [wh = -]] { node xC [cat = da, top = [wh = -]] node xXX1 (mark = foot) [top = [wh = -]] } } } Slika 149 Klasa za deklarativni rečenični nepravi objekat class RecenicniNepraviObjekatKompUpitni import RecenicniNepraviObjekatKomp[] { { node xX1 [top = [wh = +]] { node xC [cat = C, top = [wh = +]] node xXX1 (mark = subst ) [top = [wh = -]] } } } Slika 150 Klasa za upitni rečenični nepravi objekat Date dve klase udružujemo u klasu RecenicniObjekatNepravi (Slika 151). class RecenicniObjekatNepravi { RecenicniNepraviObjekatKompDeklarativni[] | RecenicniNepraviObjekatKompUpitni[] } Slika 151 Klasa za rečenični nepravi objekat C S S↓ S S C S S* S S da 180 Priloška dopuna Za osnovnu realizaciju priloške dopune kao priloga definisali smo klasu Prilog (Slika 152). class Prilog import NeSubjekat[] { { node xX1 (mark = subst) [cat = ADV, top = [func = pdop, wh = -]] } } Slika 152 Klasa za prilog Slika 153 prikazuje klasu izmeštenog, upitnog priloga. class IzmestenPrilog import Izmestanje[] { { node xIzm [cat = ADV, top = [func = pdop]] } } Slika 153 Klasa za izmešten prilog Ove dve dopune udružujemo u osnovnu natklasu za priloge ‒ PriloskaDopunaOsnovna (Slika 154). class PriloskaDopunaOsnovna { Prilog[] | IzmestenPrilog[] } Slika 154 Klasa za osnovnu prilošku dopunu Slika 155 prikazuje klasu koju smo definisali za brojne dopune. VP S ADV↓ S S ADV↓ S S S S 181 class BrojnaDopuna import NeSubjekat[] export xNUM xNP declare ?xNUM ?xNP { { node xX1 [cat = NUMP, top = [func = pdop, wh = -]] { node xNUM (color = red, mark = anchor) [cat = NUM] node xNP (color = red, mark = subst) [cat = N] } } } Slika 155 Klasa za brojnu dopunu Za prilošku dopunu u obliku predloške fraze prikazujemo samo varijantu sa imenicom kao čvorom za zamenu unutar fraze (Slika 156). Kao i u slučaju nepravog objekta, ni ovde ne obrađujemo izmeštenu predlošku frazu. Iz istog razloga ne obrađujemo ni izmeštenu brojnu frazu ‒ za uključivanje obe fraze je potrebna izvesna modifikacija u klasi Izmestanje. class PriloskaDopunaPPN import PP[] { { node xX1 [top = [func = pdop]]{ node xPREP (mark = subst) [cat = P, top = [case = ?fC]] node xX [cat = N] } } } Slika 156 Klasa za prilošku dopunu u obliku predloške fraze s imenicom Imenička i zamenička verzija predloške fraze udružuju se u klasu PriloskaDopunaPP (Slika 157). class PriloskaDopunaPP { PriloskaDopunaPPN[] | PriloskaDopunaPPPro[] } Slika 157 Klasa za prilošku dopunu u obliku predloške fraze NUM◊ S N↓ NUMP P S P↓ S N↓ PP S 182 Klasa PriloskaDopuna predstavlja konačnu klasu koja objedinjuje nerečenične priloške dopune, i predstavlja disjunkciju prethodno definisanih priloških klasa (Slika 158). class PriloskaDopuna { PriloskaDopunaOsnovna[] | BrojnaDopuna[] | PriloskaDopunaPP[] } Slika 158 Klasa za prilošku dopunu Slika 159 prikazuje klasu za infinitivnu jedinicu s priloškom funkcijom. class PrilogInfinitiv import ZavisneReceniceBezKomp[] SubjekatskaKontrola[] { { node xX1 [top = [mod = W, func = pdop]]; xKontrolisani = xX1; xVPKontroler = xVP } } Slika 159 Klasa za rečenicu u infinitivu s priloškom funkcijom Za namerne rečenice s priloškom funkcijom ćemo pretpostaviti da imaju istu strukturu kao ranije navedene izrične rečenice, te će nasleđivati istu polaznu apstraktnu klasu. Od njih će se razlikovati samo po obeležju funkcije. class PrilogRecenicni import RecenicniNeSubjekatKomp[] { { node xX1 [top = [wh = -, func = pdop]] { node xC [cat = da] node xXX1 (mark = foot) [top = [wh = -]] } } } Slika 160 Klasa za namerne rečenice u priloškoj funkciji Klasu PriloskaDopunaRecenicna će tako činiti disjunkcija ove dve rečenične klase (Slika 161). class PriloskaDopunaRecenicna { PrilogInfinitiv[] | PrilogRecenicni[] } Slika 161 Klasa za rečeničnu prilošku dopunu C S S* S S da 183 Logički subjekat Za logički subjekat razlikujemo dve osnovne realizacije – imeničku (Slika 162) i zameničku. Kao i u ranijim primerima ovakve dvostruke realizacije, nećemo navoditi zameničku varijantu. Za razliku od većine nesubjektaskih argumenata, logički subjekat implementira klasu GlagolskiArgument. Redosled između čvora logičkog subjekta i predikata smo u ovoj (i zameničkoj) klasi definisali slobodno kako bismo kao samo jedan od redosleda definisali onaj u kome se logički subjekat nalazi na prvom mestu u rečenici. Ova odluka nije ni bolja ni gora od one da fiksiramo mesto logičkog subjekta za prvu poziciju, ali kako ćemo u jednom trenutku svakako definisati ovakav slobodan redosled za većinu glagolskih argumenata, mislili smo da bi ovo mogao da bude početak. U kombinaciji sa ovakvom klasom ide i klasa SubjekatSlobodan (Slika 122). class LogickiSubjekatN import GlagolskiArgument[] export xLog declare ?xLog { { node xS; node xLog (color = red, mark = subst) [cat = N, top = [func = lsub, wh = -, case = @{2,3,4}]]; node xVP; xS -> xLog; xS -> xVP } } Slika 162 Klasa za imenički logički subjekat Klasa LogickiSubjekatOpsti (Slika 163) definisana je da obuhvati dve pomenute realizacije logičkog subjekta. class LogickiSubjekatOpsti { LogickiSubjekatN[] | LogickiSubjekatPro[] } Slika 163 Klasa za imenički i zamenički logički subjekat Slika 164 predstavlja klasu izmeštenog logičkog subjekta. N↓ S VP S S VP S N↓ S S 184 class IzmestenLogickiSubjekat import Izmestanje[] { { node xIzm [cat = PRO, top = [func = lsub]] } } Slika 164 Klasa za izmešten logički subjekat Klasa LogickiSubjekat objedinjuje sve pomenute varijante ove funkcije u rečeničnim stablima (Slika 165). class LogickiSubjekat { LogickiSubjekatOpsti[] | IzmestenLogickiSubjekat[] } Slika 165 Klasa za logički subjekat 4.4 Definisanje klasa koje opisuju promenu dijateze i porodice stabala U ovoj fazi definišemo porodice stabala ili rečenične modele kroz njihove alternative. Ova faza podrazumeva najpre definisanje klase za određenu dijatezu, odnosno neki drugi tip strukturne promene koji se vezuje za datu porodicu stabala, a zatim udruživanje svih takvih alternativnih struktura u jednu porodicu stabala. Prođimo sada još jednom kroz rečenične modele kakvi su dati u poglavlju 3.6, najpre subjekatsko-predikatske, a zatim i bezlične. Za svaki od njih daćemo opis strukture koja se određenim leksičkim pravilom vezuje za datu porodicu, a koji je označen komentarom % alternative, kao i definiciju same porodice, označenu komentarom % porodice. Uz svaku od klasa u modelima naveden je ilustrativni primer rečenice koji data klasa prepoznaje. 4.4.1 Subjekatsko-predikatski modeli 4.4.1.1 Klase prvog rečeničnog modela Za prvi rečenični model (Slika 166) definisane su dve alternativne klase. Za klasu s aktivnim glagolom definisali smo klasu n0Vaktiv kao minimalnu subjekatsko-predikatsku klasu. Dok su natklase u primerima definisanja funkcija podrazumevale spajanje potklasa disjunkcijom, ovde se klasa Subjekat i AktivniGlagol, koje čine ovu klasu, spajaju PRO↓ S S S S 185 konjunkcijom, označenom kao „;”. n0Vobezl na istoj slici predstavlja obezličenu verziju ovog modela – sa nerealizovanim subjektom i refleksivnim glagolom. Reprezentativnu klasu ovog modela – klasu n0V činiće tako disjunkcija ove dve klase. Drugu klasu ovog modela definisali smo za refleksivne glagole – za one sa realizovanim subjektom (n0ClVSub) i sa nerealizovanim subjektom (n0ClVNesub), koje spajamo u kompaktnu klasu n0ClV. Refleksivne klase koje koristimo za njih su one kod kojih je rečca se definisana kao sidro, budući da su u ovom modelu refleksivni glagoli uvek nepravi povratni. % alternative class n0Vaktiv % Zoran spava. { Subjekat1[]; AktivniGlagol[] } class n0Vobezl % Spava se. { SubjekatNerealizovan[]; BezlicniDesni[] } % porodice class n0V {n0Vaktiv[] | n0Vobezl[] } class n0ClVSub % Ti se salis. { Subjekat[]; RefleksivniGlagolLevi[] } class n0ClVNesub % Salis se. { SubjekatNerealizovan[]; RefleksivniGlagolDesni[] } class n0ClV { n0ClVSub[] | n0ClVNesub[] } Slika 166 Klase prvog rečeničnog modela 4.4.1.2 Klase drugog i trećeg rečeničnog modela Za drugu i treću klasu (Slika 167) definisali smo iste alternative. U pitanju su klasa s aktivnim glagolom (n0Vn1diraktiv), klasa s pasivnim glagolom (n0Vn1dirpasiv), klasa s glagolom u obliku refleksivnog pasiva (n0Vn1dirrefpas) i klasa koja predstavlja refleksivnu verziju prelaznog glagola (n0Vn1dirref). Pri definisanju aktivne klase može se videti da smo kao gradivni blok iskoristili aktivnu klasu iz porodice 1, na koju zatim samo dodajemo pravi objekat. % alternative class n0Vn1diraktiv % Jasna kupuje knjigu. { n0Vaktiv[]; PraviObjekat[] } class n0Vn1dirpasiv % pasivizacija: Knjiga je kupljena. {Subjekat[]; PasivniGlagol[] } 186 class n0Vn1dirrefpas % refleksivni pasiv: Knjige se kupuju. { Subjekat[]; RefleksivniGlagolLevi[] } class n0Vn1dirref % refleksivizacija: Marija se ceslja. { Subjekat[]; RefleksivniGlagolLeviSubst[] } % porodice class n0Vn1dir {n0Vn1diraktiv[] | n0Vn1dirpasiv[] | n0Vn1dirrefpas[]| n0Vn1dirref[] } class n0Vn1dirNer % Jasna cita. {n0Vaktiv[]; ObjekatPlusNerealizovan[] } class n0Vsinf1dir % Jasna zeli citati. { n0Vaktiv[]; ObjekatInfinitiv[] } class n0Vdas1dir % Marko pokusava da nadje karte za utakmicu. { n0Vaktiv[]; ObjekatRecenicniKompDeklarativni[] } class n0Vsup1dir % Marko zna da li ima hleba. { n0Vaktiv[]; ObjekatRecenicniKompUpitni[] } Slika 167 Klase drugog i trećeg rečeničnog modela 4.4.1.3 Klase četvrtog rečeničnog modela Za četvrtu porodicu (Slika 168) smo definisali tri klase koje predstavljaju alternative osnovnog modela s nerefleksivnim glagolom. Prva klasa među alternativama je ona sa aktivnim glagolom. Definisali smo je pomoću klase koju smo predstavili u aktivnoj alternativi prvog rečeničnog modela i dodatka (imeničkog ili zameničkog) nepravog objekta, uključujući i njihove izmeštene varijante. Za klasu pasivne dijateze, subjekat ovog modela smo definisali kao logički subjekat, budući da se po padežima koji se mogu javiti na ovoj jedinici (padeži nepravog objekta u aktivnoj strukturi) poklapaju sa padežima logičkog subjekta. Kao poslednju alternativu definisali smo klasu za obezličenu varijantu ovog modela. Osnovna klasa za ovaj rečenični model, tj. porodicu stabala je tako klasa koju smo definisali kao disjunkciju svih prethodno navedenih alternativa. Za nerefleksivni glagol sa nepravim objektom u obliku predloško-padežne konstrukcije i deklarativne izrične rečenice smo u ovom trenutku definisali po jednu klasu, iako je i za njih moguće definisati obezličenu alternativu (Odustalo se od ideje i Razmišljalo se da se upiše na prava.). Sa refleksivnim glagolom su definisane ekvivalentne klase, gde svaku definišemo preko iste polazne klase za refleksivne glagole iz prvog rečeničnog modela, osim u slučaju poslednjeg modela, u kome 187 glagol pomiriti se posmatramo kao rezultat refleksivizacije, te koristimo ekvivalnentnu klasu iz drugog i trećeg modela. Za svaki od regiranih predloga bi prema modelima koje smo videli u poglavlju 3.6 trebalo definisati poseban model, gde bi predlog direktno ulazio u naziv modela, i u rečenično stablo, međutim ovde navodimo samo jedan opšti koji smo zasad definisali u metagramatici (klase n0Vpn1ind i n0ClVpn1ind). % alternative class n0Vn1indaktiv % Otac pomaze sinu. { n0Vaktiv[]; NepraviObjekatIm[] } class n0Vn1indpasiv % pasivizacija: Sinu je pomagano. { LogickiSubjekat[]; PasivniGlagol[] } class n0Vn1indobezl % obezlicena struktura: Sinu se pomaze. { LogickiSubjekat[]; SubjekatNerealizovan[]; BezlicniLevi[] } % porodice class n0Vn1ind { n0Vn1indaktiv[] | n0Vn1indpasiv[] | n0Vn1indobezl[] } class n0Vpn1ind % Marko je odustao od svoje ideje. { n0Vaktiv[]; NepraviObjekatPP[] } class n0Vdas1ind % Ivan je razmisljao da se upise na prava. { n0Vaktiv[]; RecenicniNepraviObjekatKompDeklarativni[] } class n0ClVn1ind % Ivan se stidi brata. { n0ClV[]; NepraviObjekatIm[]} class n0ClVpn1ind % Marko se zaljubio u Tanju. { n0ClV[]; NepraviObjekatPP[] } class n0ClVdas1ind % Ivan se pomirio da nece ici na skijanje. { n0Vn1dirref[]; RecenicniNepraviObjekatKompDeklarativni[] } Slika 168 Klase četvrtog rečeničnog modela 4.4.1.4 Klase petog rečeničnog modela Za peti model (Slika 169) već nismo direktno morali da definišemo alternative. Skoro sve klase sa nerefleksivnim glagolom definisali smo preko osnovne klase iz prvog rečeničnog modela – n0V, koja već predstavlja alternativu aktivnog i obezličenog modela, kakav je moguć i u ovom slučaju (npr. Stanuje se ovde. kao obezličena alternativa za prvu klasu). Na takvu alternativu smo zatim samo dodali odgovarajuću prilošku dopunu. Za klasu sa brojnom dopunom iskoristili smo samo klasu definisanu za aktivne neprelazne glagole. 188 Klase sa refleksivnim glagolom se takođe pozivaju na refleksivnu klasu iz prvog modela i odgovarajuće dopune. % porodice class n0Vad1 % Ja stanujem ovde. { n0V[]; PriloskaDopunaOsnovna[] } class n0Vpn1pril % Torba lezi na klupi. { n0V[]; PriloskaDopunaPP[] } class n0Vnumn1 % Racun iznosi 10.000 dinara. { n0Vaktiv[]; BrojnaDopuna[] } class n0Vsinf1pril % Marko odlazi vecerati. { n0V[]; PrilogInfinitiv[] } class n0Vsad1 % Marko odlazi da vecera. { n0V[]; PrilogRecenicni[] } class n0ClVad1 % Nikola se ponasa cudno. { n0ClV[]; PriloskaDopunaOsnovna[] } class n0ClVpn1 % Knjiga se nalazi na stolu. { n0ClV[]; PriloskaDopunaPP[] } Slika 169 Klase petog rečeničnog modela 4.4.1.5 Klase šestog rečeničnog modela Za model šest (Slika 170) nemamo alternative koje mogu biti povezane nekim od leksičkih pravila redistribucije, te smo za njih definisali četiri odvojena modela. Za potrebe ovog modela smo napravili novu subjekatsku klasu, kako bismo omogućili slobodno raspoređivanje subjekta u odnosu na glagol. U primeru modela sa izričnim subjektom trenutno imamo definisan samo dati redosled argumenata. % porodice class n1lsubVn0 % Jasnu boli zub. { LogickiSubjekat[]; AktivniGlagol[]; SubjekatSlobodan[] } class n1lsubVs0 % Marku odgovara da dodju. { LogickiSubjekat[]; AktivniGlagol[]; IzricniSubjekat[] } class n1lsubClVn0 % Marku se svidja Marija. { LogickiSubjekat[]; Refleksivni[]; SubjekatSlobodan[] } class n1lsubClVs0 % Marku se svidja da pusta muziku. { LogickiSubjekat[]; Refleksivni[]; IzricniSubjekat[] } Slika 170 Klase šestog rečeničnog modela 189 4.4.1.6 Klase sedmog rečeničnog modela Za ovaj model (Slika 171) smo alternative ponovo definisali preko jedne od prethodno formiranih disjunkcija alternativa – klase iz drugog, trećeg i četvrtog modela. Na njih smo zatim samo dodali odgovarajuće klase za nepravi, odnosno pravi objekat. % porodice class n0Vn1dirn2ind % Tanja je vratila knjigu Zoranu. { n0Vn1dir[]; NepraviObjekatIm[] } class n0Vn2inddas1dir % Marko je porucio Ivanu da mu vrati ploce. { n0Vn1ind[]; ObjekatRecenicniKompDeklarativni[] } Slika 171 Klase sedmog rečeničnog modela 4.4.1.7 Klase osmog rečeničnog modela I za osmi model (Slika 172) alternative definišemo na isti način kao u klasama sedmog rečeničnog modela, a kako je ponovo u pitanju prelazni glagol, koristimo istu polaznu klasu koju smo koristili u prvoj porodici u sedmom modelu n0Vn1dir. Na ovu klasu zatim samo dodajemo klase za različite realizacije priloške dopune. % porodice class n0Vn1dirad2 % Marko stavlja kameru blizu. { n0Vn1dir[]; PriloskaDopunaOsnovna[] } class n0Vn1dirpn2 % Ivan ubacuje pismo u sanduce. { n0Vn1dir[]; PriloskaDopunaPP[] } class n0Vn1dirnumn2 % Marko je platio knjigu 100 dinara. { n0Vn1dir[]; BrojnaDopuna[] } Slika 172 Klase osmog rečeničnog modela 4.4.1.8 Klase devetog rečeničnog modela Kako za ove klase (Slika 173) nema alternativa definisanih preko leksičkog pravila redistribucije, definisali smo samo osnovne klase – jednu za imenički predikativ, a drugu za pridevski. U ovom trenutku je redosled reči u ovim klasama fiksiran, te podrazumevamo da one uvek sadrže subjekat i da se kopula nalazi između subjekta i predikativa. 190 % porodice class n0vN % Ovo je Marija. {Subjekat[]; ImenickiPredikat[] } class n0vA % Jasna je pametna. {Subjekat[]; PridevskiPredikat[] } Slika 173 Klase devetog rečeničnog modela 4.4.1.9 Klase desetog rečeničnog modela Kao i za prethodnu klasu, ni ovde (Slika 174) ne postoje alternative u smislu leksičkih pravila redistribucije, te definišemo samo osnovnu klasu, u kojoj se priloški predikativ u ovom trenutku realizuje samo kao prilog. Takođe, ni za ovu klasu nije trenutno definisan slobodan red reči. % porodice class n0vAd % Stanica je daleko. { Subjekat[]; PriloskiPredikatAd[] } Slika 174 Klase desetog rečeničnog modela 4.4.2 Bezlični modeli 4.4.2.1 Klase prvog bezličnog modela Ovaj model (Slika 175), kao ni ostali bezlični modeli, nemaju alternative povezane leksičkim pravilom redistribucije, pa za svaki od njih definišemo samo osnovne klase. Za prepoznanje prve rečenične porodice koristimo klasu koju smo definisali za bezlične aktivne glagole. Za prepoznavanje klase sa refleksivnim glagolom koristimo klasu koju smo definisali za refleksivne bezlične i obezličene glagole. % porodice class V % Seva. { BezlicniAktivniGlagol[] } class VCl % Smrkava se. { BezlicniDesni[] } Slika 175 Klase prvog bezličnog modela 191 4.4.2.2 Klase drugog bezličnog modela Drugi model (Slika 176) definišemo preko kopulativne klase definisane posebno za ove potrebe. % porodice class Adv % Sparno je. { PriloskiPredikatAdLevi[] } Slika 176 Klasa drugog bezličnog modela 4.4.2.3 Klase trećeg bezličnog modela I treći model definisan je na intuitivni način, kombinovanjem pojedinačnih klasa za argumente i odgovarajući tip predikata (Slika 177). % porodice class n0lsubV % Marku je pozlilo. { LogickiSubjekat[];BezlicniAktivniGlagol[] } class n0lsubClV % Marku se slosilo. { LogickiSubjekat[]; BezlicniLevi[] } Slika 177 Klase trećeg bezličnog modela 4.4.2.4 Klase četvrtog bezličnog modela Za četvrti model (Slika 178) smo iskoristili posebnu kopulativnu klasu kao i u drugom bezličnom modelu 2. % porodice class n0lsubvAd % Marku je dobro. { LogickiSubjekat[]; PriloskiPredikatAdDesni[] } Slika 178 Klasa četvrtog bezličnog modela 4.5 Dodatne klase Postoji još nekoliko klasa koje je bilo potrebe da definišemo, a koje su definisane kao takve za potrebe parsiranja. U jednu takvu grupu spadaju pojedinačne klase za svaki od čvorova koji je obeležen za zamenu. Da bi leksikalizacija gramatike bila moguća, i da bi bilo 192 moguće parsirati rečenicu, potrebno je da postoje posebni čvorovi koji direktno vezuju gramatiku za leksikon. Sve takve čvorove koje trenutno imamo definisane u metagramatici dajemo niže (Slika 179). Nećemo za njih posebno navoditi stabla, kako bi se ona sastojala samo od jednog čvora uz koji bi stajala obeležja navedena u klasama. class N % imenice declare ?xN ?fG ?fN ?fC { { node xN (color = red, mark = anchor) [cat = N, bot = [pers = z, wh = -, gen = fG, num = fN, case = fC]] } } class PRO % zamenice declare ?xPRO ?fP ?fW ?fG ?fN ?fC { { node xPRO (color = red, mark = anchor) [cat = PRO, bot = [pers = fP, wh = fW, gen = fG, num = fN, case = fC]] } } class Se % refleksivna rečca koja se unosi zamenom declare ?xCl { { node xCl (color = red, mark = anchor, rank = 5) [cat = Cl, bot = [ref = +]] } } class Cop % kopula declare ?xVcop ?fM ?fF ?fP ?fN { { node xVcop (color = red, mark = anchor) [cat = V, bot = [mod = fM, form = fF, pers = fP, num = fN, cop = +]] } } class P % predlog declare ?xP ?fC { { node xP (color = red, mark = anchor) [cat = P, bot = [case = fC]] } } class ADV % prilog declare 193 ?xADV { { node xADV (color = red, mark = anchor) [cat = ADV] } } class NUM % broj declare ?xNUM { { node xNUM (color = red, mark = anchor) [cat = NUM] } } class C % komplementizator declare ?xC { { node xC (color = red, mark = anchor) [cat = C] } } Slika 179 Klase čvorova obeleženih za zamenu U drugu grupu klasa koje je bilo potrebno definisati odvojeno za potrebe parsiranja spadaju klase pomoćnih, neargumentskih rečeničnih delova, kao što su negacija i pomoćni glagol. U ovu posebnu grupu će u budućnosti ući i klase modifikatora sintagmi, kao i klasa za neargumentska pitanja, npr. pitanje sa upitnom rečcom da li. Sve klase koje smo definisali na slici niže (Slika 181) su klase struktura koje se pripajaju na glagolsku frazu. Međutim, da bi ovakvo stablo, odnosno njegov opis u vidu klase, mogao da se identifikuje sa opisom glagola, bilo je potrebno da ova stabla imaju strukturu kakva je prikazana niže (Slika 180, primer 1). U tom slučaju, identifikacija ovakve klase i klase glagola daje strukturni opis kakav se može videti na slici pored (Slika 180, primer 2). 194 1. 2. Slika 180 Glagolska fraza na koju je pripojena negacija u SrpTAG (1) i kao izlaz metagramatike (2) Za negaciju smo definisali prvu klasu (Neg) na slici niže (Slika 181). Za pomoćne glagole smo definisali dve odvojene klase, jednu za prošlo vreme (AuxProslo) i jednu za buduće vreme (AuxBuduce). Klase za ostala složena vremena i načine će u budućnosti biti definisala po istom principu. Definisali smo i odvojenu klasu za fazne glagole (Fazni) u prezentu. Modalne glagole, kako je njihova struktura drugačija, trenutno ne analiziramo. U svim primerima čvor xTop se odnosi na gornji čvor V koji se može videti u primeru 2 (Slika 180), dok se čvor xR odnosi na donji čvor V. Vrednost obeležja mark na čvoru xTop ‒ nadj, zabranjuje da na datom čvoru dođe do daljeg pripajanja. class Neg % negacija export xTop xNeg xR declare ?xTop ?xNeg ?xR { { node xTop (color = red, mark = nadj) [cat = V, bot = [neg = +]] { node xNeg (mark = anchor, color = red) [cat = NEG, top = [neg = +]] node xR (mark = foot, color = red) [cat = V, top = [mod = I, neg = -]] } } } class AuxProslo % pomoćni glagol za građenje prošlog vremena export xTop xL xR declare ?xTop ?xL ?xR ?fP ?fN ?fG { { node xTop (color = red, mark = nadj) [cat = V, bot = [mod = I, form = R, num = fN, pers = fP, gen = fG]] { node xL (mark = anchor, color = red) [cat = V, top = [mod = I, form = P, num = fN, pers = fP, aux = +]] node xR (mark = foot, color = red) [cat = V, top = [mod = G, num = fN, gen = fG]] } } VP S Vi S Vn NEG Vi S V*n NEG◊ 195 } class AuxBuduce % pomoćni glagol za građenje budućeg vremena export xTop xL xR declare ?xTop ?xL ?xR ?fP ?fN ?fG { { node xTop (color = red, mark = nadj) [cat = V, bot = [mod = I, form = F, num = fN, pers = fP]] { node xL (mark = anchor, color = red) [cat = V, top = [mod = I, form = P, num = fN, pers = fP, aux = +]] node xR (mark = foot, color = red) [cat = V, top = [mod = W]] } } } class Fazni % fazni glagoli export xTop xL xR declare ?xTop ?xL ?xR ?fF ?fP ?fN ?fG { { node xTop (color = red, mark = nadj) [cat = V, bot = [mod = I, form = fF, num = fN, pers = fP, gen = fG]] { node xL (mark = anchor, color = red) [cat = V, top = [mod = I, form = P, num = fN, pers = fP, fazni = +]] node xR (mark = foot, color = red) [cat = V, top = [mod = W, asp = imprf]] } } } Slika 181 Pomoćna glagolska stabla 196 5 PRIMENA METAGRAMATIKE 197 5.1 Leksikoni Klase metagramatike koje smo definisali u poglavlju 4 predstavljaju obrazac po kome možemo vršiti parsiranje rečeničnih struktura. Međutim, da bi bilo moguće parsiranje konkretnog teksta, potrebno je da pored metagramatike postoje i odgovarajući leksikoni u kojima je svaka od reči povezana sa odgovarajućom klasom u metagramatici. Povezivanje rečeničnih struktura sa leksikonima ne vrši se pomoću same metagramatike, već pomoću parsera TuLiPA. Parser TuLiPA kao svoj ulaz zahteva dva leksikona – leksikon lema i morfološki leksikon. Oba leksikona se nalaze u .xml formatu i za njih je propisan odgovarajući DTD172, koji se može se videti u dodacima (poglavlje 8.1). U leksikonima za predstavljanje srpskih slova koja sadrže dijakritike ili su digrafi (č, ć, đ, dž, š, ž, nj i lj) koristimo aurora kodni raspored, koji se koristi i u elektronskim rečnicima i korpusu srpskog jezika SrpKOR. Tabela u kojoj je prikazan odnos pomenutih srpskih slova i aurora karaktera data je niže173 (Tabela 14). Tabela 14 AURORA kod za ne-ASCII srpska latinična slova Veliko slovo AURORA kod Malo slovo AURORA kod Primer Č CY, Cy č cy Čačak = Cyacyak Ć CX, Cx ć cx Ćićevac = Cxicxevac Đ DX, Dx đ dx Đorđe = Dxordxe Š SX, Sx š sx Šuškati = Sxusxkati Ž ZX, Zx ž zx Žižak = Zxizxak NJ, Nj NX, Nx nj nx Njegoš = Nxegosx LJ, Lj LX, Lx lj lx Ljubljana = Lxublxana DŽ, Dž DY, Dy dž dy Džordž = Dyordy Leksikon lema se sastoji od osnovnih oblika reči, uz koje se, ukoliko su u pitanju reči koje se u rečeničnim modelima mogu javiti kao sidra, navode i rečenični modeli u kojima 172 engl. Document Type Definition, obrazac koji propisuje obaveznu strukturu XML dokumenta. 173 Tabela je uz izmene preuzeta sa sajta: http://korpus.matf.bg.ac.rs/prezentacija/uputstvo.html 198 imaju ulogu sidra. Svaki glagol je tako u ovom leksikonu povezan sa odgovarajućim rečeničnim modelom ili modelima u kojima se može naći (Slika 182). Slika 182 Unosak glagola spavati u leksikonu lema Jedinice koje kao svoje dodatno sidro imaju još neku leksemu – u našem slučaju su to refleksivni glagoli ‒ u okviru svog unoska sadrže i opis dodatnog sidra, u ovom slučaju rečce se (Slika 183). se Slika 183 Unosak glagola smrkavati se u leksikonu lema Svaka imenica, zamenica i pridev potencijalno mogu biti sidra u rečenicama s kopulativnim glagolima, te se i oni povezuju sa odgovarajućim rečeničnim modelima (Slika 184, drugi primer). Budući da se ove jedinice u rečenična stabla češće unose zamenom, za njih se definišu dupli unosci, pri čemu se u slučaju unosa zamenom povezuju sa klasom koja opisuje ponašanje njihove kategorije (Slika 184, prvi primer). U slučaju imenica, to će biti kategorija N, koju smo opisali u dodatnim klasama metagramatike (Slika 179). Slika 184 Unosci imenice Sonja u leksikonu lema 199 U leksikon lema su uneta i leksička ograničenja na formiranje participskog pasiva (kroz obeležje pasiv) i izostavljanje argumenata (obeležja bez1 i bez2). Morfološki leksikon se sastoji od morfoloških oblika leme i vrednosti njenih morfoloških kategorija (Slika 185). U ovom leksikonu svaka reč definiše se zasebno, bez obzira na to što neke od njih čine jednu jedinicu u leksikonu lema (kao glagol smrkavati se). Za svaku od lema ovde postoji onoliko unosaka koliko ima njenih morfoloških oblika. Slika 185 Jedan od unosaka glagola spavati u morfološkom leksikonu Trenutan broj jedinica u oba leksikona je mali ‒ uneti su predstavnici svake od klasa i svega još po nekoliko primera kako bi bilo moguće testiranje sistema (leksikoni su u celosti dati u dodacima, poglavlja 8.2 i 8.3). Da bi se metagramatika mogla primeniti na rečenice sa raznovrsnijim izborom reči, bilo bi potrebno informacije koje trenutno postoje u DELAS i DELAF rečnicima automatski transformisati u format leksikona lema i morfološkog leksikona, uz ručno dodavanje određenih informacija. Pogledajmo najpre kako bi izgledala transformacija iz rečnika DELAS. 200 Za jedinice koje se u stabla unose zamenom, transformacija bi bila manje-više direktna. Kako smo zadržali nazive za vrste reči, i kako smo klase koje opisuju ponašanje date vrste reči nazvali na isti način kao u elektronskim rečnicima za srpski jezik (N, PRO, ADV...), potrebno je samo drugačije formatirati unosak (Slika 186). Pri transformaciji bi došlo do određenog gubitka informacija ‒ u ovom slučaju semantičkih informacija (Hum) i lingvističkih informacija (Ek), ali se i one mogu uneti u nadi da će u jednom trenutku i ove informacije biti dodate u analizi. devojka.N+Hum+Ek ⟶ Slika 186 Transformacija unoska leme devojka iz rečnika DELAS u leksikon lema Za glagole i jedinice koje mogu biti sidra u rečenici, ova transformacija mora biti praćena ručnim dodavanjem porodice stabala kojoj data jedinica pripada (Slika 187). spavati.V ⟶ Slika 187 Transformacija unoska leme spavati iz rečnika DELAS u leksikon lema Za glagole koji su označeni kao refleksivni, transformacija bi se vršila u unosak koji sadrži rečcu se kao dodatno sidro (Slika 188). bojati.V+Imperf+It+Ref ⟶ se Slika 188 Transformacija unoska leme bojati (se) iz rečnika DELAS u leksikon lema 201 Pri transformaciji unosaka iz rečnika DELAF u morfološki leksikon, deo informacija bi se potpuno identično preneo. Kao ilustraciju ove transformacije, dajemo primere niže (Slika 189). Postoji nekoliko kategorija koje u morfološkom leksikonu koristimo, a koje ne postoje u rečniku DELAF. Dve od njih, koje su obeležene u pomenutom primeru, su kategorija lica za imenice ‒ koja je podrazumevano treće lice, te ne predstavlja veći problem, i kategorija upitnosti. Vrednost kategorije upitnosti je za imenice generalno negativna, sem ukoliko se ne navede suprotno oznakom Wh, tako da ni ova kategorija ne predstavlja problem. devojci, devojka.N+Hum+Ek:fs3v:fs7v ⟶ 1. 2. 202 Slika 189 Transformacija unoska za reč devojka iz rečnika DELAF u morfološki leksikon Pogledajmo još kako bi ova transformacija izgledala kod glagola (Slika 190). stavlxa,stavlxati.V+Imperf+Tr+Iref:Pzs ⟶ Slika 190 Transformacija unoska za glagol stavljati iz rečnika DELAF u morfološki leksikon 203 Sve morfološke informacije iz DELAF klase mogu se direktno transformisati u vrednosti odgovarajućih obeležja u leksikonu. Informacija o glagolskom vidu takođe ulazi u leksikon. Dve informacije koje ne ulaze direktno u leksikon ‒ informacija o tome da je glagol prelazan (Tr) i nerefleksivan (Iref) mogu se grubo iskoristiti za određivanje klase kojoj pripada ovaj glagol (modeli 2, 3, 7 ili 8). 204 5.2 Evaluacija U ovom poglavlju ćemo dati opšti pregled konstrukcija i rečenica koje je trenutno moguće automatski prepoznati koristeći navedenu metagramatiku. U primerima će biti korišćen ograničen vokabular, iz razloga koje smo naveli u poglavlju o leksikonima (5.1), ali možemo smatrati da bi bilo koja varijacija vokabulara iste klase bila moguća. Kako bi navođenje rečenica koje sistem prepoznaje bio izuzetno redundatan posao, umesto po modelima, navodićemo slučajeve koje sistem prepoznaje po rečeničnim funkcijama, dodajući gde je potrebno informacije o pojedinačnim modelima. Pre toga je potrebno dodati još par napomena:  Parser TuLiPA pravi razliku između malih i velikih slova. Samim time, moguće je prepoznavati reči samo u onom obliku u kome se nalaze u leksikonu.  Interpunkcija nije uneta u klase, te se trenutno ne prepoznaje ni u kakvom obliku. Pogledajmo sada kakav je stepen prepoznavanja svakog od glagolskih argumenata i samih glagola. Subjekat Sistem u ovom trenutku prepoznaje sve imeničke vrste subjekta (Marko/Sonja), zameničke vrste subjekta ‒ kao lične zamenice i odgovarajuće upitne zamenice za formiranje subjekatskog pitanja (ko, šta, kao u Ko spava?). Kongruencija subjekta sa pomoćnim glagolom, kopulom i participom funkcioniše ispravno kroz sve klase. Rečenični subjekat ne prepoznajemo u ovom trenutku. Jedina pozicija subjekta koju trenutno prepoznajemo jeste ona na prvom mestu u rečenici. Izuzetak su rečenice sa logičkim subjektom, za koje smo formulisali eksperimentalnu klasu koja ima nezavisan redosled reči te subjekat u ovom slučaju prepoznajemo i iza glagola. Nerealizovan subjekat se ispravno prepoznaje kroz modele s glagolskim predikatom, uključujući i refleksivne glagole, međutim u modelima s kopulativnim glagolima ne uzimamo u obzir to da subjekat može biti izostavljen. 205 Predikat Sistem ispravno prepoznaje glagolske predikate u pozitivnom i negativnom obliku u prezentu, uključujući i slučajeve sa refleksivnim glagolima (npr. Marko se ne šali.). Oblici refleksivnog pasiva i obezličene varijante glagola se uspešno prepoznaju u oba slučaja. Trenutno ne prepoznajemo negaciju na pomoćnim glagolima i kopuli, pa tako ni u participskom pasivu. Prošlo vreme i buduće vreme prepoznajemo na glagolima koji nisu refleksivni i nisu kopule. Pomoćne glagole trenutno prepoznajemo samo kada se nalaze neposredno ispred glagola. Ne prepoznajemo futur u obliku da+prezent i ne prepoznajemo modalne glagole ‒ ni jedna ni druga konstrukcija trenutno nisu unete u sistem. Pravi objekat Trenutno prepoznajemo imenički i zamenički pravi objekat, kao i varijantu sa upitnim pravim objektom (Koga Sonja voli?). Klasa za rečenični pravi objekat još uvek ne funkcioniše, dok pravi objekat u obliku enklitike dosad nismo obrađivali. Pravi objekat trenutno prepoznajemo samo na poziciji iza glagola. Nepravi objekat Uspešno prepoznajemo imeničke i zameničke objekte, uključujući i upitnu varijantu nepravog objekta (Kome daje lutku?). Prepoznajemo neprave objekte u obliku predloško- padežne konstrukcije, iako trenutno sve predloge tretiramo kao jedinice koje se unose zamenom, a ne kao dodatna sidra uz glagol. Trenutno ne prepoznajemo predloško-padežne konstrukcije u upitnom obliku (U čemu spava Marko?), enklitičke oblike nepravog objekta, kao ni rečenični nepravi objekat. Primer rezultata parsiranja za rečenicu Kome Marko daje lutku? ‒ izvedeno stablo (Slika 191) i stablo izvođenja (Slika 192) dati su u nastavku. Nepravi objekat prepoznajemo samo na poziciji iza glagola. U rečenicama u kojima postoje i pravi i nepravi objekat, prepoznajemo oba njihova međusobna redosleda. 206 Priloška dopuna Od priloških dopuna trenutno prepoznajemo priloge, predloško-padežne konstrukcije i brojne dopune. Prepoznajemo pitanja u kojima su prilog, predloško-padežna konstrukcija ili brojna dopuna zamenjeni upitnom priloškom rečju (npr. Gde Marko živi?), ali ne i upitne forme u obliku predloško-padežne konstrukcije ili brojne dopune. Priloške dopune trenutno prepoznajemo samo na poziciji iza glagola. Logički subjekat Logički subjekat prepoznajemo u imeničkom, zameničkom obliku, i kao upitnu zamenicu (Koga boli glava?). Ne prepoznajemo enkliticke oblike logičkog subjekta. Iako je za logički subjekat definisana glavna pozicija ispred glagola, prepoznajemo ga i iza glagola. Predikativi Imenski predikativ prepoznajemo kao imenicu ili zamenicu. Kod pridevskih predikativa ispravno funkcioniše kongruencija sa glagolom. Od priloških predikativa trenutno prepoznajemo samo priloge. Ni za jedan od predikativa trenutno nemamo definisan upitni oblik. Za predikative trenutno nemamo definisanu klasu koja omogućava prepoznavanje rečenica kao što je Pametan je, ali možemo da prepoznajemo bezlične modele ovakve strukture, sa prilogom kao glagolskim delom predikata i subjektom koji nije prisutan u strukturi ‒ Dobro je. Primeri koje trenutno sistem ne prepoznaje mogu se podeliti na dve grupe. U jednu grupu spadaju oni za koje ne postoji tehnička ni jezička poteškoća i koji samo još uvek nisu obrađeni u sistemu. U ovu grupu spadaju negacija i prošlo i buduće vreme za kopulativne glagole, prepoznavanje primera bez subjekta za kopulativne glagole, prepoznavanje brojnih fraza, modalnih glagola, opštih pitanja i sl. U drugu grupu spadaju pojave koje izazivaju neku vrstu tehničke ili jezičke poteškoće, a za koje će biti potrebno značajnije modifikovati sistem i klase koje ih obrađuju. U ovu grupu spada obrada predloško-padežnih konstrukcija kao 207 upitnih fraza i kao predikativa, obrada konstrukcije da+prezent, tretman rečeničnih argumenata, tretman enklitika i tretman reda reči. Kompiliranje gramatike ove veličine i sastava traje par sekundi preko jednog minuta (minut i tri sekunde). Dvosmislenost prilikom parsiranja je trenutno minimalna, i slobodno se može reći nepostojeća. Računamo na to da se dvosmilenost u određenoj meri povećati kada se u leksikone unese veći broj jedinica i kada se u metagramatici poveća broj klasa. 208 S li k a 1 9 1 I zl a z p a rs e ra T u L iP A z a r e če n ic u K o m e M a rk o d a je l u tk u ? ‒ i zv e d e n o s ta b lo 209 S li k a 1 9 2 I zl a z p a rs e ra T u L iP A z a r e če n ic u K o m e M a rk o d a je l u tk u ? ‒ s ta b lo i zv o đ e n ja 210 6 ZAKLJUČAK I DALJI RAD 211 6.1 Zaključak U ovom radu smo prikazali proces izrade i rezultate izrade formalne gramatike srpskog jezika SrpTAG i njegove metagramatike. U prvom delu rada smo dali uvod u obradu prirodnih jezika kao disciplinu, fokusirajući se na obradu srpskog jezika. Prikazali smo metode, alate i resurse koji se trenutno koriste za srpski jezik i time napravili uvod za gramatiku za automatsku obradu teksta koja je dalje izrađivana u radu. U drugom poglavlju smo dali prikaz pojma formalne gramatike, kao i prikaz konkretne formalne gramatike koju smo nadalje koristili u radu ‒ FBLTAG. U drugom delu poglavlja uvodimo pojam metagramatike, kao i konkretne metagramatike koju smo koristili u daljem radu ‒ XMG. U trećem poglavlju smo prikazali proces izrade formalne gramatike srpskog jezika ‒ SrpTAG, počevši od morfoloških odluka, preko odluka o gramatici prirodnog jezika koja nam je služila kao uzor, pa sve do odluka o izboru struktura koje bi najbolje predstavile fenomene u srpskom jeziku. SrpTAG smo predstavili detaljno, preko glagola i njegovih argumenata, pa sve do rečeničnih modela. U četvrtom poglavlju smo na osnovu rezultata dobijenih u trećem poglavlju izradili metagramatiku za srpski jezik. Kao i SrpTAG, i metagramatiku smo prikazali detaljno, po argumentima i rečeničnim modelima. Peto poglavlje smo posvetili primeni metagramatike koju smo definisali u poglavlju četiri. Predstavili smo leksikone koji su neophodni za njenu primenu i dali evaluaciju trenutnog stanja metagramatike. Opisali smo koliko uspešno prepoznajemo svaki od segmenata definisanih u metagramatici, dali vreme potrebno za njeno kompiliranje i rezultate koji se tiču dvosmislenosti gramatike. Možemo zaključiti da je cilj koji je bio postavljen ‒ da se obrade osnove gramatike srpskog jezika ‒ ispunjen. Gramatika, odnosno metagramatika, koju smo napravili u ovom radu mogu se uspešno koristiti za prepoznavanje osnovnih (deklarativna rečenica u svakom od rečeničnih modela) i izvedenih struktura srpskog jezika (pitanje, negacija, pasiv, refleksivni pasiv, obezličavanje). Data gramatika isto tako ima i generativni kvalitet. U stanju u kome je trenutno, ova gramatika ne samo da prepoznaje ispravne strukture 212 srspkog jezika, već i odbacuje one koje nisu gramatične, odnosno ‒ ne generiše i ne prepoznaje negramatične strukture srpskog jezika. 6.2 Dalji rad Rad na formalnoj gramatici bilo kog jezika nije nimalno lak zadatak, ali moramo reći da je on dodatno otežan kada se radi sa morfološki bogatim jezikom sa slobodnim redom reči kakav je srpski. Naš cilj u ovom radu bio je da damo osnove ove formalne gramatike, i smernice za to u kom pravcu je dalje razvijati. Samim tim, ostalo je još puno materijala za dalji rad. Navešćemo ovde samo neke od daljih pravaca:  osposobljavanje svih realizacija pojedinih rečeničnih funkcija (npr. realizacija predloške fraze kao predikativa, osposobljavanje klasa za rečenične argumente, unošenje enklitika)  dodavanje i ostalih složenih glagolskih vremena i načina (potencijal, futur 2, futur u obliku da+prezent)  bavljenje redom reči, pre svega redom reči enklitika  unošenje modifikatora fraza (prideva i priloga) i rečeničnih modifikatora (priloga, predloško-padežnih konstrukcija)  proširivanje domena pitanja na opšte (da li, je li) pitanje i ostale tipove pitanja koji ne predstavljaju transformaciju osnovne rečenične strukture.  proširivanje leksikona poluautomatskom transformacijom elektronskog rečnika srpskog jezika. Dalji razvoj ovog resursa omogućio bi potpunu automatsku sintaksičku analizu teksta, i kao takav, znatno bi doprineo razvoju mašinskog prevođenja sa srpskog jezika i na srpski jezik. Ovaj resurs bi mogao da bude od velikog značaja i studentima srpskog jezika, kako onima kojima je srpski maternji jezik, tako i onima koji ga uče kao strani. Nadamo se zato da će rezultati ovog rada poslužiti naučnicima kao koristan alat, kao osnova i 213 inspiracija za njihov dalji rad, kao i da će biti naučnika koji će želeti da se uključe u profinjavanje dosad napravljene SrpTAG. 214 7 LITERATURA 215 7.1 Korišćena literatura Abeillé, A. (1990). Lexical and Syntactic Rules in a Tree Adjoining Grammar. In Proceedings of the 28th annual meeting on Association for Computational Linguistics. Pittsburgh: Association for Computational Linguistics. Abeillé, A. (2002). Une grammaire électronique du français. Paris: CNRS. Abeillé, A. (2007). Les grammaires d’unification. Paris: Lavoisier, Hermes Science. Aho, A. V. (1968). Indexed Grammars—An Extension of Context-Free Grammars. Journal of the ACM (JACM), 15(4), 647–671. Balvet, A., Stošić, D., & Miletić, A. (2014). TALC-Sef: a Manually-Revised POS-Tagged Literary Corpus in Serbian, English and French. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14) (pp. 4105–4110). Reykjavik: European Language Resources Association (ELRA). Berwick, R. C. (1984). Strong Generative Capacity, Weak Generative Capacity, and Modern Linguistic Theories. Computational Linguistics, 10(3–4), 189–202. Candito, M.-H. (1996). A Principle-Based Hierarchical Representation of LTAGs. In Proceedings of the 16th International Conference on Computational linguistics COLING96 (pp. 194–199). Copenhagen: Association for Computational Linguistics. Candito, M.-H. (1999). Organisation modulaire et paramétrable de grammaires électroniques lexicalisées: Application au français et à l’italien. Ph.D. thesis. Paris: Université Paris 7. Chomsky, N. (1956). Three Models for the Description of Language. In I. R. E. Transactions on Information Theory (Vol. IT-2, pp. 113–123). Chomsky, N. (1963). Formal Properties of Grammars. In Handbook of Mathematical Psychology. New York: Wiley. Chomsky, N. (1965). Aspects of the Theory of Syntax. Cambridge, Massachusetts: MIT press. Chomsky, N. (1981). Lectures on Government and Binding. Dordrecht: Foris Publications. Constant, M., Krstev, C., & Vitas, D. (2015). Hybrid Lexical Tagging in Serbian. In Z. Vetulani & J. Mariani (Eds.), Proceedings of 7th Language & Technology Conference (pp. 461– 465). Poznań: Fundacja Uniwersytetu im. A. Mickiewicz. Crabbé, B. (2005). Représentation informatique de grammaires fortement lexicalisées: Application à la grammaire d’arbres adjoints. Ph.D. thesis. Paris: Université Nancy 7. 216 Crabbé, B., & Duchier, D. (2005). Metagrammar Redux. Lecture Notes in Computer Science, 3438, 32–47. Crabbé, B., Duchier, D., Gardent, C., Le Roux, J., & Parmentier, Y. (2013). XMG: eXtensible MetaGrammar. Computational Linguistics, 39(3), 591–629. Dalrymple, M. (2001). Lexical Functional Grammar. New York: Academic Press. de La Clergerie, É. V. (2005). DyALog: A Tabular Logic Programming Based Environment for NLP. In Proceedings of International Workshop on Constraint Solving and Language Processing (CSLP04) (pp. 18–33). Barcelona. Dobrić, N. (2012). Savremeni jezički korpusi na Zapadnom Balkanu - istorijat, trenutno stanje i budućnost. Slavistična Revija, 60(4), 677–692. Doran, C., Egedi, D., Hockey, B. A., Srinivas, B., & Zaidel, M. (1994). XTAG system - A Wide Coverage Grammar for English. In Proceedings of the 15th conference on Computational linguistics (Vol. 2, pp. 922–928). Kyoto: Association for Computational Linguistics. Đorđević, B. (2012). Automatic Recognition of Composite Verb Forms in Serbian. Retrieved March 26, 2017, from http://ceur-ws.org/Vol-920/p89-djordjevic.pdf Đorđević, B. (2014). Initial Steps in Building Serbian Treebank: Morphological Annotation. In G. Pavlović-Lažetić, C. Krstev, I. Obradović, & D. Vitas (Eds.), Natural Language Processing for Serbian: Resources and Applications (pp. 41–53). Belgrade: University of Belgrade, Faculty of Mathematics. Erbach, G., & Uszkoreit, H. (1990). Grammar Engineering: Problems and Prospects. In In Proceedings of ANLP-92 (pp. 1–20). Trento: Association for Computational Linguistics. Gazdar, G. (1988). Applicability of Indexed Grammars to Natural Languages. In Natural Language Parsing and Linguistic Theories (pp. 69–94). Dordrecht: Springer Netherlands. Gazdar, G., Klein, E., Pullum, G. K., & Sag, I. A. (1985). Generalized phrase structure grammar. Massachusetts: Blackwell Publishing and Harvard University Press. Gerdes, K. (2002). DTAG? In Proceedings of the Sixth International Workshop on Tree Adjoining Grammar and Related Frameworks (TAG+6) (pp. 242–251). Universitá di Venezia. Gesmundo, A., & Samardžić, T. (2012). Lemmatising Serbian as Category Tagging with 217 Bidirectional Sequence Classification. In Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC’12) (pp. 2103–2106). Gross, M. (1975). Méthodes en syntaxe. Paris: Hermann. Gross, M. (1979). On the Failure of Generative Grammar. Language, 55(4), 859–885. Gucul-Milojević, S. (2010). Vlastita imena u ekstrakciji informacija. INFOteka, 11(1), 47–58. Han, C., Yoon, J., Kim, N., & Palmer, M. (2000). A Feature-Based Lexicalized Tree Adjoining Grammar for Korean. Philadelphia: University of Pennsylvania, Institute for Research in Cognitive Science. Hutchins, J. (2005). The First Public Demonstration of Machine Translation : the Georgetown-IBM System , 7th January 1954. Retrieved October 26, 2016, from www.hutchinsweb.me.uk/GU-IBM-%0A2005.pdf Jaćimović, J. (2016). Automatsko prepoznavanje i normalizacija vremenskih izraza u nestrukturiranim novinskim i medicinskim tekstovima na srpskom jeziku. Ph.D. thesis. Beograd: Filološki fakultet, Univerzitet u Beogradu. Joshi, A. K., Levy, L. S., & Takahashi, M. (1975). Tree Adjunct Grammars. Journal of Computer and System Sciences, 10(1), 136–163. Jurafsky, D., & Martin, J. H. (2000). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Upper Saddle River, New Jersey: Prentice-Hall, Inc., Pearson Education International. Kallmeyer, L., Lichte, T., Maier, W., Parmentier, Y., & Dellert, J. (2008). Developing a TT- MCTAG for German with an RCG-based Parser. In Proceedings of the Sixth International Language Resources and Evaluation (LREC’08) (pp. 782–789). Marrakech: LREC. Kallmeyer, L., Lichte, T., Maier, W., Parmentier, Y., Dellert, J., & Evang, K. (2008). TuLiPA : Towards a Multi-Formalism Parsing Environment for Grammar Engineering. In S. Clark & T. H. King (Eds.), Proceedings of the Workshop on Grammar Engineering Across Frameworks (Coling 2008) (pp. 1–8). Manchester: Association for Computational Linguistics. Kallmeyer, L., & Yoon, S. (2004). Tree-Local MCTAG with Shared Nodes : Word Order Variation in German and Korean. Traitement Automatique Des Langues TAL, 45(3), 40– 47. 218 Kaplan, R., & Bresnan, J. (1982). Lexical-Functional Grammar: A Formal System for Grammatical Representation. In The mental representation of grammatical relations. Cambridge, Massachusetts: MIT Press. Kay, M. (1984). Functional Unification Grammar: A Formalism for Machine Translation. In Proceedings of the 10th International Conference on Computational Linguistics and 22nd annual meeting on Association for Computational Linguistics. Stanford: Association for Computational Linguistics. Kostić, A. (2003). Elektronski korpus srpskog jezika Đorđa Kostića. Zbornik Matice Srpske Za Slavistiku, 64, 260–264. Kostić, Đ. (2001). Kvantitativni opis strukture srpskog jezika - Korpus srpskog jezika. Beograd: Institut za eksperimentalnu fonetiku i patologiju govora i Laboratorija za eksperimentalnu psihologiju Filozofskog fakulteta u Beogradu. Kracht, M. (2003). The Mathematics of Language. Berlin, New York: Mouton de Gruyter. Kroch, A., & Joshi, A. K. (1985). The Linguistic Relevance of Tree Adjoining Grammar. Technical Reports (CIS). Philadelphia: Department of Computer & Information Science, University of Pennsylvania. Krstev, C. (2008). Processing of Serbian – Automata, Texts and Electronic Dictionaries. Belgrade: Faculty of Philology, University of Belgrade. Krstev, C., Stanković, R., Obradović, I., & Lazić, B. (2015). Terminology Acquisition and Description Using Lexical Resources and Local Grammars. In T. Poibeau & P. Faber (Eds.), Proceedings of the 11th Conference on Terminology and Artificial Intelligence (pp. 81–89). Granada, Spain: LexiCon (Universidad de Granada). Krstev, C., Utvić, M., & Jaćimović, J. (2015). Ako koza laže, rog ne laže - gde su i ko su žene u srpskoj dnevnoj štampi. Knjiženstvo - Časopis Za Studije Književnosti, Roda I Kulture, 5. Krstev, C., & Vitas, D. (2005). Corpus and Lexicon - Mutual Incompletness. In P. Danielsson & M. Wagenmakers (Eds.), Proceedings of the Corpus Linguistics Conference. Birmingham. Krstev, C., & Vitas, D. (2009). An Aligned English-Serbian Corpus. In N. Tomović & J. Vujić (Eds.), ELLSIIR Proceedings (English Language and Literature Studies: Image, Identity, Reality) (pp. 495–508). Belgrade: Faculty of Philology, University of Belgrade. Krstev, C., Vitas, D., & Erjavec, T. (2004). MULTEXT-East Resources for Serbian. In T. Erjavec 219 & J. Z. Gros (Eds.), Zbornik 7. mednarodne multikonference Informacijska druzba IS 2004, Jezikovne tehnologije. Ljubljana: Institut Jožef Stefan. Krstev C., Stanković R., Vitas D., O. I. (2006). WS4LR: A Workstation for Lexical Resources. In Proc. of the 5th International Conference on Language Resources and Evaluation, LREC 2006 (pp. 1692–1697). Genoa, Italy. Kunz, P. (1991). Object Oriented Programming. Stanford: Stanford Linear Accelerator Center, Stanford University. Le Roux, Y. P. J. (2005). XMG: a Multi-Formalism Metagrammatical Framework. Loria.Fr, 1– 12. Levine, R. D., & Meurers, W. D. (2006). Head-Driven Phrase Structure Grammar. In Encyclopedia of language and linguistics (pp. 1–24). Boston: Elsevier. Lopez, P. (2000). Extended Partial Parsing for Lexicalized Tree Grammars. In Sixth International Workshop on Parsing Technologies IWPT 2000. Trento. Miller, P. H. (1991). Scandinavian Extraction Phenomena Revisited: Weak and Strong Generative Capacity. Linguistics and Philosophy, 14(1), 101–113. Mitkov, R. (ed. . (2005). The Oxford Handbook of Computational Linguistics. Oxford: Oxford University Press. Moskovljević Popović, J. (2007). Ogledi o glagolskoj potkategorizaciji. Beograd: Čigoja štampa. Mrazović, P. (2009). Gramatika srpskog jezika za strance. Novi Sad: Izdavačka knjižarnica Zorana Stojanovića. Müller, S. (2016). Grammatical Theory: From Transformational Grammar to Constraint- Based Approaches. Foundations of Cognitive Science. Berlin: Language Science Press. Pelletier, F. J. (1980). The Generative Power of Rule Orderings in Formal Grammars. Linguistics, 1–2(18), 17–72. Pereira, F. C. N., & Warren, D. H. D. (1980). Definite Clause Grammars for Language Analysis—A Survey of the Formalism and a Comparison with Augmented Transition Networks. Artificial Intelligence, 13, 231–278. Peters, P. S., & Ritchie, R. W. (1973). On the Generative Power of Transformational Grammars. Information Sciences, 6(C), 49–83. 220 Petitjean, S. (2013). XMG: A Modular MetaGrammar Compiler. In Student Sessions at the European Summer School in Logic, Language and Information. Berlin, Heidelberg: Springer. Piper, P., Antonić, I., Ružić, V., Tanasić, S., Popović, L., & Tošović, B. (2005). Sintaksa savremenog srpskog jezika-prosta rečenica. Beograd: Institut za srpski jezik SANU. Pollard, C., & Sag, I. A. (1994). Head-Driven Phrase Structure Grammar. Chicago: University of Chicago Press. Popović, Z. (2010). Programi za etiketiranje teksta na srpskom jeziku. INFOteka, 11(2), 19– 36. Pullum, G. K., & Gazdar, G. (1982). Natural Languages and Context-Free Languages. Linguistics and Philosophy, 4(4), 471–504. Rambow, O., & Lee, Y.-S. (1994). Word Order Variation and Tree Adjoining Grammar. Computational Intelligence, 10(4), 386–400. Resnik, P. (1992). Probabilistic Tree-Adjoining Grammar as a Framework for Statistical Natural Language Processing. In Proceedings of the 14th conference on Computational linguistics COLING ’92 (pp. 418–424). Nantes: Association for Computational Linguistics. Savitch, W. J. (1987). Context-Sensitive Grammar and Natural Language Syntax. In W. J. Savitch, E. Bach, W. E. Marsh, & G. Safran-Naveh (Eds.), The Formal complexity of natural language (pp. 358–368). Dordrecht: Springer Netherlands. Schabes, Y. (1990). Mathematical and Computational Aspects of Lexicalized Grammars. Ph.D. Dissertation. Philadelphia: University of Pennsylvania. Schabes, Y., Abeillé, A., & Joshi, A. K. (1988). Parsing Strategies with “Lexicalized” Grammars: Application to Tree Adjoining Grammars. In D. Vargha (Ed.), Proceedings of the 12th Conference on Computational Linguistics (pp. 578–583). Budapest: Association for Computational Linguistics. Schuler, W., Chiang, D., & Dras, M. (2000). Multi-Component TAG and Notions of Formal Power. In Proceedings of the 38th Annual Meeting on Association for Computational Linguistics (p. 455). Hong Kong: Association for Computational Linguistics. Shieber, S. M. (1985). Evidence Against the Context-Freeness of Natural Language. 221 Linguistics and Philosophy, 8, 333–343. Shieber, S. M. (2003). An Introduction to Unification-Based Approaches to Grammar. Brookline, Massachusetts: Microtome Publishing. Shieber, S. M., & Schabes, Y. (1990). Synchronous Tree-Adjoining Grammars. In H. Karlgren (Ed.), Proceedings of the 13th conference on Computational linguistics (Vol. 3, pp. 253– 258). Helsinki: Association for Computational Linguistics. Shieber, S. M., Uszkoreit, H., Pereira, F., Robinson, J., & Tyson, M. (1983). The Formalism and Implementation of PATR-II. Research on Interactive Acquisition and Use of Knowledge, 39–79. Stankovic, R., Krstev, C., Obradović, I., Lazić, B., & Trtovac, A. (2016). Rule-Based Automatic Multi-Word Term Extraction and Lemmatization. In Proceedings of the 10th International Conference on Language Resources and Evaluation, LREC 2016 (pp. 507– 514). Portorož, Slovenia: LREC. Stanković, R., Obradović, I., & Utvić, M. (2014). Developing Termbases under the TBX Standard. In G. Pavlović-Lažetić, C. Krstev, I. Obradović, & D. Vitas (Eds.), Natural Language Processing for Serbian: Resources and Applications (pp. 12–26). Belgrade: University of Belgrade, Faculty of Mathematics. Stanojčić, Ž., & Popović, L. (1997). Gramatika srpskoga jezika: udžbenik za I, II, III i IV razred srednje škole. Beograd: Zavod za udžbenike i nastavna sredstva. Tesnière, L. (1959). Eléments de syntaxe structurale. Paris: Librairie C. Klincksieck. Trtovac, A., & Andonovski, J. (2014). Enrichment of Morphological Dictionary of MWUs from Library and Information Science. In G. Pavlović-Lažetić, C. Krstev, I. Obradović, & D. Vitas (Eds.), Natural Language Processing for Serbian: Resources and Applications (pp. 27–40). Belgrade: University of Belgrade, Faculty of Mathematics. Utvić, M. (2011). Annotating the Corpus of Contemporary Serbian. INFOtheca, 12(2), 36a– 47a. Utvić, M. (2013). Izgradnja referentnog korpusa savremenog srpskog jezika. Ph.D. thesis. Beograd: Filološki fakultet. Vijay-Shanker, K., & Joshi, A. K. (1988). Feature Structures Based Tree Adjoining Grammar. In D. Vargha (Ed.), Proceedings of COLING ’88 (pp. 714–719). Budapest: Association for 222 Computational Linguistics. Vijay-Shanker, K., & Joshi, A. K. (1991). Unification-Based Tree Adjoining Grammars. Technical Reports (CIS). Philadelphia: Department of Computer & Information Science, University of Pennsylvania. Vijay-Shanker, K., & Schabes, Y. (1992). Structure Sharing in Lexicalized Tree-Adjoining Grammars. In Proceedings of the Fifteenth International Conference on Computational Linguistics (COLING’92) (pp. 205–211). Kyoto: Association for Computational Linguistics. Vitas, D. (2006). Prevodioci i interpretatori. Beograd: Matematički fakultet. Vitas, D., Koeva, S., Krstev, C., & Obradović, I. (2008). Tour du monde through the dictionaries. In M. Constant, T. Nakamura, M. De Gioia, & S. Vecchiato (Eds.), Actes du 27eme Colloque International sur le Lexique et la Gammaire (pp. 249–256). L’Aquila: Universite Paris-Est, Institut Gaspard-Monge. Vitas, D., & Krstev, C. (2003). Composite Tense Recognition and Tagging in Serbian. In T. Erjavec & D. Vitas (Eds.), Proceedings of the Workshop on Morphological Processing of Slavic Languages: 10th Conference of the European Chapter, EACL 2003 (pp. 54–61). Budapest: Association for Computational Linguistics. Vitas, D., & Krstev, C. (2006). Literature and Aligned Texts. Readings in Multilinguality, 148– 155. Vitas, D., Krstev, C., & Laporte, E. (2006). Preparation and Exploitation of Bilingual Texts. Lux Coreana, 1, 110–132. Weir, D. J. (1988). Characterizing Mildly Context-Sensitive Grammar Formalisms. Ph.D. thesis. University of Pennsylvania. XTAG Research Group. (2001). A Lexicalized Tree Adjoining Grammar for English. Philadelphia: IRCS, University of Pennsylvania. 223 7.2 Referentne veb lokacije Aurora kodni raspored http://korpus.matf.bg.ac.rs/prezentacija/uputstvo.html Btagger http://clcl.unige.ch/SOFTWARE.html Francuska metagramatika FrenchTAG http://subversion.renater.fr/xmg/trunk/METAGRAMMARS/FrenchTAG/ Korpus Put oko sveta za 80 dana Žila Verna izrađen u okviru projekta MULTEXT-East https://www.clarin.si/repository/xmlui/handle/11356/1043 Morfosintaksički opis unutar MULTEXT-East projekta http://nl.ijs.si/ME/V4/msd/html/ MXPOST http://www.inf.ed.ac.uk/resources/nlp/local_doc/MXPOST.html Nooj http://www.nooj-association.org Projekat MULTEXT-East http://nl.ijs.si/ME/ Rule Based Tagger http://www.ling.gu.se/~lager/mogul/brill-tagger/ SVMTool http://www.cs.upc.edu/~nlp/SVMTool/ TnT http://www.coli.uni-saarland.de/~thorsten/tnt/ TreeTagger http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ Unitex http://www-igm.univ-mlv.fr/~unitex/ Uputstvo za instalaciju TuLiPA https://sourcesup.renater.fr/tulipa/overview.html 224 Uputstvo za instalaciju XMG http://dokufarm.phil.hhu.de/xmg/?animal=xmg#getting_started 225 8 PRILOZI 226 8.1 DTD za leksikon lema i morfološki leksikon 227 228 8.2 Leksikon lema se se 229 230 se 231 se 232 233 234 235 236 237 238 239 240 8.3 Morfološki leksikon 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 8.4 Pregled tipova zavisnih rečenica i njihovih konstituentskih vrednosti T a b e la 1 5 P re g le d t ip o v a z a v is n ih r e če n ic a i n jh o v ih k o n st it u e n ts k ih v re d n o st i P ri m e ri Ja sn o je d a s e p ri re d b a n eć e o d rž a ti . ( su b je k at ) M a rk o je p ok u ša o d a n a đ e k a rt e za u ta k m ic u . ( p ra v i o b je k at ) Iv a n j e p ri st a o ( n a t o ) d a o n k u p i k a rt e za b io sk o p . (n ep ra v i o b je k at ) za h te v d a s e sv e k n ji g e v ra te u b ib li o te k u ( d o p u n sk i a tr ib u t) sv es ta n d a j e p o g re ši o ( d o p u n sk i z av is n i č la n ) K o r a n o r a n i, d ve s re će g ra b i. (s u b je k at ) Št o m o že š d a u ra d iš d a n a s, ( to ) n e o st a vl ja j za s u tr a . (p ra v i o b je k at ) P ri ča o je o o n o m e št o g a j e m u či lo . ( n ep ra v i o b je k at ) K o r a n o r a n i, n je m u s e ce o d a n s p a va . ( lo gi čk i s u b je k at ) P o d ig a o je ( o n u ) ru k u u k o jo j je d rž a o t el eg ra m . ( at ri b u t) P o d ig a o je d es n u r u k u , u k o jo j je d rž a o t el eg ra m . ( ap o zi ti v ) G d e o n u d a ri , t u t ra va n e ra st e. P re ša o je t a m o o d a k le j e im a o b o lj i p o g le d n a i g ra li št e. K a d s a m s e vr a ća o k u ći , k u p io s a m n o vi n e. Č im s a m z a vr ši o p o sa o , o ti ša o sa m u š et n ju . F u n k ci ja  su b je k at  p ra v i o b je k at  n ep ra v i o b je k at  d o p u n sk i at ri b u t (i m en ič k a si n ta gm a)  d o p u n sk i za vi sn i č la n (p ri d ev sk a si n ta gm a)  su b je k at  lo gi čk i s u b je k at  p ra v i o b je k at  n ep ra v i o b je k at  at ri b u t  ap o zi ti v  o d re d b a za m es to  o d re d b a v re m en a  o d re d b a m er e v re m en a S u b o rd in a to ri d a , ka ko , d a l i, li , ko , št a , ko ji , g d e, k a d , k a k o ko ji , či ji , ka ka v, ko li ki , ko , št a , št o, g d e, ku d a , ka d , ka ko , ko li ko . g d e, ku d a , ka m o , o d a kl e ka d , d ok , p oš to , či m , n a ko n š to , p re n eg o št o T ip r e če n ic e Iz ri čn a O d n o sn a M es n a V re m en sk a R e d n i b ro j 1 2 3 4 281 P ri m e ri T a n ja n ij e d oš la u š ko lu j er s e ra zb o le la o d g ri p a . Sv i sm o p ri h va ti li Ja sn in p re d lo g b u d u ći d a j e to b il o j ed in o re še n je . A k o d o b ij em /b u d em d o b io p re m ij u , k u p ić u a u to . K a d b ih d o b io p re m ij u /D a d o b ij em p re m ij u , k u p io b ih a u to . D a s a m d o b io p re m ij u , k u p io b ih a u to . Ia k o j e p o žu ri o , i p a k n ij e st ig a o n a v re m e. M a d a j e b io b o le st a n , o ti ša o je u š ko lu . U ze o j e ta ks i d a s ti g n e/ d a b i st ig a o /k a k o b i st ig a o n a v re m e . (o d re d b a ci lj a) M a rk o je o ti ša o d a s p a v a . ( d o p u n a za c il j) G le d a o n a s je k a o d a n a s p rv i p u t v id i. ( p o re d b e n a o d re d b a) T a j f il m je b o lj i n eg o /n o š to m is li š. ( p o re d b e n a d o p u n a) Z o ra n t a k o v o zi a u to d a s e s v i d iv e . Ja sn a t o li k o r a d i d a s e sv i d iv e . F u n k ci ja  o d re d b a u zr o k a  o d re d b a u sl o v a  d o p u sn a o d re d b a  o d re d b a ci lj a  d o p u n a za c il j  p o re d b en a o d re d b a  p o re d b en a d o p u n a  p o sl ed ič n a d o p u n a S u b o rd in a to ri je r, za to št o, st og a š to , p oš to , ka ko , b u d u ći d a a ko , u ko li k o , li , ka d , d a ia ko , m a d a , p re m d a d a , k a ko ka o št o, k a o d a , ka ko , ko li ko , n o/ n eg o št o, n o d a /n eg o d a1 7 4 T ip r e če n ic e U zr o čn a U sl o v n a D o p u sn a N am er n a P o re d b en a P o sl ed ič n a1 7 5 R e d n i b ro j 5 5 6 7 8 9 174 U okviru glavne rečenice uvek se javljaju prilozi i zamenice koji ukazuju na prisustvo ove dopune. To su tako, toliko, takav i toliki 175 Ove zavisne rečenice se uvek javljaju iza glavne rečenice. 282 9 BIOGRAFIJA AUTORA 283 Bojana Đorđević je rođena 6. jula 1983. godine u Kruševcu, gde je završila osnovnu školu i gimnaziju. Diplomirala je u oktobru 2006. godine na Filološkom fakultetu u Beogradu, na smeru Opšta lingvistika, sa prosečnom ocenom 9,61 (devet i 61/100). Nakon studija počinje da radi kao profesor engleskog jezika i srpskog jezika za strance u Centru za srpski jezik i kulturu Azbukum, gde i sada radi kao profesor i direktor nastave. Paralelno sa time, kao glavni stručni saradnik radi na izradi Rečnika sinonima Pavla Ćosića i saradnika, koji izlazi u štampu 2008. godine. Bavi se lekturom i prevođenjem (sa engleskog jezika i na engleski jezik), za različite poslodavce i biltene. Uporedo sa komercijalnim radom, počevši od završetka studija radila je na projektima iz računarske lingvistike, kakav je dopunjavanje srpskog WordNeta i izrada paralelnog francusko-srpsko- engleskog korpusa ParCoLab. Istovremeno je radila na obučavanju studenata i istraživača za izradu paralelnih korpusa. Doktorske studije upisuje 2009. godine. U periodu od 2009. do 2011. godine radi kao saradnik u nastavi na predmetima Metode obrade prirodnih jezika i Digitalni dokument. Član je Grupe za jezičke tehnologije (JERTEH) Univerziteta u Beogradu. Učestvovala je u međunarodnom projektu obrade višečlanih reči PARSEME. Predstavljala je svoje radove na konferencijama i radionicama u Srbiji i inostranstvu. Njena uža oblast interesovanja je računarska lingvistika, posebno automatska sintaksička analiza teksta (parsiranje). Govori engleski jezik i služi se francuskim jezikom. 284 10 IZJAVE O DISERTACIJI 285 286 287 288