UNIVERZITET U BEOGRADU MATEMATIČKI FAKULTET Ivana D. Ilić OCENJIVANJE INDEKSA REPA RASPODELE KORIŠĆENJEM NEKOMPLETNIH UZORAKA doktorska disertacija Beograd, 2012 UNIVERSITY OF BELGRADE MATHEMATICAL FACULTY Ivana D. Ilić ON TAIL INDEX ESTIMATION USING SAMPLES WITH MISSING OBSERVATIONS Doctoral Dissertation Belgrade, 2012 Mentor: Prof. dr Pavle Mladenović, Univerzitet Beograd, Matematički fakultet. Članovi komisije: 1. Prof. dr Slobodanka Janković, Univerzitet Beograd, Matematički fakultet. 2. Prof. dr Ljiljana Petrović, Univerzitet Beograd, Ekonomski fakultet. Datum odbrane: ______________________________   Zahvalnost Posebnu zahvalnost dugujem svom mentoru Prof. dr Pavlu Mladenoviću od koga potiče osnovna ideja na kojoj se baziraju dobijeni rezultati i koji je svojim korisnim primedbama i komentarima doprineo boljem kvalitetu teze. Zahvaljujem se Prof. dr Slobodanki Janković i Prof. dr Ljiljani Petrović na ukazanim propustima u tekstu doktorata i na savetima koji su značajno odredili konačnu verziju teze. Takodje, zahvaljujem se koleginici Jeleni Višnjić, koja mi je pružala stalnu podršku i pomogla u završnoj fazi rada. Za tehničku pomoć i konačni izgled korica doktorata veliko hvala mojim dragim prijateljma Snežani i Rodoljubu Avramović. Zahvaljujem se roditeljima i bratu na moralnoj i intelektualnoj podršci. Posebno hvala mom suprugu i kćerkama na nesebičnoj ljubavi i razumevanju. Naslov teze: OCENJIVANJE INDEKSA REPA RASPODELE KORIŠĆENJEM NEKOMPLETNIH UZORAKA Abstrakt: Teza obrađuje ocenjivanje indeksa pravilne promenljivosti na nekompletnom uzorku zavisnih slučajnih veličina sa raspodelom teškog repa. Pod pretpostavkom ekstremalne zavisnosti dokazuje se konzistentnost ocene geometrijskog tipa, kao i konzistentnost i asimptotska normalnost Hilove ocene. Navode se primeri procesa koji zadovoljavaju zahteve dokazanih teorema i na kojima se mogu primeniti dobijeni rezultati. Ključne reči: Hilova ocena, nekompletni uzorci, indeks repa raspodele, ocena geometrijskog tipa, ekstremalna zavisnost. Naučna oblast: Matematika Uža naučna oblast: Verovatnoća i statistika UDK broj: 519.21 519.2 AMS klasifikacija: 62 G 32 60 G 70 i   Thesis title: ON TAIL INDEX ESTIMATION USING SAMPLES WITH MISSING OBSERVATIONS Abstract: For the sequence of heavy-tailed and possibly dependent random variables with the missing observations the estimation of the tail-index is considered. Under minimal but verifiable assumption of ''extremal dependence'' we proved the consistency of geometric-type estimator (Brito and Freitas, 2003). We extended results from Mladenovic and Piterbarg (2008) and proved the consistency and the asymptotic normality of the Hill estimator. Illustrative examples are provided. Keywords: Hill estimator, incomplete samples, tail index, geometric-type estimator, extremal dependence. Scientific field: Mathematics Specialized scientific field: Probability and Statistics UDK number: 519.21 519.2   AMS classification: 62 G 32 60 G 70   ii   “Creativity is the ability to introduce order into the randomness of nature.” Sadrzˇaj 1 UVOD 1 1.1 Tesˇki repovi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Black swans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Metodi detektovanja tesˇkih repova . . . . . . . . . . . . . . . . . . . . 6 2 TEORIJA EKSTREMNIH VREDNOSTI 10 2.1 Granicˇne raspodele za maksimume . . . . . . . . . . . . . . . . . . . 10 2.2 Maksimalni domeni privlacˇenja raspodela EV (ekstremnih vrednosti) 15 2.2.1 Maksimalni domen privlacˇenja funkcije Φα(x) . . . . . . . . . 16 2.2.2 Maksimalni domen privlacˇenja funkcije Ψα(x) . . . . . . . . . 19 2.2.3 Maksimalni domen privlacˇenja funkcije Λ(x) . . . . . . . . . . 21 3 OCENJIVANJE INDEKSA PRAVILNE PROMENLJIVOSTI 28 3.1 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.2 Ocenjivanje indeksa pravilne promenljivosti . . . . . . . . . . . . . . . 30 3.2.1 γ-parametarizacija . . . . . . . . . . . . . . . . . . . . . . . . 31 3.2.2 Hilova ocena . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.2.3 Pikandsova ocena . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.2.4 Moment ocena . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.2.5 Poredjenje ocena parametra pravilne promenljivosti . . . . . . 36 4 NEKOMPLETNI UZORCI 46 4.1 Tipovi nekompletnih uzoraka . . . . . . . . . . . . . . . . . . . . . . 47 4.1.1 Podaci nedostaju na potpuno slucˇajan nacˇin (MCAR-Missing completely at random) . . . . . . . . . . . . . . . . . . . . . . 47 4.1.2 Podaci nedostaju na slucˇajan nacˇin (MAR-Missing at random) 47 4.1.3 Podaci nedostaju na neslucˇajan nacˇin (MNAR-Missing not at random) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2 Metodi koji se primenjuju u slucˇajevima kada uzorak nije kompletan 48 iv 4.2.1 Pametno brisanje sa liste (listwise deletion) . . . . . . . . . . . 48 4.2.2 Brisanje u parovima (pairwise deletion) . . . . . . . . . . . . 49 4.2.3 Zamena srednjom vrednosˇc´u (Mean Substitution) . . . . . . . 49 4.2.4 Imputacija pomoc´u regresije (Imputation by Regression) . . . 50 4.2.5 Slucˇajna imputacija (Hot Deck Imputation) . . . . . . . . . . 50 4.2.6 EM Algoritam (Expectation Maximization Algorithm) . . . . 51 4.2.7 FIML Metod (Raw Maximum Likelihood or Full Information Maximum Likelihood) . . . . . . . . . . . . . . . . . . . . . . 51 4.2.8 Viˇsestruke imputacije (Multiple Imputations) . . . . . . . . . 52 4.3 Istorijski razvoj i literatura . . . . . . . . . . . . . . . . . . . . . . . . 52 5 OCENJIVANJE INDEKSA REPA RASPODELE NA NEKOM- PLETNOM UZORKU 54 5.1 EKSTREMALNA ZAVISNOST . . . . . . . . . . . . . . . . . . . . . 55 5.2 MODEL NEKOMPLETNOG UZORKA . . . . . . . . . . . . . . . . 56 5.3 REZULTATI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.4 DOKAZI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 6 ZAKLJUCˇAK 71 7 Literatura 74 8 Biografija autora 80 9 Prilozi o autorstvu 82 Posvec´eno mojoj majci... vi Poglavlje 1 UVOD Centralna tema teze je ocenjivanje indeksa pravilne promenljivosti α koji figuriˇse u izrazu funkcije raspodele tesˇkog repa. Ocenjivanje se vrsˇi pod pretpostavkom da nam nisu dostupni svi podaci i formira se model nekompletnog uzorka. Takodje, zahteva se da vazˇi ekstremalna zavisnost medju elementima uzorka koja predstavlja tip zavisnosti u domenu visokih kvantila. Uvodno poglavlje zapocˇinjemo objasˇnjavanjem osnovnih elemenata na kojima se za- sniva teorija ekstremnih vrednosti, kao sˇto je pojam tesˇkog repa i pojam ekstremnog dogadjaja. Drugo poglavlje je posvec´eno klasicˇnoj teoriji ekstremnih vrednosti, osnovnim pos- tulatima i teoremama na kojima zasnivamo kasnije dobijene rezultate. U trec´em poglavlju bavimo se tipovima ocena Paretovog indeksa α, vrsˇimo kom- paraciju njihovih svojstava i uporedjujemo asimptotsko ponasˇanje. Naredno poglavlje analizira tipove i oblike nekompletnih podataka i opisuje nacˇine kojima se tretiraju ovakvi tipovi uzoraka. Peto poglavlje predstavlja centralni deo teze i daje nove rezultate kao i primere procesa koji zadovoljavaju pretpostavljene uslove i na kojima su teoreme prakticˇno primenljive. Posmatra se nekompletan niz medjusobno zavisnih slucˇajnih velicˇina 1 Poglavlje 1. Uvod koje imaju zajednicˇku raspodelu tesˇkog repa. Uz pretpostavku ekstremalne zav- isnosti, dokazujemo konzistentnost ocene geometrijskog tipa, kao i konzistentnost i asimptotsku normalnost Hilove ocene. Koncepte dokaza u osnovi baziramo na Hilovom radu (Hill (2010)), radu Brito i Freitas (2003), kao i na radu Mladenovic´ i Piterbarg (2008). Poslednje poglavlje posvec´eno je opsˇtem zakljucˇku teze i diskusiji rezultata. 1.1 Tesˇki repovi Koji repovi raspodela se mogu smatrati tesˇkim? Do nedavno, nije postojala potpuno precizna definicija raspodela koje imaju tesˇke repove. Razlicˇiti autori su koristili izraze poput: ,,tesˇki rep”, ,,debeo rep”, ,,Paretova raspodela”, ,,sub-eksponencijalna raspodela” itd., cˇesto pod tim podrazumevajuc´i stabilne zakone ili Studentovu t- raspodelu. Prema definiciji kod Reznika (Resnick (1997)), rec´i c´emo da je raspodela koja ima tesˇki rep data sa: 1− F (x) = x−αL(x), x > 0, (1.1) gde je nepoznata funkcija L sporo velicˇina u beskonacˇnosti: lim t→∞ L(tx) L(t) → 1 za x > 0. (1.2) Skup svih sporo promenljivih funkcija u beskonacˇnosti oznacˇic´emo sa PP0 (pogle- dati Definiciju 2.6). Konstanta α > 0 koja se pojavljuje u (1.1) naziva se ,,indeks repa raspodele”, ,,in- deks pravilne promenljivosti”, ,,Paretov indeks” ili ,,parametar oblika repa”. Ona predstavlja glavnu karakteristiku koja se mora uzeti u obzir prilikom opisivanja de- bljine repa raspodele. Podaci sa raspodelom koja zadovoljava (1.1) se mogu nac´i u 2 Poglavlje 1. Uvod sˇirokom spektru najrazlicˇitijih oblasti, kao sˇto su: osiguranje, biznis, finansije, in- dustrija, telekomunikacije, saobrac´aj, ekonomija, sociologija i geologija. Raspodele sa takvim repovima imaju znacˇajnu ulogu u modeliranju ekstremnih dogadjaja, sˇto je predmet proucˇavanja teorije ekstremnih vrednosti o cˇijim rezultatima c´e biti recˇi u narednom poglavlju. Rep raspodele verovatnoc´a neke slucˇajne velicˇine odredjen je verovatnoc´om da slucˇajna velicˇina uzima vrednosti vec´e od nekog datog praga. Ukoliko je raspodela te velicˇine normalna ili eksponencijalna ta verovatnoc´a veoma brzo opada ka nuli, s obzirom da odgovarajuc´a gustina raspodele tezˇi ka nuli ekspo- nencijalnom brzinom. Medjutim, ukoliko se radi o raspodelama koje zadovoljavaju (1.1), odnosno ako su u pitanju raspodele Pareto-tipa, kako se iz same formule za rep raspodele mozˇe videti, verovatnoc´a uzimanja velikih vrednosti opada stepenom brzinom, dakle sporije nego u slucˇaju normalne raspodele. Zato se kazˇe da je rep raspodele koja zadovoljava (1.1) ”tezˇi” ili ”deblji” od repa normalne raspodele. Na slici 1.1 se mozˇe videti razlika u repovima izmedju normalne i neke ”tesˇke” raspodele koja zadovoljava (1.1). Slika 1.2 josˇ preciznije pokazuje tu razliku. Na berzi su verovatnoc´e ekstremnih dogadjaja mnogo vec´e nego sˇto bi se moglo opisati normal- nom distribucijom, sˇto opravdava sˇiroku upotrebu raspodela debelih repova prilikom modeliranja retkih dogadjaja u pomenutim domenima. Primec´eno je da postoje neke tipicˇne zajednicˇke osobine podataka koji se pojavljuju u navedenim oblastima: oni su medjusobno zavisni, tesˇkih repova i ekstremni dogad- jaji se cˇesto pojavljuju u klasterima. Moderna statistika se intenzivno bavi ovakvim raspodelama narocˇito u oblasti finansija pokusˇavajuc´i da resˇi problem predvidjanja velikih krahova na berzi. 1.2 Black swans Nakon teske finansijske krize 2008. godine investitori Wall Street-a pokusˇavali su da dokucˇe da li je postojala moguc´nost da se zasˇtite od iznenadnog kolapsa i na 3 Poglavlje 1. Uvod Slika 1.1: Poredjenje normalne raspodele sa raspodelom tesˇkog repa koji nacˇin ce moc´i da se predvidi buduc´e pojavljivanje ekstremuma sa negativnim efektom ili crnih labudova-nepozˇeljnih dogadjaja koji uzrokuju masovne gubitke. Pojam ”black swans” prvi put susrec´emo kod esejiste Nasima Taleba (Nassim Taleb (2007)) cˇiji se rad zasniva na pojmovima slucˇajnosti i verovatnoc´e. Crni labudovi predstavljaju ekstremne dogadjaje koji mogu imati Kao posledicuce sˇirokih razmera u razlicˇitim domenima. Tipicˇno se pojavljuju bez neke odredjene ucˇestalosti, tako da kao takvi, navodi Taleb (2007), mogu lako izmaknuti primeni standardnih analiticˇkih metoda i verovatnoc´a njihovog pojavljivanja mozˇe gresˇkom biti procenjena kao jako mala. U takvim slucˇajevima prihvata se procena da su takvi dogadjaji retki i da se mogu pojaviti tek jednom u million godina. Otud i poticˇe naziv crni labud kao matafora za redak, iznenadjujuc´ dogadjaj. Taleb u svojoj knjizi navodi neke pojave koje se mogu smatrati crnim labudovima: internet, personalni kompjuter, prvi svetski rat i napad 11. septembra. Pojam ”black swan” poticˇe iz Latinske izreke ,,rara avis in terris nigroque simillima cygno”, sˇto u prevodu znacˇi ,,retka ptica na zemlji, veoma slicˇna crnom labudu.” U vreme kada je nastala ova izreka pretpostavljalo se da crni labudovi ne postoje. 4 Poglavlje 1. Uvod Analogija koja je preuzeta govori o krhkosti bilo kog sistema miˇsljenja. Ukoliko je skup odredjenih zakljucˇaka donesen na osnovu nekih fundamentalnih postulata od kojih se pokazalo da je bar jedan netacˇan, u ovom slucˇaju, pojavljivanje crnog labuda, onda se svi drugi zakljucˇci koji su proistekli iz te teorije dovode u ozbiljno pitanje. Ova fraza se koristila u Londonu jos u 16. veku i oznacˇavala je nemoguc´ do- gadjaj. U to vreme se znalo samo za labudove sa belim perjem. Nemacˇka ekspedicija je 1697. godine u Zapadnoj Australiji otkrila crnog labuda. Opet se mozˇe naprav- iti analogija, jer se termin i kasnije zadrzˇao i naznacˇavajuc´i da se pretpostavljena nemoguc´nost pojave nekog dogadjaja mozˇe kasnije opovrgnuti. Ono sˇto Taleb naziva crnim labudom ima tri atributa: najpre, to je podatak aut- sajder (eng. outlier) s obzirom da lezˇi van regularnih ocˇekivanja i niˇsta u prosˇlim do- gadjanjima ne mozˇe ukazivati da postoji verovatnoc´a njegovog pojavljivanja; drugo, nosi sa sobom ekstremno veliki uticaj; i trec´e, uprkos svom specijalnom statusu cˇovek ga ipak mozˇe na osnovu svog iskustva i logike objasniti pa i predvideti. Dakle: retkost, veliki uticaj i retrospektivna predvidljivost. Crnim labudovima se, po Talebu, mogu objasniti kroz istoriju progresi odredjenih ideja i religija, globalna desˇavanja u svetskoj ekonomiji, kao i pravci u naseg licˇnog postojanja. Slika 1.2: Normalna raspodele i raspodela debelog repa 5 Poglavlje 1. Uvod 1.3 Metodi detektovanja tesˇkih repova Postoji veliki broj procedura pomoc´u kojih se mozˇe proveriti da li je u pitanju raspodela tesˇkog repa. Recimo, formiranje takozvane QQ ravni (eng. quantile- quantile plot). Podsetimo se da kvantil funkcije F definiˇse zapravo inverz F−1. Dakle, ukoliko je p takvo da je 0 < p < 1, kvantil reda p predstavlja ono x za koje vazˇi da je F (x) = p. Ukoliko F ima tacˇke diskontinuiteta definiˇsemo inverz funkcije raspodele kao F−1 = inf{t : F (t) ≥ y}, o cˇemu c´e biti viˇse recˇi u narednim poglavljima. U grafikon se ubacuju kvantili empirijske funkcije raspodele nasuprot kvantilima pretpostavljene funkcije raspodele. Ukoliko je grafik priblizˇno prava lin- ija mozˇe se sa velikom verovatnoc´om rec´i da se radi o slucˇaju tesˇkog repa (pogledati za viˇse detalja Embrechts i dr. (1997, str. 292-293)). Na slici 1.5 prikazana je QQ ravan procene oblika raspodele, gde je pretpostavljena raspodela Pareto-tipa sa ocenjenim indeksom α = 0, 708 pomoc´u neke od postojec´ih metoda ocene param- etara repa raspodele (pogledati trec´e poglavlje za viˇse detalja o ocenjivanju). Druga procedura koju c´emo pomenuti je bazirana na srednjem ekscesu funkcije: M(x) = E{X − x|X > x} (pogledati Embrechts i dr. (1997, str. 296-355) i Novak (2002)). Ako je grafik funkcije M(x) linearan, mozˇe se zakljucˇiti da se radi o raspodeli sa debelim desnim repom. Josˇ jedna procedura koja se koristi je i uporedjivanje his- tograma raspodele koju ispitujemo sa histogramom odgovarajuc´e normalne raspodele sa istom srednjom vrednosˇc´u i disperzijom (pogledati za viˇse detalja Luenberger (1998)). Naravno, u slucˇaju podataka se raspodelom tesˇkog repa, standardna de- vijacija ne mozˇe viˇse biti indikator ekstremnih desˇavanja i tesˇko da se treba uzeti u obzir kao mera rizika. Podsetimo se da standardna devijacija opisuje prosecˇno odstupanje od srednje vrednosti. U slucˇaju tesˇkih repova se mozˇe desiti da samo jedan element bude iste velicˇine kao suma svih ostalih elemenata uzorka. 6 Poglavlje 1. Uvod Slika 1.3: Poredjenje raspodela u odnosu na razlicˇite parametre oblika Ono sˇto nas posebno interesuje je metod odredjivanja debljine repa putem odgo- varajuc´ih ocena Paretovog indeksa α. Ukoliko je pouzdanom ocenom ocenjeno da je 0 < αˆ < 2, vrlo je verovatno da se radi o debelom desnom repu u smislu definicije (1) i tada postoje samo momenti reda manjeg od α, tj. raspodela ima beskonacˇnu varijansu. S druge strane, ako je procenjeno odgovarajuc´om ocenom da je αˆ ≥ 2 radi se o lakom repu. Pogledati sliku 1.3 za graficˇki prikaz pomenutih razlika u debljini repova. Normalnoj raspodeli odgovara parametar α = 2. Problem pouzdanog zakljucˇivanja o indeksu repa i ekstremnim kvantilima je bio predmet istrazˇivanja jos od 60-tih godina (Fama, Roll (1968)). Do nedavno, za- kljucˇci su bili veoma pesimisticˇni; videti ,,Hill’s horor ravan” (Resnick (1997)) ili ,,MLE horror plot” (Embrechts i dr. (1997)), ukazujuc´i na potesˇkoc´e prilikom ocen- jivanja i donosˇenja konacˇnih odluka o vrednosti parametra oblika repa raspodele. Na slici 1.4 predstavljena je Hilova horor ravan na osnovu koje se mozˇe oceniti 7 Poglavlje 1. Uvod Slika 1.4: Hilova horor ravan Slika 1.5: QQ ravan uopsˇtene Pareto-raspodele sa parametrom α = 0, 708 8 Poglavlje 1. Uvod vrednost trazˇenog indeksa α, u delu grafika gde se pokazuje odredjena stabilnost, odnosno linearnost. U narednom poglavlju objasnic´emo matematicˇke osnove tesˇkih repova i bavic´emo se fundamentalnim postulatima teorije ekstremnih vrednosti. 9 Poglavlje 2 TEORIJA EKSTREMNIH VREDNOSTI 2.1 Granicˇne raspodele za maksimume Teorija ekstremnih vrednosti (eng. Extreme Value Theory) pruzˇa matematicˇki okvir unutar koga mozˇemo da formalizujemo opservacije i zakljucˇke o ponasˇanju funkcije raspodele u levom ili desnom repu. Kriticˇna pitanja o kojima smo govorili u uvodnom poglavlju a koja se odnose na verovatnoc´u dogadjanja kraha na berzi, ekonomske krize ili bilo kakvog kolapsa u razlicˇitim domenima, podrazumevaju poz- navanje ocˇekivanog ponasˇanja na krajevima funkcije raspodele u statisticˇkom smislu. Teorija ekstremnih vrednosti nam omoguc´ava da pomoc´u ekstremnih opservacija izmerimo debljinu repa. Dobijene rezultate mozˇemo prosˇiriti na delove josˇ nereg- istrovanih empirijskih podataka. Na taj nacˇin se mozˇe simulirati funkcija raspodele tesˇkog repa i u velikoj meri poboljˇsati prognoziranje tesˇko predvidivih i nestabil- nih procesa u ekonomiji, osiguranju, finansijamna, hidrologiji i drugim oblastima od interesa. Postoje neke zajednicˇke osobine ekstremnih dogadjaja: obicˇno imaju znacˇajan uticaj u konacˇnom bilansu (velike isplate nakon prirodnih katastrofa u oblasti osiguranja), tesˇko su predvidivi (cˇesto su uzrokovani prirodnim procesima) i retki su. 10 Poglavlje 2. Teorija ekstremnih vrednosti Prema Centralnoj Granicˇnoj Teoremi (eng. Central Limit Theorem) normalna raspodela predstavlja granicˇnu funkciju raspodele uzoracˇkih proseka. Slicˇna ideja se pojavljuje i kada govorimo o uzoracˇkim ekstremumima. Klasa raspodela ekstremnih vrednosti poklapa se sa moguc´im granicˇnim raspodelama uzoracˇkog maksimuma. Kao sˇto c´emo videti, postoji neka vrsta analogije izmedju Centralne Granicˇne Teo- reme i Fisher-Tippet teoreme koja predstavlja osnovnu teoremu Teorije ekstremnih vrednosti i prvi znacˇajni rezultat u ovoj oblasti. Neka je {Xt} = {Xt : 1 ≤ t ≤ n} niz medjusobno nezavisnih slucˇajnih velicˇina sa istom funkcijom raspodele F (x) = P{X ≤ x}. Definiˇsimo slucˇajne velicˇine Mn = max{X1, X2, ..., Xn} i mn = min{X1, X2, ..., Xn}. Teorija ekstremnih vrednosti nizova slucˇajnih velicˇina bavi se ponasˇanjem raspodela ovih slucˇajnih velicˇina kad n → ∞. U slucˇaju razmatranja maksimuma, procenju- jemo da li postoje nizovi realnih konstanti an > 0 i bn, n ∈ N takvi da vazˇi lim n→∞ P{Mn − bn an ≤ x} = G(x) (2.1) za svaku tacˇku neprekidnosti x neke nedegenerisane funkcije raspodele G(x). To znacˇi da c´e, ukoliko takvi nizovi postoje, Mn−bn an konvergirati u raspodeli ka G(x) kad n → ∞. U tom slucˇaju nizove an i bn zovemo normirajuc´im konstantama, a funkciju raspodele G(x) granicˇnom raspodelom linearno normiranog maksimuma Mn. Velicˇine Mn i mn predstavljaju ekstremne vrednosti datog niza, i u mnogim pri- menama nalazimo neophodnost odredjivanja njihove granicˇne raspodele. Recimo, mozˇe da nas zanima verovatnoc´a da c´e neka buduc´a opservacija prevazic´i odredjenu vrednost u toku posmatranog perioda. Na primer, nivo reke iznad odredjene granice 11 Poglavlje 2. Teorija ekstremnih vrednosti mozˇe izazvati probleme, buka vec´a od uobicˇajene pri radu masˇine mozˇe znacˇiti kvar, jacˇina vetra iznad dozvoljene mozˇe takodje predstavljati odredjeni rizik, kolicˇina sˇeera u krvi iznad dozvoljene mozˇe imati negativan uticaj na stanje organizma, pa se u ovim slucˇajevima pokazalo vazˇno odredjivanje granicˇne raspodele maksimuma. Slicˇne primere mozˇemo navesti i za minimume (gde se odredjuju verovatnoc´e da c´e buduc´a opservacija biti ispod odredjenog nivoa), pri cˇemu se slicˇni rezultati koje c´emo navesti za maksimume mogu dobiti i za minimume na osnovu jednakosti: min{X1, X2, ..., Xn} = −max{−X1,−X2, ...,−Xn}. (2.2) U ovom poglavlju c´emo se baviti nizovima nezavisnih slucˇajnih velicˇina sa istom funkcijom raspodele F (x) i problemima vezanim za asimptotsko ponasˇanje maksi- muma. Neka je un = anx+ bn. Tada vazˇi P{Mn − bn an ≤ x} = P{Mn ≤ anx+ bn} = P{Mn ≤ un} = P{max{X1, X2, ..., Xn} ≤ un} = P{X1 ≤ un}P{X2 ≤ un} · · · P{Xn ≤ un} = F n(un). Ako za nizove konstanti an > 0 i bn, n ∈ N i neku nedegenerisanu funkciju raspodele G(x) vazˇi relacija (2.1), onda kazˇemo da funkcija raspodele F pripada oblasti privlacˇenja za maksimume funkcije raspodele G. Skup svih takvih funkcija oznacˇavac´emo sa D(G). Dalje navodimo, bez dokaza, nekoliko poznatih teorema koje cˇine osnovu teorije ekstremnih vrednosti nizova nezavisnih slucˇajnih velicˇina, koje mogu dati odgovor na pitanja: koje funkcije G(x) se mogu pojaviti kao granicˇne funkcije raspodele lin- earno normiranog maksimuma od n nezavisnih slucˇajnih velicˇina sa istom funkcijom raspodele F (x), kako za datu zajednicˇku funkciju raspodele F (x) niza nezavisnih slucˇajnih velicˇina odrediti da li postoji i koja je granicˇna funkcija raspodele linearno normiranog maksimuma Mn i kako odrediti normirajuc´e konstante an i bn. 12 Poglavlje 2. Teorija ekstremnih vrednosti Teorema 2.1. [Fisher-Tippett teorema, granicˇni zakoni za maksimume] Neka je {Xt} niz medjusobno nezavisnih identicˇno raspodeljenih slucˇajnih velicˇina (engl. independent identically distributed random variables). Ako postoje normi- rajuc´e konstante an > 0 i bn ∈ R za koje vazˇi da a−1n (Mn − bn) d−→ G, (2.3) tada G pripada jednom od sledec´ih tipova funkcija raspodele: Freseova (Freche´t): Φα(x) = { 0, x ≤ 0, exp{−x−α}, x > 0, α > 0 Vejbulova (Weibull): Ψα(x) = { exp{−(−x)α}, x ≤ 0, α > 0 1, x > 0, Gumbelova (Gumbel): Λ(x) = exp{−e−x}, x ∈ R.  Iako se, u smislu matematicˇkog modelovanja tipovi Λ, Φα i Ψα veoma razlikuju, sa matematicˇke tacˇke glediˇsta oni su jako bliski. Zaista, primetimo da za X > 0 vazˇe sledec´e ekvivalencije: X ima df Φα ⇔ lnXα ima df Λ ⇔ −X−1 ima df Ψα, gde smo sa df oznacˇili funkciju raspodele (eng. distribution function). Definicija 2.2 (Raspodele ekstremnih vrednosti). Funkcije raspodele Λ, Φα i Ψα koje su prezentovane u teoremi zovu se standardne raspodele ekstremnih vrednosti, a odgovarajuc´e slucˇajne promenljive-standardne ekstremalne slucˇajne 13 Poglavlje 2. Teorija ekstremnih vrednosti promenljive. Takodje, funkcije raspodele istog tipa kao neka od Λ, Φα i Ψα raspodela nazivaju se raspodele ekstremnih vrednosti, a odgovarajuc´e slucˇajne velicˇine se zovu ekstremalne slucˇajne velicˇine. Definicija 2.3 (Funkcije raspodele istog tipa). Za slucˇajne promenljive X i Y kazˇemo da imaju isti tip raspodele ako postoje realni brojevi a > 0 i b takvi da je Y =d aX + b. To znacˇi da se funkcija raspodele za Y mozˇe dobiti pomoc´u funkcije raspodele za X linearnom transformacijom argumenta. Dakle, mozˇe se zakljucˇiti da je granicˇni zakon u (2.3) jedinstven do na afine transformacije. Ukoliko se kao granicˇna vred- nost pojavi G(ax + b), onda je granicˇna vrednost takodje i G(x) samo za druge normirajuc´e konstante. Zaista, ako je lim n→∞ P{a−1n (Mn − bn) ≤ x) = G(ax+ b), onda je G(x) granicˇna vrednost pri jednostavnoj promeni normirajuc´ih konstanti: lim n→∞ P{a˜−1n (Mn − b˜n) ≤ x) = G(x), gde je a˜n = an/a i b˜n = bn − ban/a. Primer 2.1. (Maksimum Kosˇijevih slucˇajnih velicˇina) Neka je {Xt} niz medjusobno nezavisnih slucˇajnih velicˇina sa identicˇnom standardnom Kosˇijevom funkcijom raspodele. Gustina ove raspodele data je sa f(x) = (pi(1 + x2))−1, x ∈ R. Prema Lopitalovom (L’Hospital) pravilu dobijamo lim n→∞ F (x) (pix)−1 = lim n→∞ f(x) pi−1x−2 lim n→∞ pix2 pi(1 + x2) = 1, sˇto daje F (x) ∼ (pix)−1. Odavde sledi da je 14 Poglavlje 2. Teorija ekstremnih vrednosti P{Mn ≤ nx pi } = (1− F (nx pi ))n = (1− 1 n ( 1 x + o(1)))n → exp{−x−1} = Φ1(x), x > 0.  Teorema 2.1 predstavlja pocˇetak razvoja teorije ekstremnih vrednosti kao jedan od centralnih rezultata u teoriji verovatnoc´e i statistike. Granicˇne vrednosti za maksi- mume definisali su Fiˇser i Tipet (1928). Prvi precizni dokaz formulisao je Gnedenko (1943). De Haan (1971) takodje dolazi do istih zakljucˇaka na temu granicˇnih vred- nosti maksimuma slucˇajnih velicˇina ali uz primenu pravilne promenljivosti, sˇto c´e biti od izuzetne vazˇnosti za dalji razvoj teorije ekstremnih vrednosti. 2.2 Maksimalni domeni privlacˇenja raspodela EV (ekstremnih vrednosti) U prethodnoj sekciji definisali smo raspodele ekstremnih vrednosti kao granicˇne raspodele maksimuma identicˇno raspodeljenih i nezavisnih slucˇajnih velicˇina. Definicija 2.4 (Maksimalni domen atrakcije). Za slucˇajnu velicˇinu X (ili za funkciju raspodele te slucˇajne promenljive) kazˇemo da pripada maksimalnom domenu privlacˇenja funkcije raspodele ekstremnih vrednosti G, ukoliko postoje konstante an > 0 i bn ∈ R takve da vazˇi a−1n (Mn − bn) d−→ G. (2.4) To zapisujemo X ∈MDA(G) ili F ∈MDA(G). Primetimo da je (2.4) ekvivalentno sa lim n→∞ P (Mn ≤ anx+ bn) = lim n→∞ F n(anx+ bn) = G(x). (2.5) 15 Poglavlje 2. Teorija ekstremnih vrednosti Definicija 2.5 (Parametri polozˇaja i razmere). Gumbelova funkcija raspodele sa parametrima polozˇaja µ i razmere σ odredjena sa Λ(x−µ σ ), Fresˇeova raspodela sa paremetrima polozˇaja i razmere sa Φα( x−µ σ ) i Vejbulova sa Ψα( x−µ σ ). Neka je xF = sup{t : F (t) < 1}. (2.6) U daljem tekstu ovu tacˇku zvac´emo krajnja desna tacˇka domena funkcije raspodele F . U narednim paragrafima opisac´emo domene privlacˇenja funkcija raspodela ek- stremnih vrednosti koje su opisane Teoremom 2.1. 2.2.1 Maksimalni domen privlacˇenja funkcije Φα(x) U ovoj sekciji karakteriˇsemo maksimalni domen privlacˇenja funkcije Φα, za α > 0. Prema Tejlorovoj formuli, vazˇi da je 1− Φα(x) = 1− exp{−x−α} ∼ x−α. Kao sˇto se mozˇe uocˇiti, verovatnoc´a uzimanja velikih vrednosti slucˇajne velicˇine koja ima Fresˇeovu raspodelu opada stepenom brzinom. Definicija 2.6 (Pravilno promenljive funkcije u beskonacˇnosti). Neka je R skup realnih brojeva i R+ = (0,∞) skup pozitivnih realnih brojeva. Funkcija F : R+ → R+ je pravilno velicˇina u beskonacˇnosti ukoliko postoji broj ρ ∈ R tako da za svaki pozitivan broj x vazˇi lim t→∞ F (tx) F (t) = xρ. (2.7) Broj ρ se naziva indeks ili eksponent pravilne promenljivosti. Za funkciju F koja je pravilno velicˇina u beskonacˇnosti sa indeksom ρ, kazˇemo da je ρ−velicˇina i piˇsemo F ∈ PPρ, gde oznaka PPρ predstavlja skup svih pravilno promenljivih funkcija sa eksponentom promenljivosti ρ. Skup svih sporo promenljivih funkcija u beskonacˇnosti koje predstavljaju podklasu klase PPρ definisali smo u prvom poglavlju i njihov skup oznacˇili sa PP0 (slucˇaj kada je ρ = 0). 16 Poglavlje 2. Teorija ekstremnih vrednosti Pokazac´emo da se maksimalni domen atrakcije funkcije Φα sastoji od funkcija cˇiji je desni rep pravilno promenljiv sa indeksom −α. Sledec´a teorema, koju navodimo bez dokaza, daje dovoljan uslov za pripadnost neke funkcije raspodele F maksimalnom domenu atrakcije funkcije ekstremnih vrednosti Φα. Teorema 2.7. [Maksimalni domen privlacˇenja Φα(x)] F pripada maksimal- nom domenu atrakcije funkcije Φα, α > 0, ako i samo ako je F (x) = x −αL(x) za neku sporo promenljivu funkciju L. Ako F ∈MDA(Φα), onda a−1n Mn d−→ Φα, (2.8) gde se normirajuc´e konstante an mogu odrediti na sledec´i nacˇin: an = F −1(1− n−1) = inf{x ∈ R : F (x) ≥ 1− n−1} = inf{x ∈ R : (1/F )(x) ≥ n} = (1/F )−1(n), dok se konstante bn mogu smatrati jednakim nuli.  Ovaj rezultat implicira da svaka funkcija raspodele F ∈MDA(Φα) ima beskonacˇnu krajnju desnu tacˇku xF =∞. Na osnovu Teoreme 2.6, zakljucˇujemo da je F ∈MDA(Φα)⇔ F ∈ PP−α. Dakle, na ovaj nacˇin bi bila opisana karakterizacija MDA(Φα). Ova klasa obuhvata raspodele veoma tesˇkih repova, u smislu da je E(X+)δ = ∞, za δ > α. Ova osobina ih cˇini veoma podesnim za modelovanje velikih isplata u osiguranju, velikih fluktuacija i skokova cena, itd. 17 Poglavlje 2. Teorija ekstremnih vrednosti Slika 2.1: Poredjenje Fresˇeovih raspodela za parametre γ = 1/α, µ = 0 i σ = 1 Slika 2.1 pokazuje Fresˇeove funkcije raspodele za razlicˇite parametre indeksa oblika γ = 1/α. Na slici 2.1 se mozˇe primetiti da za vec´e γ, odnosno za α blizˇe nuli, rep raspodele postaje sve deblji ako skoncentriˇsemo pazˇnju na oblast vrlo visokih kvantila, sˇto znacˇi da su vec´e verovatnoc´e retkih dogadjaja. Primer 2.2 [Raspodele Pareto-tipa ] • Paretova raspodela • Kosˇijeva raspodela • Burova raspodela 18 Poglavlje 2. Teorija ekstremnih vrednosti • Stabilna raspodela sa eksponentom α < 2. 2.2.2 Maksimalni domen privlacˇenja funkcije Ψα(x) Ovaj paragraf opisuje maksimalnu oblast privlacˇenja Vejbulove funkcije raspodele Ψα(x) = exp{−(−x)−α}, za α > 0. Vazˇna, ali ne tako ocˇigledna cˇinjenica je da funkcije raspodele koje su u domenu privlacˇenja Vejbulove raspodele ekstremnih vrednosti imaju konacˇnu krajnju desnu tacˇku xF . Kao sˇto je vec´ napomenuto u paragrafu 2.1 ovog poglavlja, funkcije Φα i Ψα su blisko povezane, tacˇnije vazˇi Ψα(−x−1) = Φα(x). Dakle, ocˇekujemo da c´e i njihove oblasti privlacˇenjaMDA(Φα) iMDA(Ψα) pokazati odredjenu analogiju, sˇto i pokazuje naredna teorema. Teorema 2.8. [Maksimalni domen privlacˇenja Ψα(x)] Funkcija raspodele F pripada maksimalnom domenu privlacˇenja Vejbulove funkcije raspodele ekstremnih vrednosti Ψα(x), za α > 0, ako i samo ako xF < ∞ i F (xF − x−1) = x−αL(x) za neku sporo promenljivu funkciju L. Ako F ∈MDA(Ψα) onda je a−1n (Mn − xF ) d−→ Ψα, (2.9) gde normirajuc´e konstante an mogu biti izabrane kao an = xF − F−1(1 − n−1) i bn = xF .  Na osnovu Teoreme 2.8 zakljucˇujemo da vazˇi F ∈MDA(Ψα)⇔ xF <∞, F (xF − x−1) ∈ PP−α. Dakle, MDA(Ψα) se sastoji od funkcija raspodele F cˇiji je domen ogranicˇen sa desne strane. Upravo zato one mozˇda nisu najbolji izbor za modelovanje ekstrem- nih dogadjaja u osiguranju i finansijama, narocˇito zbog cˇinjenice da je xF < ∞. U prakticˇnim situacijama, kada postoji desna ogranicˇenost vrednosti uzorka koja 19 Poglavlje 2. Teorija ekstremnih vrednosti Slika 2.2: Poredjenje Vejbulovihvih funkcija raspodela za razlicˇite parametre γ, µ = 0 i σ = 1 je veoma visoka, nec´emo zˇeleti da koristimo model u kome je xF < ∞, vec´ c´e mnogo podesnije biti raspodele koje su u domenu Fresˇeove ili cˇak Gumbelove funkcije raspodele ekstremnih vrednosti (sto c´emo videti u paragrafu 2.2.3). Pogledati sliku 2.2 koja uporedjuje Vejbulove funkcije raspodele za razne vrednosti parametra γ. Primer 2.3 [Funkcije raspodele koje pripadaju MDA(Ψα)] • Uniformna raspodela na intervalu (0, 1) • Beta raspodela 20 Poglavlje 2. Teorija ekstremnih vrednosti • Funkcija raspodele koja se u desnoj krajnjoj tacˇki ponasˇa prema stepenom za- konu, tj. vazˇi da je F = K(xF − x)α, xF −K−1/αx ≤ xF , K, α > 0. 2.2.3 Maksimalni domen privlacˇenja funkcije Λ(x) Ovaj paragraf opisuje maksimalnu oblast privlacˇenja Gumbelove funkcije raspodele Λ(x) = exp{−exp{−x}}. Sledec´a teorema nam daje potrebne i dovoljne uslove pod kojima za neku funkciju raspodele vazˇi da F ∈MDA(Λ). Teorema 2.9. [Maksimalni domen privlacˇenja Λ(x)] Oznacˇimo sa F funkciju raspodele i definiˇsimo sledec´u funkciju: H(x) = 1 1− F (x) . (2.10) Tada su sledec´i uslovi ekvivalentni: 1. F ∈MDA(Λ), tj. postoje nizovi konstanti an > 0 i bn ∈ R, n ∈ N, tako da za svaki realan broj x vazˇi da je lim n→∞ F n(anx+ bn) = exp{−exp{−x}} (2.11) 2. Postoji funkcija g : (c, xF )→ R+ takva da za svaki realan broj x vazˇi da je lim t→∞ 1− F (t+ xg(t)) 1− F (t) = exp(−x) (2.12) 3. Postoji funkcija a : (c,∞)→ R+ takva da za svaki realan broj x vazˇi da je lim t→∞ H−1(tx)−H−1(t) a(t) = ln(x).  (2.13) 21 Poglavlje 2. Teorija ekstremnih vrednosti Na slici 2.3 prikazana je razlika u debljini repova normalne i lognormalne raspodele, iako su obe raspodele predstavnici Gumbelovog maksimalnog domena atrakcije. Slika 2.3: Poredjenje desnog repa normalne i lognormalne raspodele Iz prethodnog teksta se mozˇe videti da MDA(Λ) sadrzˇi funkcije raspodele sa veoma razlicˇitim repovima koji se krec´u od srednje tesˇkih, kao sˇto je slucˇaj kod lognormalne raspodele, pa do lakih repova, kao sˇto je slucˇaj kod normalne raspodele. Takodje su moguc´a oba slucˇaja sˇto se ticˇe krajnje tacˇke xF <∞ i xF =∞. Slika 2.4 prikazuje Gumbelove raspodele za razlicˇite parametre polozˇaja i razmere. Pogledati sliku 2.4 za graficˇki prikaz Vejbulovih funkcija raspodele za razlicˇite parametre γ = 1/α. Na slici se mozˇe videti da su levi repovi deblji sˇto je vec´i parametar γ, odnosno manji parametar α. Primer 2.4 [Funkcije raspodele koje pripadaju MDA(Λ)] • Eksponencijalna raspodela 22 Poglavlje 2. Teorija ekstremnih vrednosti Slika 2.4: Poredjenje Gumbelovih funkcija raspodele za razlicˇite parametre polozˇaja i razmere • Lognormalna raspodela • Normalna raspodela • Erlangova raspodela • Funkcije raspodele koje pokazuju eksponencijalno ponasˇanje u krajnjoj desnoj tacˇki, tj. za koje vazˇi da je F (x) = Kexp{− α xF − x}, x < xF , K, α > 0. Videti sliku 2.5 za prikaz razlike izmedju Gumbelove i Fresˇeove funkcije raspodele. Na kraju ovog po glavlja predstavljamo dva primera preuzeta iz realnog zˇivota kao ilustraciju opisanih raspodela ekstremnih vrednosti. 23 Poglavlje 2. Teorija ekstremnih vrednosti Slika 2.5: Poredjenje Fresˇeove i Gumbelove raspodele Primer 2.5 [Funkcija raspodele najvec´ih plata igracˇa bejzbola Americˇke lige] U ovom primeru posmatramo realne podatke cˇiju empirijsku funkciju raspodele zˇelimo da procenimo. Analiziramo raspodelu ekstremnih vrednosti plata najbolje plac´enih bejzbol igracˇa u SAD. Podaci su preuzeti sa interneta 2003. godine i odnose se na trinaest najprestiˇznijih timova koji pripadaju Americˇkoj ligi (New York Yankees, Boston Red Sox, Cleveland Indians, Toronto Blue Jays, Baltimore Orioles, Tampa Bay Devil Rays, Kansas City Royals, Minnesota Twins, Chicago White Sox, Detroit Tigers, Seattle Mariners, Oakland Athletics, Texas Rangers). Obim uzorka je 380. Pogledati sliku 2.6 za empirijsku funkciju raspodele ovih podataka. Raspodela je vrlo slicˇna Fresˇeovoj, tako da mozˇemo da uporedimo odgovarajuc´u Fresˇeovu raspodelu sa istim parametrima α, µ (parametar polozˇaja) i σ (parametar razmere) pri cˇemu su kao ocene maksimalne verodostojnosti za parametre dobijeni sledec´i rezultati: α = 0, 5, µ = 0 i σ = 592. Na slici 2.6 uporedjivana je empirijska funkcija raspodele sa Fresˇeovom funkcijom raspodele sa parametrima α = 0, 5, µ = 0 i σ = 592. Takodje, pogledati i sliku 2.7 koja pokazuje kvalitet modelovanja. Ovde je viˇse nego ocˇigledno da je raspodela upravo Fresˇeova, kao to se mozˇe i testirati 24 Poglavlje 2. Teorija ekstremnih vrednosti primenom testa kolicˇnika verodostojnosti, gde se pripadnost Gumbelovoj raspodeli odbacuje za male vrednosti verovatnoc´e p. Slika 2.6: Uporedjivanje empirijske i Fresˇeove funkcije raspodele Primer 2.6 [Maksimalne mesecˇne temperature] Podaci koji se ovde anal- iziraju predstavljaju maksimalne mesecˇne temperature vazduha na Havajima, merene u letnjim mesecima: junu, julu i avgustu u toku perioda od deset godina. Vrednosti su izrazˇene u Farenhajtima. Podaci su preuzeti sa interneta. (NationalClimatic Data Center, Asheville, NC). Cilj analize je pre svega odredjivanje najpribliˇznije raspodele slucˇajne promenljive T, koja u ovom slucˇaju predstavlja temperaturu. Gumbel je isticao veliku vazˇnost posmatranja samih podataka, detaljnog crtanja grafikona i nji- hove analize. S obzirom da se radi o maksimalnim temperaturama, ocˇekujemo da c´e raspodela nasˇih podataka biti istog tipa kao jedna od tri parametarske familije raspodela: Gumbelova, Fresˇeova ili Vejbulova. Na slici 2.8 su prikazane empirijska i pretpostavljena Vejbulova raspodela. Linija crne boje predstavlja uzoracˇku raspodelu, a drugu liniju crvene boje dobili smo modelirajuc´i Vejbulovu raspodelu sa najpri- bliˇznijim parametrima. To smo postigli zahvaljujuc´i opciji MDE (Minimal distance estimator), koji izvrava najpribliˇznije ocenjivanje i aproksimaciju date raspodele. 25 Poglavlje 2. Teorija ekstremnih vrednosti Slika 2.7: Razlika izmedju empirijske i ocenjene Fresˇeove raspodele Ocenjeni parametri su redom: α = −1, 47, σ = 22, 41 i µ = 101, 241. Procenjena tacˇka koja je desni nosacˇ je 107. Sve nam to ukazuje na Vejbulovu raspodelu. Ko- ristili smo i test kolicˇnika verodostojnosti, gde smo Gumbelovu raspodelu odbacili. Na slici 2.9 data je QQ ravan koja nam, kako smo u ranijem tekstu naveli, mozˇe pokazati kvalitet modelovanja. Uporedili smo kvantile empirijske funkcije raspodele sa odgovarajuc´im kvantilima pretpostavljene Vejbulove funkcije raspodele. Kako je ranije recˇeno, aproksimacija je dobra ukoliko je grafik pribliˇzno prava linija. 26 Poglavlje 2. Teorija ekstremnih vrednosti Slika 2.8: Uporedjivanje empirijske i Vejbulove funkcije raspodele Slika 2.9: Poredjenje odgovarajuc´ih raspodela (QQ ravan) 27 Poglavlje 3 OCENJIVANJE INDEKSA PRAVILNE PROMENLJIVOSTI 3.1 Uvod Jedan od problema sa kojim se susrec´u istrazˇivacˇi prilikom modelovanja raspodela sa pravilno promenljivim repovima jeste ocenjivanje parametra pravilne promenljivosti. Prve statisticˇke studije o ponasˇanju skokova cena na berzi pokazuju vazˇnost odred- jivanja debljine repa empirijske raspodele (pogledati Blattberg, Gonedes (1974)). Efekat ne-normalnosti u raspodelama koje se dobijaju u finansijskim serijama je privukao znacˇajnu paznju javnosti narocˇito u vreme nezˇeljenih i iznenadnih dogad- jaja kao sˇto su: krah berze 1987, Azijska kriza 1997 i finansijska kriza u Rusiji 1998 (pogledati Rubinstein (1994) koji sugeriˇse neophodnost fokusiranja pazˇnje na modeliranje raspodela vrednosti akcija). Takodje, razlicˇiti slucˇajevi finansijskih tur- bulencija u novije vreme dokazuju da se dogadjaji za koje se smatralo da se mogu po- javiti ”jednom u hiljadu godina” ipak pojavljuju mnogo frekventnije (pogledati prvo poglavlje i znacˇenje ”crni labud”). Ova cˇinjenica pokazuje vazˇnost pazˇljivog modeli- ranja ekstremnih finansijskih dogadjaja prilikom procene rizika. Teorija ekstremnih vrednosti, o kojoj je bilo recˇi u prethodnom poglavlju, obezbedjuje matematicˇki 28 Poglavlje 3. Ocenjivanje indeksa pravilne promenljivosti okvir unutar koga se mogu istrazˇivati asimptotske ekstremalne karakteristike sta- cionarnih raspodela. Ona omoguc´ava da donosimo zakljucˇke i van ranga observi- ranih uzoracˇkih velicˇina, dakle omoguc´ava predvidjanje ekstremnih dogadjaja. U tom cilju, esencijalno je ocenjivanje indeksa repa posmatrane raspodele za koje ova teorija nudi viˇse razlicˇitih pristupa (pogledati sledec´e radove za viˇse informacija o ocenjivanju indeksa repa raspodele sa akcentom na prakticˇnim aplikacijama u oblasti finansija: Koedijk i dr. (1990), Dacorogna i dr. (1993), Danielsson, de Vries (1997a), Huisman i dr. (2001), Jondeau, Rockinger (1998), Lux (2000) i McNeil, Frey (2000)). Najpoznatija i najviˇse koriˇsc´ena ocena u finansijskim serijama je Hilova ocena (Hill, 1975). Pokazano je da je ona najpogodnija ocena u slucˇaju finansijskih podataka. Semiparametarski pristup je zasnovan na pretpostavci da se posmatrana funkcija raspodele nalazi u domenu privlacˇenja Fresˇeove funkcije raspodele ekstremnih vred- nosti. Ova pretpostavka generalno vazˇi za tesˇke repove finansijskih raspodela. Med- jutim, ova ocene je najoptimalnija kada se radi o uzorku nezavisnih slucˇajnih velicˇina sa istom Paretovom funkcijom raspodele. Vec´ina postojec´ih ocena zasniva se na odredjenom broju k maksimalnih statistika poretka uzorka velicˇine n (videti Cso¨rgo i dr. (1985) za prikaz ocena ovog tipa). Tacˇnost ocena, naravno, zavisi od preciznosti u biranju broja maksimalnih statistika poretka. Izbor najoptimalnijeg broja ek- stremnih statistika poretka k predstavlja dugi niz godina veliki izazov za istrazˇivacˇe (videti Embrechts i dr. (1997) i njihove reference za viˇse podataka o ovoj temi). Mozˇe se nac´i asimptotski najoptimalnija vrednost za k, u smislu najmanje srednjek- vadratne gresˇke. Poslednjih godina, predlagane su razlicˇite procedure za biranje optimalnog broja statistika poretka sa asimptotski najmanjom srednjekvadratnom gresˇkom (kao primere pogledati sledec´e radove: Dekkers, de Haan (1993), Beirlant i dr. (1996), Drees, Kaufmann (1998) i Danielson i dr. (2001)). De Haan i dr. (1998) predlazˇu tzv. bootstrap metod kojim se u dva koraka odredjuje asimptotski najmanja srednjekvadratna gresˇka, pri cˇemu za razliku od drugih poznatih metoda nije neophodno poznavanje parametra drugog reda. Indeks repa raspodele je indikator verovatnoc´e da se desi velika devijacija kod slucˇajne promenljive, pa kao takav ima sˇiroku primenu kod finansijskih vremenskih 29 Poglavlje 3. Ocenjivanje indeksa pravilne promenljivosti serija. Ocenjivanjem indeksa pravilne promenljivosti na osnovu uzorka medjusobno nezavisnih i identicˇno raspodeljenih slucˇajnih velicˇina bavio se veliki broj naucˇnika i istrazˇivacˇa poslednjih godina. Takodje, indeks repa je ocenjivan i u slucˇajevima medjusobno zavisnih slucˇajnih velicˇina pod razlicˇitim pocˇetnim uslovima. Sem Hilove ocene, u literaturi su predlagane: Pikandsova ocena (Pikands (1975)), Moment ocena (Dekkers, Einhmal, De Haan (1989)), ocena geometrijskog tipa (Brito, Freitas 2003), Shultze, Steinbach (1996) i dr. De Haan (1981) predlazˇe ocenu cˇija su svojstva analizirana u radu de Haan, Resnick (1980), a Hall (1982) dokazuje njenu asimptotsku normalnost pod josˇ nekim dodatnim uslovima nego sˇto predpostavljaju prethodni autori. Na temu ocenjivanja indeksa repa postoji brojna literatura, kao na primer: Cso¨rgo´, Mason (1985), Haeusler, Teugels (1984), Teugels (1981a, 1982b), De Meyer, Teugels (1983), Gawronski, Stadmu¨ler (1984), Hall, Welsh (1984), Du Mouchel (1983), Welsh (1984), Dekkers (1989), Drees (1995), Cso¨rgo´, Viharos (1998), de Haan, Peng (1998) and Bacro, Brito (1995). 3.2 Ocenjivanje indeksa pravilne promenljivosti U funkcijama raspodele ekstremnih vrednosti Φα i Ψα figuriˇse parametar α o kome smo govorili na pocˇetku prvog poglavlja. Neophodnost sˇto preciznijeg ocenjivanja ove konstante narocˇito se pokazala u domenima od interesa o kojima smo ranije gov- orili, a u kojima se pojavljuju raspodele debelih repova. Koriˇsc´enjem odgovarajuc´eg uzorka ekstremnih velicˇina, mozˇemo oceniti indeks α i na taj nacˇin proceniti kako se ponasˇa funkcija raspodele datog uzorka u svom repu, odnosno mozˇemo predvideti sˇta c´e se dogadjati sa kvantilima viˇseg reda. Naravno, u modelovanju se koriste josˇ mnoge druge karakteristike funkcije raspodele kao sˇto su zakrivljenost i modalnost sˇto prevazilazi okvire nasˇe teme. Postoji veliki broj ocena ovog indeksa i veoma intenzivno se radilo na poboljˇsavanju njihovih osobina i preciznosti. Naredni para- graf zapocˇinjemo Hilovom ocenom parametra α (Hill (1975)), a u nastavku c´emo analizirati i uporedjivati josˇ dve poznatije ocene parametra α: Pikandsovu (Pikands (1975)) i Moment ocenu (Dekkers, Einhmal, de Haan (1989)). 30 Poglavlje 3. Ocenjivanje indeksa pravilne promenljivosti 3.2.1 γ-parametarizacija Ako uvedemo smenu γ = 1/α za Fresˇeovu raspodelu i γ = −1/α za Vejbulovu raspodelu, onda se funkcije raspodele ekstremnih vrednosti mogu zapisati u obliku parametarske familije koja zavisi od jednog parametra na sledec´i nacˇin: Gγ(x) = { exp{−(1 + γx)−1/γ}, ako je γ 6= 0 exp{−e−x}, ako je γ = 0. U vezi sa γ-parametarizacijom familije raspodela ekstremnih vrednosti primetimo da je granicˇna vrednost izraza (1 + γx)−1/γ jednaka e−x kad γ → 0. Definicija 3.1 (Generalisane Paretove raspodele). Ovaj tip raspodela dat je sledec´om formulom: Gγ,β(x) = { 1− (1 + γx β )−1/γ, ako je γ 6= 0 1− exp{−x β }, ako je γ = 0, (3.1) gde je β parametar razmere. Takodje, nosacˇ raspodele Gγ,β(x) je x ≥ 0, ako je γ ≥ 0, odnosno skup 0 ≤ x ≤ −β/γ ukoliko je γ < 0. 3.2.2 Hilova ocena Verovatno najpopularnija ocena parametra γ je Hilova ocena i definisana je na sledec´i nacˇin: γHk,n = 1 k k∑ t=1 lnX(t) − lnX(k+1), (3.2) gde X(n), ..., X(1) predstavlja niz statistika poretka u rastuc´em redosledu, a k = kn je niz pozitivnih celih brojeva koji zadovoljava 1 ≤ kn < n, lim n→∞ kn =∞ i lim n→∞ kn/n = 0. (3.3) 31 Poglavlje 3. Ocenjivanje indeksa pravilne promenljivosti Obicˇno se indeks γ = 1/α naziva indeks ekstremnih vrednosti (eng. extreme value index-EV I). Asimptotsko ponasˇanje ove ocene analizirano je od strane velikog broja autora pod razlicˇitim uslovima. Osobine ocene su intenzivno razmatrane u slucˇaju kada su Xn identicˇno raspodeljene i nezavisne slucˇajne promenljive (videti kao primer Davis and Resnick (1984), Haeusler and Teugels (1985)). Dekkers, Einmahl and de Haan (1989) su prosˇirili znacˇenje Hilove ocene kao ocene indeksa regularne varijacije na ocenu indeksa raspodele ekstremnih vrednosti. Kao prilicˇno znacˇajan problem u koriˇsc´enju ove ocene predstavlja izbor optimalnog broja maksimalnih statistika potretka, odnosno izbor broja k koji figuriˇse u formuli. Ukoliko je taj broj mali, javic´e se mali bijas ali velika varijansa, a ukoliko je k suviˇse veliki broj, bic´e veliki bijas, a varijansa c´e biti mala. Teorema 3.2. [Osobine Hilove ocene] Neka je Xn strogo stacionaran niz sa marginal- nom funkcijom raspodele F koja za neko α > 0 i L ∈ R0 zadovoljava F = P (X > x) = xαL(x), x > 0. Oznacˇimo sa γH = γHk,n Hilovu ocenu. 1. (Slaba konzistencija) Pretpostavimo da je zadovoljen jedan od sledec´ih uslova: • Xn je niz nezavisnih slucˇajnih promenljivih (Mason (1982)) • Xn je niz slabo zavisnih slucˇajnih promenljivih (Rootzen, Leadbetter (1982, 1988), Hsing (1991)) • Xn je linearan proces (Resnick, Starica (1995),(1998)) Ukoliko limn→∞ kn =∞ i limn→∞ kn/n = 0, kad n→∞, sledi γH P−→ γ. 32 Poglavlje 3. Ocenjivanje indeksa pravilne promenljivosti 2. (Jaka konzistencija) (Deheuvels, Hausler, Mason (1988)) Ako k/n→ 0, k/ ln lnn → ∞ kad n → ∞ i Xn je niz nezavisnih slucˇajnih promenljivih, onda γH a.s−→ γ. 3. (Asimptotska normalnost) Ako su zadovoljeni josˇ neki dodatni uslovi za k i F i ako je Xn niz nezavisnih slucˇajnih velicˇina, onda √ k(γH − γ) d−→ N(0, 1 γ2 ).  Rezultat o asimptotskoj normalnosti Hilove ocene omoguc´ava odredjivanje intervala poverenja nepoznatog parametra γ > 0. Na osnovu Teoreme 3.2 ne mozˇe se smatrati da su svojstva Hilove ocene uvek do- bra. Tacˇnije, teorema pokazuje da u opsˇtem slucˇaju za Hilovu ocenu vazˇe neka standardna statisticˇka svojstva. Medjutim, za bolje performanse ocene porebni su dodatni uslovi vezani za oblik repa raspodele F kao i odredjeni zahtevi vezani za broj statistika poretka k = k(n). Zapravo, da bi se dokazala asimptotska normalnost Hilove ocene γH potrebni su nam dodatni uslovi pravilne promenljivosti drugog reda koji se odnose na F koji nisu proverljivi u praksi, sˇto je otezˇavajuc´a okolnost. Mozˇe se pokazati da je u slucˇaju niza nezavisnih identicˇno raspodeljenih slucˇajnih velicˇina Hilova ocena konzistentna, kao i da je asimptotski normalna. Medjutim postoje primeri (videti Embrechts i dr. (1997)) na kojima se mozˇe videti da je brzina konvergencije Hilove ocene u nekim slucˇajevima uzoraka prilicˇno spora. Ukoliko sporo promenljiva funkcija L koja figuriˇse u formuli za rep raspodele bitno odstupa od konstante, mozˇe se javiti prilicˇan bijas Hilove ocene. U cilju smanjenja bijasa pojavile su se i neke nove ocene: Beirlant i dr. (1999), Feuerverger, Hall (1999), Guillou, Hall (2001) i Ling, Peng (2004). Sˇto se ticˇe problema vezanog za utvrdjivanje optimalnog broja k, u praksi se obicˇno primenjuje Hilova ravan, tj. najoptimalniji broj statistika poretka se odredjuje 33 Poglavlje 3. Ocenjivanje indeksa pravilne promenljivosti graficˇkim putem, tako sˇto se posmatra grafik {(k, γHk,n) : k = 2, ...n}. Za detaljniju analizu koriˇsc´enja Hilove ravni u praksi videti Resnick, Starica (1997). Pogledati sliku 1.4 Hilove ravni kojom se mozˇe graficˇkim putem proceniti vrednost parametra, tako sˇto se bira oblast u kojoj je grafikon linearan i stabilan. Koriˇsc´eno je simulirano ocenjivanje parametra γ u zavisnosti od broja k na Fresˇeovoj raspodeli sa parametrom γ = 2. 3.2.3 Pikandsova ocena Pikandsova ocena parametra γ = α−1 definiˇse se na sledec´i nacˇin: γ̂Pk,n = 1 ln 2 ln X(k) −X(2k) X(2k) −X(4k) , (3.4) gde X(n), ..., X(1) predstavlja niz statistika poretka niza {Xt} poredjanih u rastuc´em redosledu. Teorema 3.3. [Osobine Pikandsove ocene] Neka je {Xt} niz medjusobno nezavisnih slucˇajnih velicˇina sa zajednicˇkom funkcijom raspodele F za koju vazˇi da pripada maksimalnom domenu privlacˇenja neke od funkcija raspodele ekstremnih vrednosti MDA(Gγ), gde je γ ∈ R. Oznacˇimo sa γ̂P = γ̂Pk,n Pikandsovu ocenu parametra γ. Tada vazˇe sledec´a tvrdjenja: 1. (Slaba konzistencija) Ako k →∞, k/n→ 0, kad n→∞, onda vazˇi da γ̂P P−→ γ, n→∞. 2. (Jaka konzistencija) Ako k/n→ 0, k/ ln lnn→∞ kad n→∞, tada γ̂P a.s−→ γ, n→∞. 34 Poglavlje 3. Ocenjivanje indeksa pravilne promenljivosti 3. (Asimptotska normalnost) Pod josˇ nekim dodatnim uslovima za k i F (videti Dekkers, de Haan (1989), p.1799), √ k(γ̂P − γ) d−→ N(0, ν(γ)), n→∞, gde je ν(γ) = γ2(22γ+1 + 1) (2(2γ − 1) ln 2)2 . Kao i u slucˇaju Hilove ocene u formuli za Pikandsovu ocenu pojavljuje se odredjeni broj statistika poretka k = k(n). Kao znacˇajan instrument u odredjivanju opti- malnog broja k koristi se Slika 3.1: Pikandsova ravan Pikandsova ravan koja predstavlja grafik {(k, γ̂Pk,n) : k = 1, ...n}. 35 Poglavlje 3. Ocenjivanje indeksa pravilne promenljivosti Broj k treba izabrati iz onog dela x-ose u kome je grafik pretezˇno horizontalna linija (pogledati sliku 3.1. na kojoj je simulirano ocenjivanje parametra γ u zavisnosti od broja k na Fresˇeovoj raspodeli sa parametrom γ = 1). 3.2.4 Moment ocena Ocena parametra γ metodom momenata nastala je u cilju prosˇirenja Hilove ocene za sˇiri spektar vrednosti, tj. za parametre γ ∈ R. Ranije smo napomenuli (pogledati paragraf 3.2.2) da je Hilovu ocenu moguc´e koristiti samo u slucˇajevima kada je γ > 0. Dekkers, Einhmal, De Haan (1989) predlazˇu sledec´u ocenu parametra γ koja bi pokrivala sve realne vrednosti: γM = 1 + γH1 + 1 2 ( γH1 γH2 − 1)−1, (3.5) gde je γH1 = 1 k ∑k j=1(lnXj,n − lnXk+1,n) Hilova ocena i γH2 = 1k ∑k j=1(lnXj,n − lnXk+1,n) 2. S obzirom da se ovi izrazi mogu interpretirati kao empirijski momenti, ocena je nazvana Moment ocena. I u slucˇaju ove ocene, mozˇe se posmatrati odgo- varajuc´i grafik vrednosti ocene u zavisnosti od parametra k. Utvrdjuje se ocena parametra repa tako sˇto se posmatra deo grafika koji je priblizˇno jednak pravoj liniji (videti sliku 3.2, na kojoj je simulirano ocenjivanje parametra γ u zavisnosti od broja k na Fresˇeovoj raspodeli sa parametrom γ = 1). 3.2.5 Poredjenje ocena parametra pravilne promenljivosti Logicˇno pitanje koje se postavlja u modelovenju vremenskih serija je kako izabrati optimalnu ocenu indeksa repa raspodele. Odgovor na to pitanje predstavlja veliki izazov i u prilicˇnoj meri zavisi od parametra drugog reda ρ ≤ 0, koji upravlja konvergencijom kolicˇnika F (tx)/F (t). Pokazalo se da Hilova ocena ima optimalne 36 Poglavlje 3. Ocenjivanje indeksa pravilne promenljivosti Slika 3.2: Moment ravan osobine kada sporo promenljiva funkcija L, koja figuriˇse u formuli za rep raspodele, zadovoljava da lim t→∞ F (tx)/F (t)− x−α a(t) = x−α xρ − 1 ρ , za svako x > 0 postoji, gde je a(t) merljiva funkcija konstantnog znaka i gde se podrazumeva da je desna strana jednakosti jednaka nuli za parametar ρ = 0. Asimptotska disperzija Hillove ocene ima oblik α2/k . S obzirom da asimptotska disperzija reciprocˇno zavisi od broja statistika poretka, onda bi bilo logicˇno uzeti vec´i broj ekstremnih statistika kako bi disperzija bila manja. Na zˇalost, pokazalo se da se mozˇe desiti da u tom slucˇaju postoji povec´anje pristrasnosti (Goldie and Smith (1987)). Tu dolazimo do pitanja, od cˇega zavisi i u kojoj meri postoji raskorak izmedju ove dve velicˇine. 37 Poglavlje 3. Ocenjivanje indeksa pravilne promenljivosti Pokazalo se (Embrechts i dr.(1997), Teorema 6.4.9 ) da u velikoj meri velicˇina pris- trasnosti i varijanse kod Hilove ocene zavisi upravo od medjusobnog odnosa param- etara prvog i drugog reda, tj. parametara ρ i γ. Hilova ocena je, kako je vec´ objasˇnjeno, ogranicˇena na raspodele sa pozitivnim parametrom γ, dok su Pikandsova i Moment ocena primenljive na cˇitavu klasu parametara, tj. za γ ∈ R. Ipak, nema preciznog odgovora koju ocenu treba upotrebiti. U slucˇaju da se radi o pozitivnom parametru, preporuka je da se koristi Hilova ocena, jer se mozˇe pokazati (videti Smith, Weissman (1985), (1987)) da, u slucˇaju da je parametar drugog reda ρ = 0, najmanju srednjekvadratnu gresˇku ima Hilova ocena. Ako se radi o sˇirem spektru vrednosti za γ, onda vrsˇimo poredjenje Pikandsove i Moment ocene. Medjutim, njihova asimptotska efikasnost u velikoj meri zavisi od medjusobnog odnosa parametara α i ρ. Pokazano je da za γ > −2 Moment ocena ima manju varijansu nego Pikandsova ocena. Takodje, pokazalo se da Pikandsova ocena u nekim slucˇajevima mozˇe pokazati odredjeni stepen nestabilnosti. Na ovu temu mogu se pogledati radovi: Danielson, de Vries (1997), Hall (1982), Anderson (1984) i Davis, Resnick (1984). U primerima 3.1 i 3.2 koji slede prikazac´emo ponasˇanje Hilove ocene, Pikandsove ocene i Moment ocene prilikom procene parametra repa simulirane Fresˇeove raspodele sa indeksom debljine repa γ = 1 i simulirane Paretove raspodele sa parametrom de- bljine repa γ = 2, parametrom polozˇaja µ = 0 i parametrom razmere σ = 1. Primer 3.1. [Simulacija razlicˇitih ocena Paretovog indeksa] U ovoj simulaciji koristili smo 1000 podataka sa Fresˇeovom funkcijom raspodele sa parametrom γ = 1. Posmatrali smo tri osnovne ocene parametra teskog repa cˇija smo svojstva prethodno opisali. Svaka ocena opisana je tabelom sa brojem koriˇsc´enih ekstremnih statistika, kao i odgovarajuc´im grafikonom (slika 3.3, slika 3.4, slika 3.5 slika 3.6). Za statisticˇku obradu podataka koriˇsc´en je softverski paket Xtremes. 38 Poglavlje 3. Ocenjivanje indeksa pravilne promenljivosti Tabela 1. HILOVA OCENA Broj ekstremnih statistika Hilova ocena 90 1.12 100 0.999 105 1.011 110 0.973 120 0.983 130 0.922 140 0.947 150 0.924 155 0.931 160 0.995 Slika 3.3: Hilova ocena 39 Poglavlje 3. Ocenjivanje indeksa pravilne promenljivosti Tabela 2. PIKANDSOVA OCENA Broj ekstremnih statistika Pikandsova ocena 90 1.09 100 1.211 105 1.221 110 1.005 120 1.083 130 1.229 140 1.190 150 1.108 160 1.173 Slika 3.4: Pikandsova ocena 40 Poglavlje 3. Ocenjivanje indeksa pravilne promenljivosti Tabela 3. MOMENT OCENA Broj ekstremnih statistika Moment ocena 90 1.052 100 1.054 105 1.055 110 1.055 120 1.055 130 1.054 140 1.055 150 1.057 160 1.059 Slika 3.5: Moment ocena Na grafikonu slike 3.6 mozˇemo uocˇiti da se sve tri ocene poklapaju u oblasti broja statistika koji pripada intervalu (220, 270) i u tom intervalu su sve tri ocene veoma bliske jedinici. U prakticˇnim aplikacijama obicˇno se i koristi viˇse razlicˇitih ocena da bi se potvrdila pretpostavljena vrednost trazˇenog indeksa. Dakle, u nasˇem primeru sve tri ocene pokazuju da je najpribliˇznija ocenjena vrednost parametra upravo γ = 1. 41 Poglavlje 3. Ocenjivanje indeksa pravilne promenljivosti Slika 3.6: Poredjenje posmatranih ocena Primer 3.2. [Simulacija razlicˇitih ocena Paretovog indeksa] U ovoj simulaciji koristili smo 1000 podataka sa Paretovom funkcijom raspodele sa parametrom debljine repa γ = 2, parametrom polozˇaja µ = 0 i parametrom razmere σ = 1. Posmatrali smo tri ocene parametra koje smo u prethodnom tekstu opisali. Svaka ocena opisana je tabelom sa brojem koriˇsc´enih ekstremnih statistika, kao i odgovarajuc´im grafikonom (slika 3.7, slika 3.8 i slika 3.9). I u ovom slucˇaju, za statisticˇku obradu koriˇsc´en je program Xtremes. 42 Poglavlje 3. Ocenjivanje indeksa pravilne promenljivosti Tabela 4. HILOVA OCENA Broj ekstremnih statistika Hilova ocena 100 1.91 105 1.88 110 1.90 115 1.89 120 1.89 135 1.84 140 1.92 145 1.94 150 1.93 155 1.91 160 1.93 Slika 3.7: Hilova ocena 43 Poglavlje 3. Ocenjivanje indeksa pravilne promenljivosti Tabela 5. PIKANDSOVA OCENA Broj ekstremnih statistika Pikandsova ocena 100 2.07 105 2.11 110 2.09 115 2.09 120 2.20 130 2.02 135 2.03 140 2.02 145 2.02 155 1.92 160 1.89 Slika 3.8: Pikandsova ocena 44 Poglavlje 3. Ocenjivanje indeksa pravilne promenljivosti Tabela 6. MOMENT OCENA Broj ekstremnih statistika Moment ocena 115 1.86 120 1.86 145 1.89 150 1.89 155 1.88 160 1.89 Slika 3.9: Moment ocena Napomena: Sem slike 1.1, slike 1.2 i slike 2.3 koje su kao ilustracija preuzete sa interneta od nepoznatog autora, sve ostale slike su delo autora disertacije. 45 Poglavlje 4 NEKOMPLETNI UZORCI Nepotpuni podaci u datom uzorku su cˇesta pojava i mogu znacˇajno uticati na donosˇenje statisticˇkih zakljucˇaka. Razlozi zbog kojih se mozˇe javiti prazan odgovor u upitniku mogu biti razlicˇiti: zbog gresˇaka samih istrazˇivacˇa u sakupljnju po- dataka, ukoliko nije dobro vodjeno istrazˇivanje ili se desila gresˇka prilikom unosa podataka, zbog prostog odbijanja subjekta da odgovori na izvesna pitanja, kao i iz odredjenih politicˇkih razloga kada vlada ne objavljuje sve podatke narocˇito u is- trazˇivanjima vezanim za oblast ekonomije, sociologije i politicˇkih nauka. Takodje, cˇesto se nekompletnost javlja prilikom ponovljenih merenja, ako se vrsˇi testiranje nekog parametra kroz duzˇi vremenski period na istom uzorku. Tada mozˇe doc´i do nestajanja samih subjekata iz analize iz raznih pojedinacˇnih razloga. S obzirom da nekompletni podaci smanjuju reprezentativnost uzorka i remete zakljucˇke vezane za populaciju, vazˇno je moguc´nost njihovog pojavljivanja svesti na minimum. U tom cilju, osmiˇsljeni su kompjuterski upitnici kod kojih se na svako pitanje mora odgovoriti, inacˇe se ne mozˇe prec´i na sledec´e. Na taj nacˇin se kao uzrok moguc´e gresˇke potpuno eliminiˇsu istrazˇivacˇi. Naravno, u situacijama gde se pretpostavlja ili gde je vec´ utvrdjeno da c´e se pojaviti nedostajuc´i podaci, istrazˇivacˇ treba da planira koriˇsc´enje onih metoda koje su otpornije na nekompletnost. Metoda se smatra ot- pornom na nekompletnost ukoliko mala narusˇavanja osnovnih premisa nec´e dovesti do nezˇeljene pristrasnosti i pogresˇnih zakljucˇaka o populaciji. 46 Poglavlje 4. Nekompletni uzorci 4.1 Tipovi nekompletnih uzoraka 4.1.1 Podaci nedostaju na potpuno slucˇajan nacˇin (MCAR- Missing completely at random) Kada kazˇemo da podaci nedostaju na potpuno slucˇajan nacˇin, odnosno da su tipa MCAR, smatramo da verovatnoc´a da observacija Xi nedostaje nije povezana sa njenom vrednosˇc´u ili sa vrednosˇc´u bilo koje druge slucˇajne velicˇine. Kao primer ovog tipa mozˇe se navesti recimo neispravna oprema, losˇe vreme, pogresˇan unos podataka. Medjutim, nedostajuc´i podaci vezani za prihode ne mogu biti smatrani potpuno slucˇajnom pojavom, odnosno nisu tipa MCAR, ukoliko ispitanici sa nizˇim zaradama ne odgovaraju na to pitanje u slicˇnom broju kao oni sa visokim prihodima. S druge strane treba imati u vidu da je u odredjivanju tipa strukture nekomplet- nosti vazˇna vrednost nedostajuc´e observacije. U slucˇaju prethodnog primera, ako ispitanici koji nisu odgovorili na pitanje o sopstvenoj zaradi nisu odgovorili ni na pitanje o celokupnim porodicˇnim prihodima, podaci josˇ uvek mogu biti smatrani MCAR, ukoliko nepruzˇanje informacija nije povezano sa vrednosˇc´u samih prihoda. Vazˇna prednost ovakve strukture nekompletnosti je u tome sˇto se analiza izvodi bez pristrasnosti. Naravno mozˇe se smanjiti moc´ statisticˇkog testa ali ocenjeni parametri nemaju pristrasnost uzrokovanu nedostatkom podataka. 4.1.2 Podaci nedostaju na slucˇajan nacˇin (MAR-Missing at random) Cˇesto u prakticˇnim situacijama podaci nisu MCAR, ali se mogu klasifikovati kao MAR, odnosno za date podatke se mozˇe rec´i da se pojavljuju na slucˇajan nacˇin. Za podatke koji su MCAR, zakljucˇili smo da ne postoji korelacija izmedju verovatnoc´e da Xi nedostaje i njene i bilo koje druge vrdenosti ostalih slucˇajnih velicˇina. U slucˇaju MAR podataka, posmatra se verovatnoc´a da podatak Xi nedostaje ali u korelaciji sa nekim faktorom. Recimo, mozˇe se desiti da depresivni ljudi imaju malo motiva da odgovore na pitanje zarade, pa c´e postojati zavisnost izmedju izracˇunatog 47 Poglavlje 4. Nekompletni uzorci prihoda i depresije. Srednja vrednost prihoda kod depresivnih osoba bic´e na ovaj nacˇin znacˇajno manja nego u slucˇaju kompletnog uzorka. U ovom slucˇaju, iako smo daklarisali ovaj tip strukture sa nedostajanjem na slucˇajan nacˇin, moramo se potruditi da pogodnim metodama i tehnikama koje su na raspolaganju obezbedimo sˇto preciznije i znacˇajne ocene sa sˇto manjom pristrasnosˇc´u. 4.1.3 Podaci nedostaju na neslucˇajan nacˇin (MNAR-Missing not at random) Ako podaci ne pripadaju ni jednom od prethodne dve strukture, onda mozˇemo rec´i da se nedostajuc´i podaci pojavljuju na neslucˇajan nacˇin, odnosno da pripadaju tipu MNAR. Na primer, ako se ispituje mentalno zdravlje i ako ispitanici koji imaju di- jagnozu depresije manje od drugih odgovaraju na pitanja vezana za njihov mentalni status, onda podaci nedostaju na neslucˇajan nacˇin. Jasno je da prosecˇni rezultat mentalnog statusa dostupnih podataka nec´e biti postojana ocena mentalnog statusa koji bi se dobio u slucˇaju kompletnih podaka. Ovakva struktura podataka pred- stavlja najvec´i izazov jer se moraju modelirati nedostajuc´i podaci, odnosno mora se napraviti model koji uzima u obzir podatke koji nisu dostupni, ali to nimalo nije lak zadatak. 4.2 Metodi koji se primenjuju u slucˇajevima kada uzorak nije kompletan 4.2.1 Pametno brisanje sa liste (listwise deletion) Ovaj nacˇin resˇavanja problema je najjednostavniji i najcˇesˇc´i. U ovom slucˇaju se jednostavno zaobilaze podaci koji nedostaju i statisticˇka analiza se izvodi samo sa raspolozˇivim podacima. Iako u ovom slucˇaju mozˇe doc´i do situacije da se znacˇajno smanjila velicˇina uzorka potrebnog za analizu, ovaj pristup ipak ima odredjene pred- nosti. Konkretno, pod pretpostavkom da su podaci koji nedostaju tipa MCAR 48 Poglavlje 4. Nekompletni uzorci (missing completely at random), tj. da, kao sˇto smo definisali u prethodnoj sekciji, nedostaju na potpuno slucˇajan nacˇin, ova metoda nas dovodi do ocene parametara bez pristrasnosti. Na zˇalost, postoji gubitak moc´i testa, u ovom slucˇaju upravo zbog toga sˇto se smanjuje velicˇina uzorka, cˇak i pod pretpostavkom da su podaci tipa MCAR, s obzirom da su t-testovi funkcije velicˇine uzorka. U slucˇaju da podaci nisu MCAR, pojavljuje se pristrasnost. Alternativni pristupi koje c´emo objasniti u narednim paragrafima mogu biti u odredjenim situacijama pogodna zamena za pametno brisanje sa liste. 4.2.2 Brisanje u parovima (pairwise deletion) Druga metoda ima izvesne nedostatke u odnosu na prethodno opisanu i obicˇno se naziva ”unwise” (neinteligentna) metoda. Mnogi kompjuterski paketi nude opciju koja se naziva pairwise deletion. Ona se zasniva na tome da se ocenjuje svaki element u interkorelacionoj matrici pri cˇemu se koriste svi raspolozˇivi podaci. Problem ovog pristupa je da c´e ocenjeni parametri modela biti zasnovani na razlicˇitim skupovima podataka, sa razlicˇitim velicˇinama uzorka i razlicˇitim standardnim gresˇkama. Cˇak je sasvim moguc´e generisati interkorelacionu matricu koja nije pozitivno definitna, sˇto mozˇe lako dovesti cˇitavu analizu u pitanje. Ova se metoda mozˇe upotrebiti u slucˇaju da nedostaje vrlo malo podataka, medjutim u tom slucˇaju se preporucˇuje da se koristi prethodna metoda tako sˇto c´e se elementi koji nedostaju prosto ukloniti iz analize. Ukoliko nedostaje vec´i broj podataka onda se ovim dvema opisanim metodama mozˇe znacˇajno ugroziti analiza. U takvim slucˇajevima upotrebljavaju se drugacˇiji pristupi opisani u daljem tekstu. 4.2.3 Zamena srednjom vrednosˇc´u (Mean Substitution) Zamena srednjom vrednosˇc´u je postupak koji pri kome se vrsˇi zamena svih ne- dostajuc´ih podataka date velicˇine srednjom vrednosˇc´u te velicˇine. Ova metoda je dobar izbor u slucˇaju da se radi o normalno raspodeljenim podacima tipa MAR. Takodje, ovaj postupak proizvodi mnogo konzistentniji skup korelacionih matrica 49 Poglavlje 4. Nekompletni uzorci nego metodom brisanja po parovima. Kao u slucˇaju pametnog brisanja sa liste, kada je proporcija nedostajuc´ih podataka vec´a, javic´e se pristrasnost, cˇak i kad su u pitanju podaci tipa MAR. 4.2.4 Imputacija pomoc´u regresije (Imputation by Regres- sion) Za predvidjanje nedostajuc´ih podataka ova metoda koristi regresionu jednacˇinu u kojoj se kao nezavisne velicˇine pojavljuju svi ostali relevantni podaci kao prediktori. Prednost ove metode je sˇto zadrzˇava varijansu i kovarijansu slucˇajnih velicˇina sa nedostajuc´im podacima. Medjutim, ukoliko se zanemare standardne gresˇke, mozˇe se znacˇajno oslabiti predvidjajuc´a moc´ modela s obzirom da se za vrednosti zavisne velicˇine predpostavlja da su prognozirane sa savrsˇenom tacˇnosˇc´u. 4.2.5 Slucˇajna imputacija (Hot Deck Imputation) Ova metoda predstavlja zamenu nedostajuc´ih podataka slucˇajno izabranim vred- nostima iz nekog slicˇnog kompletnog uzorka. S obzirom sa se zamenjujuc´e vrednosti biraju na slucˇajan nacˇin, slucˇajna imputacija dovodi do vec´ih varijacija od srednje vrednosti. Ovo je metoda koja se zasniva na zamenjivanju nedostajuc´ih vrednosti na slucˇajan nacˇin onim vrednostima koji poticˇu iz slicˇnog slupa podataka. Ovaj termin ”hot deck” datira josˇ iz perioda kada su podaci skladiˇsteni na busˇenim karticama i indikuje da podaci supstitucije poticˇu iz istog skupa kao i neregistrovani podaci. Recˇ ”hot” je iz razloga sˇto se trenutno procesuiraju dati podaci. Nasuprot ovoj metodi, postoji i Cold Deck Imputation metoda pri kojoj se podaci substituiˇsu po- dacima iz nekog drugog skupa. Osnovni problem koji se namec´e prilikom koriˇsc´enja ove metode je kako odabrati reprezentativan skup i identifikovati odgovarajuc´e vred- nosti koje c´e se koristiti u substituciji i proizvesti najmanju varijansu. Ova tehnika se intenzivno koristi od strane vladinih agencija i u velikoj meri je zadovoljavajuc´a s obzirom da uspesˇno proizvodi reprezentativne uzorke populacije koju ispituje. 50 Poglavlje 4. Nekompletni uzorci 4.2.6 EM Algoritam (Expectation Maximization Algorithm) Znacˇenje ove metode je maksimizacija ocˇekivanja, iterativni proces koji ocenjuje parametre modela polazec´i od neke pocˇetne vrednosti. Svaka iteracija se sastoji iz dva koraka: 1. korak ocˇekivanja, pri kome se identifikuje raspodela nedostajuc´ih podataka na osnovu poznatih vrednosti opserviranih podataka i na osnovu trenutne ocene parametara 2. korak maksimizacije koji substituiˇse nedostajuc´e podatke ocˇekivanom vrednosˇc´u. Metoda predstavlja elegantan i moc´an pristup, medjutim zahteva specijalizovan i efikasan softver s obzirom da mozˇe biti veoma vremenski zahtevna. 4.2.7 FIML Metod (Raw Maximum Likelihood or Full In- formation Maximum Likelihood) FIML metod je obicˇno predstavljen kao kovarijansna matrica promenljive i vektora ocˇekivanja. Tehnika koristi sve raspolozˇive informacije o posmatranim podacima, kao i ocˇekivanje i varijansu na osnovu raspolozˇivih podataka za svaku promenljivu. Prednost u odnosu na EM metode je u tome sˇto omoguc´ava direktno izracˇunavanje odgovarajuc´ih standardnih gresˇaka i testiranje statistike. FIML metod, koji se josˇ naziva i ”direktni metod maksimalne verodostojnosti”, ”grubi metod maksimalne verodostojnosti” ili samo ”ML”, je trenutno dostupan u svim vec´im statisticˇkim paketima koji se koriste u imputaciji nedostajuc´ih vrednosti. Postupak zahteva da podaci budu bar tipa MAR ili MCAR. Vrsˇi se ocenjivanje funkcije verodostojnosti za svakog ispitanika na osnovu registrovanih varijabli ali tako da se iskoriste svi raspolozˇivi podaci. Ovaj postupak takodje zahteva specijalizovani program i mozˇe biti veoma vremenski intenzivan. 51 Poglavlje 4. Nekompletni uzorci 4.2.8 Viˇsestruke imputacije (Multiple Imputations) Viˇsestruke imputacije - slicˇne su EM algoritmu, generiˇsu maksimalnu verodostojnost zasnovanu na kovarijansnoj matrici vektora srednjih vrednosti. Razlika je u tome sˇto se zahteva izgradnja pet do deset baza podataka sa odgovarajuc´im vrednostima, od kojih svaka mora biti pojedinacno analizirana. Rezultati se zatim kombinuju u jednom skrac´enom skupu vrednosti. Postupak je veoma moc´an, medjutim vremenski jako zahtevan. Viˇsestruka imputacija je vrlo korisna i primenljiva strategija koja se koristi u radu sa nekompletnim uzorcima. To je metoda koja poticˇe od Rubina (Rubin (1987)), koi umesto popunjavanja nedostajuc´eg podatka jednom vrednosˇc´u, predlazˇe zamenu skupom odgovarajuc´ih vrednosti. Ovi viˇsestruko umetnuti skupovi podataka se zatim analiziraju standardnim procedurama za kompletne podatke i kombinuju sa vec´ utvrdjenim rezultatima statisticˇke analize. Proces kombinovanja rezultata iz razlicˇitih skupova je u susˇtini isti, bez obzira o kojoj se statisticˇkoj analizi za kompletne podatke radi. 4.3 Istorijski razvoj i literatura Sve do 70-tih godina prosˇlog veka se nije ozbiljno pristupalo problemu nekomplet- nosti uzoraka. Rubin (1976) formira odredjenu vrstu algoritma za tretiranje ne- dostajuc´ih podataka koja se na izvestan nacˇin zadrzˇala do danas. Formulacija EM algoritma (Dempster, Laird, Rubin (1977)) je omoguc´ila izracˇunavanje ocena maksimalne verodostojnosti u razlicˇitim problemima nekompletnih uzoraka. Mnogi primeri EM algoritama su opisani u knjizi Little, Rubin (1987). Takodje, pogledati i Rubin (1976, 1987). Od 1990-te godine krec´e razvoj novih i modernijih pravaca u tretiranju problema nedostajuc´ih podataka (Ibrahim (1990)). Prakticˇne aplikacije i analiza softvera za obradu ovakvih tipova podataka mozˇe se pogledati u Schafer (1997, 1999) i Schafer, Olsen (1998). Videti takodje Robins, Rotnitzky, Zhao (1994). Nove metode se narocˇito primenjuju u biostatistici i javnom zdravlju (Little (1995)). Pogledati josˇ: 52 Poglavlje 4. Nekompletni uzorci Dunsmuir, Robinson (1981), Kline, Santos (2010), Mladenovic´, Petrovic´ (2010), Koopman i dr. (2007), Verbeke, Molenberghs (2000), Graham, Hofer (2000), Little, Rubin (2002), Schafer, Graham (2002), Graham i dr. (2003), Graham (2009) i Wang, Luo (2011). 53 Poglavlje 5 OCENJIVANJE INDEKSA REPA RASPODELE NA NEKOMPLETNOM UZORKU U ovom poglavlju bavimo se ocenjivanjem parametra oblika α koristec´i niz zavisnih slucˇajnih velicˇina sa zajednicˇkom funkcijom raspodele tesˇkog repa. Pod pretpostavkom ” ekstremalne zavisnosti” posmatra se asimptotsko ponasˇanje Hilove ocene i ocene geometrijskog tipa koju su predlozˇili Brito i Freitas (2003), a koja se pokazala manje osetljivom na devijacije sporo promenljive funkcije od konstante (pogledati Csorgo i Viharos (1998)). Uz koriˇsc´enje nekompletnog uzorka, dokazuje se konzistentnost ocene geometrijskog tipa, kao i konzistentnost i asimptot- ska normalnost Hilove ocene. Kao osnova dokaza, koristi se model koji je prezentovan u radu Mladenovic´ i Piterbarg (2008) u kome je na nepotpuno registrovanom uzorku dokazana konzistentnost Hilove ocene uz pretpostavku stroge stacionarnosti. Autori su eksploatisali Hsinga (1991) koji je posmatrao asimptotsko ponasˇanje Hilove ocene na stacionarnom uzorku. Generalno, u uslovima teorema ovog poglavlja ne zahteva se stacionarnost, s obzirom da pretpostavka zavisnosti u domenu visokih kvantila pokriva sˇiroki spektar procesa. Posmatraju se procesi cˇije su ekstremne velicˇine 54 Poglavlje 5. Ocenjivanje indeksa repa raspodele na nekompletnom uzorku NED (near epoch dependent) na nekom proizvoljnom mesˇajuc´em funkcionalu (de- taljnije objasˇnjenje dato je u prvoj sekciji ovog poglavlja). Mnoge vremenske serije u finansijama, makroekonomiji i meteorologiji imaju ekstremne vrednosti koje se pojavljuju u klasterima. Ovaj uslov takodje ima i prakticˇnih prednosti, s obzirom da se lako verifikuje na osnovu uslovnog ocˇekivanja. U poslednjoj sekciji poglavlja dati su brojni primeri slucˇajnih nizova koji zadovoljavaju ovaj uslov i na kojima su teoreme primenljive. 5.1 EKSTREMALNA ZAVISNOST Na pocˇetku ovog paragrafa upoznac´emo se sa definicijom odredjene vrste asimp- totske nezavisnosti, odnosno sa pojmom jake pomesˇanosti ili α-pomesˇanosti. Definicija 5.1 (α-pomesˇanost). Neka je dat niz {Xt} slucˇajnih velicˇina na nekom prostoru verovatnoc´a (Ω, F , P). Neka za −∞ ≤  ≤ ` ≤ ∞ F ` predstavlja σ-polje indukovano slucˇajnim velicˇinama Xk, gde je  ≤ k ≤ ` i k ∈ Z. Niz slucˇajnih velicˇina {Xt} zadovoljava uslov α-pomesˇanosti ukoliko α(d) = sup t∈Z sup A∈Ft−∞,B∈F+∞t+d |P (A ∩B)− P (A)(B)| → 0, kad d→∞. Neka je =t := σ(τ : τ ≤ t) σ-polje indukovano nekom bazom t koja zadovoljava uslov α-pomesˇanosti. Dalje, neka je qn proizvoljan niz celih brojeva koji zadovoljava 1 ≤ qn < n i qn → ∞, kad n → ∞. Na primer, mozˇemo pretpostaviti da je t = I(Xt > bkne u) gde t zadovoljava uslov α-promesˇanosti i gde je bkn := F −1(1− kn/n). Ovaj primer koji smo naveli predstavlja specijalan slucˇaj koji se pojavljuje u Hsingovom radu (1991) i njegovi uslovi pomesˇanosti odnose se na ovakve tipove t baze. Medjutim, dokazi ovog poglavlja se intenzivno baziraju na Hilovom radu (Hill 2010, Teorema 1.) koji pretpostavlja nove uslove zavisnosti u repu raspodele na slicˇnoj bazi t = I(Xt > bkne u), koji pokrivaju i znacˇajno uopsˇtavaju Hsingove pretpostavke mesˇanja (pogledati takodje i Hill (2011)). 55 Poglavlje 5. Ocenjivanje indeksa repa raspodele na nekompletnom uzorku Lp-Extremal-Near Epoch Dependence (Lp-E-NED) svojstvo. {Xt} pred- stavlja Lp-E-NED na {=t}, p > 0, velicˇine λ > 0 ukoliko vazˇi ‖I(Xt > bkneu)− P (Xt > bkneu|=t+qnt−qn)‖p ≤ fnt(u)× ψqn , gde je ψqn = o(q −λ n ) i fnt : R+ → R+ je merljiva u Lebegovom smislu. sup1≤t≤nsupu≥0fnt(u) = O((kn/n) 1/p) (pogledati Hill (2010), p.1402). Pretpostavka A. {Xt} je L2-E-NED na {=t}, sa koeficijentima ψqn velicˇine 1/2 i konstantama fnt(u) gde je fnt : R+ → R+ merljiva smislu Lebega i sup1≤t≤n ∫∞ 0 fnt(u)du = O((kn/n) 1/2). E-NED pokriva NED i α−zavisnost, kao i nelinearne ARCH i GARCH procese. (videti Hill (2010, 2011)). 5.2 MODEL NEKOMPLETNOG UZORKA Ukoliko je uslov (1.1) zadovoljen, mozˇe se lako pokazati (videti Leadbetter i dr. (1983), Teorema 1.5.1 i 1.7.3) da je lim x→∞ 1− F (x) 1− F (x− 0) = 1, (5.1) i 1− F (F−1(1− 1 t )) ∼ 1 t as t→∞, (5.2) gde je F−1(y) := inf{x : F (x) ≥ y} levi neprekidni inverz funkcije F. S obzirom da nam je u zakljucˇivanjima i procenama parametra α neophodan deo repa empirijske funkcije raspodele uzorka, bez gubljenja opsˇtosti pretpostavic´emo da je F definisana na intervalu (0,∞). 56 Poglavlje 5. Ocenjivanje indeksa repa raspodele na nekompletnom uzorku Sada pretpostavimo da su nam dostupne samo observacije u nekim tacˇkama. Sada oznacˇimo registrovane slucˇajne promenljive medju {X1, . . . , Xn} sa X˜1, ..., X˜Sn . Ovde slucˇajna velicˇina Sn predstavlja broj registrovanih slucˇajnih promenljivih medju prvih n cˇlanova niza {Xt}. Nepotpun uzorak se mozˇe dobiti ukoliko je verovatnoc´a observacije svakog cˇlana niza {Xt} jednaka p, nezavisno od ostalih elemenata niza. U ovom slucˇaju Sn ima binomnu raspodelu, tj. predstavlja binomnu slucˇajnu varijablu. Medjutim, pretpostavic´emo da su registrovane velicˇine definisane nekim tacˇkastim procesom i samo c´emo zahtevati uslove koji se odnose na slucˇajnu velicˇinu Sn. Ovakav model definisan je u radu Mladenovic i Piterbarg (2008) gde je dokazana konzistencija Hilove ocene na zavisnom nekompletnom uzorku i on najviˇse odgovara tipu MCAR nedostajuc´ih podataka o kome smo govorili u paragrafu 4.1.1 prethodnog poglavlja. Pretpostavka B. Niz X1, X2, . . . ne zavisi od Sn i Sn n p−→ c0 > 0 as n→ +∞. Neka je βn niz realnih brojeva takav da limn→∞ βn = ∞ i limn→∞ βn/n = 0. Definiˇsimo josˇ dve slucˇajne velicˇine Mn = [ Sn βn ] i Bn = { 0, Sn = 0 Mn Sn , Sn ≥ 1, gde funkcija [.] oznacˇava ceo deo datog broja. Interesuje nas ocena za parametar debljine repa raspodele α koju c´emo dobiti uz pomoc´ odredjene porcije uzorka. Neka je X˜(1) ≥ X˜(2) ≥ ... ≥ X˜(Sn) niz statistika poretka od Sn registrovanih slucˇajnih velicˇina. Oznacˇimo x+ = max(x, 0), x− = max(−x, 0). (5.3) Hilova ocena je data sa: 57 Poglavlje 5. Ocenjivanje indeksa repa raspodele na nekompletnom uzorku HSn = I{Sn ≥ βn} 1 Mn Mn∑ t=1 ln X˜(t) − ln X˜(Mn+1), a ocena geometrijskog tipa sa R̂(Sn) = I{Sn ≥ βn} √√√√∑Mnt=1 ln2(Sn/t)− 1Mn (∑Mnt=1 ln(Sn/t))2∑Mn t=1 ln 2X˜(t) − 1Mn ( ∑Mn t=1 lnX˜(t)) 2 . (5.4) Definiˇsimo josˇ dve slucˇajne velicˇine u skladu sa gore opisanim modelom: H˜Sn = I{Sn ≥ βn} 1 Mn Mn∑ t=1 ln X˜(t) − lnF−1(1−Bn) i H+Sn = I{Sn ≥ βn} 1 Mn Sn∑ t=1 (ln X˜t − lnF−1(1−Bn))+. Prema rezultatima iz Mladenovic i Piterbarg (2008) sve tri velicˇine HSn , H˜Sn i H + Sn imaju isto asimptotsko ponasˇanje u raspodeli. 5.3 REZULTATI Oznacˇimo Y˜nt = (ln X˜t − lnF−1(1−Bn))+ i Int = I { ln X˜t − lnF−1(1− ρBn) > ε } , gde ε ∈ R i ρ ∈ J , gde J oznacˇava neku okolinu broja 1. I{} predstavlja oznaku funkcije indikatora. 58 Poglavlje 5. Ocenjivanje indeksa repa raspodele na nekompletnom uzorku Lema 5.2. Ukoliko vazˇi Pretpostavka B, onda za bilo koji ceo broj k > 0 vazˇi lim n→∞ βnE(ln X˜t − lnF−1(1−Bn))k+ = k! αk . Primedba 5.3. Primetimo da, ukoliko je Bn = 0, onda je lnF −1(1 − Bn) = +∞ i prema (5.3) slucˇajna velicˇina Y˜nt dobija vrednost 0. Teorema 5.4. Pretpostavimo da F zadovoljava (1.1). Neka takodje vazˇe Pret- postavke A i B. Tada sve tri velicˇine HSn, H + Sn i H˜Sn konvergiraju ka α u verovatnoc´i. Primedba 5.5. Primetimo da, ukoliko niz {Xt} zadovoljava uslov α-pomesˇanosti, tada taj uslov zadovoljava i niz {X˜t}, s obzirom da vazˇi sup s∈Z sup A∈Fs−∞,B∈F+∞s+d |P (A ∩B)− P (A)(B)| ≤ sup t∈Z sup A∈=t−∞,B∈=+∞t+d |P (A ∩B)− P (A)(B)|, gde je Fs := σ(˜τ : τ ≤ s) i ˜s proizvoljan funkcional od X˜s. Lema 5.6. Posmatrajmo niz sledec´ih slucˇajnih velicˇina: t(Mn) := 1 Mn Mn∑ t=1 ln2(Sn/t)− ( 1 Mn Mn∑ t=1 ln(Sn/t)) 2, gde je Mn definisano u prethodnoj sekciji. Tada E(t(Mn))→ 1, kad n→∞. Teorema 5.7. Pretpostavimo da F zadovoljava (1.1). Neka takodje vazˇe Pret- postavke A i B. Tada R̂(Sn) konvergira ka α −1 u verovatnoc´i. Pretpostavka C. Postoji pozitivna merljiva funkcija g definisana na intervalu (0,∞) takva da za proizvoljno λ > 0 vazˇi: L(λx)/L(x)− 1 = O(g(x)), 59 Poglavlje 5. Ocenjivanje indeksa repa raspodele na nekompletnom uzorku kad x → ∞. Takodje, postoje konstante D > 0, z0 < ∞ i τ ≤ 0 takve da vazˇi g(λz)/g(z) ≤ Dλτ za neko λ ≥ 1 i neko z ≥ z0. Potrebno je da kn, bkn i g zadovol- javaju da k 1/2 n g(bkn)→ 0. Teorema 5.8. Neka vazˇe Pretpostavke A, B i C. Tada M1/2n (HSn − α−1)/σMn d−→ N(0, 1), gde je σ2Mn = E(M 1/2 n (HSn − α−1))2 = O(1). Takodje, |σ2Mn − E(I{Sn ≥ βn} 1 M 1/2 n [ Sn∑ t=1 {Y˜t − E(Y˜t)− α−1(Y˜ ζt − E(Y˜ ζt ))}])2| → 0, gde je Y˜ ζt = I { ln X˜t − lnF−1(1−Bn) > ζ√Mn } i ζ ∈ R. Primer 5.1. Model koji se cˇesto koristi u aplikacijama je GARCH (1,1) proces. Pod nekim veoma opsˇtim uslovima koji se odnose na sˇum (Zt) GARCH (1,1) proces ima marginalnu raspodelu Paretovog tipa i kao takav predstavlja veoma atraktivan alat u modelovanju finansijskih podataka cˇija je empirijska raspodela u repu deblja od normalne raspodele. Ovaj proces se definiˇse odredjivanjem σt na sledec´i nacˇin: σ2t = α0 + β1σ 2 t−1 + α1X 2 t−1 = α0 + σ 2 t−1(β1 + α1Z 2 t−1), gde t ∈ Z, a parametri α0, α1 i β1 su nenegativni. GARCH (1,1) proces je L2-NED ako je β21 + 2α1β1 + 3α 2 1 < 1 kad su Zt nezavisne slucˇajne velicˇine sa istom normalnom funkcijom raspodele (videti Davidson (2004)). Takodje Hill (2005, Lema 7) dokazuje da procesi sa pravilno promenljivim repom koji su L2-NED takodje imaju i L2-E-NED osobinu. Takodje, posˇto su GARCH (1,1) procesi jako mesˇajuc´i oni su automatski E-NED na sop- stvenom funkcionalu. 60 Poglavlje 5. Ocenjivanje indeksa repa raspodele na nekompletnom uzorku Primer 5.2. Drugi model koji se takodje koristi u aplikacijama je nelinearni au- toregresivni model (AR). Za nelinearne modele yt = f(yt−1) + εt je moguc´e pokazati L2-NED svojstvo, za bilo koji niz slucˇajnih velicˇina koje zado- voljavaju model za t = 1, ..., n i imaju proizvoljnu pocˇetnu vrednost y0, takvu da vazˇi E(y0) 2 <∞. Takodje, mora biti zadovoljeno da |f(x)− f(y)| ≤ L|x− y|, gde je f(·) Borel merljiva i L < 1 (videti Tjostheim (1990)). 5.4 DOKAZI Dokaz Leme 5.2. Primetimo da vazˇe sledec´e jednakosti E(ln X˜t − lnF−1(1−Bn))k+ = ∫ ∞ 0 P{(ln X˜t − lnF−1(1−Bn))k > u} du = ∫ ∞ 0 P{(ln X˜t F−1(1−Bn)) k > u} du = ∫ ∞ 0 P{ X˜t F−1(1−Bn) > e u1/k} du. Posˇto je { eu 1/k < X˜t F−1(1−Bn) } ⊂ { eu 1/k < X˜t F−1(1− 1/βn) } , 61 Poglavlje 5. Ocenjivanje indeksa repa raspodele na nekompletnom uzorku dobijamo da je E(ln X˜t − lnF−1(1−Bn))k+ ≤ ∫ ∞ 0 P { X˜t F−1(1− 1/βn) > e u1/k } du = ∫ ∞ 0 P { X˜t > e u1/kF−1(1− 1/βn) } du = ∫ ∞ 0 { 1− F (eu1/kF−1(1− 1/βn)) } du = {1− F (F−1(1− 1/βn))} ∫ ∞ 0 1− F (eu1/kF−1(1− 1/βn)) 1− F (F−1(1− 1/βn)) du ∼ 1 βn ∫ ∞ 0 e−αu 1/k = 1 βn k! αk . Oznacˇimo Jε = [n(c0 − ε), n] i kn = [nβ−1n (c0 − ε)] gde je 0 < ε < c0. Vazˇi da je {Sn ≥ n(c0 − ε)} ⊂ {Sn ≥ knβn} ⊂ { Bn > kn kn + 1 1 βn } i {Sn ∈ Jε} ⊂ { Bn > kn kn + 1 1 βn } = { F−1(1−Bn) ≤ F−1 ( 1− kn kn + 1 1 βn )} =  1F−1(1−Bn) ≥ 1F−1 (1− kn kn+1 1 βn )  . Kao posledicu dobijamo { X˜t F−1(1−Bn) > e u1/k , Sn ∈ Jε } ⊃  X˜tF−1 (1− kn kn+1 1 βn ) > eu1/k , Sn ∈ Jε  . 62 Poglavlje 5. Ocenjivanje indeksa repa raspodele na nekompletnom uzorku Konacˇno sledi da je E(ln X˜t − lnF−1(1−Bn))k+ ≥ P{Sn ∈ Jε} ∫ ∞ 0 P  X˜tF−1 (1− kn kn+1 1 βn ) > eu1/k  du ∼ P{Sn ∈ Jε} kn kn + 1 1 βn k! αk ∼ kn kn + 1 1 βn k! αk ∼ 1 βn k! αk , n→∞.  Pre nego sˇto formuliˇsemo dokaz Teoreme 5.4., uvodimo pojam Extremal-Mixingale (E-MIXL) procesa. Lp-Extremal-Mixingale (Lp-E-MIXL) svojstvo. {Xt,=t} predstavlja niz sa Lp-E-MIXL svojstvom gde je p > 0, λ > 0 ukoliko vazˇi ‖P (Xt > bkneu)− P (Xt > bkneu|=t−qn)‖p ≤ ent(u)× φqn i ‖I(Xt > bkneu)− P (Xt > bkneu|=t+qn)‖p ≤ ent(u)× φqn+1, gde je φqn = o(q −λ n ) , ent : R+ → R+ je merljiva u Lebegovom smislu i sup1≤t≤nsupu≥0ent(u) = O((kn/n) 1/p). Dokaz Teoreme 5.4. Prema identicˇnom argumentu iz Dejvidsonovog rada (videti Davidson (1994), Teorema 17.5 ) lako je pokazati da L2-E-NED pretpostavka povlacˇi L2-E-MIXL pretpostavku, sˇto u nasˇem slucˇaju znacˇi da je niz {Xt} L2-E-MIXL na {=t} sa koeficijentima ψqn velicˇine 1/2 i konstantama ent(u) gde je ent : R+ → R+ Lebeg merljiva i sup1≤t≤n ∫∞ 0 ent(u)du = O((kn/n) 1/2). Prema slicˇnim argumentima kao kod Hila (Hill (2010), Lemma B.1.) i prema Pret- postavci A vazˇi da {(Y˜nt−E(Y˜nt)),Ft} i {(Int−E(Int)),Ft} za svako ρ u proizvoljnoj 63 Poglavlje 5. Ocenjivanje indeksa repa raspodele na nekompletnom uzorku okolini broja 1 formiraju nizove sa L2-E-MIXL svojstvom velicˇine 1/2 i nekim kon- stantama {e˜∗nt, e˜nt(u)}. Tada, pratec´i dokaz iz Hila (Hill (2010), Lema 1.) i koristec´i posledicu iz Dejvidsonovog rada (Davidson (1994), Corollary 20.16) dobijamo da I{Sn ≥ βn} 1 Mn Sn∑ t=1 (Y˜nt − E(Y˜nt)) P−→ 0 i I{Sn ≥ βn} 1 Mn Sn∑ t=1 (Int − E(Int)) P−→ 0 za svako ε ∈ R i ρ ∈ J , gde je J neka okolina broja 1. Konacˇno, zakljucˇak teoreme dobijamo kao posledicu Teoreme 1. iz rada Mladenovic´ i Piterbarg (2008).  Dokaz Leme 5.5. Primetimo da je t(Mn) := 1 Mn Mn∑ t=1 ln2(t)− ( 1 Mn Mn∑ t=1 ln(t))2. Posˇto vazˇi da je E( 1 Mn Mn∑ t=1 ln2(t)) = E(E( 1 Mn Mn∑ t=1 ln2(t)|Mn = mn)) = ∑ mn E( 1 Mn Mn∑ t=1 ln2(t)|Mn = mn)P{Mn = mn} = ∑ mn E( 1 mn mn∑ t=1 ln2(t))P{Mn = mn} = ∑ mn 1 mn mn∑ t=1 ln2(t)P{Mn = mn} ≤ ∑ mn 1 mn ∫ mn+1 1 ln2(t)dtP{Mn = mn} 64 Poglavlje 5. Ocenjivanje indeksa repa raspodele na nekompletnom uzorku i E( 1 Mn Mn∑ t=1 ln(t)) = ∑ mn 1 mn mn∑ t=1 ln(t)P{Mn = mn} = ∑ mn 1 mn mn∑ t=2 ln(t)P{Mn = mn} ≥ ∑ mn 1 mn ∫ mn 1 ln(t)dtP{Mn = mn}, jednostavnom racˇunicom dobijamo da je t(Mn) ≤ ∑ mn [ 1 mn ∫ mn+1 1 ln2(t)dt− 1 m2n ( ∫ mn 1 ln(t)dt)2]P{Mn = mn} ∼ ∑ mn P{Mn = mn} = 1, kad n→∞. Videti Brito i Freitas (2003, Lema 2.).  Primetimo da se R̂(Sn) mozˇe napisati u sledec´em obliku: R̂(Sn) = I{Sn ≥ βn} √ t(Mn) 1 Mn ∑Mn t=1 ln 2X˜(t) − 1M2n ( ∑Mn t=1 lnX˜(t)) 2 . (5.5) Prema Lemi 5.5., da bismo dokazali konzistenciju R̂(Sn) potrebno je da pokazˇemo da niz N̂Sn koji je definisan sa N̂Sn := 1 Mn Mn∑ t=1 ln2X˜(t) − 1 M2n ( Mn∑ t=1 lnX˜(t)) 2 = 1 Mn Mn∑ t=1 (lnX˜(t) − lnF−1(1−Bn))2 − 1 M2n ( Mn∑ t=1 (lnX˜(t) − lnF−1(1−Bn)))2, 65 Poglavlje 5. Ocenjivanje indeksa repa raspodele na nekompletnom uzorku konvergira ka 1/α2 u verovatnoc´i. Dokaz Teoreme 5.6. Oznacˇimo N+Sn := 1 Mn Sn∑ t=1 (lnX˜(t) − lnF−1(1−Bn))2+ − 1 M2n ( Sn∑ t=1 (lnX˜(t) − lnF−1(1−Bn))+)2. Koristec´i Teoremu 5.4. i uslove Teoreme 5.6., zakljucˇujemo da (H+Sn) 2 konvergira u verovatnoc´i ka 1/α2. Prema Lemi 5.2. dobijamo 1 βn E(lnX˜(t) − lnF−1(1−Bn))2+ → 2/α2, kad n→∞. Prema slicˇnom rezonovanju kao u Teoremi 1. iz Dejvidsona (Davidson (1994), Corollary 20.16) zakljucˇujemo da 1 Mn Sn∑ t=1 (lnX˜(t) − lnF−1(1−Bn))2+ P−→ 2/α2. Na taj nacˇin dobijamo da N+Sn := 1 Mn Sn∑ t=1 (lnX˜(t) − lnF−1(1−Bn))2+ − (H+Sn)2 P−→ 1/α2. Da bi se dokaz kompletirao, potrebno je josˇ pokazati da N+Sn−N̂Sn P−→ 0. Primetimo da je: N+Sn − N̂Sn = ASn +BSn + (H˜Sn)2 − (H+Sn)2, gde je ASn = − 1 Mn Mn∑ t=1 (lnX˜(t) − lnF−1(1−Bn))2− i BSn = 1 Mn Sn∑ t=Mn+1 (lnX˜(t) − lnF−1(1−Bn))2+. 66 Poglavlje 5. Ocenjivanje indeksa repa raspodele na nekompletnom uzorku Prema Teoremi 5.4. i uslovima Teoreme 5.6. dolazimo do zakljucˇka da (H˜Sn) 2 − (H+Sn) 2 P−→ 0. Sada samo preostaje da pokazˇemo da ASn P−→ 0 i BSn P−→ 0. Najpre, pokazˇimo da za svako ρ ∈ J , gde je J neka okolina broja 1 vazˇi: lnX˜([ρMn]) − lnF−1(1− ρBn) P−→ 0, (5.6) kad n→∞. U tom cilju dovoljno je pokazati da za svako ρ ∈ J i ε > 0 P{lnX˜([ρMn]) − lnF−1(1− ρBn) > +ε} → 0 (5.7) i P{lnX˜([ρMn]) − lnF−1(1− ρBn) < −ε} → 0 (5.8) kad n→∞. Da bi dokazali (5.7) mozˇemo da napiˇsemo P{lnX˜([ρMn]) − lnF−1(1− ρBn) > +ε} = P{ Sn∑ t=1 Ini ≥ [ρMn]} = P{ 1 Mn Sn∑ t=1 (Ini − E(Ini)) ≥ 1 Mn ([ρMn]− Sn∑ t=1 E(Ini))}. (5.9) Vazˇi da [ρMn]/Mn P−→ ρ kad n→∞. Na slicˇan nacˇin kao u dokazu Leme 5.2., mozˇe se lako pokazati da E(Int) ∼ 1βnρe−αε kad n→∞. Kao posledicu dobijamo: ∑Sn t=1E(Ini) ∼ Sn/βnρe−αε kad n→∞ i 1 Mn ([ρMn]− Sn∑ t=1 E(Ini)) P−→ ρ(1− e−αε) > 0. (5.10) Koristec´i relacije (5.9) i (5.10) dobijamo (5.7). Dokaz je vrlo slicˇan u slucˇaju relacije (5.8). Lako se mozˇe primetiti da: 67 Poglavlje 5. Ocenjivanje indeksa repa raspodele na nekompletnom uzorku |ASn| ≤ (lnX˜(Mn) − lnF−1(1−Bn))2− i za neko ε > 0, imamo: P{|ASn| > ε} ≤ P{(lnX˜(Mn) − lnF−1(1−Bn))2− > ε}. Ako sada iskoristimo relaciju (5.6) za ρ = 1, dobijamo da ASn P−→ 0. Sada pokazujemo da BSn P−→ 0. Za neko δ ∈ R+ takvo da (1− δ, 1 + δ) ⊂ J , mozˇemo da zapiˇsemo BSn = CSn +DSn , gde je CSn = 1 Mn [(1+δ)Mn]∑ t=Mn+1 (lnX˜(t) − lnF−1(1−Bn))2+ i DSn = 1 Mn Sn∑ t=[(1+δ)Mn]+1 (lnX˜(t) − lnF−1(1−Bn))2+. Mozˇe se pokazati da oba niza Cn i Dn konvergiraju u verovatnoc´i ka 0. Iz implikacije DSn > 0⇒ lnX˜([(1+δ)Mn]) − lnF−1(1−Bn) > 0 sledi da P{DSn > 0} ≤ P{lnX˜([(1+δ)Mn]) − lnF−1(1−Bn) > 0}. 68 Poglavlje 5. Ocenjivanje indeksa repa raspodele na nekompletnom uzorku Dalje vazˇi da je P{lnX˜([(1+δ)Mn]) − lnF−1(1−Bn) > 0} = P{lnX˜([(1+δ)Mn]) − lnF−1(1− (1 + δ)Bn) > lnF−1(1−Bn)− lnF−1(1− (1 + δ)Bn)}. Prema (5.6) zakljucˇujemo da lnX˜([(1+δ)Mn]) − lnF−1(1− (1 + δ)Bn) P−→ 0. Takodje, posˇto je F−1 pravilno velicˇina u ∞ sa parametrom 1/α, sledi da je lim n→∞ ln F−1(1−Bn) F−1(1− (1 + δ)Bn) = 1 α ln(1 + δ) > 0. Na taj nacˇin dobijamo da P{DSn > 0} → 0 kad n→∞. Uzimajuc´i u obzir CSn , dobijamo da CSn ≤ 1 Mn ([(1 + δ)Mn]−Mn)(lnX˜(Mn+1) − lnF−1(1−Bn))2+ ≤ δ(lnX˜(Mn+1) − lnF−1(1−Bn))2+. Odatle za neko ε > 0 sledi da je P{|CSn| > ε} ≤ P{(lnX˜(Mn+1) − lnF−1(1−Bn))2+ > δ−1ε} ≤ P{(lnX˜(Mn) − lnF−1(1−Bn))+ > √ δ−1ε}. Koristec´i ponovo (5.6) za ρ = 1, dobijamo da CSn P−→ 0.  69 Poglavlje 5. Ocenjivanje indeksa repa raspodele na nekompletnom uzorku Dokaz Teoreme 5.7. Koristec´i Crame´r-Wold aparat, pratec´i dokaz iz Hila (Hill (2010), dokaz Teoreme 2.) i uzimajuc´i u obzir cˇinjenicu da, pod navedenim uslovima teoreme vazˇi da lnX˜([ρMn]) − lnF−1(1− ρBn) P−→ 0, (videti dokaz Teoreme 5.6.) zakljucˇujemo da: √ Mn(H + Sn − EH+Sn − α−1(S˜(ζ)n − ES˜(ζ)n ))/σ∗Mn d−→ N(0, 1), gde je σ∗Mn = E(I{Sn ≥ βn} 1M1/2n [ ∑Sn t=1{Y˜t − E(Y˜t)− α−1(Y˜ ζt − E(Y˜ ζt ))}])2. Sledec´i zakljucˇak direktno sledi iz Hsinga (Hsing (1991), Teorema 2.4 ): M1/2n (HSn − α−1)/σ∗Mn d−→ N(0, 1). Posˇto je σ2Mn = E(M 1/2 n (HSn − α−1))2, sledi da |σ∗Mn − σMn| p−→ 0.  70 Poglavlje 6 ZAKLJUCˇAK Dobro je poznato da je u slucˇaju identicˇno raspodeljenih medjusobno nezavisnih slucˇajnih promenljivih Hilova ocena indeksa debljine repa raspodele α−1 konzis- tentna i asimptotski normalna. Svrha ove teze bila je da se pokazˇe da se slicˇna svojstva ocene zadrzˇavaju i uz znacˇajno slabljenje pocˇetnih uslova, konkretno, uz uslove nekompletnosti i ekstremalne zavisnosti. Takodje, sem ove ocene posmatrana je josˇ jedna ocena parametra α, ocena geometrijskog tipa, kod koje je pod prethodno navedenim pretpostavkama pokazana konzistentnost. Dokazi teze su intenzivno bazirani na radovima: Hill (2010), Breito i Freitas (2003) i Mladenovic´ i Piterbarg (2008). Hill (2010) zasniva svoj rad na pojmu ekstremalne zavisnosti i znacˇajno prosˇiruje rezultate iz Hsingovog rada (Hsing (1991)) u kome je dokazana konzistentnost i asimptotska normalnost Hilove ocene jako mesˇajuc´ih procesa pod veoma slozˇenim pretpostavkama. Hill (2010) pokazuje da slicˇni rezultati vazˇe pod znatno pojednostavljenim uslovima koji su podesniji za prakticˇnu primenu. U radu Breito i Freitas (2003) analiziraju se svojstva ocene geometrijskog tipa, koju smo posmatrali kroz prizmu izmenjenih pocˇetnih uslova. Dokazali smo da se osobine te ocene ne menjaju ukoliko se oslabe i pojednostave pocˇetni uslovi. U radu Mladenovic´ i Piterbarg (2008) definisan je model nepotpunog uzorka koji nam je posluzˇio kao osnova dokaza, zbog svoje jednostavne i jasne strukture. 71 Poglavlje 6. Zakljucˇak Centralna tema teze je ocenjivanje indeksa pravilne promenljivosti α koji figuriˇse u izrazu funkcije raspodele tesˇkog repa. Ocenjivanje se vrsˇi pod pretpostavkom da nam nisu dostupni svi podaci i formira se model nekompletnog uzorka. Takodje, zahteva se da vazˇi ekstremalna zavisnost medju elementima uzorka koja predstavlja tip zavisnosti u domenu visokih kvantila. Kriticˇna pitanja o kojima smo govorili u uvodnom poglavlju a koja se odnose na verovatnoc´u dogadjanja kraha na berzi, ekonomske krize ili bilo kakvog kolapsa u razlicˇitim domenima, podrazumevaju poznavanje ocˇekivanog ponasˇanja na krajevima funkcije raspodele u statisticˇkom smislu. Odredjivanjem sˇto priblizˇnije vrednosti parmetra α i pretpostavljanjem da vazˇe gore navedene pretpostavke (nekompletnost i ekstremalna zavisnost) koje su u prakticˇnim situacijama veoma realne, mozˇe se simulirati funkcija raspodele tesˇkog repa i u velikoj meri poboljˇsati prognoziranje tesˇko predvidivih i nestabilnih procesa u ekonomiji, osiguranju, finansijamna, hidrologiji i drugim oblastima od interesa. Takodje, razlicˇiti slucˇajevi finansijskih turbulencija u novije vreme dokazuju da se dogadjaji za koje se smatralo da se mogu pojaviti ”jednom u hiljadu godina” ipak pojavljuju mnogo frekventnije. Ova cˇinjenica pokazuje aktuelnost i vazˇnost odredji- vanja indeksa debljine repa raspodele u cilju procene rizika i posmatranje razlicˇitih ocena pod izmenjenim pocˇetnim uslovima. Postoji josˇ jedna vazˇna komponenta ove teze, a to je prakticˇna primenljivost do- bijenih rezultata. Pocˇetni uslovi se lako proveravaju, s obzirom da je za njihovu verifikaciju potrebno samo izracˇunavanje uslovnog ocˇekivanja. Pod pretpostavkom stroge stacionarnosti, pocˇetni uslovi teorema se znatno uslozˇnjavaju. Takodje, pos- toji veliki broj procesa za koje se mozˇe pokazati da zadovoljavaju zahteve teorema a koji se sa velikom frekvencijom pojavljuju u oblastima od interesa kao sˇto su finan- sije i ekonomija, dakle u uzorcima sa empirijskim raspodelama tesˇkih repova. Neki od primera tih procesa su detaljno objasˇnjeni i analizirani u petom poglavlju, ali treba josˇ napomenuti da je spektar procesa koji zadovoljavaju pocˇetne uslove zavis- nosti veoma sˇirok i obuhvata, pored pomenutih primera i: konacˇno zavisne procese, jako mesˇajuc´e GARCH procese, procese koji zadovoljavaju Hsingove uslove mesˇanja, ARFIMA procese i eksplozivne GARCH procese (pogledati prethodno poglavlje za primere procesa na kojima je pokazano da zadovoljavaju pocˇetne uslove dokazanih teorema, a koji su veoma cˇesti u prakticˇnim aplikacijama). 72 Poglavlje 6. Zakljucˇak S obzirom na sve vec´i interes za sˇto boljom procenom rizika, namec´u se i pi- tanja asimptotskog ponasˇanja i nekih drugih ocena parametra oblika repa raspodele pod istim pocˇetnim premisama. Takodje, prirodno se postavlja pitanje pod kojim uslovima vazˇi asimptotska normalnost i stroga konzistentnost ocene geometrijskog tipa, kao i jaka konzistentnost Hilove ocene u slucˇaju nekompletnih podataka koji zadovoljavaju odredjene uslove zavisnosti. 73 Literatura   Literatura Anderson J. A. (1984): Regression and Ordered Categorical Variables. Journal of the Royal Statistical Society. Vol. 46, No. 1, p. 1-30 Beirlant J., Vynckier P., Teugels J. L. (1996): Tail Index Estimation, Pareto Quantile Plots, and Regression Diagnostics. Journal of the American Statistical Association, Vol. 91, No. 436, p. 1659-1667 Bacro, J. N., Brito, M. (1995): Weak limiting behavior of a simple tail Pareto-index estimator. J. Statist. Plann. Inference, Vol. 45, p. 7-19. Beirlant J., Dierckx G., Goegebeur Y., Matthys G. (1999): Tail Index Estimation and an Exponential Regression Model. Extremes, Vol. 2, No. 2, p. 177-200 Brito M., Freitas A. C. M. (2003): Limiting behavior of a geometric-type estimator for tail Indices. Insurance Math. Econom., Vol. 33, p. 211-226 Blattberg R. C., Nicholas J. G. (1974): A Comparison of the Stable and Student Distributions as Statistical Models for Stock Prices. The Journal of Business, Vol. 47, No. 2, p. 244-280 Cshorgo S., Viharos L. (1998): Estimating the tail index. Asymptotic methods in probability and statistics. North Holland Amsterdam, p. 833-881 Cshorgo S., Deheuvels P., Mason D. M. (1985): Kernel estimates of the tail index of a distribution. Ann. Statist., Vol. 13, p. 1050-1077 Chorgo S., Mason, D. M. (1985): Central limit theorems for sums of extreme values. Mathematical Proceedings of the Cambridge Philosophical Society, p. 547-558 Davis R. A. and Resnick S. T. (1984): Tail estimates motivated by extreme value theory. Ann. Statist. Vol. 12, p. 1467-1487. Davidson, J. (1994): Stochastic Limit Theory. Oxford University Press. 74    Literatura   Davidson, J. (2004): Moment and memory properties of linear conditional heteroscedasticity models, and a new model. Journal of Business and Economics Statistics, Vol. 22, p. 16-29 Danielsson J., de Vries C. G. (1997): Beyond the Sample: Extreme Quantile and Probability Estimation. Journal of Empirical Finance, Vol. 4, p. 241–257 Drees H., Kaufmann E., (1998): Selection of the optimal sample fraction in univariate extreme value estimation. Stochast. Process. Astrl., Vol. 75, p. 149–172 Danielson J., de Haan L., Peng L., de Vries C. G., (1996): Using a bootstrap method to choose the sample fraction in tail index estimation. Preprint, Econometric Institute, Erasmus University Rotterdam, Rotterdam, Netherlands. Dacorogna M. M., Muller U. A., Nagler R. J., Olsen R. B., Pictet O. V., (1993): A geographical model for the daily and weekly seasonal volatility in the FX market. Journal of International Money and Finance, p. 413–438 De Haan, L. (1971): A form of regular variationand its astrlication to the domain of attraction of the double exponential distribution. Z. Wahrscheinlichkeitstheorie und Verw. Gebiete Vol. 17, p. 241-258 De Haan L., Peng L. (1998): Comparison of tail index estimators. Statistica Neerlandica, Vol. 52, p. 60–70 De Haan L. (1981): Estimation of the Minimum of a Function Using Order Statistics. Journal of the American Statistical Association Vol. 76, p. 467-469 De Haan L., Resnick S. I. (1980): A Simple Asymptotic Estimate for the Index of a Stable Distribution. Journal of the Royal Statistical Society. Vol. 42, p. 83-87 Deheuvels P., Haeusler E., Mason D. M. (1988): Almost sure convergence of the Hill estimator. Mathematical Proceedings of the Cambridge Philosophical Society, Vol. 104, p. 371-381 De Meyer, A., Teugls, J. L (1983): Limit theorems for Pareto-type distributions. Trans. S. Banach Int. Inst. Warsaw Dempster A.P, Laird N. M, Rubin D. B. (1977): Maximum likelihood from incomplete data via the EM algorithm (with discussion). J. R. Stat. Soc., p. 39-138 Dekkers A. L. M., De Haan L. (1993): Optimal Choice of Sample Fraction in Extreme-Value Estimation. Journal of Multivariate Analysis, Vol. 47, p. 173–195 Dekkers A. L. M., De Haan L. (1989) : On the Estimation of the Extreme-Value Index and Large Quantile Estimation. The Annals of Statistics, Vol. 17, p. 1795-1832 Dekkers A. L. M., Einmahl J.H.J. and de Haan, L. (1989): A moment estimator for the index of an extreme-value distribution. Ann. Statist. 17, p. 1833-1855 Dekkers M. J. (1989): Magnetic Properties of Natural Goethite. Trim Behavior During Thermal and Alternating Field Demagnetization and Low-Temperature Treatment, Vol. 97, p. 341–355. 75    Literatura   Drees H. (1995): Refined Pickands estimators of the extreme value index. The Annals of Statistics, Vol. 3, p. 2059-2080 Du Mouchel W. H. (1983): Estimating the Stable Index α in Order to Measure Tail Thickness. Ann. Statist. Vol. 11, p. 1019-1031 Dunsmuir, W., Robinson, P. M. (1981): Asymptotic theory for time series containing and amplitude modulated observations. The Indian Journal of Statistics, Vol. 43, p. 260-281 Embrechts P., Klüstrelberg C., Mikosch T. (1997): Modeling Extremal Events for Insurance and Finance. Springer Fama E. F., Roll R. (1968): Some Properties of Symmetric Stable Distributions. Journal of the American Statistical Association, Vol. 63, No. 323, p. 817-836 Feuerverger A., Hall P. (1999): Estimating a tail exponent by modeling departure from a Pareto distribution. Ann. Statist. Vol. 27, No. 2, p. 760-781 Fisher R. A., Tistrett L. H. C. (1928): Limiting forms of the frequency distribution of the largest or smallest member of a sample. Mathematical Proceedings of the Cambridge Philosophical Society, Vol. 24, p. 180-190 Gawronski W., Stadtmüller U. (1984): On the zeros of Jonquière's function with a large complex parameter. Source: Michigan Math. J. Vol. 31, p. 275-293 Gnedenko B. (1943): Sur La Distribution Limite Du Terme Maximum D'Une Serie Aleatoire. The Annals of Mathematics, Vol. 44, No. 3, p. 423-453 Graham J. W, (2009): Missing data analysis: Making it work in the real world. Annu. Rev. Psychol. p. 549-576 Graham J. W, Hofer S. M. (2000): Multiple imputation in multivariate research. In Modeling Longitudinal and Multiple-Group Data. Practical Issues, Astrlied Astrroaches, and Specific Examples, Hillsdale, Erlbaum. Graham J. W, Cumsille P. E, Elek-Fisk E. (2003): Methods for handling missing data. In Research Methods in Psychology, ed. JA Schinka, WF Velicer, p. 87-114 Goldie C. M, Smith R. L (1987): Slow Variation With Remainder. Theory and Astrlications, p. 45-71 Guillou A., Hall P. (2001): A diagnostic for selecting the threshold in extreme value analysis. Journal of the Royal Statistical Society, p. 293–305 Haeusler E. and Teugels J. L. (1984): On Asymptotic Normality of Hill's Estimator for the Exponent of Regular Variation. Ann. Statist., Vol. 13, No. 2, p. 743-756 Hall P. (1982): On Some Simple Estimates of an Exponent of Regular Variation. Journal of the Royal Statistical Society. Series B (Methodological), Vol. 44, No. 1 p. 37-42 76    Literatura   Hall P., Welsh A. H. (1984): Best Attainable Rates of Convergence for Estimates of Parameters of Regular Variation the Annals of Statistics, Vol. 12, No. 3, p. 1079-1084 Hill B. M. (1975): A simple general approach to inference about the tail of a distribution. Ann. Statist. Vol. 3, p. 1163-1174. Hill J. B. (2005): On tail index estimation using dependent, heterogeneous data. Working paper. Hill J. B. (2010): On tail index estimation for dependent, heterogeneous data. Econometric Theory, Vol. 26, p. 1398-1436 Hill, J. B. (2011): Tail and nontail memory with the applications to extreme value and robust statistics. Econometric Theory, Vol. 27, str. 844-884 Hsing T. (1991): On tail index estimation using dependent data. Ann. Statist. Vol. 19, p. 1547- 1569 Huisman R., Koedijk K. G., Kool C. J. M, Palm F. (2001): Tail-Index Estimates in Small Samples. Journal of Business & Economic Statistics, Vol. 19, p. 208-216 Ibrahim J. G. (1990): Incomplete Data in Generalized Linear Models. Journal of the American Statistical Association, Vol. 85, No. 411, p. 765-769 Ilić I. (2012): On tail index estimation using a sample with missing observations. Statistics & Probability Letters, Vol. 82, p. 949–958 Jondeau E., Rockinger M., (1998): Reading the smile: the message conveyed by methods which infer risk neutral density. CEPR Discussion Paper, No. 2009. Kline P., Santos A., (2010): Sensitivity to Missing Data Assumptions: Theory and An Evaluation of the U.S. Wage Structure. 2010 Seoul Summer Economics Conference. Koopman L., Geert J. M. G. van der Heiden, Diederick E. Grobbee, Maroeska M. Rovers (2007): Comparison of Methods of Handling Missing Data in Individual Patient Data Meta- analyses: An Empirical Example on Antibiotics in Children with Acute Otitis Media. American Journal of Epidemiology, Vol. 167, No. 5 Koedijk K. G., Schafgans M. M., de Vries C. G. (1990): The Tail Index Of Exchange Rates Returns. Journal of International Economics. Leadbetter M. R., Rootzen H. (1982): Extreme value theory for continuous parameter stationary processes. Probability Theory and Related Fields, Vol. 60, No 1, p. 1-20 Leadbetter M. R., Rootzen H. (1988): Extremal Theory for Stochastic Processes The Annals of Probability, Vol. 16, No. 2, p. 431-478 Leadbetter M. R., Lindgren G., Rootzen H. (1983): Extremes and related properties of random sequences and processes. Springer-Verlang New York, Ling, S. and Peng, L. (2004) Hill's estimator for the tail index of an ARMA model. Journal of Statistical Planning and Inference, Vol. 123, p. 279-293 77    Literatura   Little R. J. A, Rubin D.B. (1987): Statistical Analysis with Missing Data. New York:Wiley Little R. J. A, Rubin D.B. (2002): Statistical Analysis with Missing Data. New York:Wiley. 2nd ed. Little R. J. A. (1995): Modeling the Drop-Out Mechanism in Repeated-Measures Studies. Journal of the American Statistical Association, Vol. 90, No. 431, p. 1112-1121 Luenberger D. G. (1998): Investment Science. Oxford University Press: New York Lux T. (2000): On moment condition failure in German stock returns: an astrlication of recent advances in extreme value statistics. Empirical economics, Springer. Mason D. M. (1982): Laws of Large Numbers for Sums of Extreme Values. The Annals of Probability, Vol. 10, No. 3, p. 754-764 Mladenović, Z., Petrovic, P. (2010): Cagan’s paradox and money demand in hyperinflation: Revisited at daily frequency. Journal of International Money and Finance, No. 29, 1369-1384 Mladenović P., Piterbarg V. (2008): On estimation of the exponent of regular variation using a sample with missing observations. Statist. Prob. Letters. Vol. 78, p. 327-335 Mc Neil A. J. (2000): Estimation of tail-related risk measures for heteroscedastic financial time series: an extreme value approach. Journal of empirical finance, p. 271–300 Novak S.Y. (2002): Inference on heavy tails from dependent data. Siberian Adv. Math., p. 73– 96 Pickands J. (1975): Statistical inference using extreme order statistics. Ann. Statist., Vol.3, p. 119-131 Prevosti F.J., Chemisquy M.A. (2009): The impact of missing data on real morphological phylogenies: influence of the number and distribution of missing entries. Cladistics, No. 26, p. 326-339 Resnick, S.I. (1997): Discussion of the Danish Data on Large Fire Insurance Losses. ASTIN Bulletin, Vol. 27, p. 139–51 Resnick S. and Starica, C. (1995): Consistency of Hill's estimator for dependent data. J. Astrl. Probab. Vol. 32, p. 139-167 Resnick S. and Starica, C. (1997): Asymptotic behavior of Hill's estimator for autoregressive data. Stochastic Models Vol. 13, p. 703-723 Resnick S. and Starica, C. (1998): Tail index estimation for dependent data. Ann. Astrl. Probab. Vol. 8, p. 1156-1183 Robins M., Rotnitzky A., Zhao L. P. (1994): Estimation of Regression Coefficients When Some Regressors Are Not Always Observed. Journal of the American Statistical Association, Vol. 89, No. 427, p. 846-866 78    Literatura   79    Rubin D. B. (1987): The Calculation of Posterior Distributions by Data Augmentation: Comment: A Noniterative Sampling/Importance Resampling Alternative to the Data Augmentation Algorithm for Creating a Few Imputations When Fractions of Missing Information Are Modest: The SIR Algorithm. Journal of the American Statistical Association, Vol. 82, No. 398, p. 543-546 Rubin D. B. (1976): Inference and missing data. Biometrika, Vol. 63, p. 581-592 Rubinstein M. (1994): Implied Binomial Trees. The Journal of Finance, Vol. 49, No. 3, p. 771- 818 Schafer J. L. (1997): Analysis of Incomplete Multivariate Data. New York: Chapman and Hall. Schafer J. L. (1999): Multiple Imputations: a primer. Stat. Methods Med. Res. p. 8-315 Schafer J. L., Olsen M.K. (1998): Multiple Imputations for multivariate missing data problems: a data analyst's perspective. Multivar. Behav. Res. p. 33-54 Schafer J. L., Graham J.W. (2002): Missing data: our view of the state of the art. Psychol. Methods, p. 7-14 Schultze, J., Steinebach, J. (1996): On least squares estimates of an exponential tail coefficient. Statist. Decisions Vol. 14, p. 353-372 Smith R.L., Weissman I. (1985): Maximum Likelihood Estimation of the Lower Tail of a Probability Distribution. Journal of the Royal Statistical Society. Vol. 47, No. 2, p. 285-298 Smith R. L., Weissman I. (1987): Large Deviations of Tail Estimators Based on the Pareto Astrroximation. Journal of Astride Probability, Vol. 24, No. 3, p. 619-630 Taleb N. N. (2007): Black Swans and the Domains of Statistics. The American Statistician, Vol. 61. Teugels J. L. (1981a): Limit Theorems on Order Statistics. The Annals of Probability, Vol. 9, No. 5, p. 868-880 Teugels J. L. (1981b): Remarks on large claims. Bull. Inst. Internat. Statist., Vol. 49, p. 1490- 1500 Tjostheim D. (1990): Non-linear time series and Markov chains. Adv. Astrl. Prob. Vol. 22, p. 587–611 Verbeke G. and Molenberghs G. (2003). The use of score tests for inference on variance components. Biometrics, Vol. 59, p. 254-262 Wang Q. and Luo R. (2011): Semi-empirical pseudo likelihood for estimating equa-tions in the presence of missing responses. Journal of statistical planning and inference, http://dx.doi.org/10.1016/j.jspi.2011.02.009. Biografija autora Ivana Ilić rođena je 14. 07. 1975. godine u Beogradu. Osnovnu školu „Sveti Sava“ i gimnaziju „Bora Stanković“ u Nišu, završila je sa odličnim uspehom kao nosilac diplome „Vuk Karadžić“. U toku školovanja učestvovala je na republičkim takmičenjima u oblasti matematike, srpskog i ruskog jezika. Učestvovala je u raznim aktivnostima iz oblasti matematike u istraživačkoj stanici Petnica. Studije na Prirodno-matematičkom fakultetu u Nišu, na odseku za matematiku i smeru za teorijsku matematiku i primene, upisala je školske 1994/1995. godine, a završila je 2001. godine sa prosečnom ocenom 9,78. Školske 2001/2002. godine upisala je poslediplomske studije na Prirodno- matematičkom fakultetu u Beogradu, na odseku za verovatnoću i statistiku. Magistarsku tezu, pod nazivom ,,Ocenjivanje indeksa pravilne promenljivosti korišćenjem ekstremnih statistika poretka“ odbranila je 2006. godine, i time stekla akademski naziv Magistar matematike. Školske 2003/2004, radi kao asistent pripravnik na predmetu matematika na Elektronskom fakultetu u Nišu. Od 2004. do 2008. godine, radi kao asistent pripravnik na Medicinskom fakultetu na predmetu matematika na odseku farmacija, i na predmetu medicinska informatika na odseku medicina, stomatologija, farmacija i medicinska nega. Godine 2008, stekla je sertifikat iz oblasti Pedagoško-metodičkog usavršavanja fakultetskih saradnika u organizaciji centra za praćenje, obezbeđivanje, unapređivanje i razvoj kvaliteta nastave i naučno-istraživačkog rada Medicinskog fakulteta u Nišu. Godine 2008. birana je u zvanje asistenta na istom fakultetu i ponovo birana u zvanje asistenta godine 2011. Radila je kao instruktor informatike u školi za talente ,,Energea“. Bila je saradnik na dva projekta ministarstva za nauku: na Prirodno-matematičkom fakultetu u Nišu (rukovodilac projekta Prof. dr Vladimir Rakočević) i na Prirodno- matematičkom fakultetu u Beogradu (rukovodilac projekta Prof. dr Pavle Mladenović). Takođe, bila je učesnik je na projektu Uloga prosvetnih radnika u opismenjavanju učenika (akreditovan program za usavršavanje učitelja i nastavnika u katalogu 2008/2009). Član je naučne asocijacije specijalizovane za verovatnoću i statistiku Bernoulli Society. 80    81    Poznavalac je sledećih kompjuterskih programa: MS Word, MS Exel, MS Power Point, MS Access, Tex, SPSS, STATISTICA, Corel Draw, Adobe Photoshop, Xtremes, itd. Govori engleski, francuski i ruski jezik. Bavi se pevanjem i plesom. Udata je i ima dve kćerke, Teodoru i Nađu. Objavila je do sada osam radova računajući magistarsku tezu, i to: 1) ON SOME ASPECTS OF USING MATHEMATICS IN MEDICAL SCIENCES Ivana Ilić, Acta Medica Medianae 2008, Vol.47. 2) NEW ESTIMATION PROCEDURE OF THE SHAPE PARAMETER USING THE EXTREMES, Ivana Ilić, Pavle Mladenović, International Statistical Institute (ISI) (2007) (Book of abstracts). 3) 56th Congress of the ISI, Ivana Ilić, Statistical Review 2007, number 3-4. 4) INCOMPLETE SAMPLES AND TAIL ESTIMATION FOR STATIONARY SEQUENCES, Ivana Ilić, Pavle Mladenović, Novi Sad J. Math.Vol. 38, No. 3, 2008, str. 97-104. 5) META ANALYSIS, Ivana Ilić, Acta Medica Medianae 2009, Vol. 48. 6) WEAK CONVERGENCE OF PRODUCT OF SUMS OF INDEPENDENT VARIABLES WITH MISSING VALUES, Ivana Ilić, Filomat (2010), vol. 24 br. 3, str. 73-81. 7) ON TAIL INDEX ESTIMATION USING A SAMPLE WITH MISSING OBSERVATIONS, Ivana Ilić, Statistics and Probability Letters (2012), Vol. 82, str. 949–958. 8) OCENJIVANJE INDEKSA PRAVILNE PROMENLJIVOSTI KORIŠĆENJEM EKSTREMNIH STATISTIKA PORETKA, Ivana Ilić, Magistarska teza (2006). lAsjaea o ayropcrBy flornucaxn-a 6pojynraca l,lsjaeruyjeu 4a je 4omopcKa Ailcepraqraja noA HacfloBoM llpunor {. a a a a pe3ynraT concTBeHor ucTpaxuBaqKor paAa, Aa npeAnoxeHa Ahcepraquja y qenuHu Hr4 y AenoBrua uuje 6rana npe4noxeHa sa 4oonjarue 6nno roje 4nnnoMe npeMa cry4rajcxraur nporparrrran,la rqpyrux BT4COKOl.XKOnCKnx ycTaHoBa, Aa cy pe3ynTaTH KOpeKTHO HaBeAeH[ n Aa HUCaM Xpr.Uno/na ayropcKa npaBa u Kopl4crr4o l4HTeneKTyanxy ceojraxy Apyrux nhLla. Ilornnc EoKropaH4a YEeorpaly H. iD,/, Ilpunor 2. Hajaea o ucroBerHocrr4 uraMnaHe u eneKrpoHcKe Bep3uje EOKTOpCKOT paga Vlue u npesmMe ayropa Epoj ynuca Crygujcxu nporpaM Hacnoa pa4a F )3"P*** Menrop llornucaxu u3jaBrbyjeM ga je u:raunana aepsuja Mor goKropcKor paga ucroBerHa eneKrpoxcxoj aeparju Kojy caM npe4ao/na 3a o6jaerureaue Ha noprany flururanxor peno3nropujyrt,ta Ynneepanrera y Eeorpagy. fiosaoruaeaM Aa ce o6jaee ruoju nuunu nonaqu BesaHu ea goOrajarse aKaEeMcKor 3Baba Aol$opa HayKa, Kao uro cy taMe u npe3hMe, ro4ilHa ]4 Mecro poleiua r naryM o46pane pa4a. Oau nnqnu noflaqta Mory ce oGjaemrr Ha MpexHuM crpaHilqaMa .qtarhranHe 6r6nnorere, y eneKTpoHcKoM Kararrory u y ny6nnxaqujaua Ynuaepsurera y Eeorpagy. llornuc AorffopaHga YEeorpagy,{% Ilpnnor 3. V$aea o Koplruhercy oenau:hyjeu YHuaepsnrerc(y 6u6nraorer