Show simple item record

n-gramska analiza uređenih i neuređenih regiona proteina

dc.contributor.advisorMitić, Nenad
dc.contributor.otherMalkov, Saša
dc.contributor.otherBeljanski, Miloš
dc.creatorAlshafah, Samira A.
dc.description.abstractProteins with intrinsically disordered regions are involved in large number of key cell processes including signaling, transcription, and chromatin remodeling functions. On the other side, such proteins have been observed in people suffering from neurological and cardiovascular diseases, as well as various malignancies. Process of experimentally determining disordered regions in proteins is a very expensive and long-term process. As a consequence, a various computer programs for predicting position of disordered regions in proteins have been developed and constantly improved. In this thesis a new method for determining Amino acid sequences that characterize ordered/disordered regions is presented. Material used in research includes 4076 viruses with more than 190000 proteins. Proposed method is based on defining correspondence between n-grams (including both repeats and palindromic sequences) characteristics and their belonging to ordered/disordered protein regions. Positions of ordered/disordered regions are predicted using three different predictors. The features of the repetitive strings used in the research include mole fractions, fractional differences, and z-values. Also, data mining techniques association rules and classification were applied on both repeats and palindromes. The results obtained by all techniques show a high level of agreement for a short length of less than 6, while the level of agreement grows up to the maximum with increasing the length of the sequences. The high reliability of the results obtained by the data mining techniques shows that there are n-grams, both repeating sequences and palindromes, which uniquely characterize the disordered/ordered regions of the proteins. The obtained results were verified by comparing with the results based on n-grams from the DisProt database which contains the positions of experimentally verified disordered regions of the protein. Results can be used both for the fast localization of disordered/ordered regions in proteins as well as for further improving existing programs for their prediction.en
dc.description.abstractProteini koji imaju neuređene regione učestvuju u velikom broju ćelijskih procesa kao što su prenos signala, transkripcija i remodelovanje funkcija hromatina. Sa druge strane, pojava takvih proteina je uočena kod osoba koje boluju od neuroloških i kardiovaskularnih bolesti, kao i različitih oblika maligniteta. Eksperimentalno određivanje neuređenih regiona protiena je vrlo skup i spor proces. Zbog toga su razvijeni i stalno se usavršavaju različiti računarski programi za predviđanje pozicija neuređenih regiona u proteinu. U radu je prikazana nova metoda za određivanje niski amino kiselina koje karakterišu neuređene i uređene regione proteina. Materijal nad kojim je vršeno istraživanje obuhvata 4076 virusa sa preko 190000 proteina. Metoda je zasnovana na ispitivanju osobina n-grama (koji obuhvataju ponavljajuće i palindromske niske) i njihove pripadnosti uređenim i neuređenim regionima proteina. Pozicije neuređenih /uređenih regiona u proteinima su određene korišćenjem tri programa za predviđanje. Osobine ponavljajućih niski koje su korišćene u istraživanju uključuju molske frakcije, frakcijske razlike i z-vrednost. Takođe, na ponavljajuće niske kao i na palindromske niske primenjene su određivanje pravila pridruživanja i klasifikacija, kao tehnike istraživanja podataka. Rezultati dobijeni svim tehnikama pokazuju visok nivo saglasnosti, za niske dužine manje od 6, dok nivo saglasnosti rezultata raste sve do maksimalnog sa porastom dužine niski. Visoka pouzdanost rezultata dobijenih tehnikama istraživanja podataka, pokazuje da postoje n-grami, kako ponavljajuće sekvence tako i palindromi, koji jednoznačno karakterišu neuređene/uređene regione proteina. Dobijeni rezultati su provereni upoređivanjem sa rezultatima zasnovanim n-gramima iz DisProt baze koja sadrži pozicije eksperimentalno verifikovanih neuređenih regiona proteina, i mogu da budu korišćeni kako za brzu lokalizaciju neuređenih/uređenih regiona u proteinima tako i za dalje poboljšanje postojećih programa za njihovo predviđ
dc.publisherУниверзитет у Београду, Математички факултетsr
dc.sourceУниверзитет у Београдуsr
dc.subjectistrživanje podatakasr
dc.subjectuređeni/neuređeni regionisr
dc.subjectpravila pridruživanjasr
dc.subjectdata miningen
dc.subjectordered/disordered regionsen
dc.subjectassociation rulesen
dc.titleData mining on protein sequences: n-gram analysis of ordered and disordered protein regionsen
dc.title.alternativen-gramska analiza uređenih i neuređenih regiona proteinasr

Files in this item


This item appears in the following Collection(s)

Show simple item record