Heuristike za maksimizaciju informacione vrednosti računarskih testova znanja
Heuristics for the maximatization of computer knowledge tests information value
Author
Verbić, Srđan
Mentor
Tenjović, Lazar
Knežević, Milan
Committee members
Božić, MilanPavlović-Babić, Dragica

Trivić, Dragica

Metadata
Show full item recordAbstract
Informaciona vrednost testa znanja definisana je kao mera preciznosti određivanja
traženih svojstava testa ili osobina ispitanika. Kako informaciona vrednost testa nije
jednoznačna već zavisi od konkretnih ciljeva i zadataka ispitivanja, mogući načini
maksimizacije informacione vrednosti opisivani su u kontekstu testiranja različite namene.
Kod sumativnih testova, čiji je jedini cilj određivanje postignuća, informaciona vrednost testa
je sadržana u Fišerovoj informacionoj funkciji. Za testove koji se rade kao probni,
dijagnostički ili formativni, nema informacione funkcije koja bi jednoznačno odredila
informacionu vrednost testa. Za takve testove informacionu vrednost u svakom konkretnom
slučaju određujemo numerički, pre svega korišćenjem simulacija odgovora na testove znanja.
Cilj istraživanja prikazanog u ovoj disertaciji je određivanje uslova pod kojim
računarski testovi znanja omogućavaju nepristrasno i precizno procenjivanje znanja, odnosno
šta i koliko ispitanici znaju..., kao i razmatranje mogućih dopunskih izvora podataka o
ponašanju ispitanika, posebno vremena odgovora na pitanje, kao i različitih načina obrade
podataka dobijenih testiranjem. Ova disertacija kroz sekundarnu analizu četiri računarska
testa znanja i mnoštvo simulacija vrednuje niz heuristika koje bi mogle da budu praktične
smernice za pripremu, razvoj i proveru računarskih testova znanja.
Korišćenjem simulacija odgovora za četiri tipa testa, upoređivana je informaciona
vrednost testova koju dobijamo korišćenjem različitih modela analize odgovora i metoda
procene postignuća. Rezultati simulacija otkrivaju da svi klasični i IRT modeli pokazuju
pristrasnost u procenjivanju parametara stavki, ali da se u velikoj meri slažu kada se
procenjuje postignuće ili mesto ispitanika na rang-listi. Analizom tipičnog načina selekcije
pitanja na osnovu diskriminativnosti na probnom testu procenjen je najmanji broj ispitanika
na kojem pouzdano možemo da uočimo pitanja koja imaju loše metrijske karakteristike.
Vreme odgovora je sistematski ispitivano u odnosu na razna svojstva testova i
osobine ispitanika, kao što su težina pitanja, tip pitanja, pozicija pitanja u testu, latentna
sposobnost ispitanika, pol ispitanika, pripadnost grupi ispitanika koja na istom mestu radi test
i slično. Utvrđen je niz statistički značajnih veza vremena odgovora i pomenutih
karakteristika, ali njihova prediktivna moć nije takva da bi korišćenje podataka o vremenu
odgovora značajno povećalo informacionu vrednost testova znanja.
Posebno značajni rezultati dobijeni su analizama načina skorovanja pitanja sa više
tačnih odgovora. Pokazano je da ovakva pitanja sadrže vredne podatke koji se u analizi
obično gube zbog neodgovarajućeg načina skorovanja. Poređenjem Fišerovih informacionih
funkcija za različite načine skorovanja ustanovljeno je da se najčešće korišćeni način
skorovanja „sve ili ništa“ pokazuje kao najmanje informativan od svih korišćenih metoda
skorovanja. Konačno, predložen je novi način skorovanja koji čuva informacije o
odgovorima na pojedinačne stavke iz pitanja višestrukog odgovora, a koji zanemaruje
uzajamnu zavisnost odgovora na pojedinačne stavke.
Information value of a knowledge test is defined as a measure of tests’ and
examinees’ characteristics estimation precision. Since the information value of a test is not
unique, but depends on specific examination goals, possible ways of information value
maximization are described in contexts of various testing goals. For summative tests, whose
primary goal is to estimated student’s achievement, the information value of a knowledge test
is contained in Fisher information function. Information function as a measure of
information value is not applicable for trial, diagnostic, or formative tests. For such tests and
specific testing goals, information value can be numerically calculated, mostly through usage
of test response simulations.
Goal of research presented in this dissertation is to determine conditions that enable
unbiased and precise knowledge estimation through computer tests, i.e. to determine what
and how much students know, as well as to discuss possibilities to ...engage additional sources
of information about students’ behavior, especially item response time, as well as various
ways of testing data analysis. This dissertation, through the analysis of four computer tests
and many test simulations, evaluates an array of heuristics, which could give practical
recommendations for preparation, development, and review of computer knowledge tests.
Using test response simulations for four test types, comparisons of tests’ information
value is made for several models of analysis and methods of achievement estimation.
Simulations’ results reveal that all examined classic and IRT models show bias in estimation
of item parameters, while, on the other hand, all of them show high consistency in estimation
of students’ achievement or ranking. Also, the least number of examinees necessary for
determination of poor item metric characteristics is estimated using simulations of typical
selection method based on item discrimination coefficient.
Item response time is systematically examined against various tests’ and examinees’
characteristics like item difficulty, type, or position, examinee’s latent ability, gender, or a
group membership, etc. Statistically significant relationships between the item response time
and all mentioned test and examinee’s characteristics are found. In spite of clear relationships,
it turns out that their predictive power is not sufficient to enable practically significant
increase in tests’ information value.
Results obtained for Multiple Response questions through the analyses of different
scoring methods are particularly important. It was demonstrated that MR questions contain
valuable data that are usually being neglected because of inappropriate answer scoring.
Comparison of Fisher information functions for various scoring methods reveals that the
most common scoring method “all or nothing” is one of the least informative methods.
Finally, a new scoring method for MR question, single-item scoring approximation, is
proposed. This method preserves responses to individual items, while it diminishes the
effects of inter-item dependency.