Контекстно зависно препознавање говора у интеракцији између човека и машине
Kontekstno zavisno prepoznavanje govora u interakciji između čoveka i mašine
Author
Mišković, DragišaMentor
Delić, VladoGnjatović, Milan
Committee members
Borovac, Branislav
Perić, Zoran
Janev, Marko
Jakovljević, Nikša
Gnjatović, Milan
Delić, Vlado
Metadata
Show full item recordAbstract
Поред великог значаја контекстуалних информација при разумевању говора, њихова обрада и употреба у савременим системима за аутоматско препознавање говора је веома ограничена, што знатно нарушава перформансе препознавања у реалним условима употребе. Стога, уколико желимо да се карактеристике ових система приближе људским, неопходно је укључити контекст у адекватном обиму. У овој тези је представљен нови методолошки приступ контекстно зависном препознавању говора у интеракцији између човека и машине. На методолошком нивоу, овај приступ је хибридан, јер интегрише статистичке и симболичке методе, и когнитивно инспирисан, јер узима у обзир увиде у резулатате ис траживања из области неурокогнитивних наука. Основни принцип је да се оцењивање хипотеза система за препознавање врши на основу њихове контекстуалне усклађености, информационог садржаја и семантичке исправности. Приступ је илустрован прототипским имплементацијама за конкретне домене интеракције.
Pored velikog značaja kontekstualnih informacija pri razumevanju govora, njihova obrada i upotreba u savremenim sistemima za automatsko prepoznavanje govora je veoma ograničena, što znatno narušava performanse prepoznavanja u realnim uslovima upotrebe. Stoga, ukoliko želimo da se karakteristike ovih sistema približe ljudskim, neophodno je uključiti kontekst u adekvatnom obimu. U ovoj tezi je predstavljen novi metodološki pristup kontekstno zavisnom prepoznavanju govora u interakciji između čoveka i mašine. Na metodološkom nivou, ovaj pristup je hibridan, jer integriše statističke i simboličke metode, i kognitivno inspirisan, jer uzima u obzir uvide u rezulatate is traživanja iz oblasti neurokognitivnih nauka. Osnovni princip je da se ocenjivanje hipoteza sistema za prepoznavanje vrši na osnovu njihove kontekstualne usklađenosti, informacionog sadržaja i semantičke ispravnosti. Pristup je ilustrovan prototipskim implementacijama za konkretne domene interakcije.
Although the importance of contextual information in speech recognition has been acknowledged for a long time now, it remained clearly underutilized even in state-of-the-art speech recognition systems. This thesis introduces a novel, methodologically hybrid approach to the research question of contextdependent speech recognition in human-machine interaction. To the extent that it is hybrid, the approach integrates aspects of both statistical and representational paradigms. The aim of this thesis is to extend the standard statistical pattern matching approach with a cognitively-inspired and analytically tractable model with explanatory power. This methodological extension allows for accounting for contextual information which is otherwise unavailable in speech recognition systems, and using it to improve postprocessing of recognition hypotheses. The thesis introduces an algorithm for evaluation of recognition hypotheses, illustrates it for concrete interaction domains, and discusses its... implementation within two prototype conversational agents.