Po mësoj përsëri se si të përdor Modelet e Fshehura Markov për njohjen e të folurit dhe kam një pyetje. Duket se shumica/të gjitha diskutimet e përdorimit të HMM-ve marrin në konsideratë rastin e një sekuence të njohur vëzhgimi: [O1, O2, O3,...,OT] ku T është një numër i njohur. Megjithatë, nëse do të përpiqeshim të përdornim një HMM të trajnuar në të folur në kohë reale, ose në një skedar WAV ku dikush po fliste një fjali pas tjetrës, si e zgjedh saktësisht vlerën e T? Me fjalë të tjera, si mund të dihet kur folësi ka përfunduar një fjali dhe ka filluar një tjetër? A përdor një HMM praktike për njohjen e të folurit vetëm një vlerë fikse për T dhe rillogarit periodikisht sekuencën e gjendjes optimale deri në vëzhgimin aktual duke përdorur një dritare me madhësi fikse me gjatësi T në të kaluarën? Apo ka ndonjë mënyrë më të mirë për të zgjedhur në mënyrë dinamike T në çdo rast kohe?
Si të përcaktohet gjatësia e sekuencës së vëzhgimit për HMM në njohjen e të folurit
Përgjigjet:
A përdor një HMM praktike për njohjen e të folurit vetëm një vlerë fikse për T dhe rillogarit periodikisht sekuencën e gjendjes optimale deri në vëzhgimin aktual duke përdorur një dritare me madhësi fikse me gjatësi T në të kaluarën?
Algoritmi i deshifrimit Viterbi funksionon kornizë për kornizë, kështu që ju thjesht përsërisni mbi korniza, mund të përsërisni pafundësisht derisa matrica e prapambetur të mbushë të gjithë kujtesën.
Algoritmi i trajnimit merr parasysh audiot që përgatiten para stërvitjes, zakonisht 1-30 sekonda. Për trajnim, gjatësia e audios është e njohur tashmë.
si e di njeriu kur folësi ka përfunduar një fjali dhe ka filluar një tjetër?
Këtu ka strategji të ndryshme. Dekoduesit kërkojnë për heshtjen për t'u mbështjellë rreth dekodimit. Heshtja nuk do të thotë ndërprerje midis fjalive, nuk mund të ketë fare ndërprerje midis fjalive. Mund të ketë edhe pushim në mes të një fjalie.
Pra, për të gjetur dekoderin e heshtjes, mund të përdorni algoritmin e pavarur të zbulimit të aktivitetit të zërit dhe të prishet kur VAD zbulon heshtjen ose dekoderi mund të analizojë informacionin e prapavijës për të vendosur nëse është shfaqur heshtja. Metoda e dytë është pak më e besueshme.