Finite state and Constraint Grammar based Text-to-Speech processing
View the project on GitHub giellalt/speech-sme
Bør bli inkludert for å få rimeleg god opplesing av norske sitat og andre norske tekstfragment og norske namn inne i samiske tekstar.
Dette treng vi for å sjekka at alle dei ulike delane av preprossesseringa blir rett.
pause og ytringsfinale endringar framfor pause (t.d. t vs h av ‘-id’)
talordskonvertering til tekst:
Preprosessering, forslag til oppbygging med fst + cg:
Tilgang til grunnform (via generering) vil rydda opp mykje når det gjeld vokal- og konsonantlengde.
Ein annan fordel med modellen over: den genererande transduceren kan gå frå leksikalsk abstrakt form (lexc lower) til ein IPA-twolc, som gjer at vi har tilgang til visse lengdesymbol og andre diakritika som elles forsvinn i transducerkompileringa. Det vil gjera det lettare for oss å skriva gode IPA-reglar
Ein tredje fordel er at ved å tagga ulike dialektvariantar (t.d. Loc/s vs Loc/n) og velja ein av dei i genereringa kan vi lata syntesen produsera ulike (morfologiske) dialektformer. Dersom ein i tillegg kan variera ulike parameter i HMM-syntesen, burde det vera råd å heilt syntetisera dei viktigaste dialektane ut i frå ein syntese. Eit interessant sp.m. i alle fall - og kan gjera syntesen til eit forskingsverkty for dialektforskarane:)
Ukjende ord: må handterast for seg både ved analyse og generering/ipa-konvertering. Obs! Norske ord med samiske kasusendingar (namn og in situ-lån)
Kor kjem pausesymbol, prosodimarkørar m.m. inn i modellen? Truleg som ein del av disambigueringa - siste VISLCG3 kan leggja til heile kohortar (og lemma?), slik at vi kan skyta inn (abstrakte) symbol for å markera ulike prosodiske element, som deretter kan konverterast (via genereringa) til passande IPA-symbol.