Finite state and Constraint Grammar based Text-to-Speech processing
View the project on GitHub giellalt/speech-smj
Flammie og Sjur.
Kan brytast ned til desse stega:
Idear:
Døme: 4-hestak
echo 4-hestak \
| hfst-tokenise -g tools/tokenisers/tokeniser-tts-cggt-desc.pmhfst
"<4-hestak>"
"4-hestak" ?
:\n
Korleis skal vi dela opp? Ved bindestrek?
echo 4 \
| hfst-tokenise -g tools/tokenisers/tokeniser-tts-cggt-desc.pmhfst
"<4>"
"4" A Arab Ord Attr CLBfinal "4"MIDTAPE <W:0.0>
"4" Num Arab Sg Ela Attr "4"MIDTAPE <W:0.0>
"4" Num Arab Sg Gen "4>"MIDTAPE <W:0.0>
"4" Num Arab Sg Ill Attr "4"MIDTAPE <W:0.0>
"4" Num Arab Sg Ine Attr "4"MIDTAPE <W:0.0>
"4" Num Arab Sg Nom "4>"MIDTAPE <W:0.0>
"4" Num Sem/ID "4"MIDTAPE <W:0.0>
:\n
echo hestak \
| hfst-tokenise -g tools/tokenisers/tokeniser-tts-cggt-desc.pmhfst
"<hestak>"
"hestak" A Attr "hestag9>"MIDTAPE <W:0.0>
"hestak" A Sg Nom "hestag9>"MIDTAPE <W:0.0>
:\n
Hint om delingspunkt:
# » >
(krev analyse)Eit anna døme: Vuodnabat-Mikál
echo Vuodnabat- \
| hfst-tokenise -g tools/tokenisers/tokeniser-tts-cggt-desc.pmhfst
"<Vuodnabat->"
"Vuodnabahta" N Prop Sem/Plc Cmp/Sh Cmp/SplitR Cmp "Vuodnabat>-"MIDTAPE <W:0.0>
:\n
echo Mikál \
| hfst-tokenise -g tools/tokenisers/tokeniser-tts-cggt-desc.pmhfst
"<Mikál>"
"Mikál" ?
:\n
Liste over alle ukjende ord med bindestrek i testkorpuset, fyrst dei som byrjar med stor fyrstebokstav, deretter dei som byrjar med liten:
Vuodnabat-Mikál
Gámmel-Rápp
Lofot-guolle
Vuollegåt-Ánndaris
Tjierreg-luoktaj
Iell-áhkko
Tjierrek-Mikkil
Tjieŋal-Erik
Tjieŋal-Erik
Pier-Árnna
Sis-Vásján
Sis-vásjága
Davve-vásjága
Sis-Vásjá
Sis-vásjága
Pier-Knuhtso
Davve-Vásján
Sjæggel-Piera
Tjierrek-Ivár
Tjierrek-Mikkil
4-hestak
gietja-gávtse
giesj-gávtse
páhppa-ræsko
tyska-giellaj
sallabiel-mállagijn
væsto-tuvrran
åt-guok
Nokre av orda er skrivefeil, som tyska-giellaj
for tuska-giellaj
echo tyska-giellaj \
| hfst-tokenise -g tools/tokenisers/tokeniser-tts-cggt-desc.pmhfst
"<tyska-giellaj>"
"tyska-giellaj" ?
:\n
echo tuska-giellaj \
| hfst-tokenise -g tools/tokenisers/tokeniser-tts-cggt-desc.pmhfst
"<tuska-giellaj>"
"giella" N Sem/Lang_Tool-catch Sg Ill "tusska>Q1-giella>X4j"MIDTAPE <W:0.0>
"dujskagiella" v2 N Sem/Lang OLang/NOB Cmp/SgGen Cmp/Hyph Cmp "tusska>Q1-giella>X4j"MIDTAPE <W:0.0>
:\n
NB!! Samansetjingar med -giella
får doble siste lemma => må rettast.
Meir detaljert:
Cmp/Unass
- norsk fyrstedel, samisk andredelecho maskindivudahka \
| hfst-tokenise -g tools/tokenisers/tokeniser-tts-cggt-desc.pmhfst
"<maskindivudahka>"
"divudahka" N Sem/Plc Sg Nom "maskin>∑#divudahka>"MIDTAPE <W:0.0>
"masjijnna" N Sem/Obj-el OLang/NOB Cmp/Unass Cmp "maskin>∑#divudahka>"MIDTAPE <W:0.0>
:\n
OLang/NOB
echo masjijnnadivudahka \
| hfst-tokenise -g tools/tokenisers/tokeniser-tts-cggt-desc.pmhfst
"<masjijnnadivudahka>"
"divudahka" N Sem/Plc Sg Nom "masjijnna∑#divudahka>"MIDTAPE <W:0.0>
"masjijnna" N Sem/Obj-el OLang/NOB Cmp/SgNom Cmp "masjijnna∑#divudahka>"MIDTAPE <W:0.0>
:\n
echo radio \
| hfst-tokenise -g tools/tokenisers/tokeniser-tts-cggt-desc.pmhfst
"<radio>"
"radio" N Sem/Obj-el OLang/NOB Pl Nom "radio>"MIDTAPE <W:0.0>
"radio" N Sem/Obj-el OLang/NOB Sg Gen "radio>"MIDTAPE <W:0.0>
"radio" N Sem/Obj-el OLang/NOB Sg Nom "radio>"MIDTAPE <W:0.0>
:\n
echo auditorium \
| hfst-tokenise -g tools/tokenisers/tokeniser-tts-cggt-desc.pmhfst
"<auditorium>"
"auditorium" ?
:\n