Finite state and Constraint Grammar based Text-to-Speech processing
View the project on GitHub giellalt/speech-sme
Saker:
Låneord blir delt inn i tre:
Er det nok med å generera nom, acc/gen, og bøyingsstamme for resten? Eller heile paradigmet?
Sihkkel (sykkel) - går rett inn i samisk fonotaks og oppfører seg heilt som samiske ord.
Det største problemet er ord som har samiske teikn med ikkje-samisk uttale: pizza, cup, osb. Desse må vi handtera med IPA-stammar i lexc-leksikonet.
Vi får tre grupper:
Spørsmål til Acapela:
Vi har ca 30 500 namn i smi-leksikonet, der ein stor del må få lagt til IPA-stamme (i alle fall dersom vi ikkje får noko frå Acapela).
Spørsmål til Acapela:
define FinalLightT1 t -> h | _ .#. ;
define FinalLightT2 t -> h | _ [ %# ]( %- ) ;
define FinalLightT3 t -> h | _ [ %» ]( %- ) ;
define FinalLightD1 d -> h | Vow j _ .#. ;
define FinalLightD2 d -> h | Vow j _ [ %# ]( %- ) ;
Kan skrivast om til:
define FinalLightT t -> h | _ [ .#. | %# | %- ]( %» ) ;
define FinalLightD d -> h | Vow j _ [ .#. | %# ]( %- ) ;
Testdata no:
neu^ro#fy^sio^lo^ga^lač^ča>
psy^ko#so^si^á^la^laž^ža>n
gra^nih^ta»la^mos>iid
gu^la^hal^la^ma
giel^la#gu^la^hal^la^ma
rái^da^ra^sa^žiid^dis^guin
giel^la#gu^la^hal^la^mea^set
giel^la#rái^da^ra^sa^žiid^dis^guin
neu^ro#fy^sio^lo^ga^lač^ča> neu^ro#fy^sio^lo^ga^lač^ča>+? inf
psy^ko#so^si^á^la^laž^ža>n psy^ko#so^si^á^la^laž^ža>n+? inf
gra^nih^ta»la^mos>iid grˈɑ.nih.tɑ»lˌɑ.mosijh 0,000000
gu^la^hal^lan kˈu.lɑː.hˌɑl.lɑn 0,000000
rái^da^ra^sa rˈɑːjː.tɑ.rɑ.sɑ 0,000000
gu^la^hal^la^ma kˈu.lɑː.hˌɑl.lɑ.mɑ 0,000000
gu^la^hal^la^mea^set kˈu.lɑː.hˌɑl.lɑ.mĕæ.seh 0,000000
rái^da^ra^sa»žiid^dis^guin rˈɑːjː.tɑ.rɑ.sɑ»dʃˌijtː.tis.gujn 0,000000
giel^la#gu^la^hal^la^ma kˈiel.lɑ#kˌu.lɑ.hˌɑl.lɑ.mɑ 0,000000
giel^la#gu^la^hal^la^mea^set kˈiel.lɑ#kˌu.lɑ.hˌɑl.lɑ.mĕæ.seh 0,000000
giel^la#rái^da^ra^sa»žiid^dis^guin kˈiel.lɑ#rˌɑːjː.tɑ.rɑ.sɑ»dʃˌijtː.tis.gujn 0,000000
Fasit for dei to fyrste:
neu^ro#fy^sio^lo^ga^lač^ča> nˈeu.ro#fˌy.si.o.lˌo.gɑ.lˌɑt.tʃɑ 0,000000
psy^ko#so^si^á^la^laž^ža>n psˈy.ko#sˌo.si.ˌɑː.lɑ.lˌɑdː.tʃɑn 0,000000
utsett
utsett
utsett
Torsdag kl. 9.30