Finite state and Constraint Grammar based Text-to-Speech processing
View the project on GitHub giellalt/speech-sme
Til stades: Biret Ánne og Sjur
Spørsmål 1-4 viser til e-post 16.9. til Acapela, kopi til BÁ og Joseph.
Sitat:
1) Bøying av låneord:
...
Er det nok med å generera nom, acc/gen sg, og bøyingsstamme for resten?
Eller treng de heile paradigmet?
2) Kor går skiljet mellom samisk og ikkje-samisk?
...
sihkkel => samisk
...
sykkel => ikkje-samisk, og inn i unntakslista?
Har vi forstått skiljet rett i eksemplet over med sihkkel vs sykkel?
3) Liste over ord med avvikande uttale
...
Vi reknar med at Acapela har vore gjennom arbeidet med t.d. engelske
namn tidlegare. Spørsmålet er:
kan vi bruka dei listene de alt har over norske, svenske, finske og
engelske ord og namn? Ev ta snittet av våre lister og deira lister?
Helst med fonetisk transkripsjon, men òg det å få lister over
problemord vil vera ei viss hjelp.
Det ville spara oss for svært mykje arbeid om vi kunne bruka desse
listene. Dei må integrerast i den leksikalske databasen vår, slik at
vi kan gje dei rett bøyingskode for å generera rett bøyingsstamme. Er
dette eit problem for Acapela?
4) Tidsfrist for unntaksordlistene
Det fonetiske leksikonet skal leverast siste veka i september (neste
veke). Men kva med unnataksordlistene? Må desse listene leverast
samtidig eller kan unnataka leverast seinare?
Biret Ánne har ikkje nok tid - må få inn ein annan person snarast mogleg
Vi genererer alt - det er lettast
Sykkel er ok, fordi sekvensen –ykk–
berre kan uttalast på ein måte.
Nokre problemsekvensar og -vokalar:
–ea–
som i neantertála er vanskeleg, fordi –ea–
vanlegvis får samisk
uttale. Derimot er –eá–
som i teáhter heilt ok, fordi –eá–
ikkje finst i vanlege samiske ord, og berre kan ha ein uttale.–y–
er eintydig norsk/svensk (men ikkje finsk) /y/
–u–
er problematisk, men eintydig t.d. ved latinske ord på –um
(om vi
kan laga ein slik regel)–a–
i anorahka (fyrste a–
) er lang, ikkje kort - unntak eller regel?
Ingen regel, jf anolaš. Dvs unnatak som må skrivast inn i leksikonet.Vi kan ikkje bruka listene frå Acapela, så vi må automatisera dette så langt det går.
Det hastar ikkje med unnataksordlisa