TTS-arbeidsplan
Prioritering:
- Preprosessering
- Ispedd andre ting
Lingvistikk
- tekst-til-ipa (fonologiske reglar) - forbetringar
- modell av samisk prosodi (diskuter med Patrik)
-
forbetringar av taggaren for å matsje prosodimodellen
- Diskutere prosodi med Helsingfors
- Snakk med Patrik om kva vi vil ha
Preprosessering
Konvertering av ulike slags forkorta uttrykk til rein tekst, som deretter kan konverterast til ein fonologisk streng.
- arabiske tal: sme-num.txt
cd gtsvn/gt/sme/src/xfst -e "read lexc sme-num.txt"up234- [http://www.stanford.edu/~laurik/fsmbook/examples/NumbersToNumerals.html]
- romartal: ser ut til at det ikkje er dekka
- det finst fst-ar ferdig for romartal til arabisk
- [http://dingo.sbs.arizona.edu/~sandiway/ling538-08/lecture18.pdf]
- forkortingar: ikkje dekka
- datoar: delvis dekka
- common/src/num.txt gjev datotagging
- Neste skritt er dato-til-ord (ikkje gjort)
- B-Á: skriv oppsett for dato-til-ord, som vi kan formalisere ut i frå
- klokkeslett: clock-sme.lexc 12:35 -> ord
- titlar: ikkje dekka (er ikkje dette forkortingar? ja, truleg)
- ukjende namn, inkl namn med boktavar som ligg utanfor dei nordiske alfabeta
Kasusbøying av taluttrykk som del av ein kasusbøygd frase/NP
cd gtsvn/gt/common/src/
xfst -e "read lexc num.txt"
save num.fst
lookup num.fst
12.12.1234
Andre talformat
6,50 seks-femti kuus-ja-viiskymmentä
12 23 23
77644000 => 77 64 40 00 linjetelefon initial 2, 3, 6, 7, 8
95500234 => 955 00 234 mobil initial 4, 5, 9
12345678 => 12 345 678,- NOK/€
12.345.678 => 12 345 678,- NOK/€
fst for desse og andre talformat
Arbeidsoppgåver
Børre:
- Sett opp dokumentasjonsinfrastruktur for tts
B-Á ser på:
- eksisterande kode:
- gt/common/src/num.txt
- gt/sme/src/sme-num.txt
- kompiler og vurder og sjekk om det finst andre ting også
- fsmbook.com
- skriv kvasikode på det som manglar
- skriv preprosesserings-dokumentasjon inn i doku-ramma
B-Á, T, S:
- skriv automatar ut i frå kvasikode
Informantar
- Mannleg røyst – Per K. Hætta?
- B-Á: snakk med han / NRK?
Samarbeid
Ta kontakt med Helsingfors univ.
- Sjur, deretter alle.
Andre samiske språk?
I kor stor grad skal vi ha med dei andre språka frå starten av
- Preprosessering på sma, smj parallelt med sme-arbeidet
- Først gjere sme (prøve og feile)
- Deretter gjere sma, smj (før vi gløymer korleis vi gjorde sme)
- Ferdige opptak av alle tre språk
- Lage tekstar
- Finne folk til å lese inn
- Tekst-til-IPA
- Berit Ánne, Thomas, Patrik, Trond, Bruce, lulesame (mest mogleg Bruce)
- Berit Ánne, Thomas, Patrik, Trond, Ove, sørsame (mest mogleg Ove)
- Manuelt setje inn pausemerke i tekstane til lydbanda