TTS-møte 17.3.2021
Til stades: Inga, Katri, Tommi, Sjur
Sidan sist
- Inga:
- gjort andre ting sist veke
- kommandoen for å konvertera filer med ccat funkar ikkje
- har prata med Bruce
- Katri:
- jobbar med abstrakten till fonologikonferensen (deadline i 9. April) om samisk fonologi/quantity och om att utvickla tts før lulesamisk språk
- fortsättar espeak-tts tester: sendt espeak-tts testfiler – add longer sentences as well?
- Pre-processering av träningsdata för neural vocoder:
- gått igenom TextGrid-annotationsfilerna: se på skillnader mellan tal och text, fixat några feiler och “förbjudna karaktären” etc.
- Praat & Python skripter är färdiga och speech-smj-minicorpus trainingdata
(
.txt
+ .wav
+ .TextGrid
annotering per setning) är delt upp och färdig för eksperimenten med Merlin/Ossian (speech-smj-private/speech-smj-minicorpus/processed/exp_training_data
)
- (explain more in detail how the text is split to sentences): text – by full stop character; speech – by concatenating word tier and setting a boundary using the pause length between sentences
- lagt till dokumentering av skripter etc. för pre-processering av taldata
- Tommi:
- forkortelse i fst / transcriptors som standard i alla språk
- Sjur:
- meir tekstprosessering/normalisering for sme - fungerer no
Neste steg
- Katri: fortsättar med utvikling av espeak-regler; phonology abstract, Merlin TTS experimenting, phonemizer-skript?
- Sjur: ta kontakt med Bruce, tekstprosessering i lag med Tommi, fleire spørsmål til juristen (sjå over), NRK
- Tommi:
divvun-normaliser
- Inga: begynne med pressemelding, samle tekst fra vårt boundcorpus og se mer på det vi har i freekorpus
Neste møte
24.3.2021 09.30 norsk tid