TTS-møte 5.5.2022
Til stades: Katri, Sjur, Flammie, Inga
Flammie
- hfst-tokenise nestan ferdig med underlesings med input / surface formen
Framover:
- retta feil i sme- og sma-importen i lag med Inga
- multisymbol på falske tape
- filtrere og cg-regler
- divvun-phon med –trace og mer jobb med underlesingsfonematisering
Test for underlesingsfonematiseringa:
echo "åhpadusradiojda" | modes/trace-smj-txt2ipa.mode
Katri
- OneDrive - la til “cuttet” audiofilene uten deler som kan ikke brukes til syntes for at Inga kunne retta tekstene
- jobbat med LREC-artikkel og presentasjon, gjort videoopptak om min del
- tenkt på alternativer for å fjerne ekko fra opptakene – må kjøpe software
- reise og byrokrati
- TTS og ASR demos for fredagsmøte
- møter
Plan til korpusprosessering:
- Rename textfiles after soundfiles, find correct texts, rf. the P(x)
- Cut audio from unnecessary parts
- Edit texts to match audios
NORMALIZE numbers/abbreviations etc. automatically to orthography first!
- Final normalizing of volume, denoising (or noise gate), removing echo etc.
- Force-aligning automatically (WebMAUS or Montreal) for finding sentence/word boundaries
- Check automatic alignments and fix boundaries if needed (Praat TextGrids)
- Split audios and texts to sentences/utterances
- Tacotron pre-process!
Framover:
- trener sme ASR en gång til med større test batch
- Markdown: dokumentering av txt2ipa xfscript
- Norsk/svensk variety: ortografi, lånord…
- fortsette med IPA-konverteringa
- Møte med en av panelisten i Mozfest?: “Dewi Jones, Chief Software Engineer at Canolfan Bedwyr, has developed a voice assistant mobile app for speakers of a lesser resourced language – Welsh, called Macsen.”
- Møte med Aalto ASR folk
Inga
- Media
- Planlagt punkt 3 (jf plan over)
Framover:
- tilpasse tekst til lyd
- leggja til smj-forkortingar
- dato skal til nominativ
Sjur
- diskusjonar med NRK, nytt møte 18. mai
- litt smj-tekstprosessering
Framover:
- byggja ut ipakonvertinga og testinga av henne
- starta tekstprosessering av heile TTS-korpuset, trekkja ut ABBR m.m. som ikkje blir normalisert
- dela opp sme-tekst i setningar
- lisens
- konvertera tekst til Area/SWE?
- ta kontakt med SVT og SR på nytt
Opptak med svensk røyst
- må planleggjast
- helst før sommaren
Neste møte
12.5.2022 09.30 norsk tid