TTS-møte 7.4.2021
Til stades: Katri, Sjur, Inga, Tommi
Sidan sist
- Katri:
- Abstrakt till fonologikonferensen nästan färdig
- espeak-tts: finalize and publish? G3 reglar ska inte bli perfekt
- Eksperimenterat med Merlin-tts med Festival och Ossian front-ends: med Lule Saami data inte så bra resultat ännu, men ser hur det ska bli bättre (borde vara bättre med 1 timmes data)
- phonetic labeling & segmenting taken from the force-aligned TextGrid annotations/espeak phonemizing
- added documentation and 1 english sound sample of merlin to speech-smj-private
- Demo corpus med Inga har 4839 ord / 1 time! 80 words per min
- Sjur: meir tekstprosessering/normalisering for sme & smj
- Inga:
- 38324 ord i TTS-korpuset (ca. 8 timar). Det er enda ganske masse .correct.txt tekst som ikke er flyttet dit. I tillegg er det noe tekst som Katri allerede har brukt som heller ikke er flyttet dit, underkant av en time?
- det kan sjå ut som om vi klarar oss med dei tekstene som er fritt tilgjengelege
- Tommi: ikkje noko vesentleg sidan sist
Neste steg
- Katri:
- avsluta utvikling av espeak
- phonology abstract
- Merlin TTS experimenting/träning
- dela upp sme-inspelningarna i filer med en mening pr fil
- Sjur:
- tekstprosessering i lag med Tommi
- spørsmål til juristen
- NRK
- dela opp sme-tekst i setningar
- Tommi:
divvun-normaliser
- Inga:
- begynne med pressemelding, samle tekst fra vårt boundcorpus og se mer på det vi har i freekorpus
- undersøk om det er mogleg å få tak i CD til lydbok
- retta på korpustekst slik at den blir mest mogleg rett i høve til norma
Andre ting:
- konverter smj tekst frå norsk side til smj-tekst etter svensk norm, gjeld særleg nye låneord.
- bruka Katri sine espeak-regler for IPA-konvertering i pipeline etter disambigueringa?
Neste møte
14.4.2021 09.30 norsk tid