TTS-møte 25.11.2021
Til stades: Katri, Sjur, Inga, Flammie
Flammie
Sjur
- har laga ferdig testoppsett (
make check
) for ipa-konvertering
- har lagt til nokre fåe testar, treng mykje meir
Framover:
- byggja ut ipakonvertinga og testinga av henne
- starta tekstprosessering av heile TTS-korpuset, trekkja ut ABBR m.m. som ikkje blir normalisert
- datoprosessering med årstal
- definera ipa-alfabet for syntesen
- dela opp sme-tekst i setningar
- kontrakt og lisens
- konvertera tekst til Area/SWE?
- gjera teksten klar for å bli sendt til stemmegjevarane
- senda avtaleutkast til UiT-juristar
Katri
- engelsk, svensk och norsk tekst i tts korpus
- nytt korpusstatistik
- lang-smj make check
- testat prompter skript igen
- rename tts tekstfilene med doppelt extensions (*.TTS.txt)
- møte med NRK
- møte om LREC
- börjat att skriva min del av LREC artikkel om taleteknologi
Framover:
- Konvertera .txt til .pdf (pandoc), Times New Roman
- Testtekst for tekstprosessering: speech-smj-minicorpus/XXX/*Cleaned.txt
- Prioritera tekster som är mest läsarvänlig? T. ex. lagtekster är svåra att läsa
- Norsk/svensk variety: ortografi, lånord…
- Översätt prompter till lulesamisk
- fortsätter med Tacotron (lang-sme-ml-speech)
- normalizing of numbers (tekstprosessering)
Inga
- All korpustekst er klar
- fått tekst fra Katri til oversetting
- ipa?
Framover:
- begynne med pressemelding
- leggja til smj-forkortingar
- dato skal til nominativ
Om tekstkorpuset, instruksjonar for innspelingane
- Vi har for mykje tekst, må delast i tre:
- planlagt innspeling (ca halvparten av teksten vi har ≈ 12 timar)
- reserve for innspeling i tilfelle tid til overs (skal òg sendast stemmegjevarane) (ca ≈3 timar?)
- ubrukt
- skal sendast til stemmene, i pdf-format (jf Katri sine oppgåver over)
- innspelingsinstruksjonar:
- lesehastighet
- kommentar til instruksjonene: tempo? Forsøke å lese det som står selv om de kanskje ikke ville si det slik.
- skal sendast til stemmegjevarane i lag med korpuset
- send utkast til avtaletekst i lag med innspelingstekstane
Burde vi konvertera smj-tekst til Area/SWE med tanke på den eine stemmegjevaren? Burde vera mogleg å gjera automatisk.
Neste møte
2.12.2021 09.30 norsk tid