TTS-møte 4.11.2021
Til stades: Katri, Sjur, Flammie, Inga
Sidan sist
- Flammie:
- divvun-phon er no ferdig, inkl for xml-pipeline
- Sjur:
- har enno ikkje fått svar frå NRK om studio - kva gjer vi? Sjur ringjer Pål Hivand.
- acro2ipa fungerer for:
- NRK + kasus
- NAV + kasus
- kommentar frå Inga: det skal no for tida vera:
NAV:aj
vs SANAG:ij
echo ‘NAV:jda’ | hfst-lookup -q acro2ipa.lookup.hfst
NAV:jda naːvaida
- Katri:
- allt möjligt med planering av inspelningarna:
- instruktioner till stemmene (GDocs)
- tekstkorpus statistikk, visualisering
- gått igenom mer dokumentation om lulesamisk fonologi och fonetik
- fixat text2ipa regler och testat konvertering
- börjat med en presentation om smj-tts med Canada/UiT co-op
- lagt till lite mer/alternativ engelsk tekst till tekstcorpus
- fortsätter med Tacotron eksperiment när Saga är ok igen
- Framover:
- Testtekst for tekstprosessering: speech-smj-minicorpus/XXX/*Cleaned.txt
- Priorisera tekster som är mest läsarvänlig? T. ex. lagtekster är svårt att läsa
- Översätt prompter till lulesamisk
- Läs som det står i teksten?
- Tempo: kanske tempo lite som “TV eller radio nyheter” men naturlig prosodi/intonation
- Norsk/svensk variety: ortografi, lånord…
- Se på engelska teksten
- Inga:
- fjernet gjentakende tekst i news- og bloggkategorien
- oppdatert statestikk
- truffet en av stemmene
Andre merknader:
- Alt for mye tekst?
- Sende dette til stemmene, i hvilket format? PDF?
- Skrive om lesehastighet, gjøre noe med lesehastighet/lesevennlighet?
- kommentar til instruksjonene: tempo? Forsøke å lese det som står selv om de kanskje ikke ville si det slik.
Burde vi konvertera smj-tekst til Area/SWE med tanke på den eine stemmegjevaren? Burde vera mogleg å gjera automatisk.
Neste steg
- Katri:
- fortsätter med Tacotron (lang-sme-ml-speech)
- normalizing of numbers
- rydda i engelsk tekst, sei til Inga kva som har vorte rydda
- Sjur:
- byggja ut ipakonvertinga og testinga av henne
- starta tesktprosessering av heile TTS-korpuset, trekkja ut ABBR m.m. som ikkje blir normalisert
- datoprosessering med årstal
- definera ipa-alfabet for syntesen
- dela opp sme-tekst i setningar
- kontrakt og lisens
- ringja NRK
- konvertera tekst til Area/SWE?
- gjera teksten klar for å bli sendt til stemmegjevarane
- Tommi:
- IPA-konvertering i hfst-cg-pipeline
- Inga:
- begynne med pressemelding
- leggja til smj-forkortingar
- dato skal til nominativ
Neste møte
11.11.2021 09.30 norsk tid