TTS-møte 18.11.2021
Til stades: Katri, Sjur, Inga
Sidan sist
Sjur
- jobbar med å laga testoppsett (
make check
) for ipa-konvertering
Katri
- presentation om smj-tts med Canada/UiT co-op
- engelsk tekst i tts korpus: priorisera Wikipedia & Giellatekno
- tänkt på en artikkel/del av artikkel till LREC om “Corpus building for speech technology”
- fixat feil i txt2ipa xfscript, regler med stavelsen fungerer inte
- omorganisert tts-texts mappen och gjort säkerhetskopier
Framover:
- Testtekst for tekstprosessering: speech-smj-minicorpus/XXX/*Cleaned.txt
- Priorisera tekster som är mest läsarvänlig? T. ex. lagtekster är svårt att läsa
- Norsk/svensk variety: ortografi, lånord…
- Översätt prompter till lulesamisk
- Fjerne teknisk metadata fra tekstkorpus
Forslag fra Trond: sjekka att tekstkorpusen har alla muliga lydkombinasjoner (difon, trifon), t.ex. med maskinoversettelse av nordsamisk korpus eller gjør en “sjekklist”
- Exempel från nordsamisk wikipedia med samisk/finsk/norsk tekst: “Gákti (suomagillii: lapintakki d. lapinpuku d. saamelaispuku; dárogillii: kofte)”
Lang diskusjon om trykk, trykkplassering og ipa-konvertering. Spørsmål: skal vi markera trykk i ipa-teksten?
- espeak markerer trykk:
vˈærɑːltsˌɛːprudˌɑhkaːj
Inga
- fått tekst fra Katri til oversetting
- ryddet i korpustekster
- ipa?
Neste steg
- Katri:
- fortsätter med Tacotron (lang-sme-ml-speech)
- normalizing of numbers
- rydda i engelsk tekst, sei til Inga kva som har vorte rydda
- Sjur:
- byggja ut ipakonvertinga og testinga av henne
- starta tesktprosessering av heile TTS-korpuset, trekkja ut ABBR m.m. som ikkje blir normalisert
- datoprosessering med årstal
- definera ipa-alfabet for syntesen
- dela opp sme-tekst i setningar
- kontrakt og lisens
- ringja NRK
- konvertera tekst til Area/SWE?
- gjera teksten klar for å bli sendt til stemmegjevarane
- Tommi:
- IPA-konvertering i hfst-cg-pipeline
- Inga:
- begynne med pressemelding
- leggja til smj-forkortingar
- dato skal til nominativ
Neste møte
11.25.2021 09.30 norsk tid