TTS-møte 18.11.2021

Til stades: Katri, Sjur, Inga

Sidan sist

Sjur

jobbar med å laga testoppsett (make check) for ipa-konvertering

Katri

presentation om smj-tts med Canada/UiT co-op
engelsk tekst i tts korpus: priorisera Wikipedia & Giellatekno
tänkt på en artikkel/del av artikkel till LREC om “Corpus building for speech technology”
fixat feil i txt2ipa xfscript, regler med stavelsen fungerer inte
omorganisert tts-texts mappen och gjort säkerhetskopier

Framover:

Testtekst for tekstprosessering: speech-smj-minicorpus/XXX/*Cleaned.txt
Priorisera tekster som är mest läsarvänlig? T. ex. lagtekster är svårt att läsa
Norsk/svensk variety: ortografi, lånord…
Översätt prompter till lulesamisk
Fjerne teknisk metadata fra tekstkorpus

Forslag fra Trond: sjekka att tekstkorpusen har alla muliga lydkombinasjoner (difon, trifon), t.ex. med maskinoversettelse av nordsamisk korpus eller gjør en “sjekklist”

Exempel från nordsamisk wikipedia med samisk/finsk/norsk tekst: “Gákti (suomagillii: lapintakki d. lapinpuku d. saamelaispuku; dárogillii: kofte)”

Lang diskusjon om trykk, trykkplassering og ipa-konvertering. Spørsmål: skal vi markera trykk i ipa-teksten?

espeak markerer trykk: vˈærɑːltsˌɛːprudˌɑhkaːj

Inga

fått tekst fra Katri til oversetting
ryddet i korpustekster
ipa?

Neste steg

Katri:
- fortsätter med Tacotron (lang-sme-ml-speech)
- normalizing of numbers
- rydda i engelsk tekst, sei til Inga kva som har vorte rydda
Sjur:
- byggja ut ipakonvertinga og testinga av henne
- starta tesktprosessering av heile TTS-korpuset, trekkja ut ABBR m.m. som ikkje blir normalisert
- datoprosessering med årstal
- definera ipa-alfabet for syntesen
- dela opp sme-tekst i setningar
- kontrakt og lisens
- ringja NRK
- konvertera tekst til Area/SWE?
- gjera teksten klar for å bli sendt til stemmegjevarane
Tommi:
- IPA-konvertering i hfst-cg-pipeline
Inga:
- begynne med pressemelding
- leggja til smj-forkortingar
- dato skal til nominativ

Neste møte

11.25.2021 09.30 norsk tid

Julev Sámi Text-to-Speech

Page Content