TTS-møte 13.1.2022
Til stades: Katri, Sjur, Flammie, Inga
Flammie
- ikke så mye
- LREC-artikkel
- libdivvun
Katri
- eksperimentert med Divvun ASR
- hentet mer materiale og trent modellen vidare
- testet olika parametres (learning rate etc) i Betzy for å finna en setup/modell som produserer best wer (word-error-rate)
- LIA Sápmi: dataoverføringsavtale – jeg har tatt kontakt men ingen avtal enno
- LREC: korrekturlest, ska oppsummere min del
Framover:
- Demonstrera prompter til stemmene i digitalt møte før innspelingar
- Testtekst for tekstprosessering (årstal):
speech-smj-minicorpus/XXX/*Cleaned.txt - Norsk/svensk variety: ortografi, lånord…
- fortsette med IPA-konverteringa
Inga
- Propernounsopprydding:
Foreslår å automatisk bygge
smeogsmanavn i nominativ forsmj. Nå ersmekopiert innismjfor x antall år siden. Ikke oppdatert og vedlikeholdt, og gir mye kaos, feksSvalbárdafrasmeselv omsmjharSvalbárdda. OLang kan ikke følge med.- OLang når hele ordet er uassimilert? Dette gjelder også nouns:
+OLang/NOB:Radio +OLang/NOB:Universi-tiehttaVi må kanskje ha to ulike tagger?
- OLang når hele ordet er uassimilert? Dette gjelder også nouns:
- Ikke svar hos stemmer
Framover:
- ringe stemmene
- begynne med pressemelding
- leggja til smj-forkortingar
- dato skal til nominativ
Sjur
- ingen ting sidan sist
Framover:
- byggja ut ipakonvertinga og testinga av henne
- starta tekstprosessering av heile TTS-korpuset, trekkja ut ABBR m.m. som ikkje blir normalisert
- datoprosessering med årstal
- dela opp sme-tekst i setningar
- kontrakt og lisens
- konvertera tekst til Area/SWE?
Om tekstkorpuset
Burde vi konvertera smj-tekst til Area/SWE med tanke på den eine stemmegjevaren? Burde vera mogleg å gjera automatisk.
Neste møte
20.1.2022 09.30 norsk tid