TTS-møte 5.1.2022
Til stades: Katri, Sjur, Flammie, Inga
Flammie
- ikke så mye i jultiden
- LREC-artikkel
Sjur
- har skrive til YLE Sápmi og fått svar - dei er positive til samarbeid om datainnsamling
- intervju med YLE Sápmi
Framover:
- byggja ut ipakonvertinga og testinga av henne
- starta tekstprosessering av heile TTS-korpuset, trekkja ut ABBR m.m. som ikkje blir normalisert
- datoprosessering med årstal
- dela opp sme-tekst i setningar
- kontrakt og lisens
- konvertera tekst til Area/SWE?
Katri
- eksperiment med Divvun ASR
- hentet mer materiale og trent modellen vidare (12k checkpoints)
- LIA Sápmi: dataoverføringsavtale
- LREC
Framover:
- Demonstrera prompter til stemmene i digitalt møte før innspelingar
- Testtekst for tekstprosessering (årstal):
speech-smj-minicorpus/XXX/*Cleaned.txt - Norsk/svensk variety: ortografi, lånord…
- fortsette med IPA-konverteringa
Inga
- Propernouns, lagt til OLang
OLang-grense er ikke alltid markert, er dette viktig?
Jf
Østlánnda+OLang/NOB:Øst^lánnda MARJA-plc ;Nei, dette er ikkje viktig for TTS, vi går ut frå at det er mogleg å identifisera grensa mellom låneordsuttale og samisk uttale (dvs siste fot før bøyingsending) ut frå den informasjonen vi alt har. Kan likevel vera nyttig å leggja inn for å få rett orddeling.
OLang/SKA (sklandinavisk) i stedet for NOB?
Jf at Telefåvnnå+OLang/NOB i praksis er lik for både NOB, NNO og SWE.
Vi må halda oss til ISO 639-familien med kodar, men der finst det kodar for
språkfamiliar, så kanskje koden for nordgermansk kunne fungera? Ev NOR
(dvs norsk = bokmål + nynorsk)?
Vi held fram med NOB inntil vidare, men har alternativa2 i tankane.
Framover:
- ringe stemmene
- begynne med pressemelding
- leggja til smj-forkortingar
- dato skal til nominativ
Om tekstkorpuset
Burde vi konvertera smj-tekst til Area/SWE med tanke på den eine stemmegjevaren? Burde vera mogleg å gjera automatisk.
Neste møte
13.1.2022 09.30 norsk tid