TTS-møte 11.11.2021
Til stades: Katri, Sjur, Flammie, Inga
Sidan sist
Flammie
- divvun-phon er no ferdig, inkl for xml-pipeline
Sjur
- testa ipa-konvertering
Katri
- planert inspelningarna:
- instruktioner till stemmene med Inga
- testat mikrofoner i Helsingfors studio
- utvecklat prompter skript vidare
- møte med NRK
- jobbar med en presentation om smj-tts med Canada/UiT co-op
- fiksat engelsk tekst i tts korpus: priorisera Wikipedia & Giellatekno
- tänkt på en artikkel/del av artikkel till LREC om “Corpus building for speech technology”
Framover:
- Testtekst for tekstprosessering: speech-smj-minicorpus/XXX/*Cleaned.txt
- Priorisera tekster som är mest läsarvänlig? T. ex. lagtekster är svårt att läsa
- Norsk/svensk variety: ortografi, lånord…
- Översätt prompter till lulesamisk
- “ekstra” tekster som vi inte prioriserer går till en undermapp (och doc/xml filer)
Eksempel på opprydding av innlesingsmanus:
Lule Sami (Norway, Sweden): The second largest group with an estimated 1,500 speakers. ISO 639-2: smj
Ändrat till:
Lule Sami (Norway, Sweden): The second largest group with an estimated 1,500 speakers.
Og:
The Proto-Samic language is believed to have formed in the vicinity of the Gulf of Finland between 1000 BC to 700 AD, deriving from a common Proto-Sami-Finnic language (M. Korhonen 1981).
Ändrat till:
The Proto-Samic language is believed to have formed in the vicinity of the Gulf of Finland between 1000 BC to 700 AD, deriving from a common Proto-Sami-Finnic language.
Og:
Southern Sami (Norway, Sweden): 500 speakers (estimated). ISO 639-2: sma
Ändrat till:
Southern Sami (Norway, Sweden): estimated 500 speakers.
Inga
- fått tekst fra Katri til oversetting, ikke sett på det enda.
IPA-konvertering
Det er tvetydig konvertering knytt til a, særleg final a:
Error: ambiguous ipa riɛktaka, riɛktakɐ
Error: ambiguous ipa riɛktakɐ, riɛktɐkɐ
Error: ambiguous ipa muora, muorɐ
Error: ambiguous ipa mɑːtːakij, mɑːtːɐkij
Error: ambiguous ipa pirːa, pirːɐ
Error: ambiguous ipa hæsːta, hæsːtɐ
Error: ambiguous ipa muorːalɑːsːɑːʋ, muorːɐlɑːsːɑːʋ
Error: ambiguous ipa muorːalɑːsːɑːʋ, muorːɐlɑːsːɑːʋ
Error: ambiguous ipa muorːalɑːsːɑːʋ, muorːɐlɑːsːɑːʋ
Error: ambiguous ipa muorːalɑːsːɑːʋ, muorːɐlɑːsːɑːʋ
Error: ambiguous ipa rɑːtɑːsapːuo, rɑːtɑːsɐpːo
Error: ambiguous ipa rɑːtɑːsapːuo, rɑːtɑːsɐpːo
Error: ambiguous ipa jalkːa, jalkːɐ
Error: ambiguous ipa tʃadnaht, tʃadnɐht
Error: ambiguous ipa maŋːiɛstøhtikaʋ, maŋːiɛstøhtikɐʋ
Error: ambiguous ipa danna, dannɐ
Error: ambiguous ipa mɛːjdaj, mɛːjtɐj
Error: ambiguous ipa kavːarisɑː, kavːɐrisɑː
Error: ambiguous ipa kavːarisɑː, kavːɐrisɑː
Error: ambiguous ipa valːa, valːɐ
Error: ambiguous ipa vuolːiɛkatːʃa, vuolːiɛkatːʃɐ
Error: ambiguous ipa vuolːiɛkatːʃɐ, vuolːiɛkɐtːʃɐ
Error: ambiguous ipa vuolːiɛkatːʃa, vuolːiɛkatːʃɐ
Error: ambiguous ipa vuolːiɛkatːʃɐ, vuolːiɛkɐtːʃɐ
Error: ambiguous ipa manɑːjka, manɑːjkɐ
Skilnad på sme og smj, smj-ortografi er meir korrekt med tanke på andre stavinga:
sme: mannat>manai
smj: mannat>manáj -> manɑ:j
Neste steg
- Katri:
- fortsätter med Tacotron (lang-sme-ml-speech)
- normalizing of numbers
- rydda i engelsk tekst, sei til Inga kva som har vorte rydda
- Sjur:
- byggja ut ipakonvertinga og testinga av henne
- starta tesktprosessering av heile TTS-korpuset, trekkja ut ABBR m.m. som ikkje blir normalisert
- datoprosessering med årstal
- definera ipa-alfabet for syntesen
- dela opp sme-tekst i setningar
- kontrakt og lisens
- ringja NRK
- konvertera tekst til Area/SWE?
- gjera teksten klar for å bli sendt til stemmegjevarane
- Tommi:
- IPA-konvertering i hfst-cg-pipeline
- Inga:
- begynne med pressemelding
- leggja til smj-forkortingar
- dato skal til nominativ
Neste møte
11.18.2021 09.30 norsk tid