TTS-møte 21.1.2021
Til stades: Inga, Katri, Tommi, Sjur
Sidan sist + diskusjon
Katri:
- testa automatisk alignment med ei lydbok
- tekstprosessering: alle forkorta uttrykk må ekspanderast, til full tekst
- dette trengst så tidleg som mogleg
- Tommi har eksperimentert på finsk:
echo "esimerkiks juoksevaa tekstii" | hfst-lookup src/phonetics/text2ipa-fin.lookup.hfst
hfst-lookup: warning: It is not possible to perform fast lookups with OpenFST, std arc, tropical semiring format automata.
Using HFST basic transducer format and performing slow lookups
> esimerkiks juoksevaa tekstii ʔesimerkiks juokseʋɑː tekstiː 0,000000
echo 123456789 | hfst-lookup src/transcriptions/transcriptor-numbers-digit2text.filtered.lookup.hfstol
> 123456789 satakaksikymmentäkolmemiljoonaaneljäsataaviisikymmentäkuusituhattaseitsemänsataakahdeksankymmentäyhdeksän 0,000000
123456789 satakaksikymmentäkolmetuhattaneljäsataaviisikymmentäkuusituhattaseitsemänsataakahdeksankymmentäyhdeksän 0,000000
echo 123456789 | hfst-lookup src/transcriptions/transcriptor-numbers-digit2text.filtered.lookup.hfstol | cut -f 2 | hfst-lookup src/phonetics/text2ipa-fin.compose.hfst
> > hfst-lookup: warning: It is not possible to perform fast lookups with OpenFST, std arc, tropical semiring format automata.
Using HFST basic transducer format and performing slow lookups
> satakaksikymmentäkolmemiljoonaaneljäsataaviisikymmentäkuusituhattaseitsemänsataakahdeksankymmentäyhdeksän sɑtɑkɑksikymːentækolmemiljoːnɑːneljæsɑtɑːʋiːsikymːentækuːsituhɑtːɑseitsemænsɑtɑːkɑhdeksɑnkymːentæyhdeksæn 0,000000
Katri vil nytta force aligner + Praat. Vil laga ei skisse til ipa-konvertering basert på tekst av JussiY og eksisterande materiale.
Det finst eksisterande skisser til ipa-konvertering i lang-smj/src/phonetics/.
Sjur lagar git-repo for smj
Tekstkorpus:
- genrar:
- skjønlitteratur
- administrative tekstar
- læremiddel
- nyheitstekstar (avis, NRK Sápmi, SR)
- opphavsrett:
- om vi held oss til sitatretten burde det gå bra. Sjur sjekkar med UiT-jurist.
- korpuset blir då ei samling sitat frå lukka kjelder + open, administrativ tekst
TODO
- Katri:
- dokumentera force align, pipeline
- arbeida vidare med tekstprosessering for espeak-ng
- Tommi:
- eksperimentera vidare med tekstekspandering, prosessering
- konvertera speech-sme frå svn til git
- Inga:
- korrekturles tekst
- samla inn korpusmateriale
- Sjur:
- prat med jurist
- lag git-repo
Neste møte: 27.1.2021 09.30 norsk tid