TTS-møte 10.2.2021
Til stades: Inga, Katri, Tommi, Sjur
Sidan sist
- Inga:
- ingen ting spesifikt for tts
- testa Praat
- Katri:
- sjå Divvun-møteref frå i går
- gjort G2P regler med exempelord: move to speech-smj?
- build environment/instruktioner för espeak, lydprøver
- Ingas lydfiler -> Force-alignat TextGrids
- har diskutert DCTTS vs Tacotron med Antti Suni og Martti Vainio, og variasjonen i kvalitet i Tacotron/dctts-syntese (https://arxiv.org/pdf/1903.11269.pdf). Faktorar som påverkar:
- amount of speech material
- original i mp3 (från LibriVox open source database)
- no labeling/force-alignment of .txt and .wav pairs
- speaker consistency: how strictly the speaker follows the text / is the text manually altered according to what the speaker has read
- kor fonetisk ortografien er
- no neural vocoder (e.g. WaveNet); used only direct spectrogram inversion using griffin-lim algorithm.
- espeak:
_list, _rules, _emoji, _phon
- Tommi:
divvun-normalise
-proto:
- esim. -> esimerkki - gjort
- 123 -> satakaksikymmentäkolme -> sadallekahdellekymmenellekolmelle - neste
- Sjur:
- har fått endeleg svar frå juristen, det er ok, med grunnlag i § 30 i åndsverkslova.
- byrja førebu endringar i infra som skal gjera det lettare å byggja dei fst-ane vi treng
Korpusdiskusjon
Vi treng minst fem timar tale, det tilsvarer ca ei tjukk Harry Potter-bok. Altså svært mykje. Moglege kjelder for all tekst kan vera:
- Eldre Ávvir-tekster MT-omsett frå SME, må sjekkast med dei om vi kan gjera dei frie
- MT-omsetjing av Hunger games frå SME, som utkast til ei full SMJ-omsetjing - vi nyttar fragment av teksten i samsvar med det juristen føreslo - men om det er vi som står for omsetjinga, er det då vi som har rettane, og kan gje teksten den lisensen vi vil? Eig vi omsetjinga? Sjur sjekkar med juristen. Sjekk òg Kirsti Palto sine bøker - skrive originalt på nordsamisk, med bra språk.
- SD-rapportar, tekst frå KMD
- læreplanar
- Tekstar frå Nordsalten
- barnebøker, annan skjønlitteratur (det finst kanskje 5 romanar eller liknande)
- Tekstkorpuset fra Acapella-prosjektet? Bra poeng
Neste steg
- Katri held fram med espeak-regler
- Sjur:
- ta kontakt med Bruce
- tekstprosessering i lag med Tommi
- fleire spørsmål til juristen (sjå over)
- Tommi:
divvun-normaliser
- Inga:
- korpusoppmerking
- byrja samla inn tekst
- diskutera MT med Lene
Neste møte
17.2.2021 09.30 norsk tid