TTS-møte 3.3.2021
Til stades: Inga, Katri, Tommi, Sjur
Sidan sist
- Inga:
- har omsett fem filer frå Acapela, det er 92 i lag (det er mange duplikat, truleg 46 pr talar).
Bruker OmegaT, funkar bra. Tekstar om tradisjonskunnskap, mykje manglande terminologi i MT.
Litt feil i MT-handteringa av ulike kasus.
- Har lese inn i alt ca ein time, 20 nye minutt sidan sist.
- har fikset error markup og tilpasset denne til TTS. Lest gjennom de tekstene som er error marked.
- Katri:
- espeak: några bugger, men första versionen kan publiseras i kanske två veckor?
- maybe have a look at the English emoji-file (in speech-smj-private/espeak) if we
want to add something
- en abstrakt till fonologikonferensen (deadline i 9. April) om samisk fonologi/quantity
- Ingas ljudfiler:
- hand-fixing force-aligned annotations to get rid of the worst misalignments -> prepare
for the neural vocoder tts prototype (Merlin/Simple4All to develop and test speech
processing tools for the actual tts)
- develop Praat scripts for fast processing of sound files
- Nordsamiske ressursar: https://github.com/giellalt/speech-sme
- Tommi:
- litt med pronomen-konvertering til ipa
- Sjur:
- har prøvd å byggja tts-prosessering, ingen ting vart bygd
- juristen er skeptisk til om det er dekning for det vi vil
- Inga tek kontakt med svensk side
- Sjur tek kontakt med NRK Sápmi, spør om det er ok å nytta studio m.m.
- planlagt opptakstid: i oktober i år, men vi er fleksible (og koronaen kan setja grenser)
- senda tekstane til talenta minst eit par veker før opptaka
Andre saker
- Gøteborg behøver konvertering frå tal til tekst
- Acapela vil ikkje gje oss sme-tekstane til ekstraopptaka <- kan vi använda ASR och
få teksterna som kan handkorrektas
Korpusdiskusjon
- Mulig vi kan bruke store deler av det nye testamentet. Vi trenger likevel tekster fra andre sjanger.
- Vi tar 10-15% med ulike avsnitt fra tekster vi har i vårt boundkorpus.
Neste steg
- Katri: utvikla espeak-regler; ideen för phonology abstract, Merlin NN TTS eksperiment
med mini-korpusen vi har samlat med Inga; phonemizer-skript?
- Sjur: ta kontakt med Bruce, tekstprosessering i lag med Tommi, fleire spørsmål
til juristen (sjå over)
- Tommi:
divvun-normaliser
- Inga: Tidsuttrykk til espeaklista, bruke MT på acapella-korpuset, begynne med pressemelding
Neste møte
10.3.2021 09.30 norsk tid