TTS-møte 17.2.2021
Til stades: Inga, Katri, Tommi, Sjur
Sidan sist
- Inga:
- Diskutert MT med Lene - for å skaffa meir smj-materiale
- har ikkje testa MT på ulike sjangrar
- burde vera uproblematisk å nytta 2 månader gamle nyhende for smj-korpus, men det må sjølvsagt sjekkast med Ávvir
- har laga espeak-liste for Katri, har ikkje laga for pronomen enno - Tommi lagar lista
- kva trengst for lista? kor stor skal lista vera? Gjerne alle formene med, vi prøver det fyrst, så kan vi fjerna etterpå
- alt som er i lista må vera fonemisert / med fonetisk transkripsjon (bør kunna gjera det automatisk)
- Diskutert MT med Lene - for å skaffa meir smj-materiale
- Katri:
- har kompilert espeak, funkar med smj-reglar! Fyrste fungerande TTS for SMJ!!!
- må finjustera fonema, høyrest ut som lulesamisk Steven Hawking :)
- fire espeak-filer:
- ort-to-foneme
- formantmodell
- abbr-to-foneme
- emoji-to-foneme
- kva gjer vi med symbola - skal dei seiast på samisk eller norsk/engelsk? Spørsmål til GG?
- emoji: byrjar med norsk, men kanskje på samisk etterkvart? Skal vi ha med alle?
- Nordsamiske ressursar: https://github.com/giellalt/speech-sme
- Tommi:
- divvun-normaliser proto:
- byggeregler
- argument:
-n normaliser-gt-desc.hfst <- hfst-union transcriptor-*.hfst -a analyser-gt-desc.hfst -g generator-gt-desc.hfst -t ABBR
- divvun-normaliser proto:
- Sjur:
- meir diskusjon med juristen, det at vi treng så mykje tekst og vil ha teksten open er utfordringa
- Juristen er fremdeles usikker på hvor stor del av et verk vi kan bruke fritt. Sjur diskuterte muligheten for å bruke små avsnitt og sortere disse alfabetisk, og på den måten kunne bruke hele eller store deler av verket, da er det umulig å gjennskape orginalen. Vi er på den måten ikke interessert i innholdet bare lingvistisk informasjon.
- MT-oversatte tekster har forfattere/forlag enda rettigheter til, så vi står ikke fritt til å bruke disse og publisere disse uten avtale.
- Må vi vurdere å ha deler av korpuset lukka?
- Har hatt kontakt med Acapella om den delen av det nordsamiske tekstkorpuset som vi ikke har tilgang til.
- diskusjonar kring fst-byggjeoomorganisering
- lange diskusjonar, kan ta tid før vi går gjort endringane, men kan ha temporære løysingar fram til då
- Mange studenter som skal bruke vår infrastruktur som Sjur følger opp
- meir diskusjon med juristen, det at vi treng så mykje tekst og vil ha teksten open er utfordringa
Sjur prøver å sjå om originalkorpuset for SME-prosjektet finst tilgjengeleg ein stad.
Neste steg
- Katri: espeak instruktioner, första ljudprover, finjustera/utvikla espeak-regler; hitta dokumentation av nordsamisk speech recognition (Aalto); ideen för artiklen av smj-tts; merlin NN TTS eksperiment med mini-korpusen vi har samlat; phonemizer-skript?
- Sjur: ta kontakt med Bruce, tekstprosessering i lag med Tommi, fleire spørsmål til juristen (sjå over)
- Tommi:
divvun-normaliser - Inga: Tidsuttrykk til espeaklista, bruke MT på acapella-korpuset, begynne med pressemelding
Neste møte
3.3.2021 09.30 norsk tid