GiellaLT Documentation

GiellaLT provides rule-based language technology aimed at minority and indigenous languages

View GiellaLT on GitHub

Page Content

Inarinsaamen sanakirjat

Hankesuunnitelma / Prošeaktaplána

Tavoitteena on saada sanakirjan korjattu versio valmiiksi joskus.

Mitä voidaan tehdä

  1. Parantaa kattavuutta:
    1. Ajaa taajuuslistat sanakirjan läpi (smn ja fin)
    2. Analysoida tekstejä, tehdä tekstikohtaisia taajuuslistoja, lisätä ne (smn ja fin)
    3. Tarkistaa, että kaikki lemmojen käännökset löytyvät toisesta sanakirjasta (smn ja fin)
  2. Sanakirjan kirjoitusvirheet
    1. Ajaa lemmat korjausohjelman läpi
    2. Ajaa käännökset korjausohjelman läpi
    3. Ajaa esimerkkilauseet korjausohjelman läpi
    4. Ajaa esimerkkilauseiden käännökset korjausohjelman läpi
  3. Laatu: Parantaa tärkeiden sanojen artikkelit
    1. Tarkista apuverbien, postpositioiden, jne. artikkelit
    2. Tarkista tavallisimpien sanojen artikkelit
  4. Työ lokien perusteella
    1. Tarkista eniten etsittyjen sanojen artikkelit (`biggies/log
    2. Tarkista eniten ei-löydettyjen sanojen (False) artikkelit

Periaatteet

  1. Sekä suomen- että saamenkieliset lemmat pitää kirjoittaa normin mukaan

Työtavat

Komentorivin komennot

Taajuuslistojen tekeminen:

... | sort | uniq -c | sort -nr | ...

Taajuuslistojen prosessointi, smn, fin

smn-sanojen prosessonti:

cat ~/main/lists/smn/2021-11-03_smn_lemma.freq | cut -c6-|cut -d" " -f1|...
cat ~/main/lists/smn/2021-11-03_smn_lemma.freq | cut -c6-|grep 'N$'|cut -d" " -f1|...

fin-sanojen prosessointi

cat ~/main/words/lists/fin/finwp.freq | cut -d'"' | ...
cat ~/main/words/lists/fin/finwp.freq | grep ' N$'|cut -d'"' | ...

Sanat lähetetään sitten esim. sanakirjaan:

cat ~/main/lists/smn/2021-11-03_smn_lemma.freq | cut -c6-|cut -d" " -f1|smnfin|grep ?|...
cat ~/main/lists/smn/2021-11-03_smn_lemma.freq | cut -c6-|grep 'N$'|cut -d" " -f1|smnfin|grep ?|...
cat ~/main/words/lists/fin/finwp.freq | cut -d'"' -f2|finsmn|grep ?| ...
cat ~/main/words/lists/fin/finwp.freq | grep ' N$'|cut -d'"' -f2|finsmn|grep ?| ...

Käännöksen lemmat toisessa sanakirjassa?

cat main/words/dicts/smnfin/src/A_smnfin.xml |grep '</t>'|tr '<' '>'|cut -d">" -f3|grep -v ' '|finsmn|grep +?|...

Ajaa lemmat tai käännökset analysaattorin tai korjausohjelman läpi

Ensin, tee käännöslista ( grep '</t>') tai lemmalista ( grep '</l>') kuten äsken selitetty. NB: Voidaan myös tarkistaa esimerkit (</x>) tai esimerkkien käännökset (</xt>). Silloin pitää preprosessoida tekstejä (tr ' ' '\n' | tr -d '[.?]').

Sitten korjaat:

... | husmnNorm | grep ? | ...

voit myös korjata suoraan:

... | hfst-ospell -S -n 5 ~/git/giellalt/lang-smn/tools/spellers/smn.zhfst | ...

Analysaoida tekstejä

... | tulossa selitys | ...

Työskentely lokien kanssa (ks. alhaalla). Tässä haetan tavallisimmat hakusanat:

cat loki | grep True | cut -f1 | sort|uniq -c|sort -nr|...

Lokit

Lokien sisältö:

  1. Hakusana
  2. True tai False (haku onnistui tai ei onnistunut)
  3. sanakirjan lemma, johon hakusana viittaa
  4. Käännös
  5. L1
  6. L2
  7. 2021-01-01T00:00:15 (vuosi-kuukausi-päivämäärä%tunti:minutti:sekunti)

Työtiedostot / Bargofiillat

Sanakirjan lemmat, jotka puuttuvat FST:s

(Viimeiset tiedostot löytyvät aina main/words/dicts/smnfin/inc(ja finsmn/inc)-hakemistoista.

Sanakirjan lemmojen paradigmat

(Nämä linkit eivät nyt toimi, korjaus tulossa)

Tehtävälista / Action points

Tämä on teknisten tehtävien katsaus.

Papirordbok

Lag eigen versjon for utskriftsversjon, i smnfin/print/

Kokoukset / Čoahkkinreferáhtat