GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.

View GiellaLT on GitHub

Plan For More Keyboards

Tastaturpakker

Pakkenamn Minoritetsspråk inkludert Maj.språk
samisk sma, smj, sme, sms, smn, sje nor, swe, fin
k-uralsk myv, mdf, mrj, mhr, udm, kpv, sjd, koi, yrk rus
ø-finsk vro, liv, olo, izh, vot, vep est, fin, lav
algonquin crk-Latn, crk-Cans, ciw, bla, hdn eng, fra

Bokstavfrekvens

Kommando for å henta fram bokstavfrekvens:

cat $GTBIG/langs/LANG/corp/*.txt \
| sed 's/\(.\)/\1 /g;' | tr ' ' '\n' \
|  grep -v '[0-9.,:;A-ZÁŠČ§()]' \
| sort | uniq -c | sort -nr \
|  sed 's/^ *//g;' | see

Algoritme for å lage gode ordlister

Listebasert

Bestem eit omfang (10000 ord?)

  1. Frekvensliste av ordformer:
    1. Ta dei vanlegaste ordformene i løpande tekst av relevant korpus
    2. Ta dei vanlegaste ordformene i løpande tekst av stort korpus
    3. .. og fyll til saman 1/3
  2. Sentralt ordforråd + generere kjerneparadigmer
  3. Vanlegaste 500 av verba og generere indikativformene
  4. Sikre at pronomen, adverb, interjeksjonar er med

Test:

Følg denne oppskrifta for norsk og sjå kva som fell ut av eksisterande

fst-basert

Telefonar har 16Gb eller meir. Våre fst-ar vil truleg vere maksimalt 20MB i vhfst-formatet. Dette vil vere ok.

Metode

  1. Vekte lista (ovafor) på topp etter frekvensinformasjon
  2. Vekte bøyingsformer
  3. Blokkere for uvekta fst-framlegg på under 4 bokstavar