GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Pakkenamn | Minoritetsspråk inkludert | Maj.språk |
---|---|---|
samisk | sma, smj, sme, sms, smn, sje | nor, swe, fin |
k-uralsk | myv, mdf, mrj, mhr, udm, kpv, sjd, koi, yrk | rus |
ø-finsk | vro, liv, olo, izh, vot, vep | est, fin, lav |
algonquin | crk-Latn, crk-Cans, ciw, bla, hdn | eng, fra |
Kommando for å henta fram bokstavfrekvens:
cat $GTBIG/langs/LANG/corp/*.txt \
| sed 's/\(.\)/\1 /g;' | tr ' ' '\n' \
| grep -v '[0-9.,:;A-ZÁŠČ§()]' \
| sort | uniq -c | sort -nr \
| sed 's/^ *//g;' | see
Bestem eit omfang (10000 ord?)
Test:
Følg denne oppskrifta for norsk og sjå kva som fell ut av eksisterande
Telefonar har 16Gb eller meir. Våre fst-ar vil truleg vere maksimalt 20MB i vhfst-formatet. Dette vil vere ok.