GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Fiillat maiguin sáhttá stoahkat
Dieđut gohččumiid birra
“váldde”
“ja de”
|
cat fiila.txt | less
cat fiila.txt | sort | uniq > boadus.txt
“čájet sisdoalu”
“rehkenastte”
“čájet xxx ja dan birrasa”
“atte buot linnjáid mat sisttisdollet xxx”
(Váldde linnjáid mat sisttisdollet:)
grep "láhk[aá]i" (láhkai dahje láhkái)
grep "[A-ZČŠŽŊĐŦ]" (ovtta dáin bustávain: ABCD....)
grep "[0-9]" (ovtta dáin loguin: 0123...)
grep -v "[0-9]" (main ii leat lohku)
grep "[139]" (ovtta dáin loguin: 139)
grep "139" (139)
Moadde regex-vejolašvuođa:
```. vaikko makkár mearka
grep “A.*A” (váldde linnjáid main leat unnimusat guokte A)
## tr
"buhtte x y:in"
- tr "x" "y"
## preprocess --abbr=abbr.txt
- skripta mii juohká teavstta nu ahte juohke linnjás lea dušše okta sátni.
- --abbr váldá vuhtii oanádusaid ja multi word expressions (juohke gielas lea iežas abbr-fiila)
## sort
"sortere linnjáid alfabehtalaččat"
- -nr (sortere nummára mielde)
\*\* sort -nr
- -u (sortere ja unifisere)
\*\* sort -u
- -r (sortere reverserejuvvon alfabehta mielde)
\*\* sort -r
- -o (= output, vurke fiilan)
\*\* sort -o infile.txt outfile.txt
## uniq
"unifisere linnjáid"
- -c (= count, galle dáhpáhusa)
\*\* uniq -c
## rev
"reversere linnjáid"
## sed
"buhtte xxx yyy:in"
- sed "s/xxx/yyy/g"
## cut
"čuohpa linnjá"
- -d (= delimiter, default lea TAB)
\*\* cut -d " "
- -f (= field, ja váldde vára)
** cut -d " " -f2
** cut -d " " -f2,3,5
\*\* cut -d " " -f2-
## Repetišuvdna
- kommando -vuohki objekta
- man kommando
- info kommando
- pipe
## Bargobihtát:
Gieđahallat muhtun txt-fiilla:
## iskka fiillaid sturrodagaid
## oza dihto sreaŋggaid lessas
## oza dihto sániid, gehčosiid, prefivssaid. Geavat grep ja kwic-snt, ja buohtastahte bohtosiid
## oaččo ovtta sáni juohke linnjái: buohtastahte preprocess ja preprocess --abbr
## ráhkat frekveansaslisttu
## váldde sániid dihto prefivssain: sortere ja unifisere sihke sáni álggu ja loahpa mielde
## oaččo ovtta cealkaga juohke linnjái
## 2. Divvun-kursa
Bargat Divvun-serveris
## Divvun korpus – galle sáni 30.11.12
| šládja | sme | sma | smj |
| --------- | ---------- | ------- | ------- |
| admin | 7.860.863 | 110.581 | 124.795 |
| bible | 505.352 | 50.746 | 83.971 |
| facta | 1.244.686 | 190.874 | 128.286 |
| ficti | 231.908 | 144.582 | 41.507 |
| laws | 797.721 | 0 | 0 |
| news | 11.004.732 | 281 | 8.346 |
| oktiibuot | 21.645.262 | 497.064 | 386.905 |
Oassi davvisámegiela teavsttain leat jorgalusat dárogielas, ja mii bálddalaston sámi/dáru cealkagiid:
- sme: 2.121.438, nob: 2.449.382
## korpus
Mo beassat korpusii:
cd ../hoavda/Public/corp/ ```
Analysed-máhpain leat dákkár fiillat:
“váldde xml-fiilla tevstta”
mo doaibmá, mo ráhkadit
“ođasmahte buot fiillaid dán máhpas ja buot máhpain mat leat dan vuolábealde”
make GTLANG=sme (go leat gt-máhpas)
(go leat main/langs/sma dahje main/langs/smj -máhpas):
dáid gohččomiid maŋŋelaga: ** ./autogen.sh ** ./configure ** make
Beassat analysáhtor-modusii aliasa bokte: ** usma dahje usmj (deskriptiiva analysáhtorat) ja usmaNorm dahje usmjNorm (normatiiva analysáhtorat) ** dsma dahje dsmj (deskriptiiva generáhtorat) ja dsmaNorm dahje dsmjNorm (normatiiva generáhtorat)
Beassat eret dán modusis: Ctrl c