GiellaLT provides rule-based language technology aimed at minority and indigenous languages
Fiillat maiguin sáhttá stoahkat
Dieđut gohččumiid birra
“váldde”
“ja de”
|
cat fiila.txt | less
cat fiila.txt | sort | uniq > boadus.txt
“čájet sisdoalu”
“rehkenastte”
“čájet xxx ja dan birrasa”
“atte buot linnjáid mat sisttisdollet xxx”
(Váldde linnjáid mat sisttisdollet:)
grep "láhk[aá]i" (láhkai dahje láhkái)
grep "[A-ZČŠŽŊĐŦ]" (ovtta dáin bustávain: ABCD....)
grep "[0-9]" (ovtta dáin loguin: 0123...)
grep -v "[0-9]" (main ii leat lohku)
grep "[139]" (ovtta dáin loguin: 139)
grep "139" (139)
Moadde regex-vejolašvuođa: ```. vaikko makkár mearka
grep “A.*A” (váldde linnjáid main leat unnimusat guokte A)
# tr
"buhtte x y:in"
* tr "x" "y"
# preprocess --abbr=abbr.txt
* skripta mii juohká teavstta nu ahte juohke linnjás lea dušše okta sátni.
* --abbr váldá vuhtii oanádusaid ja multi word expressions (juohke gielas lea iežas abbr-fiila)
# sort
"sortere linnjáid alfabehtalaččat"
* -nr (sortere nummára mielde)
** sort -nr
* -u (sortere ja unifisere)
** sort -u
* -r (sortere reverserejuvvon alfabehta mielde)
** sort -r
* -o (= output, vurke fiilan)
** sort -o infile.txt outfile.txt
# uniq
"unifisere linnjáid"
* -c (= count, galle dáhpáhusa)
** uniq -c
# rev
"reversere linnjáid"
# sed
"buhtte xxx yyy:in"
* sed "s/xxx/yyy/g"
# cut
"čuohpa linnjá"
* -d (= delimiter, default lea TAB)
** cut -d " "
* -f (= field, ja váldde vára)
** cut -d " " -f2
** cut -d " " -f2,3,5
** cut -d " " -f2-
# Repetišuvdna
* kommando -vuohki objekta
* man kommando
* info kommando
* pipe
# Bargobihtát:
Gieđahallat muhtun txt-fiilla:
# iskka fiillaid sturrodagaid
# oza dihto sreaŋggaid lessas
# oza dihto sániid, gehčosiid, prefivssaid. Geavat grep ja kwic-snt, ja buohtastahte bohtosiid
# oaččo ovtta sáni juohke linnjái: buohtastahte preprocess ja preprocess --abbr
# ráhkat frekveansaslisttu
# váldde sániid dihto prefivssain: sortere ja unifisere sihke sáni álggu ja loahpa mielde
# oaččo ovtta cealkaga juohke linnjái
# 2. Divvun-kursa
Bargat Divvun-serveris
# Divvun korpus – galle sáni 30.11.12
| šládja | sme | sma | smj
| --- | --- | --- | ---
| admin | 7.860.863 | 110.581 | 124.795
| bible | 505.352 | 50.746 | 83.971
| facta | 1.244.686 | 190.874 | 128.286
| ficti | 231.908 | 144.582 | 41.507
| laws | 797.721 | 0 | 0
| news | 11.004.732 | 281 | 8.346
| oktiibuot | 21.645.262 | 497.064 | 386.905
Oassi davvisámegiela teavsttain leat jorgalusat dárogielas, ja mii bálddalaston sámi/dáru cealkagiid:
* sme: 2.121.438, nob: 2.449.382
# korpus
Mo beassat korpusii:
cd ../hoavda/Public/corp/ ```
Analysed-máhpain leat dákkár fiillat:
“váldde xml-fiilla tevstta”
mo doaibmá, mo ráhkadit
“ođasmahte buot fiillaid dán máhpas ja buot máhpain mat leat dan vuolábealde”
make GTLANG=sme (go leat gt-máhpas)
(go leat main/langs/sma dahje main/langs/smj -máhpas):
dáid gohččomiid maŋŋelaga: ** ./autogen.sh ** ./configure ** make
Beassat analysáhtor-modusii aliasa bokte: ** usma dahje usmj (deskriptiiva analysáhtorat) ja usmaNorm dahje usmjNorm (normatiiva analysáhtorat) ** dsma dahje dsmj (deskriptiiva generáhtorat) ja dsmaNorm dahje dsmjNorm (normatiiva generáhtorat)
Beassat eret dán modusis: Ctrl c