GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.

View GiellaLT on GitHub

Page Content

Unix ja Divvunkurssat

1. Unix-gohččumat korpusohcamii

Fiillat maiguin sáhttá stoahkat

info ja man (= manual) ja –h

Dieđut gohččumiid birra

cat (= concatenate)

“váldde”

pipe (boallobeavddis: Alt 7)

“ja de”

|
cat fiila.txt | less
cat fiila.txt | sort | uniq > boadus.txt


less (= opposite of more) (modus)

“čájet sisdoalu”

wc (= word count)

“rehkenastte”

kwic-snt

“čájet xxx ja dan birrasa”

grep (= get regular expression), egrep (= extended grep)

“atte buot linnjáid mat sisttisdollet xxx”

regex

Moadde regex-vejolašvuođa: ```. vaikko makkár mearka

grep “A.*A” (váldde linnjáid main leat unnimusat guokte A)



#  tr
"buhtte x y:in"
* tr "x" "y"




#  preprocess --abbr=abbr.txt
* skripta mii juohká teavstta nu ahte juohke linnjás lea dušše okta sátni. 
* --abbr váldá vuhtii oanádusaid ja multi word expressions (juohke gielas lea iežas abbr-fiila)




#  sort
"sortere linnjáid alfabehtalaččat"
* -nr (sortere nummára mielde) 
** sort -nr 
* -u (sortere ja unifisere)
** sort -u
* -r (sortere reverserejuvvon alfabehta mielde)
** sort -r
* -o (= output, vurke fiilan)
** sort -o infile.txt outfile.txt


#  uniq
"unifisere linnjáid"
* -c (= count, galle dáhpáhusa)
** uniq -c


#  rev
"reversere linnjáid"


#  sed
"buhtte xxx yyy:in"
* sed "s/xxx/yyy/g"


#  cut
"čuohpa linnjá"
* -d (= delimiter, default lea TAB)
** cut -d " " 
* -f (= field, ja váldde vára)
** cut -d " " -f2
** cut -d " " -f2,3,5
** cut -d " " -f2-




#  Repetišuvdna
* kommando -vuohki objekta
* man kommando
* info kommando
* pipe




#  Bargobihtát:
Gieđahallat muhtun txt-fiilla:
# iskka fiillaid sturrodagaid
# oza dihto sreaŋggaid lessas
# oza dihto sániid, gehčosiid, prefivssaid. Geavat grep ja kwic-snt, ja buohtastahte bohtosiid
# oaččo ovtta sáni juohke linnjái: buohtastahte preprocess ja preprocess --abbr
# ráhkat frekveansaslisttu 
# váldde sániid dihto prefivssain: sortere ja unifisere sihke sáni álggu ja loahpa mielde
# oaččo ovtta cealkaga juohke linnjái




# 2. Divvun-kursa


Bargat Divvun-serveris 
#  Divvun korpus – galle sáni 30.11.12


|   šládja    |  sme  | sma  | smj    
| --- | --- | --- | --- 
|  admin   | 7.860.863 | 110.581   | 124.795    
|  bible   | 505.352 |  50.746  | 83.971    
|  facta   |    1.244.686   |  190.874  |  128.286   
|  ficti   |   231.908    | 144.582   |  41.507   
|  laws    |   797.721    |  0  | 0   
|  news    |   11.004.732    |  281  |  8.346   
|  oktiibuot    |  21.645.262     | 497.064  |  386.905  


Oassi davvisámegiela teavsttain leat jorgalusat dárogielas, ja mii bálddalaston sámi/dáru cealkagiid:
* sme: 2.121.438, nob: 2.449.382


#  korpus
Mo beassat korpusii: 

cd ../hoavda/Public/corp/ ```

Analysed-máhpain leat dákkár fiillat:

huksehus, ja mo navigeret

gos lean ja gosa áiggun?

ccat

“váldde xml-fiilla tevstta”

alias

mo doaibmá, mo ráhkadit

svn up

“ođasmahte buot fiillaid dán máhpas ja buot máhpain mat leat dan vuolábealde”

analysáhtoriid kompileren

“ráhkat davvisámi morfologalaš analysáhtora”

“ráhkat lullisámi/julevsámi morfologalaš analysáhtora”

(go leat main/langs/sma dahje main/langs/smj -máhpas):