GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.

View GiellaLT on GitHub

Unix ja Divvunkurssat

1. Unix-gohččumat korpusohcamii

Fiillat maiguin sáhttá stoahkat

info ja man (= manual) ja –h

Dieđut gohččumiid birra

cat (= concatenate)

“váldde”

pipe (boallobeavddis: Alt 7)

“ja de”

|
cat fiila.txt | less
cat fiila.txt | sort | uniq > boadus.txt


less (= opposite of more) (modus)

“čájet sisdoalu”

wc (= word count)

“rehkenastte”

kwic-snt

“čájet xxx ja dan birrasa”

grep (= get regular expression), egrep (= extended grep)

“atte buot linnjáid mat sisttisdollet xxx”

			(Váldde linnjáid mat sisttisdollet:)
grep "láhk[aá]i" 	(láhkai dahje láhkái)
grep "[A-ZČŠŽŊĐŦ]" 	(ovtta dáin bustávain: ABCD....)
grep "[0-9]" 		(ovtta dáin loguin: 0123...)
grep -v "[0-9]" 	(main ii leat lohku)
grep "[139]" 		(ovtta dáin loguin: 139)
grep "139" 		(139)

regex

Moadde regex-vejolašvuođa:

```. vaikko makkár mearka

grep “A.*A” (váldde linnjáid main leat unnimusat guokte A)


## tr

"buhtte x y:in"

- tr "x" "y"

## preprocess --abbr=abbr.txt

- skripta mii juohká teavstta nu ahte juohke linnjás lea dušše okta sátni.
- --abbr váldá vuhtii oanádusaid ja multi word expressions (juohke gielas lea iežas abbr-fiila)

## sort

"sortere linnjáid alfabehtalaččat"

- -nr (sortere nummára mielde)
  \*\* sort -nr
- -u (sortere ja unifisere)
  \*\* sort -u
- -r (sortere reverserejuvvon alfabehta mielde)
  \*\* sort -r
- -o (= output, vurke fiilan)
  \*\* sort -o infile.txt outfile.txt

## uniq

"unifisere linnjáid"

- -c (= count, galle dáhpáhusa)
  \*\* uniq -c

## rev

"reversere linnjáid"

## sed

"buhtte xxx yyy:in"

- sed "s/xxx/yyy/g"

## cut

"čuohpa linnjá"

- -d (= delimiter, default lea TAB)
  \*\* cut -d " "
- -f (= field, ja váldde vára)
  ** cut -d " " -f2
  ** cut -d " " -f2,3,5
  \*\* cut -d " " -f2-

## Repetišuvdna

- kommando -vuohki objekta
- man kommando
- info kommando
- pipe

## Bargobihtát:

Gieđahallat muhtun txt-fiilla:

## iskka fiillaid sturrodagaid

## oza dihto sreaŋggaid lessas

## oza dihto sániid, gehčosiid, prefivssaid. Geavat grep ja kwic-snt, ja buohtastahte bohtosiid

## oaččo ovtta sáni juohke linnjái: buohtastahte preprocess ja preprocess --abbr

## ráhkat frekveansaslisttu

## váldde sániid dihto prefivssain: sortere ja unifisere sihke sáni álggu ja loahpa mielde

## oaččo ovtta cealkaga juohke linnjái

## 2. Divvun-kursa

Bargat Divvun-serveris

## Divvun korpus – galle sáni 30.11.12

| šládja    | sme        | sma     | smj     |
| --------- | ---------- | ------- | ------- |
| admin     | 7.860.863  | 110.581 | 124.795 |
| bible     | 505.352    | 50.746  | 83.971  |
| facta     | 1.244.686  | 190.874 | 128.286 |
| ficti     | 231.908    | 144.582 | 41.507  |
| laws      | 797.721    | 0       | 0       |
| news      | 11.004.732 | 281     | 8.346   |
| oktiibuot | 21.645.262 | 497.064 | 386.905 |

Oassi davvisámegiela teavsttain leat jorgalusat dárogielas, ja mii bálddalaston sámi/dáru cealkagiid:

- sme: 2.121.438, nob: 2.449.382

## korpus

Mo beassat korpusii:

cd ../hoavda/Public/corp/ ```

Analysed-máhpain leat dákkár fiillat:

huksehus, ja mo navigeret

gos lean ja gosa áiggun?

ccat

“váldde xml-fiilla tevstta”

alias

mo doaibmá, mo ráhkadit

svn up

“ođasmahte buot fiillaid dán máhpas ja buot máhpain mat leat dan vuolábealde”

analysáhtoriid kompileren

“ráhkat davvisámi morfologalaš analysáhtora”

“ráhkat lullisámi/julevsámi morfologalaš analysáhtora”

(go leat main/langs/sma dahje main/langs/smj -máhpas):