fkv-kokous 15.10.2019 Paikalla Aili, Thomas, Trond

Asialista

Tänään

Viime kokouksen asiat
Kysymykset
- Missing lists
- Järjestys
- Virheilmoitus
Seuraava kokous

Myöhemmin fkv

- Korpusasiat * Tilannekatsaus
- yaml
- muut make check-testit * Priorisointi * Kveeniseminaari Tromssassa

Viime kokouksen asiat

[https://giellalt.uit.no/lang/fkv/KvenDocumentation.html] (Kokous jatkoi seuravalla päivällä, sen pöytäkirja puuttuu)

Kysymyslista:

Missinglists.

Tämän komenon kaikki “osat”:

echo hei | preprocess | ...
cat ~/Downloads/mandat.txt| preprocess| unob|cut -f2|cut -d”+” -f1|uniq|sort|uniq -c|sort -nr|cut -c6-|nobfkv|grep “?”|cut -f1|grep ’[a-z]‘|tr ‘\n’ ’,’|sed '>>‘<< s/,/, /g;’

$ echo hei| preprocess| unob|cut -f2|cut -d”+” -f1|uniq|sort|uniq -c|sort -nr|cut -c6-|nobfkv|grep “?”|cut -f1|grep ’[a-z]‘|tr ‘\n’ ’,’|sed ‘s/,/, /g;’
cut: bad delimiter
sed: 1: "‘s/,/,": invalid command code ?

Kommennossa oli virhe: Väärä apostroffi. Unicode-merkkien tunnistaminen: [https://earthlingsoft.net/UnicodeChecker/]

Oikea apostroffi on **'**, eli U+002 APOSTROPHE. Voidaan myös käyttää **"** (eli: shift 2).

Notes-ohjelmasta pitää poistaa kaikki “smart quotes”-valinnat.

Uusi nob:

cd ../nob
svn up
svn up ../../giella-shared
./configure --with-hfst --without-xfst --enable-alignment --enable-reversed-intersect # Thomas
./configure --with-hfst --enable-alignment --enable-reversed-intersect # Aili
make -j

Kommennot u = analyysi (up), d = generointi (down):

hfst-analysaattorille: hunob, hdnob, hufkv, hdfkv
xfst-analysaattorille: unob, dnob, ufkv, dfkv

Komentorivi:

cat ~/Downloads/mandat.txt| # ota teksti
preprocess|                 # yksi sana per rivi
unob|                       # norjan analysaattori
cut -f2|                    # ota lemma + analyysi
cut -d"+" -f1|              # heitä analyysi pois
uniq|                       # lyö tuplamuodot yhteen
sort|                       # laita aakkosjärjestykseen
uniq -c|                    # laske muotoja
sort -nr|                   # järjestää määrän mukaan
cut -c6-|                   # ota numerot pois
nobfkv|                     # käännä kveeniksi
grep "?"|                   # poimi tuntemattomat
cut -f1|                    # muodot vain kerran
grep '[a-z]'|               # vain ne, joilla on vähintään yksi kirjain
tr '\n' ','|                # lista muutetaan yhdeksi riviksi
sed 's/,/, /g;'|            # lisätään väli pilkun jälkeen
see                         # ja heitetään subethaeditiin

Kuinka tiettää mihin järjestyksheen laittaa kaikki osat?
- Järjestys on looginen (!): edellisen komennon output on seuravan komennon input
Miksi saan tämän virheen (Bad CPU type in executable) jos käytän xfst?
- Koska Catalina ei tunnista sitä. Palataan asiaan.

Missing list

sivu alkaa tähän

ufkv jos xfst, hufkv jost hfst-xfst:

Missing-list-komento on tämä:

cat teksti.txt | preprocess | ufkv | grep "+?" | cut -f1 | sort | uniq -c | sort -nr > teksti.missing
cat teksti.txt | preprocess | hufkv | grep "+?" | cut -f1 | sort | uniq -c | sort -nr > teksti.missing

Missing-list-kommennon selitys:

cat teksti.txt | # ota teksti
preprocess |     # yksi sana per rivi
ufkv |           # analysoi (jos normatiivinen, niin ufkvNorm, hufkvNorm)
grep "+?" |      # poimi tuntemattomat: virrhe<tab>virrhe<tab>+?
cut -f1 |        # poimi ensimmäinen kolonna: virrhe
sort |           # aakkostaa
uniq -c |        # lyö yhteen ja laske määrä
sort -nr >       # järjestä taajuuden mukaan
teksti.missing   #

Sen jälkeen pitää lisätä teksti.missing-sanat src/morphology/stems/ -tiedostoihin tarpeiden mukaan.

Hyvä idea: Jos on tavallinen virhe, niin sekin voidaan lisätä analysaattoriin:

peret+Err/Orth:pär n_32_et ;

Onko sinulla antiword-lääke? Kirjoita komentoriville:

which antiword

Jos kone löytää antiwordin, sinulla on se. Jos ei, dokumentaatio kerto miten se asennetaan.

Jos teksti on muodossa teksti.doc, voit tehdä antiword teksti.doc.
Jos teksti on muodossa teksti.docx, sinun pitää
- tallentaa se .txt-muotoon, tai
- tallentaa se .doc-muotoon ja käyttää antiword, tai
- kopioida sisällön ja liimata tekstidokumenttiin

which ccat
convert2xml ~/freecorpus/orig/fkv
ccat -l fkv ~/freecorpus/orig/fkv | preprocess | ...

Vaihtoehtoinen

ei preprocess, vaan hfst-tokenize

Sivu loppuu tähän

Aili ja Thomas tekevät dokumentaation, näin:

Sivu on tämä:

[https://giellalt.uit.no/lang/fkv/KvenDocumentation.html]

see doc/KvenDocumentation.jspwiki
1. Siinä: Tee linkki (ks. MissingLists.html mallina, esim. UusiDokumentti.html)
1. Tallenna.
touch doc/MissingLists.jspwiki # taikka UusiDokumentti.jspwiki
see doc/MissingLists.jspwiki
1. editoida,... + tallentaa
svn add doc/MissingLists.jspwiki
svn ci -m "jotain fiksua" doc/MissingLists.jspwiki

Tässä ovat jspwiki-editoinnin säännöt

tallenna: doc/meetings/191015.jspwiki
svn add doc/meetings/191015.jspwiki
lisätä linkki tiedostoon doc/KvenDocumentation.jspwiki (ks. rivi 39)
tsekata molemmat sisään

Seuraava möötti:

21.10 kl 09.00 (jatko-osa)

Rinnakkaistekstit

Adding the parallel file. Miten se oli kuin molemmat tekstit (originaaliteksti ja käänös) on samassa dokumentissa? Tämä komento myös silloin? add_files_to_corpus -p orig/sme/admin/sd/other_files/dokumentti.pdf -l nob
Pitäisikö laittaa orginaalitekstin eriksheen korpuksheen?

Kven Finnish NLP Grammar

Page Content