Kven Finnish NLP Grammar

Finite state and Constraint Grammar based analysers, proofing tools and other resources

View the project on GitHub giellalt/lang-fkv

fkv-kokous 15.10.2019 Paikalla Aili, Thomas, Trond

Asialista

Tänään

Myöhemmin fkv

- Korpusasiat * Tilannekatsaus
- yaml
- muut make check-testit * Priorisointi * Kveeniseminaari Tromssassa

Viime kokouksen asiat

[https://giellalt.uit.no/lang/fkv/KvenDocumentation.html] (Kokous jatkoi seuravalla päivällä, sen pöytäkirja puuttuu)

Kysymyslista:

Missinglists.

Tämän komenon kaikki “osat”:

echo hei | preprocess | ...
cat ~/Downloads/mandat.txt| preprocess| unob|cut -f2|cut -d”+” -f1|uniq|sort|uniq -c|sort -nr|cut -c6-|nobfkv|grep “?”|cut -f1|grep ’[a-z]‘|tr ‘\n’ ’,’|sed '>>‘<< s/,/, /g;’
$ echo hei| preprocess| unob|cut -f2|cut -d”+” -f1|uniq|sort|uniq -c|sort -nr|cut -c6-|nobfkv|grep “?”|cut -f1|grep ’[a-z]‘|tr ‘\n’ ’,’|sed ‘s/,/, /g;’
cut: bad delimiter
sed: 1: "‘s/,/,": invalid command code ?

Kommennossa oli virhe: Väärä apostroffi. Unicode-merkkien tunnistaminen: [https://earthlingsoft.net/UnicodeChecker/]

Oikea apostroffi on **'**, eli U+002 APOSTROPHE. Voidaan myös käyttää **"** (eli: shift 2).

Notes-ohjelmasta pitää poistaa kaikki “smart quotes”-valinnat.

Uusi nob:

cd ../nob
svn up
svn up ../../giella-shared
./configure --with-hfst --without-xfst --enable-alignment --enable-reversed-intersect # Thomas
./configure --with-hfst --enable-alignment --enable-reversed-intersect # Aili
make -j

Kommennot u = analyysi (up), d = generointi (down):

Komentorivi:

cat ~/Downloads/mandat.txt| # ota teksti
preprocess|                 # yksi sana per rivi
unob|                       # norjan analysaattori
cut -f2|                    # ota lemma + analyysi
cut -d"+" -f1|              # heitä analyysi pois
uniq|                       # lyö tuplamuodot yhteen
sort|                       # laita aakkosjärjestykseen
uniq -c|                    # laske muotoja
sort -nr|                   # järjestää määrän mukaan
cut -c6-|                   # ota numerot pois
nobfkv|                     # käännä kveeniksi
grep "?"|                   # poimi tuntemattomat
cut -f1|                    # muodot vain kerran
grep '[a-z]'|               # vain ne, joilla on vähintään yksi kirjain
tr '\n' ','|                # lista muutetaan yhdeksi riviksi
sed 's/,/, /g;'|            # lisätään väli pilkun jälkeen
see                         # ja heitetään subethaeditiin

Missing list


sivu alkaa tähän

ufkv jos xfst, hufkv jost hfst-xfst:

Missing-list-komento on tämä:

cat teksti.txt | preprocess | ufkv | grep "+?" | cut -f1 | sort | uniq -c | sort -nr > teksti.missing
cat teksti.txt | preprocess | hufkv | grep "+?" | cut -f1 | sort | uniq -c | sort -nr > teksti.missing

Missing-list-kommennon selitys:

cat teksti.txt | # ota teksti
preprocess |     # yksi sana per rivi
ufkv |           # analysoi (jos normatiivinen, niin ufkvNorm, hufkvNorm)
grep "+?" |      # poimi tuntemattomat: virrhe<tab>virrhe<tab>+?
cut -f1 |        # poimi ensimmäinen kolonna: virrhe
sort |           # aakkostaa
uniq -c |        # lyö yhteen ja laske määrä
sort -nr >       # järjestä taajuuden mukaan
teksti.missing   # 

Sen jälkeen pitää lisätä teksti.missing-sanat src/morphology/stems/ -tiedostoihin tarpeiden mukaan.

Hyvä idea: Jos on tavallinen virhe, niin sekin voidaan lisätä analysaattoriin:

peret+Err/Orth:pär n_32_et ; 

Onko sinulla antiword-lääke? Kirjoita komentoriville:

which antiword

Jos kone löytää antiwordin, sinulla on se. Jos ei, dokumentaatio kerto miten se asennetaan.

which ccat
convert2xml ~/freecorpus/orig/fkv
ccat -l fkv ~/freecorpus/orig/fkv | preprocess | ...

Vaihtoehtoinen

ei preprocess, vaan hfst-tokenize


Sivu loppuu tähän

Aili ja Thomas tekevät dokumentaation, näin:

Sivu on tämä:

[https://giellalt.uit.no/lang/fkv/KvenDocumentation.html]

see doc/KvenDocumentation.jspwiki
1. Siinä: Tee linkki (ks. MissingLists.html mallina, esim. UusiDokumentti.html)
1. Tallenna.
touch doc/MissingLists.jspwiki # taikka UusiDokumentti.jspwiki
see doc/MissingLists.jspwiki
1. editoida,... + tallentaa
svn add doc/MissingLists.jspwiki
svn ci -m "jotain fiksua" doc/MissingLists.jspwiki

Tässä ovat jspwiki-editoinnin säännöt

Seuraava möötti:

21.10 kl 09.00 (jatko-osa)

Rinnakkaistekstit