Finite state and Constraint Grammar based analysers, proofing tools and other resources
fkv-kokous 15.10.2019 Paikalla Aili, Thomas, Trond
- Korpusasiat * Tilannekatsaus
- yaml
- muut make check-testit * Priorisointi * Kveeniseminaari Tromssassa
[https://giellalt.uit.no/lang/fkv/KvenDocumentation.html] (Kokous jatkoi seuravalla päivällä, sen pöytäkirja puuttuu)
Tämän komenon kaikki “osat”:
echo hei | preprocess | ...
cat ~/Downloads/mandat.txt| preprocess| unob|cut -f2|cut -d”+” -f1|uniq|sort|uniq -c|sort -nr|cut -c6-|nobfkv|grep “?”|cut -f1|grep ’[a-z]‘|tr ‘\n’ ’,’|sed '>>‘<< s/,/, /g;’
$ echo hei| preprocess| unob|cut -f2|cut -d”+” -f1|uniq|sort|uniq -c|sort -nr|cut -c6-|nobfkv|grep “?”|cut -f1|grep ’[a-z]‘|tr ‘\n’ ’,’|sed ‘s/,/, /g;’
cut: bad delimiter
sed: 1: "‘s/,/,": invalid command code ?
Kommennossa oli virhe: Väärä apostroffi. Unicode-merkkien tunnistaminen: [https://earthlingsoft.net/UnicodeChecker/]
Oikea apostroffi on **'**, eli U+002 APOSTROPHE. Voidaan myös käyttää **"** (eli: shift 2).
Notes-ohjelmasta pitää poistaa kaikki “smart quotes”-valinnat.
Uusi nob:
cd ../nob
svn up
svn up ../../giella-shared
./configure --with-hfst --without-xfst --enable-alignment --enable-reversed-intersect # Thomas
./configure --with-hfst --enable-alignment --enable-reversed-intersect # Aili
make -j
Kommennot u = analyysi (up), d = generointi (down):
Komentorivi:
cat ~/Downloads/mandat.txt| # ota teksti
preprocess| # yksi sana per rivi
unob| # norjan analysaattori
cut -f2| # ota lemma + analyysi
cut -d"+" -f1| # heitä analyysi pois
uniq| # lyö tuplamuodot yhteen
sort| # laita aakkosjärjestykseen
uniq -c| # laske muotoja
sort -nr| # järjestää määrän mukaan
cut -c6-| # ota numerot pois
nobfkv| # käännä kveeniksi
grep "?"| # poimi tuntemattomat
cut -f1| # muodot vain kerran
grep '[a-z]'| # vain ne, joilla on vähintään yksi kirjain
tr '\n' ','| # lista muutetaan yhdeksi riviksi
sed 's/,/, /g;'| # lisätään väli pilkun jälkeen
see # ja heitetään subethaeditiin
sivu alkaa tähän
ufkv jos xfst, hufkv jost hfst-xfst:
Missing-list-komento on tämä:
cat teksti.txt | preprocess | ufkv | grep "+?" | cut -f1 | sort | uniq -c | sort -nr > teksti.missing
cat teksti.txt | preprocess | hufkv | grep "+?" | cut -f1 | sort | uniq -c | sort -nr > teksti.missing
Missing-list-kommennon selitys:
cat teksti.txt | # ota teksti
preprocess | # yksi sana per rivi
ufkv | # analysoi (jos normatiivinen, niin ufkvNorm, hufkvNorm)
grep "+?" | # poimi tuntemattomat: virrhe<tab>virrhe<tab>+?
cut -f1 | # poimi ensimmäinen kolonna: virrhe
sort | # aakkostaa
uniq -c | # lyö yhteen ja laske määrä
sort -nr > # järjestä taajuuden mukaan
teksti.missing #
Sen jälkeen pitää lisätä teksti.missing-sanat src/morphology/stems/ -tiedostoihin tarpeiden mukaan.
Hyvä idea: Jos on tavallinen virhe, niin sekin voidaan lisätä analysaattoriin:
peret+Err/Orth:pär n_32_et ;
Onko sinulla antiword-lääke? Kirjoita komentoriville:
which antiword
Jos kone löytää antiwordin, sinulla on se. Jos ei, dokumentaatio kerto miten se asennetaan.
antiword teksti.doc
.which ccat
convert2xml ~/freecorpus/orig/fkv
ccat -l fkv ~/freecorpus/orig/fkv | preprocess | ...
Vaihtoehtoinen
ei preprocess, vaan hfst-tokenize
Sivu loppuu tähän
Aili ja Thomas tekevät dokumentaation, näin:
Sivu on tämä:
[https://giellalt.uit.no/lang/fkv/KvenDocumentation.html]
see doc/KvenDocumentation.jspwiki
1. Siinä: Tee linkki (ks. MissingLists.html mallina, esim. UusiDokumentti.html)
1. Tallenna.
touch doc/MissingLists.jspwiki # taikka UusiDokumentti.jspwiki
see doc/MissingLists.jspwiki
1. editoida,... + tallentaa
svn add doc/MissingLists.jspwiki
svn ci -m "jotain fiksua" doc/MissingLists.jspwiki
Tässä ovat jspwiki-editoinnin säännöt
21.10 kl 09.00 (jatko-osa)
Adding the parallel file. Miten se oli kuin molemmat tekstit (originaaliteksti ja käänös) on samassa dokumentissa? Tämä komento myös silloin? add_files_to_corpus -p orig/sme/admin/sd/other_files/dokumentti.pdf -l nob
Pitäisikö laittaa orginaalitekstin eriksheen korpuksheen?