Finite state and Constraint Grammar based analysers, proofing tools and other resources
fkv-kokous 15.10.2019
Paikalla Aili, Thomas, Trond
Sekæ KMD että Norjan Kielineuvosto haluavat priroisoida kveenin rinnakkaiskorpusta.
Tavaoitteen siis integroida terminologia sanakirjaan ja rinnakkaiskorpukseen:
[http://sanat.oahpa.no]
Esimerkki
add_files_to_corpus -p orig/sme/admin/sd/other_files/dokumentti.pdf -l nob
[http://www.termwiki.sprakradet.no/wiki/Hovedside] [https://satni.uit.no/termwiki/index.php?title=Váldosiidu]
Kysymys: Voiko saada järkevä alusta terminologiatyölle? Voiko Wiktionary olla semmoinen?
Trond voi katsoa tätä
Nämä KI:n tekstit ovat korpuksessa:
Paljon siis puuttuu.
Katsaus:
cd freecorpus/orig/fkv
ls admin/*/*.xsl admin/*/*/*.xsl
ls */*/*.xsl */*/*/*.xsl |wc -l # tämä on sama kuin seuraava
ls -R . |grep xsl|wc -l # montaako tiedostoa (ks edellinen)
ls -R .
ccat -l fkv ../../converted/fkv/|wc -w # montaako sanaa? 18546
drwxr-xr-x 18 trond staff 576 Jun 17 17:30 other_files
drwxr-xr-x 44 trond staff 1408 Jun 17 17:30 regjeringen.no
` sh test/yaml-check.sh `
perintö: perinttöi tahi perinöitä? Aili kuuntele vanhoi nauhoi ja etti Perungan (Beronkan) töistä. Toinen ehotus oon lisätä molemat ja tehhä kommentin siitä ette yhen poistethaan ko tiämä mikä oon oikhein.
feeriä oon kans jäljelä; emmä tiä sen pl vartalo, esimerkiksi oonko feeriöitä tahi feerii jne. Tarvittema enämen dokumentaatiota tästä.
yamlit oon muutoin kunnossa, ei ole isomppii assiita. Thomas oon korjanu pl ess ja kom. Aili oon tehny feililistan.
4 verbiä kuten aikaiseemmin:
src/morphology/affixes/numerals.lexc
-LEXICON ARABICCASEORD-ERR
-ARABICCASEORD ; ! XXX look at this
+!LEXICON ARABICCASEORD-ERR
+!ARABICCASEORD ; ! XXX look at this
- Warning: Sublexicons defined but not used:
ARABICCASEORD-ERR
LEXC test 3: analyser-gt-norm.hfstol + morphology/lexicon.tmp.lexc - 574/0/574 PASS
LEXC test 3: analyser-gt-norm.xfst + morphology/lexicon.tmp.lexc - 574/0/574 PASS
XPASS: run-lexc-testcases.sh
==========================================================
1 of 1 test did not behave as expected (1 unexpected pass)
(6 tests were not run)
Please report to feedback@divvun.no
==========================================================
Sjur: Du må greppa etter !!€ og !!$ i lexc-filene
Sjur: Men testen burde ikkje bli køyrd på lexicon.tmp.lexc, eg skal sjå på det når eg er tilbake på kontoret.
kattavuus mittattu 1800on nyt 90,23% (siis 1 - 2226/22794)
48367/376486, siis 87,15%
ccat -l fkv ~/freecorpus/converted/fkv/|preprocess|wc -l
22794 <===
ccat -l fkv ~/freecorpus/converted/fkv/|preprocess|ufkv|grep '+?'|wc -l
2226
Tuomas:fkv thomas$ ccat -l fkv ~/freecorpus/converted/fkv/|preprocess|wc -l
291552
Ailis-MacBook-Pro:fkv aili$ ccat -l fkv ~/freecorpus/converted/fkv/|preprocess|wc -l
22794
387979
Vanha preprosessointi
ccat -l fkv converted/fkv/|preprocess|ufkv|grep '+?'|cut -f1|sort|uniq -c | sort -nr > fkv.missing.191021
Uusi preprosessointi:
ccat -l fkv converted/fkv/|hfst-tokenize -cg $GTHOME/langs/fkv/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst|grep ' ?'|cut -d'"' -f2|sort|uniq -c |sort -nr | less
fkv:ssa:
./configure --with-hfst --enable-tokenisers --enable-reversed-intersect --enable-dialects
make -j
Edelleen ongelmia näiden kanssa:
/usr/local/bin/hfst-lexc: The file lexicon.tmp.lexc did not compile cleanly.
### LEXICON ARABICCASEORD-ERR
### ARABICCASEORD ; ! XXX look at this
libc++abi.dylib: terminating with uncaught exception of type TransducerTypeMismatchException
/bin/sh: line 1: 60661 Done /usr/bin/printf "read regex @\"filters/reorder-subpos-tags.hfst\" .o. @\"filters/reorder-semantic-tags.hfst\" .o. @\"generator-raw-gt-desc.tmp1.hfst\" ;\n save stack generator-raw-gt-desc.tmp.hfst\n quit\n"
60662 Abort trap: 6 | /usr/local/bin/hfst-xfst -p -q --format=openfst-tropical
make[2]: *** [generator-raw-gt-desc.tmp.hfst] Error 134
make[2]: *** Waiting for unfinished jobs....
rm analyser-raw-gt-desc.tmp.xfst
make[1]: *** [all-recursive] Error 1
make: *** [all-recursive] Error 1
make clean
make -j
Yli viis kertaa:
19 yeah
18 Taavetin
16 ijänkaikkisesti
14 antakhoon
13 maahaan
13 kunnia
12 terveeksi
12 Paavalin
11 eleison
11 Kyrie
11 Joh
10 kvensk
10 armatta
10 Pyhitetty
10 Peetleheemhiin
Suuren korpuksen tavallisimmat tuntemattomat
263 kirj
261 Muist
189 sg
170 Oulan
165 Kvensk
159 Kert
157 Jouni
124 Kertoi
114 sg3
93 part
91 tulee
81 sg.nom
62 pl
61 saatto
56 Jounin
56 ANNAN
53 →
53 KAISA
52 sg1
51 alko
49 Pohjas-Tromssan
49 Haltiin
48 ssa
48 Vuossárga
48 Tirsdag
48 Maŋŋebárga
48 Mandag
48 ADVLI
47 prees
47 antaa
46 la
44 neljä
44 institutti-Kvensk
42 thaan
40 N[sg.nom
39 ssä
38 miitä
37 kuinka
36 veli
36 u
36 kiinni
36 av
36 alkaa
35 Rohtorin
34 pl3
34 maahaan
33 vaihettelluu
33 ettei
33 Omasvuonon
32 is
Generoidut paradigmat – Aili lukee ja analysoi, sitten korjata
Kokousreferaatin kirjoittaminen, ks. jspwiki-syntaksi