Finite state and Constraint Grammar based analysers, proofing tools and other resources
View the project on GitHub giellalt/lang-fkv
sivu alkaa tähän
ufkv jos xfst, hufkv jost hfst-xfst:
Missing-list-komento on tämä:
cat teksti.txt | preprocess | ufkv | grep "+?" | cut -f1 | sort | uniq -c | sort -nr > teksti.missing
cat teksti.txt | preprocess | hufkv | grep "+?" | cut -f1 | sort | uniq -c | sort -nr > teksti.missing
Missing-list-kommennon selitys:
cat teksti.txt | # ota teksti
preprocess | # yksi sana per rivi
ufkv | # analysoi (jos normatiivinen, niin ufkvNorm, hufkvNorm)
grep "+?" | # poimi tuntemattomat: virrhe<tab>virrhe<tab>+?
cut -f1 | # poimi ensimmäinen kolonna: virrhe
sort | # aakkostaa
uniq -c | # lyö yhteen ja laske määrä
sort -nr > # järjestä taajuuden mukaan
teksti.missing #
Sen jälkeen pitää lisätä teksti.missing-sanat src/fst/stems/ -tiedostoihin tarpeiden mukaan.
Hyvä idea: Jos on tavallinen virhe, niin sekin voidaan lisätä analysaattoriin:
peret+Err/Orth:pär n_32_et ;
Onko sinulla antiword-lääke? Kirjoita komentoriville:
which antiword
Jos kone löytää antiwordin, sinulla on se. Jos ei, dokumentaatio kerto miten se asennetaan.
antiword teksti.doc
.which ccat
convert2xml ~/freecorpus/orig/fkv
ccat -l fkv ~/freecorpus/orig/fkv | preprocess | ...
Vaihtoehtoinen
ei preprocess, vaan hfst-tokenize