Kven Finnish NLP Grammar

Finite state and Constraint Grammar based analysers, proofing tools and other resources

Page Content

On this page

Missing list


sivu alkaa tähän

ufkv jos xfst, hufkv jost hfst-xfst:

Missing-list-komento on tämä:

cat teksti.txt | preprocess | ufkv | grep "+?" | cut -f1 | sort | uniq -c | sort -nr > teksti.missing
cat teksti.txt | preprocess | hufkv | grep "+?" | cut -f1 | sort | uniq -c | sort -nr > teksti.missing

Missing-list-kommennon selitys:

cat teksti.txt | # ota teksti
preprocess |     # yksi sana per rivi
ufkv |           # analysoi (jos normatiivinen, niin ufkvNorm, hufkvNorm)
grep "+?" |      # poimi tuntemattomat: virrhe<tab>virrhe<tab>+?
cut -f1 |        # poimi ensimmäinen kolonna: virrhe
sort |           # aakkostaa
uniq -c |        # lyö yhteen ja laske määrä
sort -nr >       # järjestä taajuuden mukaan
teksti.missing   # 

Sen jälkeen pitää lisätä teksti.missing-sanat src/fst/stems/ -tiedostoihin tarpeiden mukaan.

Hyvä idea: Jos on tavallinen virhe, niin sekin voidaan lisätä analysaattoriin:

peret+Err/Orth:pär n_32_et ;

Onko sinulla antiword-lääke? Kirjoita komentoriville:

which antiword

Jos kone löytää antiwordin, sinulla on se. Jos ei, dokumentaatio kerto miten se asennetaan.

which ccat
convert2xml ~/freecorpus/orig/fkv
ccat -l fkv ~/freecorpus/orig/fkv | preprocess | ...

Vaihtoehtoinen

ei preprocess, vaan hfst-tokenize

Last updated: Edit on GitHub

Sitemap