Tornedalen Finnish NLP Grammar

Finite state and Constraint Grammar based analysers, proofing tools and other resources

View the project on GitHub giellalt/lang-fit

Työlista = Arbetslista

Här är olika sakar att göra för att få en bättre språkmodell.

Förbättra täckningsgrad (analysera text)

När språkmodellen inte känner igen ord, kan det vara fordi orden fattas eller fordi analysen innehåller fel.

Egna texter

Kom i håg: För att analysera text måste ni ha ./configure --enable-tokenisers på plats og därefter kompilera.

Kommando (där teksti ärsätts med texten ni vill analysera):

cat teksti |\
hfst-tokenise -cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |\
grep ?|\
cut -d'"' -f2|\
sort|\uniq -c|\
sort -nr > teksti.puuttuvat.freq.txt

Slik får du frekvenslista för ord som fattas, som du kan lägga till i rätt fil och med rätt stam och fortsättningslexikon src/fst/stems/

Texter från korpus

Här är en lista över alla ord i korpus som fattas i språkmodellen, ordnat efter frekvens.

Att göra: Lägga till ord i språkmodellen

Gå genom oklassifiserade ord i lexikon

Oklassifiserade ord är ord som är märkade med nx. Gör så: Öppma substantivfilen och inspektera nx-orden:

Undersöka fel i grundformerna

Grundidé: När vi generer ett verbs infinitivform skal vi får samma infinitiv tillbaka (och tillsvarande för substantiv, adjektiv). Det undersöker vi ved at skriva make check.

Därefter undersöker vi hur det gått:

wc -l test/src/morphology/missing_verbs_lemmas.hfst.txt 
wc -l test/src/morphology/analysed_missing_verbs_lemmas.hfst.txt
wc -l test/src/morphology/generated_missing_verbs_lemmas.hfst.txt 

Den första filen viser vilke verb vi inte kan analysera infinitiven till. Den andra ger analysen till de samma verbformerna, och den tredje berätter vilken form vi får när vi genererer verbformerna.

Tillsvarande kan vi göra med nouns, adjectives, propernouns i stället för verbs.

Undersöka paradigmerna

I katalogen test/src/gt-norm-yamls/ finns filer *.yaml som ger korrekta paradigmer. Formatteringen (inkl. två och fyra mellanslag i början av linjen) går fram av de existerande filerna. Detta sätt att testa kallar vi ofta “yaml-testing”, efter filsuffixet.

Testerna kommer automatiskt med att göra make check i lang-fit. Det är också möjligt att köra bara yaml-testarna, slik:

sh test/yaml-check.sh

Där det är fel, vil programmet säga:

To rerun with more details, please triple-click, copy and paste the following:

Gör så.

Sitemap

Debugging site.pages:

URL: /assets/css/style.css - Title:

URL: /HInsertion.html - Title:

URL: /Links.html - Title:

URL: /fit.html - Title: Meänkieli (Tornedalen Finnish) language model documentation

URL: /index-header.html - Title: Meänkieli documentation

URL: / - Title: Meänkieli documentation

URL: /isof/ - Title: Kurs i lexc og twolc for Isof, april 2022

URL: /isof/timeplan.html - Title: Oversikt over kurset

URL: /meetings/230301.html - Title: Møte om språkteknologi for meänkieli

URL: /src-cg3-dependency.cg3.html - Title: C O M M O N S Á M I D E P E N D E N C Y G R A M M A R

URL: /src-cg3-disambiguator.cg3.html - Title: Disambiguator for Meänkieli

URL: /src-cg3-functions.cg3.html - Title:

URL: /src-fst-morphology-affixes-abbreviations.lexc.html - Title: Documenting the morphological tags for Meänkieli abbreviations

URL: /src-fst-morphology-affixes-acronyms.lexc.html - Title: Documenting Meänkieli acronym morphology

URL: /src-fst-morphology-affixes-adjectives.lexc.html - Title: Documenting the file for Meänkieli adjective morphology

URL: /src-fst-morphology-affixes-nouns.lexc.html - Title: Meänkieli noun morphology

URL: /src-fst-morphology-affixes-numerals.lexc.html - Title: Meänkieli numerals

URL: /src-fst-morphology-affixes-pronouns.lexc.html - Title:

URL: /src-fst-morphology-affixes-propernouns.lexc.html - Title: Meänkieli propernoun morphology

URL: /src-fst-morphology-affixes-symbols.lexc.html - Title: Symbol affixes

URL: /src-fst-morphology-affixes-verbs.lexc.html - Title: Meänkieli verbs

URL: /src-fst-morphology-phonology.twolc.html - Title: Meänkieli twolc file

URL: /src-fst-morphology-root.lexc.html - Title: Meänkieli morphological transducer

URL: /src-fst-morphology-stems-adjectives.lexc.html - Title: Meänkieli adjectives

URL: /src-fst-morphology-stems-adverbs.lexc.html - Title: Meänkieli adverbs

URL: /src-fst-morphology-stems-conjunctions.lexc.html - Title: Meänkieli conjunctions

URL: /src-fst-morphology-stems-fit-abbreviations.lexc.html - Title: File containing meänkieli abbreviations

URL: /src-fst-morphology-stems-fit-acronyms.lexc.html - Title: Meänkieli aacronyms

URL: /src-fst-morphology-stems-fit-propernouns.lexc.html - Title: Meänkieli propernouns

URL: /src-fst-morphology-stems-interjections.lexc.html - Title: Meänkieli interjections

URL: /src-fst-morphology-stems-nouns.lexc.html - Title: Noun stems for Meänkieli

URL: /src-fst-morphology-stems-numerals.lexc.html - Title: Meänkieli numerals

URL: /src-fst-morphology-stems-postpositions.lexc.html - Title: Meänkieli postpositions

URL: /src-fst-morphology-stems-prepositions.lexc.html - Title: Meänkieli prepositions

URL: /src-fst-morphology-stems-pronouns.lexc.html - Title: Meänkieli pronouns

URL: /src-fst-morphology-stems-subjunctions.lexc.html - Title: Meänkieli subjunctions

URL: /src-fst-morphology-stems-verbs.lexc.html - Title: Documenting the file for meänkieli verbs

URL: /src-fst-phonetics-txt2ipa.xfscript.html - Title:

URL: /src-fst-transcriptions-transcriptor-abbrevs2text.lexc.html - Title:

URL: /src-fst-transcriptions-transcriptor-numbers-digit2text.lexc.html - Title: Number transcriptions

URL: /test-diary.html - Title: Test diary

URL: /tools-grammarcheckers-grammarchecker.cg3.html - Title:

URL: /tools-tokenisers-tokeniser-disamb-gt-desc.pmscript.html - Title: Tokeniser for fit

URL: /tools-tokenisers-tokeniser-gramcheck-gt-desc.pmscript.html - Title: Grammar checker tokenisation for fit

URL: /tools-tokenisers-tokeniser-tts-cggt-desc.pmscript.html - Title: TTS tokenisation for smj

URL: /tyolista.html - Title: Työlista = Arbetslista

Root items:

URL: /HInsertion.html - Title: Hinsertion

URL: /Links.html - Title: Links

URL: /fit.html - Title: Meänkieli (Tornedalen Finnish) language model documentation

URL: /index-header.html - Title: Meänkieli documentation

URL: / - Title: Meänkieli documentation

URL: /isof/ - Title: Kurs i lexc og twolc for Isof, april 2022

URL: /src-cg3-dependency.cg3.html - Title: C O M M O N S Á M I D E P E N D E N C Y G R A M M A R

URL: /src-cg3-disambiguator.cg3.html - Title: Disambiguator for Meänkieli

URL: /src-cg3-functions.cg3.html - Title: Src-cg3-functions.cg3

URL: /src-fst-morphology-affixes-abbreviations.lexc.html - Title: Documenting the morphological tags for Meänkieli abbreviations

URL: /src-fst-morphology-affixes-acronyms.lexc.html - Title: Documenting Meänkieli acronym morphology

URL: /src-fst-morphology-affixes-adjectives.lexc.html - Title: Documenting the file for Meänkieli adjective morphology

URL: /src-fst-morphology-affixes-nouns.lexc.html - Title: Meänkieli noun morphology

URL: /src-fst-morphology-affixes-numerals.lexc.html - Title: Meänkieli numerals

URL: /src-fst-morphology-affixes-pronouns.lexc.html - Title: Src-fst-morphology-affixes-pronouns.lexc

URL: /src-fst-morphology-affixes-propernouns.lexc.html - Title: Meänkieli propernoun morphology

URL: /src-fst-morphology-affixes-symbols.lexc.html - Title: Symbol affixes

URL: /src-fst-morphology-affixes-verbs.lexc.html - Title: Meänkieli verbs

URL: /src-fst-morphology-phonology.twolc.html - Title: Meänkieli twolc file

URL: /src-fst-morphology-root.lexc.html - Title: Meänkieli morphological transducer

URL: /src-fst-morphology-stems-adjectives.lexc.html - Title: Meänkieli adjectives

URL: /src-fst-morphology-stems-adverbs.lexc.html - Title: Meänkieli adverbs

URL: /src-fst-morphology-stems-conjunctions.lexc.html - Title: Meänkieli conjunctions

URL: /src-fst-morphology-stems-fit-abbreviations.lexc.html - Title: File containing meänkieli abbreviations

URL: /src-fst-morphology-stems-fit-acronyms.lexc.html - Title: Meänkieli aacronyms

URL: /src-fst-morphology-stems-fit-propernouns.lexc.html - Title: Meänkieli propernouns

URL: /src-fst-morphology-stems-interjections.lexc.html - Title: Meänkieli interjections

URL: /src-fst-morphology-stems-nouns.lexc.html - Title: Noun stems for Meänkieli

URL: /src-fst-morphology-stems-numerals.lexc.html - Title: Meänkieli numerals

URL: /src-fst-morphology-stems-postpositions.lexc.html - Title: Meänkieli postpositions

URL: /src-fst-morphology-stems-prepositions.lexc.html - Title: Meänkieli prepositions

URL: /src-fst-morphology-stems-pronouns.lexc.html - Title: Meänkieli pronouns

URL: /src-fst-morphology-stems-subjunctions.lexc.html - Title: Meänkieli subjunctions

URL: /src-fst-morphology-stems-verbs.lexc.html - Title: Documenting the file for meänkieli verbs

URL: /src-fst-phonetics-txt2ipa.xfscript.html - Title: Src-fst-phonetics-txt2ipa.xfscript

URL: /src-fst-transcriptions-transcriptor-abbrevs2text.lexc.html - Title: Src-fst-transcriptions-transcriptor-abbrevs2text.lexc

URL: /src-fst-transcriptions-transcriptor-numbers-digit2text.lexc.html - Title: Number transcriptions

URL: /test-diary.html - Title: Test diary

URL: /tools-grammarcheckers-grammarchecker.cg3.html - Title: Tools-grammarcheckers-grammarchecker.cg3

URL: /tools-tokenisers-tokeniser-disamb-gt-desc.pmscript.html - Title: Tokeniser for fit

URL: /tools-tokenisers-tokeniser-gramcheck-gt-desc.pmscript.html - Title: Grammar checker tokenisation for fit

URL: /tools-tokenisers-tokeniser-tts-cggt-desc.pmscript.html - Title: TTS tokenisation for smj

URL: /tyolista.html - Title: Työlista = Arbetslista

Directory items:

URL: /isof/timeplan.html - Title: Oversikt over kurset

URL: /meetings/230301.html - Title: Møte om språkteknologi for meänkieli