fkv-kokous 24.04.2020
Paikalla: Aili, Thomas, Trond
Asialista
- Aili ja Thomaksen kysymykset
- Kielitingan möötti
- Priorisointi
- Seuraava kokous
Kysymykset ja vastaukset
- Mie muistan ette häymä selvittäät kuinka lisätä sujutetut partisiipit lexc:heen
(kielttäävän, lujettaavaksi jne)
affixes/verbs.lexc
Esee
-
sitte se ette kuinka merkata viiva sannoin/nimmiin välissä
```
%-
LEXICON RHyph
+Cmp/Hyph#:0#- NounRoot ;
+Cmp/Hyph#:0#- ProperNoun
+Use/Circ+Cmp/Hyph#:%-# NounRoot ; ! For Num Cmp Noun, vi vil ikke ha Num\ src/fst/stems/propernouns.lexc:Yli-Toornio:Yli-Toornio vanha_prop_x ; Yli-Tornio Yli-Tornio Ylinen+N+Prop+Cmp/Hyph#Tornio+N+Prop+Sg+Nom src/fst/stems/propernouns.lexc:Mallu-Pekkajärvi:Mallu-Pekkajärvi vanha_prop_x ;
Mallu-Pekkajärvi
Mallu-Pekkajärvi Mallu-Pekkajärvi+N+Prop
1920-luvulla
- Lisäksi possisiivisuffiksit ei mene läpi (kultani, faarini)
- MitäGitHubiin siirtyminen tarkoittaa meille
(Saattaa piittäät kahela tavala) (minula oon keskus, sinula oon keskus, GitHubila oon keskus, pittää olla sekä core ette share)
(langs-hakemisto + giella-hakemistot siirtyvät githubiin)
- Kiinnostus puhelin-oikeinkirjoitusohjelmasta (?)
Piian toinen assii oli se ette mistä löyämä sanat mikkä saatama lisätä sanakirjhaan
9:52
(ei ole ollu niin paljon uutta sanastoa korpustekstiissä)
9:54
Kieltingassa oli ehotus ette lissäämä sanat mikkä oon Paulaharjun kirjoissa (ja mikkä oon sammaa kvääniksi ja puuttuu sanakirjasta)
9:56
Lisäksi possisiivisuffiksit ei mene läpi
9:57
Lisäksi se jakkaa sanat ja nimet välilä ouosti: institutti-Kvensk
9:59
Systeemi ei ymmärä ette Kyrie eleison kuluthaan yhtheen
head config.log
⇒ vastauksessa pitää olla
./configure –with-hfst –enable-tokenisers
make
echo Kyrie eleison |
hfst-tokenise -cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |
Preprosessointi on uudistettu, ja läyttää nyt
“"
"Kyrie eleison" Interj <W:0.0000000000>
:\n
"<>"
"đ" Cmp"NP/First" N Sem/Sign ABBR"+Gram/TAbbr" Attr <W:0.0000000000>
"đ" Cmp"NP/First" N Sem/Sign ABBR"+Gram/TAbbr" Sg Acc <W:0.0000000000>
"đ" Cmp"NP/First" N Sem/Sign ABBR"+Gram/TAbbr" Sg Nom <W:0.0000000000>
Tuomas:fkv thomas$
Making check in morphology
/Applications/Xcode.app/Contents/Developer/usr/bin/make check-TESTS
./tag_test.sh: Have a look at these:
+CmpNP/First
+Err7Orth ⇐== virhe (pitää korjata lexc-tiedostossa
+N.prees ??!+TV
n u k k u u t +V + I V +Act +Ind +Prs +Sg1 = 15 (ja väärin, koska +IV puuttuu root.lexc:sta)
n u k k u u t +V +IV +Act +Ind +Prs +Sg1 = 13
Oikein (ne pitää lisätä src/fst/root.lexc-tiedostoon Multichar_Symbolsina:
+IV
+Sem/Amount
+Sem/Curr
+Sem/Domain_Hum
+Sem/Edu_Hum
+Sem/Food-med
+Sem/Lang
+Sem/Part
+Sem/State
+Sem/Time
+Sg/Err/Orth ⇒ +Sg+Err/Orth
FAIL: tag_test.sh
xfst - FAIL
XFAIL: generate-verb-lemmas.sh
10:00
Kyrie ja eleison oon vieläki missinglistissä, mutta erillään
Kuka tahi mikä oon mj?
Vastaus:
-Kattoa kaikki sanat ja sen perusteella päättäät
-kattoot loggii
-kyssyyt heiltä kekkä olthiin myötä, Pirjo, Mervi, Trond
```
5207 ai
4668 ta
409 yr
340 mk
299 ia
236 es
169 ki
112 mj
73 oa
23 aili
14 gt
9 rk
6 grom
3 pirjo
2 t
1 ås
1 fb
1 anb
ai aikamatka
ta terje
yr yr
mk mari
ia irene ?
es eira
ki kvensk inst
rk = ruijan kaiku
fb = facebook
aili
```
2298 ta;ai
397 yr
332 mk
268 ia
236 es
169 ki
77 mj
70 oa
25 ta;ai;mj
23 aili
15 ta;ai;ia
14 gt
9 rk
8 ta;ia
7 ta;ai;yr
6 grom
5 ai;ia
3 ta;mk
3 pirjo
3 oa;mj
3 mk;mj
3 ai;yr
2 ta;mj
2 ta;ai;mk
2 t
1 yr;ia
1 ta;ai;ås
1 ta;ai;yr:ia
1 ta;ai:mj
1 ta;ai:ia
```
# Priorisointi
Sanakirja
Lisää sanoja (fkv->nob + nob->fkv
Kielipesien sanalistat
Linus-kirjat
Naamakirjan ja kielikahviloiden sanat
Paulaharju
Kainun instituutin tekstien sanat
Norjan (eri tekstialueiden) taajuussanalistat
Parempia (sana)artikkeleita
Käyttöesimerkkejä
rektio, jne.
Eri merkitykset
Lähdetieto
Miten sana pääsi sanakirjaan
Levikki
Missä (kolmessa) murteessa sana käytetään
Murteet
Äänteelliset erot
Muodolliset erot
Sanastolliset erot
Suurimman osan sanastosta on yhteinen
Erot kolmen(?)laisia
Sana löytyy vain murteesta a
Merktyksellä m on sana s1, s2, .. murteisa mu1, mu2, …
Samalla sanalla on eri merkitys / laajempi merkitys toisessa murteessa
```
LEXICON v1 !!= @CODE@ saađa:saa
+V+Inf:%>đ^A K ; ! đ
+V+Inf+Err/Orth:%>d^A K ; ! d
+V+Inf+Err/Orth:%>h^A K ; ! h
+V+Act+Ind+Prs: v12pers_short ;
+V+Act+Ind+Prt:%>i3 v12pers_short ;
+V+Act+Ind+Prs+Sg3:%>pi K ;
+V+Act+Ind+Prs+Pl3:%>đh^A^An K ; ! đ
+V+Act+Ind+Prs+Pl3+Err/Orth:%>dh^A^An K ; ! d
+V+Act+Ind+Prt+Sg3:%>i3 K ;
+V+Act+Ind+Prt+Pl3:%>thiin K ;
+V+Pass+Ind+Prs:%>đh^A^An K ; ! đ
+V+Pass+Ind+Prt:%>thiin K ;
+V+Act+PrfPrc+Sg+Nom:%>^N^U K ;
+V+Act+PrfPrc+Der/A+A+Sg+Nom:%>n^U K ;
+V+Act+PrfPrc+Der/A:%>ne x_31_ee_oblique ;
+V+Act+Ind+Prt+ConNeg+Sg:%>^N^U K ;
+V+Pass+PrfPrc+Sg+Nom:%>t^U K ;
+V+Pass+PrfPrc+Der/A+A:%>t^U x_21_odd ; ! ⇐=
+V+Pass+PrfPrc+Pl+Nom:%>đ^U%>t K ; ! delete XXX ?
### +V+Act+PrfPrc:n%>hee PRFPRC_OBL ;
+V+Act+PrfPrc:n%> PRFPRC_OBL ;
saa-nU
saa-tU
Saanu kirja
Saanheet kirjat
Saanheelle kirjalle
saan
+V+Act+PrfPrc+Der/A:%>ne x_31_ee_oblique ;
Löyttää vartalon
(mitä halluuma)
Astevaihtelu substantiiviitten kautta
Oikkee taggi (?)
olleevan
olleevan olla+V+Act+PrsPrc+Der/A+A+Sg+Gen
```
# Seuraava kokous
Möötti kahen viikon päästä