Møte, Börselv 29.9.15
Hilde, Mari, Sindre, Anna-Kaisa, Trond
Innholdsfortegnelse:
- Gjøreliste og prioriteringer fremover
- Oversikt fra forrige møte
- Oversikt over hvor vi står og forskjellige tester
- Appendix
GJØRELISTE og prioriteringer fremover
!! Korpus
- Legg til et par store tekster i paralellkorpuset (Prioritet)
- Forskningsartikkelen?
- Sjekk me Merethe om Idar Kristiansen. Mangler det i korpus? Eller i ordboka? (OK)
- Er dette alt, Merethe?: freecorpus/orig/fkv/ficti/fiction/idar_kristiansen.docx (OK)
- Få tekster fra Nasjonalbiblioteket (Prioritet)
Språktinget
- Hvordan kan vi legge til rette for en mer effektiv prosess av vokabulardiskusjon?
- Språktingsordlister må legges til
Retteprogram
- Lag prosess for å rapportere feil i analysator, spesielt fra Merethe og Pirjo (Prioritet)
- Se på feil-“poengene” basert på skriveleifene vi får inn (Presicion & Recall. Type 1 og type 2 feil i statistikk)
- Rette vekter i editdistance, strings, words (filene)
- Finn naturlige feil fra fjasboka?
- Analysere feilkorpus fra studenter (søk om lov først) & Oahpa!
Norsk-Kvensk ordbok
- Legg til ord fra Sanapuohi (Prioritet)
- Legge til en funksjon som gjør at man kan rapportere feil/mangler i ordbøyinger (med en NB melding om at analysatoren ikke e perfekt/ferdig). (Prioritet)
- rydde i norske lemma (mellomrom). (litt)
- Ingen oppslagsord med 7 mellomrom lengre! Fortsatt 19 ord med 3 mellomrom, og 116 med 2!
- La faste uttrykk som vi ser at oftes søkes etter være der (Gratulerer med dagen - jeg heter - jeg er)
- Legge til vanlige ord som mangler, hvordan finner vi vanlige ord som mangler? Diskuter kommandoen m/Trond.
- Ordlister? Oahpa? Legge til ord fra språkkafé? Sanapuohi? Katso tammikuun referaatti.
- Legg til lemmaer funnet i Appendix under.
- facebookista sanoja?
Kvensk-Norsk ordbok
- Legg til ordboksfunksjonen på hjemmesiden (Prioritet)
- Sørge for at hele Ruijan Kaiku alltid skal være fullt lesbart med ordboka?
- se hva vi mangler fra RK ved Nasjonalbiblioteket
Analysator
- Lag script som telle antall ord i forskjellige kategoria. (Prioritet)
- flertallsfeil i nouns. (Prioritet)
- adjektivsfeil. (Prioritet)
- Nimet! (Prioritet)
- Fiks yaml-formattering. White space matters. (OK)
- twolc
- adjektiivit (resten av YAML-ene)
- johdokset
- Kattavuus
Oversikt over prosjektene
For brukerne
- nobfkv
- korjausohjelma
- fkvnob
Grunnmateriale
- analysaatori
- korpus
- rinnakkaiskorpus
Oversikt fra forrige møte:
Analysator
Gruppe 2: Trond, Lena, Sindre, Anna Kaisa
Retteprogram
- Analysatoren: Lydreglan, bøyingsreglan og flere ord. (OK)
- Lag prosess for å rapportere feil i analysator, spesielt fra Merethe og Pirjo (Prioritet)
- Top 5 på forslag, Precision & Recall
- Analysere feilkorpus fra studenter (søk om lov først) & Oahpa!
Språkopplæring
- Legge til en funksjon som gjør at man kan rapportere feil/mangler i ordbøyinger.
- Åpne tekstene som er i Fronter til allment bruk for alle!
- Integrere dette i et språkkurs via universitetet.
Ordbok
kvensk-norsk ordbok
Korpusarbeid
- Øk størrelsen på korpuset (OK)
- Lag frekvensliste fra Korpuset (OK)
- sjekk hvilke ord som mangler(OK)
- oversett og legg til i ordboka (delvis)
norsk-kvensk ordbok
Gruppe 1: Bjørnar, Tove, Mari, Merethe, Karin
Puohi (fra en norsk frekvensordbok)
- ta norske ord fra ulike temaområder (OK)
- oversett enkle ord som mangler til kvensk (litt)
- Send til språklærere
- oversett komplekse ord som mangler til kvensk
- rydde i norske lemma
Hvordan sjekke ordene?
- Få flere til å oversette lister
- Ha et parallellkorpus klart
- Søk ordene i parallellkorpuset, først og fremst et par store tekster (Prioritet)
- Gi over til Kventinget for politisk drøfting
Felles for begge ordbøker
- Legg til den finske disambiguatoren (etter sammarbeidsprosjektet med esterne), (OK)
- og gjør den kvensk
- Eksempel: kommando: fkvdis “Se tuli.”
"<Se>"
"se" Pron Pers Sg Nom
"<tuli>"
"tulla" V Act Ind Prt Sg3
"<.>"
"."
[https://gtsvn.uit.no/langtech/trunk/langs/fkv/src/syntax/disambiguation.cg3]
less src/morphology/root.lexc
Andre ting gjort siden sist:
- Fulle paradigmer i ordboka!
- Korpusintegrasjon i ordboka.
- Lagt til nye ord i ordboka.
- Begynt å få user feedback fra Ruijan Kaiku
- Språkkafe!
Oversikt over hvor vi står og forskjellige tester
Analysator, hvor mye av korpuset klarer analysatoren vår?:
- kun fkv: 81,4%
- fkv eller nob eller sme: 84,0%
- fkv eller nob eller sme tai fin: 90,1%
Topp-ti manglande av 90,1%:
184 Porsangi
46 olkhoon
46 oikheen
45 siittä
42 institutti-Kvensk
34 Varengin
30 miitä
30 elläimile
29 Pohjas-Ruijassa
28 mihiin
Montako sanaa:
cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|wc -l
Millaiset sanat ovat aidosti virheitä?
cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|ufkv|grep '?'|cut -f1|unob|grep '?'|cut -f1|ufin|grep '?'|cut -f1|sort|uniq -c|sort -nr|head -30
Yaml, hvor mange av våre tester for hele paradigmer klarer analysatoren? (bøyingsformer)
- SUBSTANTIV: FAILS - 44 / 2758
- VERB: FAILS - 66 / 2786
- ADJEKTIV: FAILS - 709 / 2227
Jos haluaa YAML-testata pelkästään teittyjä YAML:eita (esim. pelkästään adjektiivit), voi siirtää kaikki muuta YAML:it pois folderista /main/langs/fkv/test/src/gt-norm-yamls/ , tehdä “make check”, ja muista siirtää ne takas sen jälkeen tai svn up.
Check_lemma (alle grunnformene)
Tre sentrale adjektiv er feil:
- lyhyt+A+Sg+Nom lyh
- ohut+A+Sg+Nom oh
- vanha+A+Sg+Nom vanhae
Adjektiva er ikkje like godt dekka som substantiva:
hyvä+A+Pl+Par
hyvä+A+Pl+Par hyvi
hyvä+A+Pl+Par hyvväi
cat src/morphology/stems/adjectives.lexc |grep a_21|tr ':' ' '|cut -d" " -f1|sed 's/$/+A+Pl+Par/'|dfkv|see
Vi klare nominativ av alle substantiv! De (16) verban som fortsatt mangle er ikke ofte bruke verb.
Missing list for ordbok
*Hva slår folk opp, uten å få svar. Vi har en logg med 50 000 oppslag. Hvor slår folk opp ifra, IP nummer? Hvor mange brukera?
cat test/data/dict_nobfkv_user_log_150929.txt |grep False|cut -f1|unob|cut -f2|cut -d"+" -f1|nobfkv|less
cat test/data/dict_nobfkv_user_log_150929.txt |grep False|cut -f1|nobfkv|grep '?'|cut -f1|ufkv|grep '?'|cut -f1|sort|uniq -c|sort -nr|less
Oversikt til slutt i referatet.
Tiltak: Sjå på denne og fylle ut.
Spellchecker feil?
less test/data/typos.txt
echo " se on kväänitten asia" | preprocess --corr=test/data/typos.txt
see tools/spellcheckers/fstbased/hfst/words.default.txt
see tools/spellcheckers/fstbased/hfst/strings.default.txt
see tools/spellcheckers/fstbased/hfst/editdist.default.txt
1) Notater fra siste møte:
Analysator
Gruppe 2: Trond, Lena, Sindre, Anna Kaisa
Retteprogram
- Analysatoren: Lydreglan, bøyingsreglan og flere ord. (OK)
- Lag prosess for å rapportere feil i analysator, spesielt fra Merethe og Pirjo (Prioritet)
- Top 5 på forslag, Precision & Recall
- Analysere feilkorpus fra studenter (søk om lov først) & Oahpa!
Språkopplæring
- Legge til en funksjon som gjør at man kan rapportere feil/mangler i ordbøyinger.
- Åpne tekstene som er i Fronter til allment bruk for alle!
- Integrere dette i et språkkurs via universitetet.
Ordbok
kvensk-norsk ordbok
Korpusarbeid
- Øk størrelsen på korpuset (OK)
- Lag frekvensliste fra Korpuset (OK)
- sjekk hvilke ord som mangler(OK)
- oversett og legg til i ordboka (delvis)
norsk-kvensk ordbok
Gruppe 1: Bjørnar, Tove, Mari, Merethe, Karin
Puohi (fra en norsk frekvensordbok)
- ta norske ord fra ulike temaområder (OK)
- oversett enkle ord som mangler til kvensk (litt)
- Send til språklærere
- oversett komplekse ord som mangler til kvensk
- rydde i norske lemma (Prioritet)
Hvordan sjekke ordene?
- Få flere til å oversette lister
- Ha et parallellkorpus klart
- Søk ordene i parallellkorpuset, først og fremst et par store tekster (Prioritet)
- Gi over til Kventinget for politisk drøfting
Felles for begge ordbøker
- Legg til den finske disambiguatoren (etter sammarbeidsprosjektet med esterne), (OK)
- og gjør den kvensk
- Kommando:
fkvdis "Se tuli."
- Kommando:
"<Se>"
"se" Pron Pers Sg Nom
"<tuli>"
"tulla" V Act Ind Prt Sg3
"<.>"
"."
[https://gtsvn.uit.no/langtech/trunk/langs/fkv/src/syntax/disambiguation.cg3]
less src/morphology/root.lexc
Andre ting gjort siden sist:
*Fulle paradigmer i ordboka! *Korpusintegrasjon i ordboka. *Lagt til nye ord i ordboka. *Begynt å få user feedback fra Ruijan Kaiku *Språkkafe!
2) Oversikt over hvor vi står, Testing
Analysator, hvor mye av korpuset klarer analysatoren vår?:
- kun fkv: 81,4%
- fkv eller nob eller sme: 84,0%
- fkv eller nob eller sme tai fin: 90,1%
Topp-ti manglande av 90,1%:
184 Porsangi
46 olkhoon
46 oikheen
45 siittä
42 institutti-Kvensk
34 Varengin
30 miitä
30 elläimile
29 Pohjas-Ruijassa
28 mihiin
Montako sanaa:
cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|wc -l
Millaiset sanat ovat aidosti virheitä?
cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|ufkv|grep '?'|cut -f1|unob|grep '?'|cut -f1|ufin|grep '?'|cut -f1|usme|grep '?'|cut -f1|sort|uniq -c|sort -nr|head
Yaml, hvor mange av våre tester for hele paradigmer klarer analysatoren? (bøyingsformer)
-
SUBSTANTIV: FAILS - 44 / 2758
-
VERB: FAILS - 66 / 2786
-
ADJEKTIV: FAILS - 709 / 2227
Check_lemma (alle grunnformene)
Tre sentrale adjektiv er feil:
- lyhyt+A+Sg+Nom lyh
- ohut+A+Sg+Nom oh
- vanha+A+Sg+Nom vanhae
Adjektiva er ikkje like godt dekka som substantiva:
hyvä+A+Pl+Par
hyvä+A+Pl+Par hyvi
hyvä+A+Pl+Par hyvväi
Vi klare nominativ av alle substantiv! De få (16) verban som mangle er overhode ikke ofte bruke verb.
Missing list for ordbok
*Hva slår folk opp, uten å få svar. Vi har en logg med 50 000 oppslag. Hvor slår folk opp ifra, IP nummer? Hvor mange brukera?
| cat test/data/dict_nobfkv_user_log_150929.txt | grep False | cut -f1 | nobfkv | grep ‘?’ | cut -f1 | ufkv | grep ‘?’ | cut -f1 | sort | uniq -c | sort -nr | less |
Oversikt til slutt i referatet.
Tiltak: Sjå på denne og fylle ut.
Spellchecker feil?
X
3) GJØRELISTE og prioriteringer fremover
Korpus
- Sjekk me Merethe om Idar Kristiansen. Mangler det i korpus? Eller i ordboka?
- Er dette alt: freecorpus/orig/fkv/ficti/fiction/idar_kristiansen.docx
- Legg til et par store tekster i paralellkorpuset (Prioritet)
Språktinget?
- Hva kan vi gjøre med farten?
- Språktingsordlister må legges til
Retteprogram
- Rapporter feil i analysator, spesielt fra Merethe og Pirjo (Prioritet)
Norsk-Kvensk ordbok
- rydde i norske lemma (Prioritet)
- PLANLEGG NOE FOR NORSK KVENSK ORDBOK HER! Ordlister?
Kvensk-Norsk ordbok
X
Analysator
- Fiks yaml-formattering. Fire mellomrom. White space matters.
Appendix
- Anna-Kaisa
- Sindre
- Mari
- Merethe
- Karin
- Tove
Missing fkvnob:
10 ihan
8 vaatheet
8 sivu
8 myös
8 meila
7 puuhaa
7 pitä
7 keitellä
7 alottaat
7 None
6 lajela
6 festivaalin
6 asia
5 suanto
5 siili
5 sammaa
5 pyy
5 pykkään
5 puuha
5 pian
5 paussin
5 osoittheen
5 melkein
5 lähte
5 kävellä
5 kuinka
5 jotain
5 ittesti
5 fuonet
5 ajjat
Missing nobfkv
36 gratulerer
19 gratulere
16 liker
14 norge
13 jeg
12 heter
12 gratulerer med dagen
12 burde
11 tror
11 hoved
11 din
11 både
11 Gratulerer
10 lunsj
10 har
10 hallo
10 grønlandske
9 tusen takk
9 jeg er
9 informasjon
9 ha
9 bamse
8 nyte
8 leilighet
8 flott
8 fikk
7 samfunn
7 oppleve
6 ønsker
6 uansett
6 sønn
6 sliten
6 slem
6 prosjekt
6 oppføre
6 nei
6 nasjonal
6 medfødt
6 lenke
6 klem
6 jeg heter
6 inngang
6 hade
6 foredrag
6 drift
6 bo
5 våken
5 utvalg
5 utstilling
5 studie
5 snyte
5 salg
5 oppmerksomhet
5 offentlig
5 mist
5 levne
5 kott
5 kose
5 gøy
5 god natt
5 flertall
5 enten
5 ekte
5 bygge
5 broderi
5 anbefale
5 Velkommen
5 Hallo
4 vesen
4 travel
4 temperatur
4 tema
4 takk for oss
4 sverige
4 stadig
4 service
4 oppf
4 omalle
4 nitti
4 mosjon
4 krise
4 hei jeg heter
4 hadde
4 god dag
4 får
4 forestilling
4 fantastisk
4 er
4 ekspert
4 drikking på gang
4 dessverre
4 bøttekott
4 bolig
4 balle
3 å ha
3 wc
3 vårt
3 vanhaa
3 valp
3 vagina
3 utgang
3 unik
3 tygge
3 tromsø
3 trampe
3 tisse
3 til lykke
3 talosvankka
3 søppel
3 synonym
3 symaskin
3 stigen
3 speider
3 soldat
3 skamme
3 sjark
3 sarpsborg
3 regering
3 projekt
3 produsere
3 pizza
3 oversikt
3 ovenfor
3 oslo
3 oppvekst
3 oppskift
3 oppmerksom
3 opplæring
3 nordlys
3 nittenhundre
3 nasjonale
3 møttes
3 mormor
3 milepæl
3 mett
3 metsi
3 meny
3 meitemark
3 lykke til
3 los
3 lilla
3 lar
3 landsby
3 lafte
3 kun
3 kraftig
3 kompis
3 kalkun
3 kalender
3 jakte
3 insekt
3 innerst
3 innen
3 ifølge
3 høflig
3 hurra
3 hilsen
3 handel
3 hadet
3 ha det bra
3 gømme
3 gi ut
3 følelse
3 friste
3 fotograf
3 finnmark
3 feig
3 eksistere
3 eik
3 dusje
3 do
3 diskutere
3 det er sant
3 deres
3 caldera
3 båten
3 brakk
3 blid
3 bleie
3 bidra
3 bestikk
3 arrangement
3 and
3 ananas
3 aktivitet
3 God natt