Møte om lule- og sørsamisk korpusinnsamling
17.12. 2014. Børre, Kevin, Sandra, Trond.
sme→smj
- $GTHOME/words/dicts/smesmj/
- $GTHOME/words/dicts/smesmj/src/ = kjeldefiler til ordboka
- $GTHOME/words/dicts/smesmj/script = for å kompilere fst av ordboka
Ordboka smesmj
Dette er ei ordbok:
echo čállit | lookup -q $GTHOME/words/dicts/smesmj/bin/smesmj.fst
čállit tjállet
Lulesamifisering
Dette er ein lulesamifiserar:
Kommandosett for å kompilere lulesamifiserar:
cd $GTHOME/gt/smj/src/
xfst -e "source sme2smj-lexeme.xfst" -e "save stack sme2smj.fst" -stop
Bruk:
lookup -q sme2smj.fst
čállit
cat nordsamisk-tekst.txt | preprocess | lookup -q sme2smj.fst
echo "Mun lean okta sápmelaš." | preprocess | lookup -q sme2smj.fst
Uutnytta kjelder til korpus
- [http://sametinget.no] har firespråklege sider
** I dag hentar vi ingen ting frå Sametinget.
** Utfordring: Unngå duplikat. Svar: Sjekke dato på siste høsting og hente berre nyare
- Pressemeldingar frå [http://regjeringen.no] ligg i dag i freecorpus/mixed
Filer i freecorpus/smj:
- other_files
** hp_2009_samisk_sprak_lulesam.pdf.xsl
** reindrift_konvensjon_norge_sverige_lulesamisk_070710.pdf.xsl
** reindrift_omraadeprotokoll_til_konvensjon_mellom_norge_sverige_lulesamisk.pdf.xsl
** reindrift_vedtekter_for_norsk_svensk_reinbeitenemnden_og_norsk_svensk_overprovingsnemnden_lulesamisk.pdf.xsl
** sami_samekonv_lulesamisk.pdf.xsl
- regjeringen.no: Pressemeldingar
- Kintel AS har faste avtalar med Sametinget og KMD.
- Tysfjord kommune
TODO
- Børre og Kevin diskuterer desse skripta ++
Đ* Mixed-diskusjonen held fram
- Sandra tar ein samtale med LT og med Árran om admin-tekstar
Tekniske aspekt
Ordboksformat osb.
words/dicts/LaLb/
- dtd/ - dette har vi ikkje no
- bin/ tom (vente på kompilerte filer)
- src/ - kjeldefilene
- script/ - nettopp det (her kanskje noko a la smesmj.sh
- inc/ - mykje rart
- LaLb.sh (shellscript som gjer xml om til lexc og deretter til fst)
** (visse har make-smedict eller Makefile i tillegg …)
Digresjon: dtd:
Vi har: words/dicts/script/gt_dictionary.dtd
Vi vil lage dtd for LaLb.xml for alle ordbøker, og legg i LaLb/dtd
deretter mekke og standardisere modulo ordbok
Arbeidsplan
- norske kandidatord:
** dei som har høgare frekvens i fad-korpus enn i norsk *** fadkorpus = freecorpus/prestable/tmx (samiske tema)
_ Ta ut den norske delen, OBT-analyser og finn frekvens
_ [http://gtweb.uit.no/korp/?mode=parallel#parallel_corpora=nob]
** nobsme silt mot ei admin-frekvensordliste
- sjekk mot nobsmj, fjern dei som allereie ligg der
- ta resten, omsett til sme
- lulesamifiser til smj // smesmj-ordbok
- sjekk
** sjekk lulesamifisert form mot smj-korpus
** manuell sjekk av lulesamifisert form
Neste møte
Torsdag 8.1. kl. 9.