GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.

View GiellaLT on GitHub

Bargovuohki

Dokumeanta čilge mo galgá bargat parallelliseremiin ja sirdit fiillaid prestable-katalogii.

Katalogat

Proseassa: Vuos konverteret, ja dan maŋŋil parallelliseret.

Gohččumat

Dihtogielalaš gohččumat geavahit nob2sma ovdamearkan

Viežžat corpustools ođđaseamos veršuvnna

Go leat main/tools/CorpusTools/

python setup.py install --user --install-scripts=$HOME/bin

Kompileret tokeniser gielaide maid dárbbašat

sihke langs/nob- ja langs/sma-máhpas:

./autogen.sh


./configure --prefix=$HOME/.local --without-xfst --with-hfst --enable-tokenisers --enable-reversed-intersect --enable-alignment


make -j


make install

Gávdnojitgo paralleallafiillat dihto giellabáras dihto máhpas?

Doaibmá freecorpusis/ ja boundcorpus/ -máhpain:

grep -rl '"sma" location="..*"' --include=*.xsl orig/nob/science/

Konverteret buot fiillaid dihto máhpas

convert2xml orig/nob/science/

convert2xml orig/sma/science/

Parallelliseret buot fiillaid dihto máhpas

parallelize -l2 sma converted/nob/science/

Reparallelliseret dihto fiilla

Go leat rievdadan xsl-fiillas, de dát gohččun sihke konvertere ja parallellisere ođđasit:

reparallelize FIILANAMMA.tmxhtml

Bargovuohki

  1. Iskka tmx-fiilla tmx-katalogas (mii ii leat svn:s)
  2. Divo xsl-fiilla orig-katalogas
  3. Vejolaččat raba fiilla converted-katalogas geahččat omd. gielladovdama dahje eará mii ii leat doaibman nugo galggašii, muhto ále divo dán fiillas.
  4. Parallellisere ođđasit: reparallelize tmxhtml
  5. Go leat duhtavaš, dahje don it sáhte fikset eanet xsl-fiillas, de sirddát fiilla omd. prestable/tmx/nob2sme/ ja šekket sisa (vuos svn add). Čále logas leago parallelliseren OK vai ii.
  6. Jus parallelliseren ii leat OK, de sáhtát divvut prestable-fiilla, ja de šekket ođđašit sisa kommentáraiguin (muital maid leat bargan).

Iskka tmx-fiilla tmx-katalogas

Mana buot omd. nob2sma-katalogaid alfabehtalaččat čađa (vuos freecorpus/tmx/nob2sma/admin/depts/other_files ja dan maŋŋel čuovvovaš kataloga (udir.no) jna.: Lea vejolaš rahpat buot fiillaid oktanaga kommandolinjjás: open *.tmx dahje dušše oasi, jos leat hui ollu fiillat: open a*.tmx jna.

Jos .tmx-fiillas ii leat parallealla sisdoallu:

Divo xsl-fiilla orig-katalogas

Mo rievddadit xsl-fiilla jos paralleallafiillas lea feaila:

Divo html-konverteren corpustools/htmlcontentconversion.py

Divo html-fiilla orig-katalogas

Maid sáhtát divvut orig-fiillas?

Nu unnán go vejolaš. Jos lea vejolaš fikset ášši .xsl-fiillas, de daga dan. Jos lea jierpmálaš divvut prestable-tmx-fiillas, de daga dan.

Metateaksta

Sáhtát orig-fiillas sihkkut metateavstta, mii bilida parallelliserema dahje gielladovdama, omd.

Fuom, ahte “buhtis” metateaksta (taggaid haga) lea álkit sihkkut .xsl-fiillas.

html-taggat

Jos parallelliseren manná endorii html-taggaid dihte, lea 4 molssueavttu

Nu

Muhto jos lea álkibut divvut tmx-teavstta, de daga na:

  1. svn mv prestable/../fiila.tmx stable/../fiila.tmx + svn ci
  2. rievdat -nodaid
  3. sjekke sisa divvojuvvon veršuvnna

Tagga (+ attribuhtta) lea vejolaš váldit eret das:

$GTHOME/tools/CorpusTools/corpustools/htmlcontentconverter.py

Prinsihpas lea maid vejolaš dahkat dan juohke fiillas, .xsl:as:

    <xsl:variable name="skip_elements" select="'.//body/div[1]/h2[1]'"/>

muhto dat ii velge doaimma.

Parallellisere ođđasit

jus lea rievdadan xsl-fiilla de

Jos lea buorre boađus:

Šekke sisa ođđa veršuvnnaid, sihke orig, convert ja prestable, ja merke OK bargolistui.

Jos lea measta riekta:

Šekke sisa ođđa veršuvnnaid, sihke orig, convert ja prestable, ja čále kommentára bargolistui.

Jos ii veahket,

Čále kommentára bargolistui, ja sihko tmx-fiilla ja dan html-veršuvnna prestable-katalogas, e.g.

svn rm prestable/tmx/nob2sma/facta/fiila.tmx
svn rm prestable/tmx/nob2sma/facta/fiila.tmx.html
svn ci -m "ii lean parallealla" prestable/tmx/nob2sma/facta/fiila.tmx prestable/tmx/nob2sma/facta/fiila.tmx.html

Lea vejolaš

Konverterenprográmma buggat

Čále listui ahte lea bugga, ja makkár dat lea, omd BUG-punktum dahje BUG-mellomtittel dahje BUG-språkgjenkjenning

omd mo listu sáhttá leat (go kommentára lea linnjá álggus, de lea álki sorteret:

OK :  prestable/tmx/nob2sma/facta/gielemnastedh.no/apen-barnehagedag.html.tmx.html
Sihkkon :  prestable/tmx/nob2sma/bible/osko/index.php_kat_id=102_art_id=88.html.tmx.html
To_be_fixed BUGpunktum (dahton loahpas) :  prestable/tmx/nob2sma/admin/sd/samediggi.no/sametinget-inviterer-til-duodjikonferanse-27.-28.-januar-2016.html.tmx.html