GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.
Do this if you find files in freecorpus that aren’t parallel anyway (or how to improve freecorpus in sixteen simple steps)
To find files with wrong sentence alignment:
Open a terminal. Run tmx2html.sh. This converts all .tmx files to html files. This makes it easier to read the parallelized files.
Go to: $GTFREE/prestable/tmx/nob2sme
If you want to check in which files the word is, grep word in sentence that has wrong alignment:
nob2sme $ grep -rl bransjep . | grep -v '.svn' | less
./admin/depts/regjeringen.no/aktuelt.html_id=166.tmx
./admin/depts/regjeringen.no/arbeid_og_velferd.html_id=210.tmx
./admin/depts/regjeringen.no/nyheter.html_id=174.tmx
./admin/depts/regjeringen.no/pressemeldinger.html_id=184.tmx
Check all the listed files
NOW YOU CAN START TO FIX THE FREECORPUS
~ $ cd freecorpus
$ find orig -name '*id=210*' | grep -v ".svn"
orig/eng/admin/depts/regjeringen.no/engelsk-tema.html_id=210
orig/eng/admin/depts/regjeringen.no/engelsk-tema.html_id=210.xsl
orig/nno/admin/depts/regjeringen.no/arbeid-og-velferd-nynorsk.html_id=210
orig/nno/admin/depts/regjeringen.no/arbeid-og-velferd-nynorsk.html_id=210.xsl
orig/nob/admin/depts/regjeringen.no/arbeid_og_velferd.html_id=210
orig/nob/admin/depts/regjeringen.no/arbeid_og_velferd.html_id=210.xsl
orig/sme/admin/depts/regjeringen.no/bargu-ja-algu.html_id=210
orig/sme/admin/depts/regjeringen.no/bargu-ja-algu.html_id=210.xsl
In SubEthaEdit press cmd+r to open the files in a webbrowser.
If the files are not parallel files, change the sme xsl-file and delete information about parallel files (line 83-96). Check also line 60-79 (multilanguages): $ see orig/sme/admin/depts/regjeringen.no/bargu-ja-algu.html_id=210.xsl
Convert the file xml to check if there are any errors in xsl-file: $ convert2xml orig/sme/admin/depts/regjeringen.no/bargu-ja-algu.html_id=210
If converted succesfully, check in xsl-file: $ svn ci -m “This file doesn’t have a parallel nob version” orig/sme/admin/depts/regjeringen.no/bargu-ja-algu.html_id=210.xsl
Find the rest of the files with the same id number:
$ find orig -name '*id=210*' | grep -v ".svn"
orig/eng/admin/depts/regjeringen.no/engelsk-tema.html_id=210
orig/eng/admin/depts/regjeringen.no/engelsk-tema.html_id=210.xsl
orig/nno/admin/depts/regjeringen.no/arbeid-og-velferd-nynorsk.html_id=210
orig/nno/admin/depts/regjeringen.no/arbeid-og-velferd-nynorsk.html_id=210.xsl
orig/nob/admin/depts/regjeringen.no/arbeid_og_velferd.html_id=210
orig/nob/admin/depts/regjeringen.no/arbeid_og_velferd.html_id=210.xsl
svn rm the other languages except sme (6 files; 2 eng, 2 nno, 2 nob): $ svn rm orig/eng/admin/depts/regjeringen.no/engelsk-tema.html_id=210 ./eng/admin/depts/regjeringen.no/engelsk-tema.html_id=210.xsl ./nno/admin/depts/regjeringen.no/arbeid-og-velferd-nynorsk.html_id=210 ./nno/admin/depts/regjeringen.no/arbeid-og-velferd-nynorsk.html_id=210.xsl ./nob/admin/depts/regjeringen.no/arbeid_og_velferd.html_id=210 ./nob/admin/depts/regjeringen.no/arbeid_og_velferd.html_id=210.xsl
check in the changes: svn ci -m “deleted files with no parallel Saami translation”
Find the rest of the files with same id number in prestable and delete them:
freecorpus $ find prestable -name '*id=210*' | grep -v '.svn'
Delete the files (5 files: 3 in converted, 1 in tmx and 1 in toktmx): freecorpus $ svn rm prestable/converted/nob/admin/depts/regjeringen.no/arbeid_og_velferd.html_id=210.xml prestable/converted/sme/admin/depts/regjeringen.no/bargu-ja- algu.html_id=210.typos prestable/converted/sme/admin/depts/regjeringen.no/bargu-ja- algu.html_id=210.xml prestable/tmx/nob2sme/admin/depts/regjeringen.no/arbeid_og_velferd.html_id=210.tmx prestable/toktmx/nob2sme/admin/depts/regjeringen.no/arbeid_og_velferd.html_id=210.toktmx
Check in the changes: svn ci -m “deleting useless files, they weren’t parallel anyway”