GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. Read more about Why. See also How to get started and our Privacy document.

View GiellaLT on GitHub

Page Content

Denne fila dokumenterer leksikonformatet i fila sme.nob.dict

Mekanisme:

Elsewhere for 4 alternativ: lemma 4 1 2 3 Altså: Default er 4, frå og med andre posisjon og mot høgre.

Ting å hugse på:

Ja, det ser ut til å være en rimelig konklusjon. Poenget er jo å utnytte dependensen, og vi skal se på muligheter for omskriving. Trond ser på det.

Vedlagt er en liste af de pardefs der forekom i cgdix i forbindelse med oversættelsesopslag (replace_patternsE). Min idé er at erstatte disse med en replace/insert-opskrift i sme.nob.dict: [from->to], og der kan være flere end én: [sg_m_RL_f__n] [pl->sg][n->n±m] ‘±’ bliver til ‘ ‘ (space) i output, tomrum er bare et beskyttet tegn i .dict-formatet. Af samme grund er der ‘=’ alle de steder i ord og lemmata, hvor i har mellemrum inde i ordet. Kan I færdiggøre og/eller kommentere omskrivningerne i pardef-filen? Ja, Lene skal gjøre dette.

Der er nogle enkelte uregelmæssigheder, jeg har udskrevet i toppen af .dict filen, hvor en cglex-regel syntes at gå efter en oversættelse, der slet ikke var i cgdix. Muligvis pga af et matching-problem i mit script. Men der er tale om ret få tilfælde, som i måske kan klare ved inspektion i filen. Ja, det er feil (uoverenstemmelse mellom .lex og .dix. fordi det har vært gjort endringer i dix som ikke er fulgt opp i lex. Disse tilfellene kan vi bare stryke.

MANGLENDE POS: En sidste ting: Normalt har jeg altid en POS for et .dict opslag (som _POS efter lemma), men cgdix havde entries uden POS, som så er blevet til _X. Er det korrekt gættet, at sme-input alligevel HAR en POS? Fordi så kan den evt. benyttes, eller også må MT-kernen slå op i dict med _X, når den ikke kan finde en “tilladt” ordklasse i input (N, A, ADV, V, PRON Det er riktig at vi ikke alltid har ført det opp i ordpar entrynen i dix. Det er flere grunner til dette:

  1. noen tilhører loops for å lage tallord, ala njeallječuođinjeallje = fire-hundre-fire (= 404), og da skal PoS selvfølgelig bare komme til slutt.

  2. noen får PoS i pardefs, og kunne like gjerne hatt det i selve entryen, f.eks. N ABBR - N ACR. Bør vi endre dette før ny dict-fil lages?

  3. noen får flere PoS, f.eks. lemma ‘X’ får SL:pr og post => TL: pr (sme har mange ambiposisjoner), eller også lemma ‘X’ får SL:pr og post og adv => TL: pr og adv Disse liker jeg ikke helt fordi det er ikke alltid vi vil ha samme oversettelse til nob, og jeg kan omgjøre disse til ordpar i dix før ny dict-fil lages.

Lene tar seg av dette.

Til brev fredag 14.08

Lige for at sige, at det jo ikke kan “testes” i egentlig forstand, fordi der ikke er en sme2nor kerne endnu, der skal læse og bruge .dict filen. Hva inngår i en sme2nob-kjerne, og hva skal til for å lage den?

Så det jeg have feedback på, er mest, om I synes, det er realistisk, at have alle semantiske disambigueringsregler med i .dict-filen. Det er i de aller fleste tilfelle realistisk med .dict.

Spørsmålet er så om vi trenger formalismen fra .lex (altså ordinær CG) i tillegg til .dict. Det vet vi ikke enda, og det er også avhengig av dine _1 og _-1 -tilpasninger
(nedenfor). Med mapping av semantiske motiverte tagger, slik som du har skissert, burde fungere for de fleste reglene. I alle fall er vel mekanismen modulær nok til bare å legge til en .lexc etter .dict i pipeline?

_1 og _-1 har jeg forresten også fået til at virke nu (dog uden BARRIER). Fint.

Men under alle omstændigheder tror jeg, at meget at det kunne mere præcist formuleres som dependens: D=(….) Ja, det ser ut til å være en rimelig konklusjon. Poenget er jo å utnytte dependensen, og vi skal se på muligheter for omskriving. Trond ser på det.

Vi ser på .dict og finner disse:

Er det noen dependensrelasjoner vi mangler? Finnes det en urmoder (oldemor)?