GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.

View GiellaLT on GitHub

Page Content

Denne fila dokumenterer leksikonformatet i fila sme.nob.dict

Mekanisme:

Elsewhere for 4 alternativ: lemma 4 1 2 3 Altså: Default er 4, frå og med andre posisjon og mot høgre.

Ting å hugse på:

Ja, det ser ut til å være en rimelig konklusjon. Poenget er jo å utnytte dependensen, og vi skal se på muligheter for omskriving. Trond ser på det.

Vedlagt er en liste af de pardefs der forekom i cgdix i forbindelse med oversættelsesopslag (replace_patternsE). Min idé er at erstatte disse med en replace/insert-opskrift i sme.nob.dict: [from->to], og der kan være flere end én: [sg_m_RL_f__n] [pl->sg][n->n±m] ‘±’ bliver til ‘ ‘ (space) i output, tomrum er bare et beskyttet tegn i .dict-formatet. Af samme grund er der ‘=’ alle de steder i ord og lemmata, hvor i har mellemrum inde i ordet. Kan I færdiggøre og/eller kommentere omskrivningerne i pardef-filen? Ja, Lene skal gjøre dette.

Der er nogle enkelte uregelmæssigheder, jeg har udskrevet i toppen af .dict filen, hvor en cglex-regel syntes at gå efter en oversættelse, der slet ikke var i cgdix. Muligvis pga af et matching-problem i mit script. Men der er tale om ret få tilfælde, som i måske kan klare ved inspektion i filen. Ja, det er feil (uoverenstemmelse mellom .lex og .dix. fordi det har vært gjort endringer i dix som ikke er fulgt opp i lex. Disse tilfellene kan vi bare stryke.

MANGLENDE POS: En sidste ting: Normalt har jeg altid en POS for et .dict opslag (som _POS efter lemma), men cgdix havde entries uden POS, som så er blevet til _X. Er det korrekt gættet, at sme-input alligevel HAR en POS? Fordi så kan den evt. benyttes, eller også må MT-kernen slå op i dict med _X, når den ikke kan finde en “tilladt” ordklasse i input (N, A, ADV, V, PRON Det er riktig at vi ikke alltid har ført det opp i ordpar entrynen i dix. Det er flere grunner til dette:

1) noen tilhører loops for å lage tallord, ala njeallječuođinjeallje = fire-hundre-fire (= 404), og da skal PoS selvfølgelig bare komme til slutt.

2) noen får PoS i pardefs, og kunne like gjerne hatt det i selve entryen, f.eks. N ABBR - N ACR. Bør vi endre dette før ny dict-fil lages?

3) noen får flere PoS, f.eks. lemma ‘X’ får SL:pr og post => TL: pr (sme har mange ambiposisjoner), eller også lemma ‘X’ får SL:pr og post og adv => TL: pr og adv Disse liker jeg ikke helt fordi det er ikke alltid vi vil ha samme oversettelse til nob, og jeg kan omgjøre disse til ordpar i dix før ny dict-fil lages.

Lene tar seg av dette.

Til brev fredag 14.08

Lige for at sige, at det jo ikke kan “testes” i egentlig forstand, fordi der ikke er en sme2nor kerne endnu, der skal læse og bruge .dict filen. Hva inngår i en sme2nob-kjerne, og hva skal til for å lage den?

Så det jeg have feedback på, er mest, om I synes, det er realistisk, at have alle semantiske disambigueringsregler med i .dict-filen. Det er i de aller fleste tilfelle realistisk med .dict.

Spørsmålet er så om vi trenger formalismen fra .lex (altså ordinær CG) i tillegg til .dict. Det vet vi ikke enda, og det er også avhengig av dine *1 og *-1 -tilpasninger
(nedenfor). Med mapping av semantiske motiverte tagger, slik som du har skissert, burde fungere for de fleste reglene. I alle fall er vel mekanismen modulær nok til bare å legge til en .lexc etter .dict i pipeline?

*1 og *-1 har jeg forresten også fået til at virke nu (dog uden BARRIER). Fint.

Men under alle omstændigheder tror jeg, at meget at det kunne mere præcist formuleres som dependens: D=(….) Ja, det ser ut til å være en rimelig konklusjon. Poenget er jo å utnytte dependensen, og vi skal se på muligheter for omskriving. Trond ser på det.

Vi ser på .dict og finner disse:

Er det noen dependensrelasjoner vi mangler? Finnes det en urmoder (oldemor)?