Faroese NLP Grammar

Finite state and Constraint Grammar based analysers, proofing tools and other resources

View the project on GitHub giellalt/lang-fao

Møde om fao-rættstavari og korpus 19.4.21 Til stades: Hjalmar, Trond, Heðin.

Saksliste:

  1. Stavekontroll 1.1 installering 1.2 lingvistikk
  2. Korpus

  3. Stavekontroll

1.1 installering

Mål: alt skal fungere for alle operativsystem via https://divvun.no/no/index.html

Status no er dessverre litt annleis. Vi ser på status på ulike operativsystem.

1.1.1 Windows

Her fungerer så vidt vi veit alt som det skal.

1.1.2 Mac

Dette fungerer [via Divvun installer]

Her er det to ulike tilfelle:

a. Stavekontroll integrert i MS Word:

Det har vi enno ikkje fått til. Vi veit ikkje når det vil fungere, og kan ikkje love noko, sjølv at vi altså arbeider med saka. Problemet er at Microsoft gjer det vanskeleg for tredjeparsutviklarar.

b. Stavekontroll lagt “oppå” MS Word:

Dette har fungert fream til for ei veke sidan. Det skal fungere, men har no vore nede i ei veke Det er under arbeid. Problemet er at IT-avdelinga har stengt eksterne utviklarar ute frå maskinene våre, og dermed også programmerarane våre. Dette blir ordna denne veka.

Prosessen for å installere er enkel: Brukaren hentar plugin for Mac frå Office365-nettbutikken, men problemet er altså ein feil i Tromsø.

NB! Med denne løysinga (stavekontroll “oppå” Word får brukaren grammatikkontroll på kjøpet. Vi må evaluere det og vurdere å slå av grammatikkontrollreglar for færøysk som gjev falke alarmar.

Det fungerer for LO [men ikkje via Divvun Installer] Derimot må folk gå til https://divvun.org/proofing/proofing.html Vi vil integrert LO-versjonen i installeringsprogrammet, og arbeider med saka.

Denne fungerer, her:

https://divvun.org/proofing/online-speller.html

Versjonen er frå 11.3. 2021.

1.1.3 chromeOS og Chromebook

ChromeOS er eit lukka system der berre Google sine eigne program er mogleg å bruke. Vi kan i dag ikkje få programmet vårt inn der. Evt retting må gå via nettbaserte løysingar, t.d. på MS oficce365 eller Online-versjonen av stavekontrollen.

1.2 lingvistikk (innhaldet i stavekontrollen)

1.2.1. Dekningsgrad:

Stavekontrollen har 98.5 dekning. Det er svært bra, men likevel dårleg på fotballreferat [og andre domene]

1.2.2. Framleggsmekanisme

Her er det rom for forbetring.

1.2.3. Handsaminga av namn

Dette skrik etter ein færing.

a. bøye dei rett a. s b. få tak i namna vi manglar

  1. Korpus

Setur treng ekstern finansing.

2.1. Søknad til Nordlingnet med Island:

Hjalmar orienterte.

Dette er pengar til Setur for å samle inn tekst

Trond kontaktar Island for å få kopi av søknaden.

Vi får avklart snart om prosjektet får pengar.

2.2 Ravnur

Dei har masse tekst. Vi har 10 mill. Kanskje kan vi bytte?

2.3. det eksisterande korpuset:

2.3.1. Tekstane

Tekstane er her:

Grensesnittet for 10 mill færøysk http://gtweb.uit.no/f_korp/?mode=fao#?lang=nb&stats_reduce=word&cqp=%5B%5D

Dette kan bli søkt på med ulike metodar.

Tekstane er også tilgjengeleg:

Original: https://gtsvn.uit.no/freecorpus/orig/fao/

Konvertert: https://gtsvn.uit.no/freecorpus/converted/fao/

I tillegg har Tromsø heile korpuset som ei fil.

2.3.2 Arbeid framover med korpuset

Trond la fram døme (sjå nedover):

Det vil vere naturleg å vurdere arbeid med korpuset etter at vi veit korleis det har gått med den islandske søknaden (om det ikkje har tatt for lang tid).

Trond sitt oversyn:

Det vil det vere ein god idé å

Her er eit oversyn:

– Aviser: Det som er samla inn (Göteborg). Andre aviser. Avisene bør ha eigeninteresse av å stille e-tekst vederlagsfritt til rådvelde for korpuset, dei kan sjølv ha nytte av eit slikt korpus. – Bibelen. Her føreligg teksten, og det som skal til er ein samtale med dei rette personane. – Offentleg tekst, sentrale styresmakter. Her har eg samla inn ein god del, men dokker bør sjå kva som manglar – Offentleg tekst, kommunane. Dette veit eg ingen ting om, men kommunal tekst er fimelegvis tilgjengeleg elektronisk og utan bindingar (både utgreiingar, plandokument, kommunestyrereferat og kva det no kan vere) – Sakprosa og skjønnlitteratur. Her er det kontakt med forlaga som gjeld – Andre kjelder?

Andre korpusplanar har vore dialektkorpora, som har involvert transkribering, og dermed vore svært kostnadskrevjande. Det korpuset som er skissert her, eit korpus over den færøyske skriftkulturen er noko heilt anna.

Det er to arbeidskrevjande delar:

Døme: Sprótin La oss for eksempel seie at Sprotin vil stille dei skjønnlitterære bøkene sin til disposisjon for korpuset (sjølvsagt med ei ordning der tekstane ikkje blir tilgjengelege for tredjepart). Dei har bøkene i elektronisk format, og gjev ein kopi til oss. Det å legge dei inn i korpus er ein overkommeleg oppgåve, den største deien av jobben med korpuset blir å legge inn metadata: Forfattar, tittel, omsetjar, publikasjonsår. Den eigentlege jobben blir altså forhandlingane med Sprotin. Eg såg gjennom utvalet deira under “Pappírsbøkur” og fann 428 bøker. For det mariske korpuset vi har har vi 83 skjønnlitterære prosabøker, dei utgjer i overkant av 40 millionar ord, vel tilsvarande 50 millionar færøyske ord. For Sprotin sine 428 bøker bør vi med andre ord kunne vente oss eit korpus på 250 millionar ord. Eit godt stykke dei 13 milliardane som finst for svensk, men likevel ein god start.

No trur eg ikkje vi vil få alle desse bøkene hos Sprotin. Dei har alle ulike bindingar til ulike land, forfattarar og forlag. Men poenget mitt er at det går an å setje seg ned, vurdere den færøyske skriftkulturen sine kvinner og menn, og konkludere med kvar gjerdet er lågast. Alt blir sjølvsagt alltid betre med ressursar. Men måten å få slike ressursar på bør vere å ta det vi har, gjere det stort nok til å bli nyttig, og deretter gå og be om pengar til å få meir.