-
Notifications
You must be signed in to change notification settings - Fork 2
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Nytt verkty for å sortera taggar og sjekka lexc-strukturen i stems-filene (Bugzilla Bug 2487) #61
Comments
Comment 12826Date: 2018-05-15 15:41:41 +0200 Eg føreslår, slik eg nemnde i ein e-posttråd frå denne veka, at vi (=Børre) lagar eit nytt verkty som sjekkar at lexc-filene er slik dei skal vera. Verktyet skal sjekka (og ev retta):
Det skal vera mogleg å gjera språkspesifikke unnatak og tilpassingar i ei config-fil som kan liggja til dømes i src/morphology/ for kvart språk. |
Comment 12827Date: 2018-05-15 15:46:32 +0200 Mitt forslag til taggrekkjefylgje er (lista er vertikal slik at ein kan kommentera, men dei skal sjølvsagt stå etter kvarandre i lexc, slik at den øvste taggen står lengst til venstre i taggrekka): +vN Taggar som eg ikkje har synspunkt på (enno) er t.d.: +OLang/taggar |
Comment 12828Date: 2018-05-15 16:13:54 +0200 I tillegg har vi for diskusjon følgende Disse to karakteriserer morfologiske/morfofonologiske trekk ved lemmaet, og i noen tilfeller blir de dermed identifiserende for homonymer. |
Comment 12839Date: 2018-05-16 10:56:10 +0200 For å gjera det mogleg for Børre å laga eit robust verkty utan alt for mykje spesialkode og unnatak, bør vi konsekvent flytta all affiks-kode til affixes/. Slik det er no så er det mange av dei lukka ordklassene som blandar affiks- og stammeleksikon i same fil. |
Comment 12840Date: 2018-05-16 10:57:47 +0200 (In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#2)
Mitt syn på desse er at dei av nettopp den grunnen du nemner bør sjåast på som homonymitaggar, og behandlast/plasserast i samsvar med det. Vi tek eit eige møte på det neste veke. |
Comment 12844Date: 2018-05-16 14:43:54 +0200 Har laget en oversikt over taggene som finnes i langs//src/morphology/stems/.lexc |
Comment 12845Date: 2018-05-16 17:18:00 +0200 I langtech r166851 sorterer virkelig skriptet tagger i stems/*.lexc. Kjør det ved å skrive: Feil jeg vet om:
Når dere kjører det, så ser man ganske tydelig på diffene hvilke deler av koden i stems/*.lexc som bør flyttes til affixes. |
Comment 12848Date: 2018-05-18 08:50:06 +0200 Litt bakgrunn for diskusjonen om taggene som skiller mellom varianter eller homonymer. varianter: +vN homonymer +HomN er rett etter lemmaet og blir omvandlet til superskript i MT: lemma1 lemma2 |
Comment 12856Date: 2018-05-18 09:59:45 +0200 (In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#7)
Desse er enkle og rett fram å forhalda seg til.
Slik eg har forstått problemet med å flytta G3 og NomAg så gjeld det berre MT. Men om vi ser på dei som ekte homonymitaggar (sjølv om dei ikkje alltid speglar ein reell homonymi, dvs det finst ikkje noko parord utan G3- eller NomAg-taggen), og krev at dei alltid står rett etter lemmaet, og alltid står i bidix, så burde det ikkje vera noko problem? Dvs at vi gjer G3 og NomAg obligatorisk i alle samanhengar, på lik line med resten av lemmaet. |
Comment 12858Date: 2018-05-18 10:43:03 +0200
Dette vil gjøre bidix mye mindre robust. Dvs at alle som arbeider med bidix for sme-par, må kunne nordsamisk morfologi. +NomAg og +G3 er våre interne tagger som ikke finnes i ordbøker. I MT arbeidet trenger vi folk som er flinke i det andre språket i paret. I så tilfelle ville det være en bedre løsning at man skal bruke +NomAg og +G3 bare i de tilfellene at det er et reellt homonymipar, på linje med +HomN. Men +NomAg og +G3 har en verdi utover MT, nemlig i pedagogiske programmer, og kanskje grammatikkontrollen, kan man på grunnlag av disse taggene gi metalingvistisk informasjon til brukeren om at ordene ikke har stadieveksling i ortografien. For +NomAg kan man også kommentere diftongforenkling (slik som normen er no, skal det være diftongforenkling til tross for at halvparten av talerne ikke har det i sin dialekt.). Derfor er det nyttig å ha disse taggene også utenom homonymiparene. Det ville ellers være bra å få kommentar fra Kevin ang. transferfilene. HomN taggene er en del av lemmaet (govledh¹), men hvordan kan man løse +NomAg. Må denne også inn i lemmaet, f.eks: lemma_nomag, evt nomag som superskript, eller ville man kunne "usynliggjøre" ved at den er med i bidix: |
Comment 12913Date: 2018-06-05 18:36:38 +0200 (In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#9)
Om det er del av lemmaet er jo enklast for transfer (og høyrest eigentleg logisk ut, sidan homonymiar er sånt som tilfeldigvis (eller av historiske årsakar) har same lemma). Men det ser kanskje ikkje så pent ut med
eller kva det skulle vore. Om du har som første tagg, så kunne du kanskje hatt eit steg etter bidix og føre ekte transfer som berre har taggreinsk som oppgåve. Det ser ut som det er mogleg med $ echo '^bargi<sem_hum>$' |lt-proc -b sme-nob.autobil.bin|sed 's///g' $ echo '^bargi<sem_hum>$' |lt-proc -b sme-nob.autobil.bin|sed 's///g' | apertium-transfer -b /tmp/foo.t1x /tmp/foo.t1x.bin $ cat /tmp/foo.t1x Det er litt hackete, men ser jo ut til å fungera. |
Comment 12914Date: 2018-06-05 18:49:02 +0200
Hvis jeg tolker dette riktig, så er det to løsninger:
Jeg mener at vi ikke skal flytte +NomAg og +G3 til foran PoS hvis det ikke er gode grunner for det. Det skaper støy og en mindre robust bidix, og taggene inneholder informasjon utover det som +HomN taggene gjør, så derfor er de ikke helt sammenliknbare. For å få et likt system, vil jeg heller gå inn for å flytte +HomN taggen til etter PoS. |
Comment 12918Date: 2018-06-29 14:17:42 +0200 (In reply to Børre Gaup from comment giellalt/bugzilla-dummy#6)
Andre feil eg fann: I chp/ blir tre filer forandra. pronouns.lexc er ok/harmlaus/korrekt (men burde ikkje ha semtagg i seg), dei to andre filene blir øydelagde: + framfor taggar blir fjerna. Fint om du rettar slike feil før eg testar på nytt :-) |
Comment 12919Date: 2018-06-29 14:27:15 +0200 Mine feil er meir grunnleggjande: tf4-hsl-m0024:main trond$ giella-core/devtools/lexc-tag-sorter.py |
Comment 12920Date: 2018-07-02 12:24:53 +0200 (In reply to Trond Trosterud from comment giellalt/bugzilla-dummy#13)
Du må installere yaml-modulen, f.eks: sudo port install py-yaml |
Comment 12924Date: 2018-07-11 16:38:54 +0200 (In reply to Sjur Nørstebø Moshagen from comment giellalt/bugzilla-dummy#12)
Feilen med + foran tagger som blir fjernet er i orden nå. |
Comment 12925Date: 2018-07-11 16:54:02 +0200 (In reply to Sjur Nørstebø Moshagen from comment giellalt/bugzilla-dummy#1)
Taggene blir nå sortert i denne rekkefølgen. |
Comment 12926Date: 2018-07-11 16:57:16 +0200 Denne linjen i langs/vro/src/morphology/stems/punctuation.lexc +Sg+Nom+: # ; ! § blir endret til dette: ++Sg+Nom: # ; ! § Er det noe nytte i det siste plusstegnet i den opprinnelige linjen, eller kan den bare bli sløyfet? |
Comment 12929Date: 2018-07-13 22:53:50 +0200 (In reply to Børre Gaup from comment giellalt/bugzilla-dummy#17)
Ei slik linje finst for vro, sma, smj, og for dei to förste med +, for smj utan +. Eg forstår ikkje kva funksjon desse linjene har, men + etter Nom mp rett og slett vere feil. ==> fjern pluss-symbolet, for vro og sma. Kva det enn resulterer i vil bli det smj har i dag. |
This issue was created automatically with bugzilla2github
Bugzilla Bug 2487
Date: 2018-05-15T15:41:41+02:00
From: Sjur Nørstebø Moshagen <<sjur.n.moshagen>>
To: Børre Gaup <<borre.gaup>>
CC: elena.j.paulsen, lene.antonsen, linda.wiechetek, maja.l.kappfjell, thomas.omma, trond.trosterud, unhammer+apertium
Last updated: 2018-07-13T22:53:50+02:00
The text was updated successfully, but these errors were encountered: