Um Beygingarlýsingu íslensks nútímamáls

Kristín Bjarnadóttir, 16. nóvember 2007

Vinna við Beygingarlýsingu íslensks nútímamáls (BÍN) hófst árið 2002 hjá Orðabók Háskólans. Beygingarlýsingin er safn beygingardæma á tölvutæku formi sem er grunnur að ýmiss konar tungutækniverkefnum en jafnframt er efnið birt á vefsetri Stofnunar Árna Magnússonar í íslenskum fræðum og gagnast þar með almennum notendum.

Markmiðið

Upphaflegt markmið með verkefninu var að koma upp beygingarlýsingu á tölvutæku formi til nota í ýmiss konar tungutækniverkefni en ítarleg beygingarlýsing er grundvöllur að vélrænni greiningu á íslenskum textum og nauðsynlegur undanfari orðflokkagreiningar og setningagreiningar.

Beygingarlýsingin nýtist t.d. við mörkun texta, við gerð leitarvéla, leiðréttingar- og þýðingarforrita, auk þess að vera forsenda skilvirkrar orðabókargerðar og heimildasöfnunar um tungumálið. Beygingarlýsingin er notuð innan stofnunar og utan.

Meðal verkefna þar sem BÍN er notuð eru

Upphaf og umfang

Útgáfa 1.0 af BÍN

Fyrsti áfangi verksins var unninn hjá Orðabók Háskólans fyrir styrk frá tungutækniverkefni menntamálaráðuneytisins og var gengið frá samningi um verkið 23. ágúst 2002. Þessum áfanga lauk 15. mars 2004 þegar menntamálaráðuneytinu var afhentur geisladiskur með útgáfu 1.0 af Beygingarlýsingunni með 173.389 beygingardæmum á formi xmlskráa.

Tungutækniverkefni menntamálaráðuneytisins

Tungutækniverkefni ráðuneytisins hófst haustið 1998 að frumkvæði Björns Bjarnasonar, þáverandi menntamálaráðherra. Í apríl 1999 birtist skýrsla starfshóps sem falið hafði verið að kanna hver staða íslenskrar tungu væri í upplýsingaþjóðfélaginu. Í starfshópnum voru Rögnvaldur Ólafsson eðlisfræðingur, Eiríkur Rögnvaldsson prófessor í íslensku og Þorgeir Sigurðsson, rafmagnsverkfræðingur og íslenskufræðingur (http://www.tungutaekni.is/ news/Skyrsla.pdf). Í skýrslunni kom fram að átak þyrfti að gera á fjórum sviðum (Rögnvaldur Ólafsson 2004:5):

Rögnvaldur segir einnig „að tilgangur Tungutækniverkefnisins sé að koma fótum undir tungutækni á Íslandi. Í því felst að byggja upp þekkingu á viðfangsefninu og þá gagnagrunna sem þarf til þess að hægt sé að nýta íslenskt mál, bæði ritað og mælt, í nýjustu samskipta- og tölvutækni.“ (Rögnvaldur Ólafsson 2004:5).

Auk Beygingarlýsingarinnar hlutu tvö önnur verkefni Orðabókar Háskólans styrk í þessu átaki, Málfræðilegur markari fyrir íslensku og Mörkuð íslensk málheild.

Vinnan við BÍN 1.0

Orðabók Háskólans og Edda hf. sóttu sameiginlega um styrkinn til gerðar Beygingarlýsingarinnar árið 2002. Orðabókin sá að öllu leyti um vinnuna og lagði til húsnæði, alla aðstöðu og aðgang að gögnum. Edda hf. lagði til endurskoðaða beygingarlýsingu sem Kristín Bjarnadóttir vann fyrir tölvuútgáfu Íslenskrar orðabókar 2002.

Orðaforðinn í BÍN 1.0 er að stofni til úr 3. útgáfu Íslenskrar orðabókar og úr söfnum Orðabókar Háskólans, sérstaklega úr Norræna verkefninu sem er íslenskur orðabókarstofn sem unninn var sem grunnur að tvímála orðabókum milli íslensku og annarra Norðurlandamála (www.lexis.hi.is/ kristinb/norr.pdf). Orðaforðinn í BÍN 1.0 er að mestu úr almennu máli en að auki eru þar tæplega 5 þúsund mannanöfn úr bókinni Nöfn Íslendinga eftir Guðrúnu Kvaran og Sigurð Jónsson frá Arnarvatni.

Helstu heimildir við rannsóknir á einstökum orðum og beygingarflokkum eru Ritmálsskrá og Textasafn Orðabókarinanr, auk handbóka greina og ritgerða um íslenskt mál. Ber þar sérstaklega að nefna bók Valtýs Guðmundssonar, Islandsk grammatik (1922).

BÍN 2.0 og birting á vefsíðu OH

Næsti áfangi í vinnu við BÍN var birting beygingardæmanna á vefsíðu Orðabókar Háskólans sem var kynnt 24. september 2004, á sextugsafmæli Orðabókarinnar. Jafnframt varð til útgáfa 2.0 af Beygingarlýsingunni sem afhent var menntamálaráðuneytinu 30. nóvember 2004 en þá lauk tungutækniverkefni ráðuneytisins formlega. Fjöldi beygingardæma í útgáfu 2.0 var rúmlega 176 þúsund.

BÍN 3.0 og Veflæg orðmyndabók

Haustið 2005 fengu Orðabók Háskólans og Spurl ehf. sameiginlega styrk úr Tækniþróunarsjóði til að vinna að gagnagrunni fyrir BÍN og gengur það verkefni undir nafninu Veflæg orðmyndabók (VO). VO er vefkerfi til viðhalds og umsýslu BÍN og það margfaldar notkunarmöguleikana á gögnunum.

Næsti áfangi í vinnu við BÍN (útgáfa 3.0) var kynntur sem tilraunaverkefni 25. ágúst 2006 en þá voru beygingardæmin rúmlega 209 þúsund og voru þá komin inn í nýja gagnagrunninn. Við yfirfærslu í gagnagrunninn voru beygingarflokkar endurskoðaðir og allt efni endurskipulagt.

Á degi íslenskrar tungu 16. nóvember 2007 var aðgangur að BÍN 3.0 opnaður á nýrri vefsíðu Stofnunar Árna Magnússonar í íslenskum fræðum. Fjöldi beygingardæma var þá tæplega 257 þúsund.

Tölur um orð, beygingarmyndir og orðflokka 16.11.2007

Orðflokkur Orðafjöldi Orðmyndafjöldi
Nafnorð 220.768 2.692.435
    Hvorugkyn 69.928 854.220
    Karlkyn 67.852 840.534
    Kvenkyn 81.986 997.681
Sagnir 7.522 592.739
Lýsingarorð 25.779 2.339.466
Atviksorð 1.979 2.239
Töluorð 4 69
Raðtölur 74 1.776
Persónufornöfn 7 52
Afturbeygt fornafn 1 3
Önnur fornöfn 34 765
Greinir 1 24

Athugið að þessar tölur eru frá 16.11.2007 og þær geta breyst hratt.

Efnið

Orðaforðinn í BÍN er aðallega úr almennu nútímamáli, auk mannanafna og örnefna. Dálítið er af orðum og orðmyndum úr eldra máli, ef ætla má að orðin komi fyrir í nútímamáli.

Við birtingu beygingardæmanna er markmiðið að einskorða efnið við raunverulegar myndir hvers orðs, þ.e. að sýna afbrigði þar sem það á við en fylla ekki upp í beygingardæmi með tilbúnum myndum. BÍN er byggð á tiltækum heimildum um beygingakerfið og rannsóknum á einstökum orðum í gagnasöfnum Orðabókarinnar og víðar.

Skipting orðaforðans í BÍN og heimildirnar

Norræna verkefnið 125.316
Íslensk orðabók 53.504
Ritmálsskrá OH 32.078
Landmælingar Íslands 19.051
Nöfn Íslendinga 4.197
Símaskrá 3.381
Þjóðskrá 3.365
Mannanafnaskrá 554
Annað 1.753

Þessar tölur eru frá því í október 2007.

Skiping orðaforðans í BÍN

Almennt mál 220.370
Mannanöfn
    Eiginnöfn 4.753
    Föðurnöfn 5.417
    Móðurnöfn 5.053
    Ættarnöfn
Örnefni 22.432

Þessar tölur eru frá því í október 2007.

Um beygingardæmin

Fjöldi beygingarmynda

Án afbrigða eru beygingarmyndir nafnorðs 16, þ.e. fjögur föll eintölu og fleirtölu, án greinis og með greini. Beygingarmyndir sagnar í persónuhætti eru 48, auk boðháttar og lýsingarhátta, en að þessu meðtöldu geta beygingarmyndir hverrar sagnar orðið 106. Þá eru spurnarmyndir sagna (t.d. ferðu, fórstu, fariði) ekki taldar með en þær birtast ekki á vefsíðunni. Beygingarmyndir lýsingarorðs sem tekur stigbreytingu eru allt að 120. Afbrigði geta fjölgað beygingarmyndum einstakra orða verulega.

Við birtingu beygingardæmanna er markmiðið að einskorða efnið við raunverulegar myndir hvers orðs í nútímamáli, að sýna afbrigði þar sem það á við en skilja eftir eyður þar sem göt eru í beygingardæmum.

Eyður í beygingardæmunum

Eyður eru t.d. í beygingardæmum fleirtöluorða (dyr, buxur, skæri, órar, töfrar), í sögnum sem ekki eru til í miðmynd (auðvelda), í miðmyndarsögnum (óttast) og í sögnum þar sem lýsingarhátt þátíðar vantar (duga, kunna). Þá eru eiginnöfn aðeins sýnd í eintölu og örnefni aðeins sýnd í þeirri tölu sem höfð er í hverju örnefni, eins og sjá má af beygingardæmunum Hóll og Hólar.

Afbrigði

Afbrigði eru sýnd þar sem það á við, t.d. í þágufalli eintölu af nafnorðinu hnífur en þar eru afbrigðin hníf og hnífi.

Afbrigði í BÍN eru strangt tiltekið jafnrétthá, óháð röðun, enda þarf að taka tillit til mismunandi þátta, t.d. uppruna og tíðni í nútímamáli. Það er því ekki einboðið hvernig röðin á að vera. Þrátt fyrir þennan fyrirvara er reynt að hafa röðina þannig að ákjósanlegasta myndin sé á undan víkjandi mynd, t.d. í Haraldur þar sem eignarfallið er Haralds/Haraldar.

Ef ástæða þykir til er birt athugasemd til notenda fyrir ofan beygingardæmið um notkun afbrigða, t.d. í tönn þar sem fleirtölumyndirnar tannir og tönnur eru sögð sjaldgæfar og í refur þar sem fleirtalan refar er bundin við orðasambönd, t.d. til þess eru refarnir skornir.

BÍN nær ekki yfir afbrigði úr eldra máli nema í undantekningartilvikum. Þau eru stundum látin fylgja í athugasemdum, án þess að þau komi fram í sjálfu beygingardæminu, t.d. þágufallsmyndirnar röddu, jörðu, moldu og beygingarmyndirnar ávöxtu og stjórnarháttu í þolfall fleirtölu af ávöxtur og stjórnarhættir.

Beygingakerfið og rétt mál og rangt

Skipting í beygingarflokka byggðist í fyrstu á kennimyndum og kenniföllum í Íslenskri orðabók (2002), svo langt sem hún náði. Þá var leitað heimilda í gagnasöfnum Orðabókarinnar og í öllum tiltækum málfræðibókum og greinum. Notadrýgsta yfirlitsritið reyndist vera Islandsk grammatik eftir Valtý Guðmundsson (1927). Sú bók er að vísu nokkuð gömul og tekur þar að auki mið af fornmáli að verulegu leyti. Leitað var að álitamálum í Textasafni Orðabókarinnar og í öllum tiltækum rafrænum textum þegar öll önnur ráð þraut.

BÍN er beygingarlýsing og henni er ætlað að sýna beygingarkerfið eins og það kemur fyrir í ræðu og riti í nútímamáli. Settar eru inn athugasemdir til notenda til að gefa vísbendingar um notkun þar sem ástæða þykir til, t.d. þar sem ein beygingarmynd þykir betri en önnur þó að báðar teljist tækar. Mörkin eru sett við birtingu efnis sem beinlínis er talið rangt mál en ljóst er að þar eru álitamálin mörg. Beygingarnar komustum, læknirar, mér langar og ég vill birtast því ekki í beygingardæmunum.

Ritháttur orða

Ástæða er til að taka fram að ritháttur orða er með ýmsu móti í BÍN enda er sú raunin í þeim heimildum sem orðaforðinn er fenginn úr, t.d. í Ritmálssafni Orðabókarinnar. Athugasemdir um réttritun fylgja orðum til hægðarauka fyrir notendur eftir því sem tök eru á. Þetta á t.d. við um ritmyndirnar allskyns, scandíum og breti þar sem vísað er á ritmyndirnar alls kyns, skandíum (og skandín) og Breti. Viðfangsefnið í BÍN er m.ö.o. beygingarkerfið og verkinu er ekki ætlað hlutverk stafsetningarreglna eða stafsetningarorðabókar.

Starfsfólk við BÍN

Kristín Bjarnadóttir verkefnisstjóri: Beygingarferlið, skipulag og kerfisgreining, beyging orða annarra en þeirra sem Þórdís Úlfarsdóttir sá um. Kristín lagði fyrstu drög að verkinu árið 2001 og hefur starfað við verkið síðan.

Þórdís Úlfarsdóttir: Beyging lýsingarorða og veikra sagna, 2003–2004 (BÍN 1.0–2.0).

Auður Þórunn Rögnvaldsdóttir: Leitaraðgangur á vefsíðu OH og gerð html- og xml-skráa, 2002–2004 (BÍN 1.0–2.0).

Aðalsteinn Eyþórsson: Yfirlestur veikra kvenkynsnafnorða, sumarið 2003 (BÍN 1.0).

Ragnhildur Hrönn Sigurðardóttir: Yfirlestur mannanafna, sumarið 2002 (BÍN 1.0).

Hjálmar Gíslason (hjá Spurl ehf., síðar Já hf): Verkefnisstjóri og forritari við gerð gagnagrunnsins fyrir BÍN 3.0, Veflægrar orðmyndabókar, frá 2005.

Aðrir starfsmenn Orðabókarinnar hafa jafnan leyst úr ýmiss konar álitamálum þegar eftir því hefur verið leitað og þeir hafa óspart veitt aðgang að gögnum sínum. Eiríkur Rögnvaldsson formaður stjórnar Orðabókar Háskólans lagði verkinu lið á allan hátt, allt frá því að fyrstu hugmyndir um verkið urðu til.

Óformleg verkefnisstjórn hjá OH: Eiríkur Rögnvaldsson, Sigrún Helgadóttir og Þórdís Úlfarsdóttir.

Aðgangur að efni úr BÍN

Rétthafi BÍN er Stofnun Árna Magnússonar í íslenskum fræðum sem sér um viðhald og dreifingu BÍN, samkvæmt samningi menntamálaráðuneytisins við Orðabók Háskólans frá 2005. Öll afritun efnis úr BÍN án skriflegs leyfis er bönnuð.

Aðgangur að BÍN á vefsíðu Stofnunar Árna Magnússonar er öllum opinn. Hægt er að leita að beygingardæmi með því að slá inn uppflettimynd eða beygingarmynd orðs, og nota má algildistákn í leitinni.

Efnið úr BÍN er sérstaklega ætlað til nota í tungutækniverkefni. Gerður er samningur um hvert einstakt verkefni þar sem skilmálar um afnot af BÍN eru settir fram. Þeir sem hafa hug á að nota efnið snúi sér til Kristínar Bjarnadóttur, ritstjóra BÍN.

Öll afritun efnis úr BÍN án skriflegs leyfis er bönnuð.

Heimildir

Guðrún Kvaran og Sigurður Jónsson frá Arnarvatni. 1991. Nöfn Íslendinga. Heimskringla, Reykjavík.

Kristín Bjarnadóttir. 2000. Beygingarlýsingin í Íslenskri orðabók. Óprentuð skýrsla, unnin fyrir Mál og menningu. 735 bls.

Kristín Bjarnadóttir. 1998. Norræna verkefnið. Óprentuð skýrsla. Orðabók Háskólans, www.lexis.hi.is/kristinb/norr.pdf.

Kristín Bjarnadóttir. 2004. Beygingarlýsing íslensks nútímamáls. Samspil tungu og tækni. Afrakstur tungutækniverkefnis menntamálaráðuneytisins. Menntamálaráðuneytið, bls. 23–25.

Mörður Árnason (ritstj.). 2002. Íslensk orðabók, 3. útgáfa. Tölvuútgáfa. Edda hf. – Miðlun og útgáfa, Reykjavík.

Rögnvaldur Ólafsson. 2004. Tungutækniverkefni menntamálaráðuneytisins. Samspil tungu og tækni. Afrakstur tungutækniverkefnis menntamálaráðuneytisins. Menntamálaráðuneytið, bls. 5–11.

Sigrún Helgadóttir. 2004. Markari fyrir íslenskan texta. Samspil tungu og tækni. Afrakstur tungutækniverkefnis menntamálaráðuneytisins. Menntamálaráðuneytið, bls. 57–64.

Sigrún Helgadóttir. 2004. Mörkuð íslensk málheild. Samspil tungu og tækni. Afrakstur tungutækniverkefnis menntamálaráðuneytisins. Menntamálaráðuneytið, bls. 65–71.

Valtýr Guðmundsson. 1922. Islandsk grammatik. H. Hagerups Forlag, Kaupmannahöfn.





© Orðabók Háskólans / Stofnun Árna Magnússonar í íslenskum fræðum 2002-2007
Öll afritun Beygingarlýsingarinnar er bönnuð án skriflegs leyfis.
Rétthafi efnisins er Stofnun Árna Magnússonar í íslenskum fræðum sem sér um vefsíðuna og miðlun efnisins samkvæmt samningi við Menntamálaráðuneytið.
Vefsíða í vinnslu. Athugasemdir og ábendingar berist Kristínu Bjarnadóttur.