Um Beygingarlýsingu íslensks nútímamáls

Kristín Bjarnadóttir, 11. nóvember 2009

Beygingarlýsing íslensks nútímamáls (BÍN) er safn beygingardæma á tölvutæku formi sem er grunnur að ýmiss konar tungutækniverkefnum en jafnframt er efnið birt á vefsetri Stofnunar Árna Magnússonar í íslenskum fræðum og gagnast þar með almennum notendum. Vinna við BíN hófst árið 2002 hjá Orðabók Háskólans.

Rétthafi BÍN er Stofnun Árna Magnússonar í íslenskum fræðum sem sér um viðhald og dreifingu BÍN, samkvæmt samningi menntamálaráðuneytisins við Orðabók Háskólans frá 2005.

Aðgangur að BÍN á vefsíðu Stofnunar Árna Magnússonar er öllum opinn. Hægt er að leita að beygingardæmi með því að slá inn uppflettimynd eða beygingarmynd orðs, og nota má algildistákn í leitinni.

Efnið úr BÍN er sérstaklega ætlað til nota í tungutækniverkefni. Frá 11. nóvember 2009 er aðgangur að gögnum úr BÍN opinn á vefsíðu BÍN, fyrir atbeina Já sem styrkir verkefnið. Skilmálar fyrir leyfi til að nota gögnin eru hér.

Sérstök vefsíða hefur nú verið opnuð sem kynnir þetta átak og samvinnu Stofnunar Árna Magnússonar í íslenskum fræðum og Já, Orðið.is.

Markmiðið

Upphaflegt markmið með verkefninu var að koma upp beygingarlýsingu á tölvutæku formi til nota í ýmiss konar tungutækniverkefni en ítarleg beygingarlýsing er grundvöllur að vélrænni greiningu á íslenskum textum og nauðsynlegur undanfari orðflokkagreiningar og setningagreiningar.

Beygingarlýsingin nýtist t.d. við mörkun texta, við gerð leitarvéla, leiðréttingar- og þýðingarforrita, auk þess að vera forsenda skilvirkrar orðabókargerðar og heimildasöfnunar um tungumálið. Beygingarlýsingin er notuð innan stofnunar og utan.

Meðal verkefna þar sem BÍN er eða hefur verið notuð eru

Upphaf og umfang

Útgáfa 1.0 af BÍN

Fyrsti áfangi verksins var unninn hjá Orðabók Háskólans fyrir styrk frá tungutækniverkefni menntamálaráðuneytisins og var gengið frá samningi um verkið 23. ágúst 2002. Þessum áfanga lauk 15. mars 2004 þegar menntamálaráðuneytinu var afhentur geisladiskur með útgáfu 1.0 af Beygingarlýsingunni með 173.389 beygingardæmum á formi xml-skráa.

Tungutækniverkefni menntamálaráðuneytisins

Tungutækniverkefni ráðuneytisins hófst haustið 1998 að frumkvæði Björns Bjarnasonar, þáverandi menntamálaráðherra. Í apríl 1999 birtist skýrsla starfshóps sem falið hafði verið að kanna hver staða íslenskrar tungu væri í upplýsingaþjóðfélaginu. Í starfshópnum voru Rögnvaldur Ólafsson eðlisfræðingur, Eiríkur Rögnvaldsson prófessor í íslenskri málfræði og Þorgeir Sigurðsson, rafmagnsverkfræðingur og íslenskufræðingur. Í skýrslunni kom fram að átak þyrfti að gera á fjórum sviðum (Rögnvaldur Ólafsson 2004:5):

Rögnvaldur segir einnig ,,að tilgangur Tungutækniverkefnisins sé að koma fótum undir tungutækni á Íslandi. Í því felst að byggja upp þekkingu á viðfangsefninu og þá gagnagrunna sem þarf til þess að hægt sé að nýta íslenskt mál, bæði ritað og mælt, í nýjustu samskipta- og tölvutækni." (Rögnvaldur Ólafsson 2004:5).

Auk Beygingarlýsingarinnar hlutu tvö önnur verkefni Orðabókar Háskólans styrk í þessu átaki, Málfræðilegur markari fyrir íslensku og Mörkuð íslensk málheild.

Vinnan við BÍN 1.0

Orðabók Háskólans og Edda hf. sóttu sameiginlega um styrkinn til gerðar Beygingarlýsingarinnar árið 2002. Orðabókin sá að öllu leyti um vinnuna og lagði til húsnæði, alla aðstöðu og aðgang að gögnum. Edda hf. lagði til endurskoðaða beygingarlýsingu sem Kristín Bjarnadóttir vann fyrir tölvuútgáfu Íslenskrar orðabókar 2002.

Orðaforðinn í BÍN 1.0 er að stofni til úr 3. útgáfu Íslenskrar orðabókar og úr söfnum Orðabókar Háskólans, sérstaklega úr Norræna verkefninu sem er íslenskur orðabókarstofn sem unninn var sem grunnur að tvímála orðabókum milli íslensku og annarra Norðurlandamála (www.lexis.hi.is/ kristinb/norr.pdf). Orðaforðinn í BÍN 1.0 er að mestu úr almennu máli en að auki eru þar tæplega 5 þúsund mannanöfn úr bókinni Nöfn Íslendinga eftir Guðrúnu Kvaran og Sigurð Jónsson frá Arnarvatni.

Helstu heimildir við rannsóknir á einstökum orðum og beygingarflokkum í BÍN 1.0 voru Ritmálsskrá og Textasafn Orðabókar Háskólans, auk handbóka greina og ritgerða um íslenskt mál. Ber þar sérstaklega að nefna bók Valtýs Guðmundssonar, Islandsk grammatik (1922).

BÍN 2.0 og birting á vefsíðu OH

Næsti áfangi í vinnu við BÍN var birting beygingardæmanna á vefsíðu Orðabókar Háskólans sem var kynnt 24. september 2004, á sextugsafmæli Orðabókarinnar. Jafnframt varð til útgáfa 2.0 af Beygingarlýsingunni sem afhent var menntamálaráðuneytinu 30. nóvember 2004 en þá lauk tungutækniverkefni ráðuneytisins formlega. Fjöldi beygingardæma í útgáfu 2.0 var rúmlega 176 þúsund.

BÍN 3.0 og Veflæg orðmyndabók

Haustið 2005 fengu Orðabók Háskólans og Spurl ehf. sameiginlega styrk úr Tækniþróunarsjóði til að vinna að gagnagrunni fyrir BÍN. Hjálmar Gíslason hjá Spurl hafði þá notað gögn úr BÍN til þess að gera leitarvélina Emblu fyrir Morgunblaðið en það var fyrsta íslenska leitarvélin sem leitaði að öllum beygingarmyndum orðs í einu. Verkefnið um gagnagrunn fyrir BÍN gengur undir nafninu Veflæg orðmyndabók (VO) en það er vefkerfi til viðhalds og umsýslu BÍN sem margfaldar notkunarmöguleikana á gögnunum.

Næsti áfangi í vinnu við BÍN (útgáfa 3.0) var kynntur sem tilraunaverkefni 25. ágúst 2006 en þá voru beygingardæmin rúmlega 209 þúsund og voru þá komin inn í nýja gagnagrunninn. Við yfirfærslu í gagnagrunninn voru beygingarflokkar endurskoðaðir og allt efni endurskipulagt.

Á degi íslenskrar tungu 16. nóvember 2007 var opnaður aðgangur að BÍN á nýrri vefsíðu Stofnunar Árna Magnússonar í íslenskum fræðum (SÁ) en Orðabók Háskólans varð hluti SÁ 1. september 2007. Fjöldi beygingardæma var þá tæplega 257 þúsund. Í nóvember 2009 eru uppflettiorð ríflega 270 þúsund. Heimsóknir á vefinn í október 2009 voru 24.345.

BÍN og Já

Spurl er nú hluti Já og Orðabók Háskólans er nú hluti Stofnunar Árna Magnússonar í íslenskum fræðum en samvinnan um VO heldur áfram. Haustið 2009 var aðgangur að tölvutækum gögnum úr BÍN opnaður, með atbeina Já sem styrkir framtakið. Jafnframt efnir Já til samkeppni um notkun á gögnum úr BÍN.

Efniviðurinn í BÍN

Orðaforðinn í BÍN er aðallega úr almennu nútímamáli, auk mannanafna og örnefna. Vinna við sérorðaforða er komin nokkuð á veg á má þar nefna orðaforðann úr Tölvuorðasafni (4. útg, 2005), úr nýrri þýðingu Biblíunnar (2007), ásamt talsverðum fjölda fyrirtækja- og stofnanaheita. Dálítið er af orðum og orðmyndum úr eldra máli, ef ætla má að orðin komi fyrir í nútímamáli.

Skiping orðaforðans í BÍN 11.11.2009

Almennt mál 220.530
Eiginnöfn 4.755
Föðurnöfn 5.416
Móðurnöfn 5.053
Örnefni 22.704
Fyrirtækja- og stofnanaheiti 7.296
Orðaforði úr Tölvuorðasafni 2005 3.942
Orðaforði úr Biblíunni 2007 697

Skipting orðaforðans í BÍN og heimildirnar 11.11.2009

Helstu heimildir í BÍN eru gagnasöfn Orðabókar Háskólans, ásamt Íslenskri orðabók (2002):

Norræna verkefnið 125.316
Íslensk orðabók 53.504
Ritmálsskrá OH 32.078
Landmælingar Íslands 19.051
Nöfn Íslendinga 4.197
Símaskrá 3.381
Þjóðskrá 3.365
Mannanafnaskrá 554
Annað 1.753

Um beygingardæmin

Við birtingu beygingardæmanna er markmiðið að einskorða efnið við raunverulegar myndir hvers orðs, þ.e. að sýna afbrigði þar sem það á við en fylla ekki upp í beygingardæmi með tilbúnum myndum.

Skipting í beygingarflokka byggðist í fyrstu á kennimyndum og kenniföllum í Íslenskri orðabók (2002), svo langt sem hún náði. Þá var leitað heimilda í gagnasöfnum Orðabókarinnar, sérstaklega í Ritmálssafni, og í öllum tiltækum málfræðibókum og greinum. Notadrýgsta yfirlitsritið reyndist vera Islandsk grammatik eftir Valtý Guðmundsson (1922). Sú bók er að vísu nokkuð gömul og tekur þar að auki mið af fornmáli að verulegu leyti. Leitað var að álitamálum í Textasafni Orðabókarinnar og í öllum tiltækum rafrænum textum þegar öll önnur ráð þraut.

Fjöldi beygingarmynda

Án afbrigða eru beygingarmyndir nafnorðs 16, þ.e. fjögur föll eintölu og fleirtölu, án greinis og með greini. Beygingarmyndir sagnar í persónuhætti eru 48, auk boðháttar og lýsingarhátta, en að þessu meðtöldu geta beygingarmyndir hverrar sagnar orðið 106. Þá eru spurnarmyndir sagna (t.d. ferðu, fórstu, fariði) ekki taldar með en þær birtast ekki á vefsíðunni. Beygingarmyndir lýsingarorðs sem tekur stigbreytingu eru allt að 120. Afbrigði geta fjölgað beygingarmyndum einstakra orða verulega.

Tölur um orð, beygingarmyndir og orðflokka 11.11.2009

Orðflokkur Orðafjöldi Orðmyndafjöldi
Nafnorð 234.501 2.804.439
Hvorugkyn 74.711 888.101
Karlkyn 70.858 877.456
Kvenkyn 88.932 1.038.882
Sagnir 7.681 699.090
Lýsingarorð 26.204 2.360.335
Atviksorð 1.987 2.231
Töluorð 4 69
Raðtölur 74 1.776
Persónufornöfn 7 52
Afturbeygt fornafn 1 3
Önnur fornöfn 34 765
Greinir 1 24

Eyður í beygingardæmunum

Eyður eru t.d. í beygingardæmum fleirtöluorða (dyr, buxur, skæri, órar, töfrar) þar sem tilbúnar eintölumyndir eru ekki settar upp, í sögnum sem ekki eru til í miðmynd (auðvelda) þar sem germyndin ein er sýnd, í miðmyndarsögnum (óttast) þar sem germyndina vantar og í sögnum þar sem lýsingarháttur þátíðar er ekki til (duga, kunna). Þá eru eiginnöfn aðeins sýnd í eintölu og örnefni aðeins sýnd í þeirri tölu sem höfð er í hverju örnefni, eins og sjá má af beygingardæmunum Hóll og Hólar.

Afbrigði

Afbrigði eru sýnd þar sem það á við, t.d. í þágufalli eintölu af nafnorðinu hnífur en þar eru afbrigðin hníf og hnífi.

Afbrigði í BÍN eru strangt tiltekið jafnrétthá, óháð röðun, enda þarf að taka tillit til mismunandi þátta, t.d. uppruna og tíðni í nútímamáli. Það er því ekki einboðið hvernig röðin á að vera. Þrátt fyrir þennan fyrirvara er reynt að hafa röðina þannig að ákjósanlegasta myndin sé á undan víkjandi mynd, t.d. í Haraldur þar sem eignarfallið er Haralds/Haraldar.

Ef ástæða þykir til er birt athugasemd til notenda fyrir ofan beygingardæmið um notkun afbrigða, t.d. í tönn þar sem fleirtölumyndirnar tannir og tönnur eru sagðar sjaldgæfar og í refur þar sem fleirtalan refar er bundin við orðasambönd, t.d. til þess eru refarnir skornir. Athugasemdunum er ætlað það hlutverk að tilgreina þegar tilteknar beygingarmyndir eru aðeins notaðar við tilteknar aðstæður, t.d. í tiltekinni merkingu eða setningarumhverfi.

BÍN nær ekki yfir afbrigði úr eldra máli nema í undantekningartilvikum. Þau eru stundum látin fylgja í athugasemdum, án þess að þau komi fram í sjálfu beygingardæminu, t.d. beygingarmyndirnar ávöxtu og stjórnarháttu í þolfall fleirtölu af ávöxtur og stjórnarhættir.

Beygingakerfið og rétt mál og rangt

BÍN er beygingarlýsing og henni er ætlað að sýna beygingarkerfið eins og það kemur fyrir í ræðu og riti í nútímamáli. Settar eru inn athugasemdir til notenda til að gefa vísbendingar um notkun þar sem ástæða þykir til, t.d. þar sem ein beygingarmynd þykir betri en önnur þó að báðar teljist tækar. Mörkin eru sett við birtingu efnis sem beinlínis er talið rangt mál en ljóst er að þar eru álitamálin mörg. Beygingarnar komustum, læknirar, mér langar og ég vill birtast því ekki í beygingardæmunum.

Ritháttur orða

Ástæða er til að taka fram að ritháttur orða er með ýmsu móti í BÍN enda er sú raunin í þeim heimildum sem orðaforðinn er fenginn úr, t.d. í Ritmálssafni Orðabókarinnar. Athugasemdir um réttritun fylgja orðum til hægðarauka fyrir notendur eftir því sem tök eru á. Þetta á t.d. við um ritmyndirnar allskyns, scandíum og breti þar sem vísað er á ritmyndirnar alls kyns, skandíum (og skandín) og Breti. Viðfangsefnið í BíN er m.ö.o. beygingarkerfið og verkinu er ekki ætlað hlutverk stafsetningarreglna eða stafsetningarorðabókar.

Starfsfólk við BÍN

Kristín Bjarnadóttir verkefnisstjóri: Beygingarferlið, skipulag og kerfisgreining, beyging orða annarra en þeirra sem Þórdís Úlfarsdóttir sá um. Kristín lagði fyrstu drög að verkinu árið 2001 og hefur starfað við verkið síðan.

Þórdís Úlfarsdóttir: Beyging lýsingarorða og veikra sagna, 2003--2004 (BÍN 1.0--2.0).

Auður Þórunn Rögnvaldsdóttir: Leitaraðgangur á vefsíðu OH og gerð html- og xml-skráa, 2002--2004 (BÍN 1.0--2.0).

Aðalsteinn Eyþórsson: Yfirlestur veikra kvenkynsnafnorða, sumarið 2003 (BÍN 1.0).

Ragnhildur Hrönn Sigurðardóttir: Yfirlestur mannanafna, sumarið 2002 (BÍN 1.0).

Hjálmar Gíslason (hjá Spurl ehf., síðar Já hf): Verkefnisstjóri og forritari við gerð gagnagrunnsins fyrir BÍN 3.0, Veflægrar orðmyndabókar, frá 2005.

Aðrir starfsmenn Orðabókarinnar hafa jafnan leyst úr ýmiss konar álitamálum þegar eftir því hefur verið leitað og þeir hafa óspart veitt aðgang að gögnum sínum. Eiríkur Rögnvaldsson formaður stjórnar Orðabókar Háskólans lagði verkinu lið á allan hátt, allt frá því að fyrstu hugmyndir um verkið urðu til.

Tilvitnanir í BÍN

Lagt er til að vitnað sé í BÍN á eftirfarandi hátt:

Beygingarlýsing íslensks nútímamáls. Ritstjóri Kristín Bjarnadóttir. Stofnun Árna Magnússonar í íslenskum fræðum. Sótt 5. nóv. 2009 á http://bin.arnastofnun.is/.

Heimildir

Guðrún Kvaran og Sigurður Jónsson frá Arnarvatni. 1991. Nöfn Íslendinga. Heimskringla, Reykjavík.

Kristín Bjarnadóttir. 2000. Beygingarlýsingin í Íslenskri orðabók. Óprentuð skýrsla, unnin fyrir Mál og menningu. 735 bls.

Kristín Bjarnadóttir. 1998. Norræna verkefnið. Óprentuð skýrsla. Orðabók Háskólans, www.lexis.hi.is/kristinb/norr.pdf.

Kristín Bjarnadóttir. 2004. Beygingarlýsing í slensks nútímamáls. Samspil tungu og tækni. Afrakstur tungutækniverkefnis menntamálaráðuneytisins. Menntamálaráðuneytið, bls. 23--25.

Mörður Árnason (ritstj.). 2002. Íslensk orðabók, 3. útgáfa. Tölvuútgáfa. Edda hf. -- Miðlun og útgáfa, Reykjavík.

Rögnvaldur Ólafsson. 2004. Tungutækniverkefni menntamálaráðuneytisins. Samspil tungu og tækni. Afrakstur tungutækniverkefnis menntamálaráðuneytisins. Menntamálaráðuneytið, bls. 5--11.

Sigrún Helgadóttir. 2004. Markari fyrir íslenskan texta. Samspil tungu og tækni. Afrakstur tungutækniverkefnis menntamálaráðuneytisins. Menntamálaráðuneytið, bls. 57--64.

Sigrún Helgadóttir. 2004. Mörkuð í slensk málheild. Samspil tungu og tækni. Afrakstur tungutækniverkefnis menntamálaráðuneytisins. Menntamálaráðuneytið, bls. 65--71.

Valtýr Guðmundsson. 1922. Islandsk grammatik. H. Hagerups Forlag, Kaupmannahöfn.





© Orðabók Háskólans / Stofnun Árna Magnússonar í íslenskum fræðum 2002-2009
Öll afritun Beygingarlýsingarinnar er bönnuð án leyfis.
Rétthafi efnisins er Stofnun Árna Magnússonar í íslenskum fræðum sem sér um vefsíðuna og miðlun efnisins samkvæmt samningi við Menntamálaráðuneytið.
Vefsíða í vinnslu. Athugasemdir og ábendingar berist Kristínu Bjarnadóttur.