Saga Beygingarlýsingarinnar

Upphafið 2002, BÍN 1.0

Orðabók Háskólans og Edda hf. fengu sameiginlega styrk frá menntamálaráðuneytinu til gerðar Beygingarlýsingarinnar árið 2002. Verkið varð þar með hluti af tungutækniátaki tungutækniátaki ráðuneytisins. Gengið var frá samningi um verkið 23. ágúst 2002. Þessum áfanga lauk 15. mars 2004 þegar menntamálaráðuneytinu var afhentur geisladiskur með útgáfu 1.0 af Beygingarlýsingunni með 173.389 beygingardæmum á formi xml-skráa. Diskurinn var jafnframt fáanlegur til máltækninota, skv. samningi við Orðabók Háskólans. Orðabókin sá að öllu leyti um vinnuna og lagði til húsnæði, alla aðstöðu og aðgang að gögnum. Edda hf. lagði til endurskoðaða beygingarlýsingu sem Kristín Bjarnadóttir vann fyrir tölvuútgáfu Íslenskrar orðabókar 2002.

Orðaforðinn í BÍN 1.0 er að stofni til úr 3. útgáfu Íslenskrar orðabókar og úr söfnum Orðabókar Háskólans, sérstaklega úr Norræna verkefninu sem er íslenskur orðabókarstofn sem unninn var sem grunnur að tvímála orðabókum milli íslensku og annarra Norðurlandamála á árunum 1994-1996. Orðaforðinn í BÍN 1.0 er að mestu úr almennu máli en að auki eru þar tæplega 5 þúsund mannanöfn úr bókinni Nöfn Íslendinga eftir Guðrúnu Kvaran og Sigurð Jónsson frá Arnarvatni (1.útg. 1991).

Helstu heimildir við rannsóknir á einstökum orðum og beygingarflokkum í BÍN 1.0 voru Ritmálsskrá og Textasafn Orðabókar Háskólans, auk handbóka, greina og ritgerða um íslenskt mál. Ber þar sérstaklega að nefna bók Valtýs Guðmundssonar, Islandsk grammatik (1922).

Birting á vefsíðu 2004, BÍN 2.0

Næsti áfangi í vinnu við BÍN var birting beygingardæmanna á vefsíðu Orðabókar Háskólans sem var kynnt 24. september 2004, á sextugsafmæli Orðabókarinnar. Jafnframt varð til útgáfa 2.0 af Beygingarlýsingunni sem afhent var menntamálaráðuneytinu 30. nóvember 2004 en þá lauk tungutækniverkefni ráðuneytisins formlega. Fjöldi beygingardæma í útgáfu 2.0 var rúmlega 176 þúsund.

Beygingardæmin voru í html-skrám og þar var hægt að leita að uppflettiorðum og orðmyndum en leitin var hægvirk. Allt vinnuefni í Beygingarlýsingunni var geymt í textaskrám og notaðar voru tiltölulega einfaldar skriftur við alla úrvinnslu, eins og í BÍN 1.0. Ljóst var frá upphafi að þetta vinnulag var bæði seinlegt og viðkvæmt og frá upphafi var það hugmynd ritstjóra að koma yrði efninu fyrir í gagnagrunni.

Til máltækninota voru gögnin afhent í xml-skrám á geisladiskum, samkvæmt samningum sem gerðir voru við einstaka viðtakendur, á sama hátt og í BÍN 1.0.

  • Vefurinn 2004: Forsíða
  • Vefurinn 2004: Beygingardæmið köttur

Gagnagrunnurinn Veflæg orðamyndabók 2006, BÍN 3.0

Haustið 2005 fengu Orðabók Háskólans og Spurl ehf. sameiginlega styrk úr Tækniþróunarsjóði til að vinna að gagnagrunni fyrir BÍN. Hjálmar Gíslason hjá Spurl hafði þá notað gögn úr BÍN til þess að gera leitarvélina Emblu fyrir Morgunblaðið en það var fyrsta íslenska leitarvélin sem leitaði að öllum beygingarmyndum orðs í einu. Verkefnið um gagnagrunn fyrir BÍN fékk nafnið Veflæg orðmyndabók (VO).  Vefkerfið til viðhalds og umsýslu BÍN margfaldar notkunarmöguleikana á gögnunum.

Í umsókn til Tækniþróunarsjóðs var ávinningurinn af VO einkum talinn tvíþættur. Annars vegar átti nýja kerfið að margfalda notkunarmöguleika gagnanna í BÍN með ýmiss konar úrvinnslu sem hafði áður verið mjög tímafrek eða jafnvel ómöguleg. Þar má t.d. nefna sjálfvirka orðtöku úr rituðum texta. Hins vegar nýttist afraksturinn Spurl ehf. í leitartækni sinni, m.a. í leit á embla.is og í Símaskránni, ja.is. Verkefnisstjóri við gerð VO var Hjálmar Gíslason. Afraksturinn af verkefninu birtist notendum á vefsíðu Stofnunar Árna Magnússonar í íslenskum fræðum í mun sveigjanlegri og miklu hraðvirkari leit.

Gagnagrunnurinn sem notaður er fyrir VO er MySQL og forritunarmálið er PHP. Öll forritun var upprunalega unnin af Hjálmari Gíslasyni hjá Já-Spurl ehf. og var verkið hýst hjá Basis, Snorrabraut 56 á sýndarþjóni. Síðar tóku aðrir starfsmenn Já við verkingu, undir stjórn Hlöðvers Þórs Árnasonar tæknistjóra og er verkið hýst hjá Já.

Beygingarlýsingin var flutt yfir í nýja gagnagrunninn á árunum 2005-2006 og var útgáfa 3.0 kynnt sem tilraunaverkefni 25. ágúst 2006 en þá voru beygingardæmin rúmlega 209 þúsund. Við yfirfærslu í gagnagrunninn voru beygingarflokkar endurskoðaðir og allt efni endurskipulagt.

Á degi íslenskrar tungu 16. nóvember 2007 var opnaður aðgangur að BÍN á nýrri vefsíðu Stofnunar Árna Magnússonar í íslenskum fræðum (SÁ) en Orðabók Háskólans varð hluti SÁ 1. september 2006. Fjöldi beygingardæma var þá tæplega 257 þúsund. Í nóvember 2009 voru uppflettiorð ríflega 270 þúsund. Heimsóknum á vefinn fjölgar stöðugt.

  • Vefurinn 2007: Forsíða
  • Vefurinn 2007: Beygingardæmið köttur
  • Heimsóknir á vefinn 2007-2013.

Ný útgáfa af BÍN, 2013

BÍN 2013

 

KB 1.10.2013