npn-topp

Oddrun Grønvik:

Om kjeldegrunnlaget for Norsk Ordbok

Dette innlegget skal handle om kjeldegrunnlaget for Norsk Ordbok (NO), det vil seie dei nynorske ordsamlingane slik dei er no og slik det kan bli aktuelt å føre dei vidare. Eg skal òg kommentere dei rammene som kjeldene set for redigeringa av NO. Om vi held oss til kjøkenmetaforen i innbydinga til dette seminaret, så er emnet mitt kva for råvarer som finst i skapa og litt om kva for reiskapar vi har i skuffene, og så innkjøpsplanar for framtida.

NO skal bli eit tolvbands ordboksverk over ordtilfanget i nynorsk skriftmål og dei norske målføra. Ordboka byggjer heilt ut på dokumenterte opplysningar, dels frå talemål, dels frå skriftmål, og dels frå andre ordboksverk, særleg eldre nynorske ordbøker og målføreordbøker. All dokumentasjonen skal finnast i skap og skuffar og edb-maskinar hos Avdeling for leksikografi. Dei utgjer til saman det vi kan kalle dei nasjonale ordsamlingane for nynorsk.

Samlingane inneheld:

målføreopplysningar frå

- eigne heimelsfolk,
- andre arkiv (t.d. Målførearkivet),
- bøker og hefte med t.d. ordtilfanget i eit bygdelag, eller annan litteratur om målføra.
Talemålsopplysningane femner om målføreopplysningar frå heile landet, ikkje berre dei områda der nynorsk er det vedtekne skriftmålet.

sitat frå nynorsk litteratur, anten

- originalskriven (frå Ivar Aasen til i dag) eller
- omsett (t d Bibelen, mange fag- og lærebøker).
Dette er ekserpt av einskildord frå dei bøkene som er oppførte i kjeldelista for NO. I dei litterære kjeldene står dei ekserperte orda i kontekst. I faglege eller leksikografiske kjelder finn ein først og fremst metaspråklege opplysningar om kvart ord, men også utvalde bruksdøme.

ordopplysningar frå eldre ordboksverk over nynorsk skriftmål og norske målføre

(frå 1600-talet og til først i dette hundreåret). Ordboksstoff frå dei tospråklege ordbøkene er oftast knappe motsvar på eit framandspråkleg oppslagsord, men det er også ein del kollokasjonar og utvalde bruksdøme.

Alt tilfang er skrive ut på papirsetlar på 18 cm x 8 cm som til saman utgjer hovudarkivet for nynorsk ved Avdeling for leksikografi. Setlane står i skuffer, ordna alfabetisk på oppslagsforma av eit einskildord. Oppslagsforma er normalisert til 1938-normalen (oftast tradisjonelle former). Tilfanget er ikkje homografsortert. Hovudarkivet er no – etter det Dokumentasjonsprosjektet opplyser – på om lag 2,9 mill setlar.

Setelarkivet er det viktigaste elementet i grunnlaget for NO.

Deretter kjem LO-arkivet, som er nynorskdelen av samlingane til Det Norske Litterære Ordboksverk. Det er på ca 650 000 setlar. Her er den eldste nynorske litteraturen tett streka, og likeins ordbøkene til Aasen og Ross.

I tillegg har vi Aasen-arkivet, som vel på det nærmaste er ei tesaurus-streka utgåve av Aasens Skrifter i Samling I-III, med 130 000 setlar. Denne samlinga har vore heller lite nytta av di vi har gått ut frå at det som finst her, også er med i LO-arkivet. Men ein fersk kontroll har synt at dette ikkje stemmer, så i framtida vil Aasen-arkivet også bli nytta som rutine.

I alt blir NO redigert utfrå eit setelarkiv på om lag 3,7 mill. setlar.

Vi byggjer også på eit par råmanus, som kan reknast med til kjeldene for NO, endå om dei er tilarbeidde.

Det viktigaste er Grunnmanuskriptet (Grm) for NO. Det vart utarbeidd på 1930-talet og er på ca 13 500 maskinskrivne A4-sider (stort sett med dobbel lineavstand). Talet på oppslagsord er ca 130 000. Av dei er det 60 000 som ikkje står i Nynorskordboka (NOB). Grm er ei samanarbeiding av ordbøkene til Aasen, Ross, Schjøtt, Vidsteen, Torp o.a., og har også ein del anna målføretilfang og tilfang frå eldre ordsamlingar. All redaksjonell tekst er på nynorsk.

Grm er altså det manuskriptet som NO-redaksjonen valde å ikkje gje ut i 1946, m.a. av di det var kome inn så mykje nytt tilfang til hovudarkivet (Bø 1989:81 f).

Takk vere Dokumentasjonsprosjektet ligg Grm no på nettet som søkbar database. Om vi ser bort frå sjølve hovudarkivet, som førebels er lite tilgjengeleg, er Grm er utan tvil den rikaste kjelda vi har til opplysningar om ordtilfanget i norske målføre. Det er ei glede at denne kjelda er blitt opna for eit større publikum nettopp i Aasen-året. Det blir også arbeidd med å få ut Grm på cd-rom.

Vi får også manuskriptet som blir utarbeidd ved Universitetet i Trondheim frå setelarkivet for Ordbok over trøndermåla (OTM). Opplysningane her blir innarbeidde i manuskriptet for NO. OTM-arkivet er i dag på om lag 180 000 setlar.

Det som gjer NO særmerkt, er samansmeltinga av tilfang frå tale og skrift. Her skil NO seg frå dei fleste store ordboksverk over europeiske språk, som byggjer på berre skriftleg tilfang. Denne redigeringsmodellen gjer ordboka rikare, men redigeringa blir vanskelegare og går seinare.

Når ein skal lage ordbok over eit ungt skriftmål, som nynorsk, må denne redigeringsmåten likevel nyttast. Redaksjonen støyter dagleg på ord og vendingar som vi veit har ein sjølvsagd plass i språket, men som førebels berre er dokumentert frå målføra. Ei reint skriftbasert ordbok for nynorsk ville derfor bli altfor mager.

Kjeldene til Norsk Ordbok

Setelsamlingar:

1 Setelarkivet (2, 908 137 mill setlar i september 1995)
2 Bøkene som setelarkivet byggjer på, i dag ca 2800 band (nokre manglar)
3 Nynorskdelen av samlingane til Det Norske Litterære Ordboksverk (ca 650 000 setlar)
4 Aasen-arkivet (ca 130 000 setlar frå Skrifter i samling I-III)
5 Djupedal-samlingane (ca 250 000 setlar, mykje dublettar)

Manuskript:

1 Grunnmanuskriptet for NO
2 Ordbok over trøndermåla (OTM)

Synopsisen til Målførearkivet

Plan for nær framtid:

Elektronisk tekstarkiv med
1) eit utval av dei ekserperte bøkene
2) alt nytt tilfang som høver til skanning

Litt om samansetninga av setelarkivet

Alle dei gamle nasjonale ordboksverka som Oxford English Dictionary (OED), Svenska Akademiens Ordbok (SAOB) og her heime Norsk Riksmålsordbok (NRO) og NO byggjer på setelarkiv. Dei fleste har større samlingar attom seg enn NO. SAOB rekna i 1995 med 7,5 mill setlar, pluss fleire mindre ordsamlingar.

Det er lite skrive om korleis desse setelarkiva er blitt oppbygde i ordboksredaksjonane. For språk der ein har ein rik litteratur å gå ut frå, må vi rekne med at bokutvalet er styrt av kva slags ordbok ein vil lage. Då er arkiva målsydde til føremålet. Såleis vil t d dei store historiske ordboksverka leggje vinn på å få dei tidlegaste hundreåra i litteratursoga godt dekte, og så vere meir selektive nærare vår eiga tid. I ein stor språkkultur kan ein òg vere streng når det gjeld omsett litteratur, av di alle sjangrar er dekte med originallitteratur på det språket som skal beskrivast i ordboka.

For språk med ein mindre utvikla litteratur er stoda at ein må bruke det som finst, og slik har det i ein viss mon vore med NO. Både frivillige medarbeidarar og tilsette har gjennom åra lagt ned eit stort arbeid i å byggje opp samlingane, og dei er det beste som finst for nynorsk. Det må likevel seiast at ordsamlingane er prega av følgjande tilhøve:

1) Arbeid med samlingane har vore ekstraarbeid, underordna redigeringa, for dei tilsette, og ulønt arbeid for frivillige medhjelparar og informantar. Det er ikkje mykje tid og innsats vi kan bruke på ordsamlingane om ordboka skal bli redigert.
2) Endå om det etter kvart er god tilgang på nynorsk litteratur, er sjangerdekninga framleis ujamn. På mange område finst det svært lite eller ingen originalskriven nynorsk faglitteratur.
3) Det særmerkte ved NO er integreringa av målføretilfang og skrifttilfang. Målføretilfang har få andre vegar inn i normalmålet enn gjennom ordsamlingar som hovudarkivet, der alle ordopplysningar er lagra under normalisert oppslagsord. Derfor har NO-redaksjonen prioritert å få inn i arkivet alle målføreordsamlingar vi kjem over – dess meir etter som vi no sjeldan får tilsendt setlar som kan gå rett inn i samlingane.
4) Det tek mykje tid å føre på normaliserte oppslagsord. For målføretilfang er det ikkje sjeldan arbeidskrevjande å få identifisert ordet sikkert i høve til normalmålet. Nynorsk rettskriving har vorte endra opp gjennom åra, og oppslagsorda må normaliserast til 38-normalen. Mykje av litteraturen som er streka, er dessutan målføremerkt.

Ordsamlingane set som nemnt ramma for kva slags ordbok det er mogleg å lage. Det er derfor inga nedvurdering av det arbeidet som er gjort, å nemne kva ein – og redaksjonen aller mest – kunne ønskt seg annleis.

Programmet for ordsamlingane

Sigmund Skard hadde store vyar for ordsamlingane som skulle liggje til grunn for NO. I skriftet Norsk Ordbok. Historie - plan - arbeidsskipnad la han fram planen sin for kva ordarkivet skulle femne om, ut frå kva han tenkte seg at NO skulle bli. Han skriv (s. 26):

Dei eldre nynorske ordbøkene var hovudsakleg folkemaals- eller talemaals-samlingar; dette nye tilfanget vil gjeva oss fyrste samla utsynet over norsk kulturmaal i heilo.

Nynorsken har i siste mannsaldrane vorte utforma paa nær sagt alle umkverve av kulturlivet; skal denne voksteren syna att i ordboka, maa arbeidet leggjast ovleg vidt. Nemnda har sett upp ein fyrebils plan, som grip um desse greinene:

A. Vitskapleg litteratur og faglitteratur. (Handverk, industri og teknikk av alle slag; kyrkje-, styrings- og rettsmaal; folkeminne.)
B. Dikting, alle greiner og stilslag, og mest mogeleg fraa alle landsluter.
C. Periodisk litteratur (tidsskrifter og blad).

I alle desse greinene gjeld det fyrst og fremst aa faa utskrive dei orda som har arbeidt seg inn som faste termini, har faatt serlege tydingar eller avbrigde etter emne og stil, eller paa onnor vis syner den indre framvokstren i maalet.

Dette er eit ærgjerrig og arbeidskrevjande program. Vi skal no sjå på kor langt vi er komne i å følgje det.

Eg skal først seie litt om bokutvalet, deretter om ekserperinga.

Litteraturen attom hovudarkivet

Tabell 1 viser dei skriftlege kjeldene for NO Band 1-3 i 1989 (då tabellen vart utarbeidd). Ein del nye titlar er komne til sidan, kanskje eit par hundre, men hovudfordelinga etter sjanger og fag eller emne er nok den same.

(*Tabell 1)

Eg har delt faglitteraturen i to grupper, I og II. Litteraturen i gruppe I har det sams at mange av titlane har tekst på målføre eller på eit sterkt målføremerkt språk. Under Ordlister og ordbøker står målføreordlistene som i dag gjev størstedelen av ny talemålsinformasjon i arkivet. Under Historie finn ein m.a. bygdebøkene, der det og er kome til ein del nytt. Faglitteratur I er den største tittelgruppa, med 716 titlar. Det er kanskje her samlingane har hatt den største tilveksten etter 1989.

Gruppe II er langt mindre. Om vi reknar med titlane for administrasjons- og forretningsmål, er der i alt 301 titlar. Her er også tilveksten svak, og mange viktige disiplinar er ikkje dekte.

Bibelen er ført for seg på grunn av signatursystemet, med separat signatur både for heilskapen – på to nivå – og kvar del, og med utgjevingsårstal føydd til. I alt gjev dette eit svært signaturtal, men det er altså snakk om same stoffet på fleire nivå. Somme av bøkene i Bibelen er streka fleire gonger enn andre. Såleis har vi t d sju streka utgåver av Evangeliet etter Johannes, medan dei mindre kjende profetane kan vere streka så lite som to gonger.

Det blir rekna som god leksikografisk skikk å skilje mellom sitat frå originallitteratur og sitat frå omsetjingar, derfor er det hovudinndelinga. Omsetjingane dekkjer både skjønnlitteratur og faglitteratur. Dei er tekne ut etter litt ymsande kriterium, men eit viktig kriterium er nok at redaksjonen lit på målføringa til omsetjaren. Det er derfor namnet til omsetjaren som er avstytt i kjeldeforkortinga for ei omsett bok.

Om den omsette litteraturen kan det nemnast at

- litteratur som er omsett frå bokmål er først og fremst lærebøker for skolen, særleg er det mange for vidaregåande skole. Desse signaturane kunne i og for seg ha stått i lag med den andre faglitteraturen.
- litteratur som er omsett frå moderne framandspråk femner om både fag- og skjønnlitteratur, mest det siste. Somme titlar er særs tett streka, m a dei klassiske omsetjingane av Shakespeare (ved Henrik Rytter), Goethes Faust (ved Arctander) og t d Raknes si omsetjing av David Copperfield.
- omsetjingane frå norrønt dekkjer først og fremst Edda, sagalitteraturen og Kongsspegelen. Den religiøse mellomalderlitteraturen er mindre omsett og dermed mindre streka.
- omsetjingane frå gresk og latin dekkjer Homer, ein del sentral dramatikk og sentrale filosofiske og idehistoriske verk. Dessutan er det teke med omsetjingar frå nokre andre gamle språk her, t d sanskrit og gammalengelsk.

Av skjønnlitteratur-bolken ser ein at det har gått til atters med romanstrekinga i redaksjonen. Den nynorske skjønnlitteraturen er godt streka når det gjeld tal og utval på titlar fram til om lag 1950, etter det er det ujamt og avtakande.

Denne tabellen speglar eigentleg av det eg sa ovanfor – det er lite tid til å arbeide med samlingane og vi tek først det vi tykkjer vi må ta, nemleg det nye målføretilfanget som kjem inn. Men konsekvensen av dette er at ein må spørje seg om samlingane er representative for nynorsk mål – tale og skrift – som kulturmål. Det ser ut som om samlingane stadig meir dreg NO mot å bli "folkemåls- eller talemålssamlingar".

Korleis er boksamlinga ekserpert?

Boksamlinga er som nemnt ikkje jamt streka. No blir hovudarkivet dataført. Dermed kan vi få langt meir nøyaktige opplysningar om korleis boksamlinga er ekserpert.

Noko veit vi elles på førehand:

1) Alle ordsamlingar og ordbøker blir streka på kvart oppslagsord og ofte på ord inne i bruksdøme også. Er ordsamlinga lita, som mange av dei gamle er, blir seteltalet lågt. Men alt kjem med på eigne setlar.
2) Delar av den eldste nynorske litteraturen er tett streka og til dels i fleire utgåver av same verket. Såleis er Aasmund Olavsson Vinje å finne på setlar frå Skrifter i utval, Skrifter i samling, Dølen og nokre einskildverk. Det hender nok at vi har både to og tre setlar på same sitatet. Det same gjeld Aasen og Ivar Kleiven, til dels Garborg.
3) Ei bok i samlingane er tesaurusekserpert, dvs at det er skrive setel på kvart ord. Det er Duuns Menneske og maktene (Du.MM). Den boka er tungt representert på alle vanlege oppslagsord. På gløyma hadde eg t d 32 setlar med Duuns signatur, og 29 av dei var frå Du.MM.
4) Det kan vere grunn til å tru at ordsamlingane er baktunge, dvs at det er streka framover i alfabetet for å auke underlaget for den delen av NO som ikkje er redigert. Men dette blir motverka av ordboks-strekinga, som sjølvsagt dekkjer heile alfabetet.
5) Ein del bøker som er streka før 1940, er svært tynt streka. Ofte verkar det som om føremålet med strekinga har vore å få med nye oppslagsord. Ein del bøker skal vere streka etter det prinsippet at kvart utvalt oppslagsord berre skulle strekast ein gong. Eg har ikkje kontrollert om det er rett. Det som er sikkert, er at bøker av mange forfattarar innanfor det som blir kalla heimstaddiktinga, er heller lite utnytta i samlingane.

I ramma nedanfor er det ført opp nokre opplysningar om strekinga utfrå den delen av ordsamlingane som i dag er ferdig dataført med oppslagsord og kjeldeopplysningar, det vil seie hovudarkivet, bokstavane A til H.

Dei åtte første bokstavane er meir enn ein fjerdepart av alfabetet. Dei tek opp om lag ein tredel av sidene i NOB. Med om lag 2400 ulike kjeldesignaturar er minst 90 % av dei skriftlege kjeldene representerte.

Fordelinga av setlar per kjelde er slik at nokre få kjelder har over 5000 setlar i denne bolken. Talet på setlar pr kjelde fell bratt og flatar så ut med 511 kjelder som er streka ti gonger eller mindre – sjå oversynet på neste side.

Dei åtte kjeldene som er streka meir enn 5000 gonger på A-H er oppførte for seg. Som rimeleg kan vera kjem Du.MM øvst. I A-H-bolken er det rikeleg med pronomen og fleire viktige preposisjonar og hjelpeverb, og det gjev sjølvsagt ein sterk auke i setelmengda i ei tesaurusekserpert bok.

Mellom dei åtte er det tre store ordbøker og eitt stort oppslagsverk. Det er ikkje overraskande at desse kjeldene er godt utnytta. Men alle ordboksverka har eit framandspråk som kjeldespråk. Dette aukar risikoen for at motsvaret i målspråket er konstruert av ordboksredaktøren, for å dekkje innhaldet i oppslagsordet. Derfor bør ein morsmålsleksikograf vere kritisk til desse orda. Det er ein reell fare for at dei er ordboksord, dvs ord som berre er belagde i ordbokskjelder og ikkje er tekne i bruk. Ordbøker med eit stort innslag av ordboksord får nødvendigvis mindre autoritet som opplysningskjelder om det verkelege bruksspråket.

Dette vil ikkje seie at ordboksorda i og for seg er lite brukande. Men dei har status som framlegg, ikkje som dokumenterte brukseiningar i språket. Det er ein kjend spøk i ordboksmiljø at redaktørar skaffar seg kontekstbelegg for ord dei gjerne vil ha med, ved å skrive lesarbrev eller artiklar som inneheld dette ordet!

Ordbokskjeldene har stor plass i hovudarkivet. Fem andre ordbøker enn dei nemnde har meir enn 2000 setlar på A-H. Av desse er tre tospråklege med norsk som målspråk. Dei to andre er Ragnhild Paulsens ordbok over nøttlandsmålet (NøtterøyP) og Skuleruds ordbok over Tinnsmålet (Tinnordb).

For meg var det ei gledeleg overrasking at Syn og Segn og Gula Tidend er så godt streka, for dette er viktige kjelder til nynorsk bruksprosa gjennom lang tid og over eit stort emnespekter. Andre aviser og tidsskrift med meir enn 2000 setlar på A-H er Dag og Tid, Norsk Tidend, Driva, Den 17. Mai og Strilen.

Mellom dei 511 kjeldene som har ti eller færre setlar er det om lag 60 signaturar som høyrer heime i Bibelen, særleg frå dei nyare utgåvene. Til jamføring kan det nemnast at Det nye testamentet i omsetjing frå 1889 er streka 889 gonger og 1.-5. Mosebok i Seippels omsetjing 1808 gonger. Elles er inntrykket litt blanda når det gjeld sjanger. Ein finn få av dei nynorske klassikarane her – unntaket er eit par bøker av Duun. Og det er alltid mogleg at det har vore streka framover. Er det ikkje streka framover, vil det seie at ein god del av bøkene i samlingane har levert mindre enn 50 belegg.

Kjeldene til Norsk Ordbok

Hovudarkivet A - H

Om lag 730 000 setlar av i alt 2.9 mill.
Om lag 2400 ulike skriftlege kjelder
Gjennomsnittleg tal setlar pr kjelde er 332.
8 kjelder har frå 20 000 til 5000 ekserpt
23 kjelder har frå 4999 til 2000 ekserpt
30 kjelder har frå 1999 til 1000 ekserpt
106 kjelder har frå 999 til 500 ekserpt
821 kjelder har frå 499 til 100 ekserpt
930 kjelder har frå 99 til 11 ekserpt
511 kjelder har frå 10 til 1 ekserpt
Dette er kjeldene som det er meir enn 5000 ekserpt frå:
Duun: Menneske og Maktene 19106
Schjøtt: Dansk-Norsk Ordbog 15548
Syn og Segn 15518
Voss: Tysk-norsk ordbok 10731
Gula Tidend 7925
Landstad: Folkeviser 7779
Raknes: Fransk-norsk ordbok 7273
Norsk Allkunnebok 5433
Det er 31 kjelder med meir enn 2000 utskrivne ekserpt. Mellom dei er det:
8 ordboksverk,
14 prosakjelder (både sak- og skjønnlitteratur) (det er 7 avis- og tidsskriftsignaturar)
5 verk i bunden form (dikt, dramatikk)

Utveljing av ord og bruksdøme i NO

Intensjonen bak eit ordarkiv er at det skal gje full dekning av tyding og bruk for alle sjølvstendige leksem i det språket som skal beskrivast på grunnlag av ordarkivet. Eit setelarkiv skal ikkje vere representativt når det gjeld bruksfrekvens. Då ville storparten av setlane gje bruksdøme for dei vanlegaste orda, medan sjeldnare ord og vendingar knapt ville kome med. Men det skal – ideelt – ha i alle fall to-tre gode døme på bruken av alle ord og vendingar i alle faste tydingar som språket rår over.

Eit setelarkiv skal altså vere skeivt på den måten at det i kvantitet gjev like godt rom for det mindre brukte som det vanlege. Det same gjer for så vidt ordboka. Når vanlege ord som regel får større plass både i ordarkiv og ordbøker enn dei sjeldsynte, kjem det av at dei er brukte i fleire slags kontekstar, har utvikla fleire stabile og skilde tydingar og inngår i fleire faste ordsamband, frå kollokasjonar som verb + partikkel, til ordtak i full setningsform.

Døma på setlane er plukka ut av strekarar og informantar som av ein eller annan grunn har fest seg ved nett dette sitatet eller denne vendinga, og har teke seg bryet med å få ordet setelført. I dette ligg den viktigaste årsaken til ein sentral eigenskap ved alle setelarkiv: Dei favoriserer det særmerkte i for sterk grad. Dess mindre setelarkivet er, dess meir ujamt vil det truleg vere. Eit døme er det at det i hovudarkivet under verbet ha er svært mange setlar med perfektumane har kome, har gått. Ein kan rekne med at desse døma har falle i auga på mange strekarar av di det er vakling mellom ha og vere som hjelpeverb for verb som og kome.

Somme setelarkiv har prøvt å motverke dette ved å lage reglar for korleis døme skal veljast ut: SAOB strekar eit visst tal ord pr side og har i alle fall ei målsetjing om jamn distribusjon gjennom alfabetet og ordklassane. SAOB har også retningslinjer for ordutval som skal halde dei sjølvsagde eller heilt tilfeldige samansetjingane ute (Svensson 1992:372). OED streka i si tid parallelt med redigeringa, og prioriterte derfor til kvar tid å skaffe belegg til den delen av ordboka som var under redigering.

Eit ordarkiv kan likevel godt ha ein god del (meir eller mindre etablerte) samansette eller avleidde ord, m a for å dokumentere kva for lemma som er produktive. Det finst fleire måtar å ordboksføre slike opplysningar på. Dei færraste ordboksverk har plass til full ordartikkel for alle dokumenterte samansetningar.

NO har ikkje hatt faste retningslinjer for val av ord eller døme, og praksis ymsar nok ein god del etter skjøn og interesser hos informanten eller strekaren. Den første hovudredaktøren i NO, Alf Hellevik, gav i si Rettleiing for ordsamlarar (1956) målføreinformantane råd med på vegen om ordutveljing. Men dei er vel meir påminningar om omsyn som ein kan ta, enn reglar for korleis ein skal gå fram. Mangelen på klar instruks har vel helst sin bakgrunn i at ordsamling alltid har vore ei ekstraoppgåve, både for frivillige medarbeidarar og tilsette.

Det som i alle fall er sikkert, er at ordtilfanget i norsk er ujamt dekt i setelarkivet, og at det kan verke tilfeldig kva vi har eller ikkje har. Då eg i si tid redigerte verbet gløyma, mangla det heilt bruksdøme frå kvardagslivet i tilfanget, t d ho gløymde å seie kvar ho skulle, eller han gløymde å kjøpe mjølk. Utsegner av typen han gløymde henne aldri var derimot legio. Slikt kan sjølvsagt rettast opp under redigeringa, men det tek tid, og tid har vi lite av. Derfor trur eg nok at det ujamne ved samlingane kan finnast att i den ferdigredigerte ordboka.

Det er etter kvart ei allmenn røynsle at ei streka ordsamling

– alltid hallar mot det eksotiske (det sjeldne, det som stikk seg ut frå vanleg målbruk), mot biletleg og konnotativ bruk, det slåande og avvikande (jf. Svensson 1992:371: "egendomligheter")

– alltid har manglar i strekinga av grunnordtilfanget, særleg grunntydingar og kollokasjonar der fleire av orda har høg bruksfrekvens

Til gjengjeld kan ei godt oppbygd streka samling innehalde tilfang som vakne informantar har plukka med seg, og som ein ikkje kunne vere viss på å få sjølv i eit korpus på hundretals millionar ord. Dette er ei røynsle eg har fått referert frå dei som arbeider med British National Corpus (BNT), og det er også grunnen til at det framleis blir streka til samlingane som ligg til grunn for den store OED. Særleg jakta etter eldste belegg krev særskild streking.

Gjennom Dokumentasjonsprosjektet blir no setelarkivet til NO overført på data. Då blir innhaldet tilgjengeleg for fleire, ikkje berre ordboksredaksjonen. Det skal bli mogleg å søkje i og sortere setlane på mange vis. Ein kan då til dømes sortere ut alle setlar som kjem frå ein viss stad eller frå verket til ein forfattar. Slik kan samlingane bli nytta meir effektivt både i målføregransking og litteraturgransking. Ordboksredaktørane kan lettare finne fram på kryss og tvers i ordsamlingane, slik at redigeringsarbeidet blir lettare.

Elektronisk tekstkorpus

I dei siste åra har vi arbeidd med å byggje opp eit elektronisk korpus, dvs ei tekstsamling på edb som er lagd til rettes for ordboksarbeid. Eit slikt korpus blir eit viktig tillegg til setelarkivet. Etter kvart ser alle moderne ordboksredaksjonar det å ha eit korpus som noko heilt naudsynt, dersom det er meininga at ordboka skal gje eit rett biletet av språket slik det blir brukt, og ikkje berre slik redaktørane meiner det bør brukast. Eg skal nemne dei viktigaste grunnene til det:

1) Skanning og tagging av tekst er ei svært effektiv måte å skaffe seg ei stor mengd med språk å undersøkje.
2) Moderne søkjeprogram er effektive og avanserte, og gjer det lett å sortere.
3) Eit korpus gjev god dekning nettopp av dei delane av ordtilfanget som eit arkiv med handplukka ekserpt dekkjer dårleg, nemleg det sentrale ordtilfanget.
4) Eit korpus gjev uendeleg mykje betre høve til å undersøkje kombinatoriske eigenskapar ved særleg det sentrale ordtilfanget.
5) Det er lettare å velje oppslagsform etter frekvens (t d ved varierande samansetjingsfuge).
6) Det er lettare å sortere etter formelle kriterium (både form på oppslagsordet og syntaktisk ramme).
7) Det er lettare å finne gode døme.
8) Det er lettare å sjå kva som er typisk bruk utfrå frekvens.
9) Etablerte kollokasjonar og idiom skil seg ut utfrå frekvens (ofte heilt uventa samband av t d adverb og verb el adj og subst (jf Eiríkur Rögnvaldsson 1995:134).

Alle desse føremonene gjeld meir for vanleg ordtilfang enn for sjeldsynte ord.

Redaktøren er i siste instans herre over redigeringa, og tekstkorpus blir brukte slik redaksjonane vil. Det kan likevel sjå ut som om korpusbruk dreg ordboksredaksjonar i retning av å beskrive det som er sams for eit språksamfunn, med mindre vekt på det avvikande og særmerkte. Eg trur også at behovet for å bruke sitat som støtte for definisjonar kanskje blir mindre av di ein lettare ser det typiske, t d ved kva slag objekt eit verb tek. Om korpuset er balansert, blir det då rimeleg å bruke meir av redaksjonelle døme utan heimfesting.

Minusa er som følgjer:

1) Det sjeldsynte ordtilfanget blir dårlegare dekt, endå om korpuset er omhugsamt sett saman.
2) Korpusord blir ikkje samsorterte etter vedteken oppslagsform (med mindre vi lagar oss eit program for det), og korpus høver derfor best for normalmålstekst.
3) Materialmengda blir fort altfor stor for tradisjonelle redigeringsteknikkar, der kvar setel blir lesen og granska.
4) Det blir for mykje likegyldig tilfang; dei 40 vanlegaste orda dekkjer opp mot 40 % av all tekst (Gundersen 1987:174).

Effektiv korpusredigering bør derfor føre med seg nye redigeringsrutinar, og dei må då utarbeidast – noko som også tek tid.

Det er mange måtar å setje saman korpus på. For oss blir målet å få eit korpus som fremjar redigeringa av NO. Derfor bør vi leggje inn ein del tekstar som alltid skal med i redigeringa, og som er tett streka. I tillegg vil det vere klokt å leggje inn nye bøker på normalmål, som det er lett å få tilslag i ved vanlege søk.

Det er ingen grunn til å setje elektroniske korpus opp mot streka ordsamlingar. Båe har sine sterke sider, og dei utfyller kvarandre. Skal vi ha førebilete, så kan eg nemne at både OED og SAOB har tilgjenge til begge delar. Ein kan heller seie at dei nye tekstlagringsmetodane gjev oss det beste av to verder, og vonleg vil dette føre til betre og meir representative ordbøker.

Frå knipe til overflod

Då NO kom i gang som prosjekt i 1930, fanst det ikkje anna å stø seg til enn dei ordbøkene som alt eksisterte. Då arbeidet vart teke opp etter krigen, var det kome inn så mykje nytt at redaksjonen valde å ta til med blanke ark. Men dei redigerte likevel utfrå for lite tilfang, og det ser ein m a i at band 1 kan ha uventa lakunar. Tydingar som manglar, er t d bilring=feittring rundt midja (på folk)' og blei(g)=(synleg) innbilsk person'.

No har denne situasjonen snudd seg. Det er for tidkrevjande å bla i dei setelhaugane vi har, og dei veks stadig. I tillegg snakkar vi om korpus og mengder med døme som får det vi har, til å verke som småtteri.

Her må løysinga liggje i ikkje berre datamaskinelle sorteringsverktøy, men også metodar for å gjere sjølve redigeringsprosessen mindre arbeidskrevjande. Men når vi er så langt komne, er vi utanfor ramma for dette innlegget, som derfor blir avslutta her.

Litteraturliste

Almenningen, O. og O. Grønvik (red.) 1989: Ord og Mål. Festskrift til Magne Rommetveit. Kringkastingsringen. Oslo

Ásta Svavarsdóttir o.a. (red.) 1995: Nordiske studier i leksikografi. Rapport fra konferanse om leksikografi i Norden, Reykjavík 7.-10. Juni 1995. Skrifter utgitt av Nordisk forening for leksikografi. Skrift nr. 3. Reykjavík. (NSL3)

Bø, R. 1989: Arbeidet med Norsk Ordbok. I: Almenningen og Grønvik 1989: 80-90

Du.MM=Duun, Olav: Menneske og maktene. Oslo 1938

Eiríkur Rögnvaldsson 1995: A Concordance to Old Icelandic Texts and its Lexicographical Value. I: Ásta Svavarsdóttir o.a. 1995:123-135

Fjeld, R. V. (red.) 1992: Nordiske studier i leksikografi. Rapport fra konferanse om leksikografi i Norden 28.-31. Mai 1991. Skrifter utgitt av Nordisk forening for leksikografi. Skrift nr. 1.Oslo. (NSL1)

Grm=Grunnmanuskriptet (for NO)

Gundersen, D. 1987: Ord i bruk. I: Johnsen 1987:170-199

Hellevik, A. 1956: På skattegraving i eige mål. Rettleiing for ordsamlarar. Oslo

Johnsen, Egil Børre (red) 1987: Vårt eget språk. I. I går og i dag. Oslo.

NO=Norsk Ordbok I-III. Oslo 1966, 1978, 1994.

NOB=Nynorskordboka. Oslo 1986, rev utg 1993

NRO=Norsk riksmålsordbok. I-II. 1937-57. Tilleggsbind I-II 1995. Oslo.

OED=Oxford English Dictionary. I-XII. (1. utg 1882-1928). Corrected reissue 1970. Oxford.

OTM=Ordbok over trøndermåla. Universitetet i Trondheim.

SAOB=Svenska Akademiens Ordbok över svenska språket. I-. 1898-. Lund.

Skard, S. 1932: Norsk Ordbok . Historie - Plan - Arbeidsskipnad. Oslo

Svensson L. 1992: Om SAOBs material och en bibliografisk databas. I: Fjeld 1992:369-379

npn-botn