npn-topp

Lars S. Vikør:

Det nynorske språkmaterialet i Dokumentasjonsprosjektet

 

Arkivet og Norsk Ordbok

Nynorskmaterialet er bygd opp med tanke på eitt føremål: det store ordboksverket Norsk Ordbok, med undertittelen Ordbok over det norske folkemålet og det nynorske skriftmålet.

Dette prosjektet har pågått sidan 1930. Det var meint å bli ei heildekkjande vitskapleg ordbok over nynorsken og dialektane, og vart sett i gang av Det Norske Samlaget med støtte frå staten. Dei første åra vart brukte til å byggje opp eit setelarkiv og utarbeide eit førsteutkast til ordmanus basert på tidlegare ordbøker, Grunnmanuskriptet. Etter krigen heldt oppbygginga av setelarkivet fram, samtidig som ein ny ordboksredaksjon tok fatt på eit nytt ordboksmanus basert på alt det materialet ein da hadde til rådvelde. Dette manuset vart etter kvart til Norsk Ordbok, som vart og blir utgitt i hefte som etter kvart blir samla i band. Første hefte kom i 1950, første bandet i 1966. I dag har ordboka begynt på det fjerde bandet, eit stykke ut i bokstaven g. Ordboksverket vart innlemma i Norsk leksikografisk institutt under UiO i 1972, og i Institutt for nordistikk og litteraturvitskap i 1990.

Materialet består av desse delane:

1) Grunnmanuskriptet til Norsk Ordbok. Det vart altså utarbeidd i 1930-åra av ein liten stab redaktørar, og bestod først og fremst av ei samanredigering av dei eksisterande nynorskordbøkene, i første rekkje Aasens ordbøker frå 1850 og 1873, Ross si ordbok frå 1895 og etterfølgjande supplementshefte, Chr. Vidsteens ordbok over sunnhordlandsmålet frå 1900, Steinar Schjøtts ordbøker (Dansk-norsk frå 1909 og Norsk-dansk frå 1913) og Alf Torps Nynorsk etymologisk ordbok frå 1919. I tillegg la redaktørane inn ein del opplysningar frå eigne dialektar. Manuset inneheld fulle ordboksartiklar med bl.a. definisjonar på nynorsk, målføreformer med heimfestingar, og bruksdøme. Det var faktisk første gongen både oppslagsord og definisjonar vart gitt på nynorsk. Manuset vart aldri publisert. Det består av 13000 manuskriptsider med 130000 oppslagsord.

2) Setelarkivet til Norsk Ordbok. Det består av ca. 3 millionar setlar, i hovudsak av to slag: ekserpt frå skjønnlitterære og andre skriftlege kjelder (ca. to og ein halv million), og innsende setlar med opplysningar frå dialektane. Innsendarar har vore lokale kjennarar av dei ulike dialektane, om lag 6-700 i alt, og hovudtyngda av setlane vart samla inn i tida 1930-70, men det kjem enno inn nye setlar. Opplysningane gjeld uttale og bøying, tydingar, og bruksdøme. Alle setlane har fått påført oppslagsord normerte etter 1938-rettskrivinga (fordi det er denne rettskrivinga Norsk Ordbok bruker, sidan ordboka begynte å komme ut mens den gjaldt), og markering av innsendar og eventuell skriftleg kjelde.

3) Nokre eldre ordsamlingar frå norske bygdemål, nedteikna av prestar og andre embetsmenn i dansketida, i nokre få tilfelle publiserte den gongen, i dei fleste tilfelle utgitt seinare av Norsk Målførearkiv.

4) Eit omfattande og representativt utval av den nynorske skjønnlitteraturen pluss ein del nynorsk sakprosa.

Alt dette materialet har først og fremst vore brukt til hovudføremålet sitt, redigeringa av Norsk Ordbok – som i seg sjølv utgjer ein del av materialet saman med Nynorskordboka, Nynorskordlista, og Ivar Aasens Norsk Ordbog frå 1873 og Norsk Maalbunad (trykt i 1925). I tillegg er materialet brukt meir sporadisk i utforsking av enkeltemne, og til dels som grunnlag for normering, men den fysiske forma arkivet eksisterer i, har gjort det ueigna til anna enn punktundersøkingar.

 

Det digitaliserte materialet

Eit døme frå Grunnmanuskriptet: knota

Som døme på korleis eit ord er representert i materialet, tek vi verbet knota. Det er enno ikkje behandla i Norsk Ordbok. Men i Grunnmanuskriptet er det oppført slik:

knota I. v. (a) 1. pynta, pryda (Shl (V), Har, Hal); serleg um å pynta med kroting, treskurd o.dl. (Hal), Å. ~ seg til, V. 2. pynta på målet sitt, tala prydeleg eller tilgjort, nytta framande ord eller former (Shl(V), Tel, Austf, Gbr), Å. Til germ *knat, skrapa (gjeva ein skrapande ljod osfr.); sml. knatra. T.

Romartalet I står for homonymnummer, arabartala 1. og 2. for tydingsnummer innanfor eitt fleirtydig ord. Problema med grensegangen mellom desse to omgrepa må vi sjå bort frå her. Forkortingane i dette dømet tyder: v=verb, a=a-verb, Shl=Sunnhordland, V=Vidsteens sunnhordlandsordbok, Har=Hardanger, Hal=Hallingdal, Å=Aasens Norsk Ordbog frå 1873, Tel=Telemark, Austf=Østfold, Gbr=Gudbrandsdalen, T=Torps etymologiske ordbok.

Vi ser av dette at knota eigentleg hadde ei vidare tyding enn i dag – for tyding 2 må vere ei spesialisering av den meir opphavlege tyding 1. Men i setelmaterialet på dette ordet er nesten berre tyding 2 representert; det er altså den bruken som har slått heilt igjennom i vårt hundreår.

Da Grunnmanuskriptet vart innskrive på data, vart dei ymse opplysningstypane koda. For knota vart resultatet slik:

OPPF knota

HONr I.

GRMr v.

BØYr (a)

TYDN l.

DEFI pynta, pryda

HMFd (Shl(V), Har, Hal);

DEFI serleg um å pynta med kroting, treskurd o.dl.

HMFd (Hal),

KJEL Å.

UTTR ~ seg til,

KJEL V.

TYDN 2.

DEFI pynta på målet sitt, tala prydeleg eller tilgjort, nytta framande ord eller former

HMFd (Shl(V), Tel, Austf, Gbr),

KJEL Å.

ETYM Til germ *knat, skrapa (gjeva ein skrapande ljod osfr.); sml. knatra.

KJEL T.

Kodane tyder: OPPF=oppslagsform, HONr=homonymnummer, GRMr=grammatisk merking, BØYr=bøyingsklasse, TYDN=tydingsnummer, DEFI=definisjon, HMFd=heimfesting av definisjon, KJEL=kjelde, UTTR=uttrykk, ETYM=etymologisk opphav. På denne måten er alle ordartiklane strukturerte, og gjennom eit avansert søkjeprogram kan ein òg søkje på desse kodane. Men ein kan òg kalle fram ordartiklane på skjermen utan kodar, altså slik at dei tek seg ut som i den opphavlege versjonen vi siterte ovanfor.

 

Setelarkivet i elektronisk form

Setelarkivet er blitt skanna inn slik at kvar setel er blitt ein elektronisk faksimile. Kvar setel blir så registrert i databasen med oppslagsord med grammatisk merking, og kjelde. Grammatisk merking vil seie merking av ordklasse og (i tilfelle substantiv) genus, og dette blir markert med forkorting (m=hankjønn, f=hokjønn, n=inkjekjønn, v=verb, adj=adjektiv osv.). Kjelde er eigentleg to ting: I tilfelle skriftlege belegg er det den tekststaden belegget er henta frå, og i tilfelle målføreopplysningar er det innsendaren av opplysninga. I og med at kvar informant dekte ein bestemt dialekt, fungerer denne informantmerkinga også som heimfesting (geografisk merking) av setelen.

[5 * Setlar på knota]

{short description of image}

{short description of image}

{short description of image}

{short description of image}

{short description of image}

Her ser du fem setlar på knota i original form. (Det endelege brukargrensesnittet er ikkje laga enno, så vi veit ikkje korleis skjermbiletet blir i si endelege form.)

Om dei fem setlane kan vi seie at dei er kronologisk ordna. Den eldste er frå ei ordsamling frå Ringerike frå 1698, som viser at ordet alt den gongen var i bruk om det at ein nordmann snakka dansk – ei svært interessant språkhistorisk og språksosiologisk opplysning. Den neste setelen er frå Niels Svenungsens Det norske Fjeldsprog, ei utgreiing om vesttelemåla frå 1821, der han bruker "knote" om å snakke uforståeleg. Så finn vi ein innsend setel frå rektor M. Berntsen, Stavanger, med formopplysningar og definisjonar av ordet slik det var brukt i den byen i 1930-åra. Dei to siste setlane gjengir sitat. Den eine, frå Hallvard Svello: Boka om Gol (1961), er eitt av dei svært få døma vi har på at ordet blir brukt i tydinga "pynte med kroting". Den andre, frå avisa Dag og Tid, viser ordet i den vanlege moderne (språkpolitisk farga) tydinga.

På skjermen har vi øvst ei markering av at setelen er frå Norsk Ordbok, og til høgre setelnummeret. Under står dei viktigaste opplysningane: oppslagsforma med grammatisk merking og kjelde. Under der att finn du ei nøyare spesifisering av kjelda – i den eine tilfellet ein medarbeidar, altså innsendar, nemleg rektor Berntsen, i det andre tilfellet ei skriftleg kjelde. Merknaden til høgre gjeld seteltype og stadium i behandlinga under Dokumentasjonsprosjektet. Denne informasjonen er sjølvsagt irrelevant for brukarane og blir ikkje med i den endelege versjonen av skjermbiletet.

 

Tekstkorpuset

Det skriftlege kjeldematerialet er lese inn optisk og tagga etter SGML-prinsippet. Det skal danne eit tekstkorpus som ein kan søkje i, fritt eller gjennom eit konkordansprogram.

Det er meininga at korpuset stadig skal utvidast. Somme sentrale forfattarskapar, som Aasen, Vinje, Garborg, Duun og Fløgstad, er lagde inn fullt ut; det same gjeld den nynorske Bibelen (1921-utgåva). Ein må leggje til at det er mest eldre tekster som er lagde inn. Lov om opphavsrett til åndsverk set grenser for utnyttinga av tekstene til forfattarar som er døde for mindre enn sytti år sidan, og vi har av ymse grunnar ikkje fått til noka avtale med skribentorganisasjonane om vilkåra for slik utnytting. Først om og når desse problema blir løyste, kan vi byggje opp eit fullverdig korpus.

Det nynorske korpuset kjem elles ikkje til å skilje seg prinsipielt frå andre typar tekstkorpus, og derfor går eg ikkje meir inn på det her.

 

Kva kan vi så bruke dette til?

Vi kan seie at det langt på veg er eit ein-til-ein-forhold mellom det opphavlege materialet og den innlagde versjonen. Skilnaden ligg i søkjemoglegheitene.

Så kva slags moglegheiter gir databasen oss som vi ikkje alt har?

Ein ting er sjølvsagt at arkivet no blir tilgjengeleg utan omsyn til kor folk er i geografien: Dei som vil gjennomføre ordstudiar innanfor nynorsk og dialektane kan få fram materialet i alle fall reint teknisk utan å komme hit til oss. Det juridiske aspektet ved å gjere dette materialet fritt tilgjengeleg er uavklart, og derfor ser eg bort frå det her.

Vi skal antyde ein del søkjemoglegheiter, men først nokre generelle kjeldekritiske merknader til dette materialet.

 

Kjeldekritiske merknader

Same kor omfattande eit arkiv over språkmateriale blir, kan det aldri bli meir enn eit utval av dei totale data om det språket det dekkjer, i dette tilfellet nynorsken og dialektane frå midten av 1800-talet av. Eit slikt utval kan heller aldri bli hundre prosent representativt. I vårt tilfelle kan vi seie at utvalet er skeivt på følgjande måtar:

a) Geografisk: Bygdene er overrepresenterte i forhold til byane, og visse distrikt er overrepresenterte i forhold til andre pga. at vi har hatt betre og meir iherdige informantar der. Det mest underrepresenterte fylket er Finnmark.

b) Kronologisk: Det er mest eldre språk vi finn reflektert i materialet, delvis pga. innsamlingstidspunktet, delvis fordi informantane helst har vore middelaldrande eller eldre folk, og dels fordi dei har vore særleg interesserte i det eldre språket, ord og uttrykk som var i tilbakegang og derfor burde "bergast". Nyutviklingar i språket kjem derfor ikkje godt fram.

c) Informantane har òg jamnast vore mest interesserte i det særmerkte, slik at det allmenne i språket er underrepresentert. Det gjeld dels ord som er allmennorske eller vanlege i mange dialektar, dels funksjonsord, som er underrepresenterte fordi dei blir oppfatta som for trivielle – dersom dei ikkje førekjem i spesielle faste uttrykk som tiltrekkjer seg merksemda.

d) Sjølve nedskrivinga av setlane har foregått nokså tilfeldig, fordi redaksjonen ikkje har fastlagt malar for korleis informantane skulle arbeide. Derfor er det store skilnader mellom dei ulike setlane når det gjeld kva type opplysningar som er med, og på kva måte dei er representerte. Såleis er bruken av lydskrift nokså ujamn, og ein kan ikkje alltid vite kva uttale lydskrifta skal avspegle.

e) Det er òg ei potensiell feilkjelde at heile materialet består av rapportert talemål, ikkje autentisk. Ein kan altså ikkje vite sikkert kor godt bilete det gir av den faktiske dialekten, og i kor stor grad det reflekterer informantane sitt syn på korleis dialekten burde vere.

Desse merknadene gjeld mest talemålsmaterialet; det er særleg punkt c) som også er aktuelt for dei skriftlege beleggssetlane. Men moglegheita til å lage konkordansar over tekstkorpuset og søkje i dei kan nøytralisere eller i alle fall redusere dette representativitetsproblemet.

 

Søkjemoglegheiter – nokre spadestikk

Skal ein gi konkrete døme på kva ein kan søkje etter, så er det klart at det enklaste er å søkje på enkeltord. I Grunnmanuskriptet får ein da opp ein ordartikkel av den typen eg har vist for knota. I setelarkivet får ein opp større eller mindre mengder med setlar som ein kan klikke seg igjennom for å sortere ut dei som verkar mest interessante for ein sjølv. Har ein eit ukjent dialektord ein vil finne ut kva tyder, eller eit ord ein ser brukt på ein rar måte – noko som kan antyde ukjende tydingsnyansar – så er det lurt å klikke seg inn på dette ordet i Grunnmanuskriptet. Om ein ikkje får saka oppklart der, kan ein søkje på ordet i setelbasen og sjå om ein finn lappar som kastar lys over det problemet ein søkjer svar på. Det er i prinsippet det same som å stå i arkivet og bla gjennom setelskuffene, men ein treng altså ikkje lenger reise til Oslo for å kunne gjere det.

Døme: I Åsta Holths roman Kornet og freden (s. 60) finn ein desse setningane (samanhengen er at mannen til ei kvinne mistenkjer henne for å vere gravid, dei sit i ei badstove):

Men den faste magen hennes kvelvde seg meir inn enn utover. Prata forresten ikkje kvinnfolka om noe dei kalla smalmåne?

 

Kva tyder dette ordet?

Eit søk i setelbasen på smalmåne fører ikkje til noko resultat. Men måne kan i mange dialektar falle saman med månad, og søkjer ein på smalmånad, får ein fram ein setel med denne teksta frå Reichborn-Kjenneruds bok Vår gamle trolldomsmedisin: "Den første måneden som konen er med barn, kaller de over hele landet for smalmåneden, som er et uttrykk for at kvinnen i denne tid ofte er smalere om livet enn før."

Andre setlar under smalmånad viser at vi har belegg på ordet med liknande tyding frå Elverum, Østre Toten og Oppdal. Med det er gåta løyst.

Interessa for dialektar og lokale tradisjonar både på felt som språk, handverk og kultur er stor i dag, og søkjemoglegheiter på geografiske kriterium vil vere svært aktuelle for mange. Sidan dette ordmaterialet er så sterkt dialektbasert, er det fullt av geografiske tilvisingar, såkalla heimfestingar. Ved å søkje på dei, kan ein altså få fram lister over ord frå bestemte distrikt, som ein deretter kan bearbeide vidare alt etter kva behov ein har. Ein bør da vere klar over at heimfestingane kan gjelde større eller mindre område, altså landskap, fylke eller kommunar (etter den kommuneinndelinga som gjaldt før samanslåingane i 1960-åra – dei gamle kommunegrensene følgde dialektgrenser meir nøyaktig enn dei vi har no). Vil ein altså ha med ei liste over ord frå Østfold i Grunnmanuskriptet, bør ein søkje både på "Austf.", som er den forma som er brukt der, og på dei einskilde kommunane i fylket. "Austf." tyder at ordet eller tydinga er belagd over heile fylket, eller over ein såpass stor del av fylket at vi må rekne med at det er allment kjent.

I setelarkivet kan ein oppnå same effekten ved å søkje på ulike kjelder som knyter seg til det området ein søkjer etter. Ein kan da søkje på ulike trykte ordsamlingar frå området som er lagde inn i basen; det blir det same som å bla gjennom bøkene. Men ein kan òg søkje på medarbeidarar som har sendt inn setlar frå det aktuelle distriktet, og da får ein fram eit unikt og hittil ukjent materiale som kan lære oss mye om det eldre talemålet i desse områda. Vil ein t.d. vite kor utbreidd forma ikkje har vore i Vestfold og veke i Østfold, kan ein sjå på dei innsendarane som dekkjer dette fylket og søkje på det dei måtte ha sendt inn på desse orda (ein må da søkje på dei nynorske normalformene ikkje og veke, kombinert med dei aktuelle medarbeidarsignaturane).

Eit anna søkjekriterium ein kan bruke i Grunnmanuskriptet, er fag: med(isinsk), jur(idisk), mat(etamatisk), kjem(isk), fys(isk), zool(ogisk), bot(anisk), kyrk(jespråk) o.l. Dei orda ein da får fram, er som oftast tradisjonell nynorsk fagterminologi. Dei kan vere nyttige i studiet av eldre språkbruk og eventuelt også faghistorie. Eit mentalitetshistorisk aspekt kan ein også få fram, t.d. ved å søkje på ordet "kvinne" eller "kvende" og få fram dei nemningane som er registrerte på personar av dette kjønnet.

Eit meir direkte språkleg søkjekriterium er prefiks og suffiks. I Grunnmanuskriptet kan ein t.d. søkje på -dom, -leik og -skap for å studere korleis desse substantiveringssuffiksa fungerte i eldre nynorsk, og forsåvidt også i moderne nynorsk. I setelarkivet har vi såkalla etterleddssetlar, der ei lang rekkje ord med det aktuelle etterleddet er lista opp, slik at ein kan søkje på dei ulike enkeltorda med dette leddet som utgangspunkt. Ein kan òg søkje på forledd, t.d. få fram ei liste over alle oppslagsord som begynner på an- eller be- for å studere statusen til desse prefiksa i nynorsken og dialektane. (Dei kan rett nok vere underrepresenterte i materialet av puristiske grunnar, men det gjer det likevel interessant å studere kva som har sloppe igjennom.) – Ei sak for seg er det at når ein søkjer på slike morfem, får ein fram mye uvedkommande stoff som ein må sortere ifrå. T.d. inneheld setelarkivet ei liste over ord med etterleddet -leik som fyller sju setlar, men den som søkjer må sjølv sortere frå einannan avleiingar med substantiveringssuffikset -leik (beiskleik) og samansetningar med substantivet -leik (barneleik) – før den eigentlege analysen kan begynne.

Alt dette er i skrivande stund framtidsmusikk. Ei "oppskrift" på korleis ein bruker materialet, er uråd å gi i dag. Det vil alltid vere ein pionerinnsats å vere blant dei første som tek det i bruk og forskar i det. Truleg vil det bli oppdaga nye moglegheiter som vi enno ikkje har førestilt oss, nye problemstillingar som vi ikkje har tenkt på – og det vil bli oppdaga problem og manglar ved materialet som vi enno ikkje er i stand til å sjå. Denne artikkelen må derfor berre sjåast som eit første innblikk. Om ikkje så mange år ønskjer vi å gi ut ein metodikk som vil vere basert på konkrete røynsler med denne nye typen språkforsking.

Litteratur

Grønvik, Oddrun 1997: Om kjeldegrunnlaget for Norsk Ordbok. I Lars S. Vikør (red.): Norsk Ordbok – nynorskens leksikografiske kanon?:23–38.

Ore, Christian-Emil 1996a: Dokumentasjonsprosjektet. Norskrift 87:67–76.

Ore, Christian-Emil 1996b: Korpus og seddelarkiv, fredelig sameksistens mellom det beste og det gode? I Ásta Svavarsdóttir o.a. (red.): Nordiske studier i leksikografi 3:331-337.

Ore, Christian-Emil 1997: Norsk Ordbok, leksikalske databaser og elektronisk publisering. I Lars S. Vikør (red.): Norsk Ordbok – nynorskens leksikografiske kanon?:61–72.

Rangsæter, Oddrun 1995: Delprosjekt nynorsk. Ord om ord 1:16–18.

Vikør, Lars S. 1996: Kommentar til Christian-Emil Ores innlegg om Dokumentasjonsprosjektet (nynorskdelen). Norskrift 87:82–85.

Vikør, Lars S. (red.) 1997: Norsk Ordbok – nynorskens leksikografiske kanon? Oslo:Institutt for nordistikk og litteraturvitskap, Universitetet i Oslo.

npn-botn