npn-topp

Anne Engø:

Ordinnsamlinga til Norsk Ordbok

Historia til setelarkivet

I 1929 løyvde Stortinget det første tilskotet til det som skulle bli Norsk Ordbok. Ordbok over det norske folkemålet og det nynorske skriftmålet. Arbeidet begynte med å setje saman fleire ordbøker og ordsamlingar, bl.a. ordbøkene til Ivar Aasen og Hans Ross, til eit nytt ordboksmanus. Alle ordtydingane blei sett om til nynorsk. Det blei snart klar at dette manuset, som er kalla Grunnmanuskriptet, måtte byggjast ut med eit større ordtilfang.

I 1931 trykte tilsynsnemnda for Norsk Ordbok eit "upprop" i Syn og Segn. Her blei språkinteresserte oppmoda om å sende inn oppskrifter frå sitt eige mål og ekserpt frå skriftlege kjelder. Dette oppropet fengde mange. Alt i 1932 var det 474 frivillige medarbeidarar i gang med samle inn ord (Skard 1932). I 1950, då det første heftet av ordboka kom ut, hadde talet på medarbeidarar vaksi til over 600. Medarbeidarane hadde sendt inn 150 000 setlar med målføreopplysningar og 700 000 ekserpt frå skriftlege kjelder. Staben i Norsk Ordbok hadde òg produsert setlar, så det samla talet var kommi opp i 1,2 millionar (Hellevik 1966). I dei to første tiåra blei det altså laga gjennomsnittleg 60 000 ordsetlar per år.

I 1995, året det blei slutt på å støype inn fleire nye setlar i arkivet, inneheldt arkivet over 2,9 millionar setlar (587 844 forskjellige ord). Dette talet inkluderer 427 000 setlar som er kopierte frå samlingane til Målførearkivet. I alt har det vori over 1 000 eksterne medarbeidarar som har sendt inn materiale til arkivet. Saman med dei tilsette i ordboka har dei gjort det mogleg å samle inn ord frå over 2 000 titlar (sjå kjeldelista i Brukarrettleiing 1994), og det har kommi inn målføreoppskrifter frå alle fylka i landet. Ekserpering har alltid vori ei ulønt fritidssyssel, både for eksterne medarbeidarar og dei tilsette i Norsk Ordbok, mens kontroll av setlane og innstøyping i arkivet har vori lønt arbeid. Etter kvart har redaktørane brukt meir tid på å redigere ordboka enn å registrere nytt materiale. Eksterne medarbeidarar har falli ifrå. Dei par siste åra har det kommi inn setlar frå berre fire eksterne medarbeidarar. Omfanget av nye setlar per år har derfor blitt stadig mindre.

Då det blei bestemt at 1938-normalen skulle vere redigeringsspråket i ordboka, fekk også setlane oppslagsord med denne normalen. I tillegg er ordklassen ordet høyrer til, ført på. Ein kan grovinndele setlane i tre typar: talemålssetlar (opplysningar om ord frå dialektane), litteratursetlar (ekserpt frå skriftlege kjelder) og kombinerte setlar (litteratursetlar der ekserptorane har ført på merknader om bruken av det ekserperte ordet i eigen dialekt). Setlane er laga på mange måtar. Dei fleste er handskrivne, men det er òg laga setlar med skrivemaskin. Ein tredje type er utklipp eller fotokopi frå bøker og aviser som er limte på setlane. Innhaldet varierer òg mykje, frå berre påføring av ei bøyingsform til både bruksdøme, definisjon, etymolgi, uttaleopplysningar og bøyingsformer. Medarbeidarane har hatt rettleiingar å halde seg til for korleis dei skal lage setlane (Syn og Segn 1931 og 1956).

I tillegg til dette hovudarkivet finst det tre andre setelarkiv som blir nytta i Norsk Ordbok: Nynorskarkivet til Det norske litterære ordboksverk, Ivar Aasen-arkivet, Reidar Djupedal-arkivet og FELTED-arkivet (sjå nedanfor).

 

Historia til det elektroniske arkivet

I 1989 blei datamaskinen tatt i bruk for å registrere ekserpt. Det blei nytta eit feltinnskrivingsprogram, FELTED, som bl.a. hadde felt for desse kategoriane: oppslagsordet i grunnform etter 1938-normalen, ordklassen til oppslagordet, ordsamband, grammatisk merking (m.a. notid, fortid, eintal, fleirtal, bunden form, ubunden form) av ordforma i sitatet, kjeldeopplysning, kartotekopplysning, innskrivar, merknader (Worren 1992). I alt blei det skrivi inn 55 000 ekserpt med dette programmet dei fire åra det var i bruk. Desse ekserpta blei konverterte til papirsetlar og finst no som eit særskilt arkiv.

Frå 1993 er eit internasjonalt dataspråk for merking av tekst, SGML (Standard Generalized Markup Language), blitt brukt i staden. Kvart element i ein tekst som ein vil skilje ut, blir merkt med såkalla taggar. Innskrivingsformatet med SGML-taggar har færre informasjonskategoriar enn FELTED. Oppslagsord etter 1938-normalen, ordklasse, ordforma i sitatet (i noko av materialet er denne forma definert som i FELTED-materialet) og kjelde er påførte. Litt i overkant av 10 000 SGML-tagga ekserpt er blitt skrivne inn kvart år. Dette materialet har ikkje vori tilgjengeleg fordi det har mangla eit framvisingsverktøy.

Både innskrivinga med FELTED og SGML har dreidd seg om ekserpt frå skriftlege kjelder. Talemålsoppskrifter er altså berre laga for papirarkivet.

Det største løftet i 90-åra har vori overføringa av heile hovudarkivet til data. Dette har vori arbeidsoppgåva til Dokumentasjonsprosjektet, delprosjekt nynorsk. Prosjektet starta i 1991 og skal avsluttast 31.12.1998. Det at store arkiv skulle bli meir tilgjengelege, var ei av dei viktigaste årsakene til at Dokumentasjonsprosjektet kom i gang. Målet for delprosjekt nynorsk var å digitalisere heile arkivet til Norsk Ordbok. Men det viste seg å bli for tidkrevjande å skrive av alle setlane. Det er berre setlane på bokstavane L, M og N som er digitaliserte og merkte med SGML-taggar. I staden blei det laga faksimilar (bilete) av alle setlane. Til kvar faksimile er det lagt inn opplysningar som gjer det mogleg og sortere materialet på fleire måtar. Alle setlane har fått oppslagord etter 1938-normalen og ei ordklassebestemming. Dei fleste setlane har også opplysningar om medarbeidar, heimfesting og kjelde. Ein del av dei bøkene som arkivet har ekserpt frå, er blitt skanna inn. Formålet med det er å lage ein tekstbase der ein kan søkje i fritekst for å vege opp at ein ikkje kan søkje i setelteksten.

No når alle setlane er samla i ein database, ser ein at konverteringa frå papir til data ikkje har vori uproblematisk. Prosjektmedarbeidarane har brukt det oppslagsordet og den ordklassa som er oppgitt på setelen. På grunn av at det har vori mange personar involvert i oppbygginga av setelarkivet og fordi innsamlinga har foregått over fleire tiår, er det blitt ein del inkonsekvensar i desse påføringane. For å gjere basen betre må ein sjekke normaliseringa av oppslagsorda og gjere ordklassemerkinga meir konsekvent. Mange av setlane har så svak skrift at faksimilane ikkje kan sjåast på skjermen. Eit anna problem er at kjelde og medarbeidarnamn har vori førte på med så svakt stempel at det ikkje er synleg på faksimilane. Det vil krevje ein del etterarbeid å taste inn dei setlane som er blitt uleselege faksimilar og å sjekke kjeldelause setlar mot originalsetlane. Det er også planar om å normalisere oppslagsorda etter moderne rettskriving for å gjere basen meir brukarvennleg. Eit anna arbeid som burde ha vori gjort, er å leggje inn opplysningar som gjer at ein kan skilje homonym fra kvarandre. Når eit ord har mange belegg og mange tydingar, kan det ta tid å finne fram til det ein leitar etter.

No ved årsskiftet 1998/1999 blir dei digitaliserte "setlane" som er produserte ved Norsk Ordbok fra 1989 til i dag lagt inn i databasen som er laga ved Dokumentasjonsprosjektet. Det er mogleg at Grunnmanuskriptet og ein del eldre ordsamlingar som er blitt digitaliserte i prosjektet, også vil bli lagde inn i basen. Det elektroniske arkivet blir derfor ein del større enn papirarkivet.

Det er nok ikkje lettare og raskare å byggje opp eit elektronisk arkiv enn eit papirarkiv. Det einaste ein slepp er å alfabetisere setlane manuelt. Tagging og korrekturlesing av skanna eller inntasta tekster tek mykje tid. Den store nyvinninga ligg i at bruksmoglegheitene blir mange fleire. Men for å dra nytte av kva datateknologien kan hjelpe til med å få fram, må ein vere bevisst på kva ein vil sortere etter og legge inn dei opplysningane som gjer dette mogleg. I det elektroniske arkivet som no blir utvikla, kan ein finne fram alle setlane ein bestemt medarbeidar har sendt inn, alle ekserpt av ein forfattar, ei bestemt bok, ein bestemt landsdel osv. Det blir òg lettare å finne ord med felles etterledd. Ei anna nyvinning er at det blir mogleg å få fram ekserpt med faste ordsamband. Førebels er det berre dei digitaliserte setlane på L, M og N og FELTED-materialet som har opplysning om ordsamband. Etter kvart som tida går, blir det meir interessant å kunne sorterte materialet kronologisk. Er eit ord framleis i bruk? Har ordet har det fått ei anna tyding med åra? Hittil er det ikkje lagt vekt på å dokumentere den diakrone utviklinga i Norsk Ordbok (Vikør 1997:9). Ein kan sjølvsagt òg kombinere søkjekriteria.

Det elektroniske arkivet vil utfylle den trykte ordboka. Ein vil finne ord og tydingar som ikkje har kommi med i det som er ferdigredigert (t.o.m. "grabekar"), og ein kan finne opplysningar om ord som enno ikkje er redigerte.

 

Ordinnsamling i framtida

Eit ordarkiv blir aldri "stort nok". Språket er i stadig endring, ord går av bruk, nye ord kjem inn, og gamle ord får nye tydingar og bruksområde. Sidan registreringa har vori monnaleg mindre dei seinare åra enn i starten på innsamlinga, seier det seg sjølv at moderne språkbruk ikkje er så godt representert som den eldre.

Kva for innsamlingsmetodar kan bli aktuelle i framtida? Dataprogram, anten konkordansprogram eller morfologiske analysereiskapar, kan vere til hjelp i innsamling av ord frå skriftlege kjelder. Hittil i norsk leksikografi har denne typen hjelpemiddel ikkje vori nytta for å registrere ord. Men sjølv om ein får datamaskinelle hjelpemiddel, må ein halde fram med den manuelle ekserperinga. Dataprogram kan ikkje konkurrere med eit oppøvd ekserptorauge med å finne gode brukseksempel og stader i teksten der ordet blir definert. Det uheldige ved manuell ekserpering er ein tendens til at dei spesielle orda får større merksemd enn dei allmenne. Ordtilfanget i elektroniske tekstsamlingar kan rette på denne skeivheita.

I den næraste framtida vil ein fortsette å lage ekserpt av gjennomekserpterte bøker. I dei seinare åra har særleg ordsamlingar blitt dataført, delvis for å kompensere for at det er kommi inn mykje mindre målføreoppskrifter.

I tillegg er det naudsynt å ha eit system for å registere enkeltekserpt, både frå talemål og skriftlege kjelder. Sjølv om det har vori ein overgang frå papir til elektronikk, må det framleis vere mogleg å motta materiale frå språkinteresserte folk.

Dei som ikkje har datamaskin, kan skrive ordopplysningar på setlar som det har vori gjort sidan 1931. Desse setlane vil bli skanna og lagde som faksimilar i dataarkivet. Ein har lært frå Dokumentasjonsprosjektet at skrifta må vere tydeleg for at det skal bli leselege faksimilar. Det bør helst brukast svart penn. Ein kan seie at det er eit tap å ikkje kunne søkje i setelteksten. Men sidan det tar tid å skrive av setelen og det er ei viss faren for trykkfeil, er det mest fornuftig å skanne setelen og berre digitalisere oppslagsord, ordklasse, heimfesting, år og informant. Dessutan er ev. lydskriftteikn og illustrasjonar nyttige opplysningar som ikkje er lette å digitalisere slik at attgjevinga blir korrekt.

For dei som har datamaskin og materiale som dei ønsker skal gå inn i samlingane til Norsk Ordbok, trengs det eit eige oppsett for at kategoriane som eit ekserpt består av, skal vere greie å identifisere. Dette SGML-taggesettet skal brukast:

<SETEL>

<OPP GRM=ordklasse>grunnform av det ekserperte ordet etter 1938-normalen</OPP>

<ORDS>oppslagsordet i eit ordsamband</ORDS>

<ORDF>grunnform av eit dialektord

<BFORM>bøyingsopplysningar</BFORM>

<UTT>uttalemarkering (førebels utan bruk av lydskriftteikn)</UTT>

<ETYM>etymologi</ETYM>

<DEF>definisjon startar

<SIT>sitat startar

<ORDFS>ordforma i sitatet</ORDFS>

<FORKL>forklaring på sitatet</FORKL>

</SIT></DEF></ORDF>

<MERK>merknad frå ekserptoren</MERK>

<INF DATO=år>informant eller ekserptor</INF>

<HMF>heimfesting</HMF>

<KJEL>litterær kjelde</KJEL>

</SETEL>

Det i halvfeit skrift er SGML-taggar. Der eit element begynner, f.eks. der ein setel startar, set ein inn ein starttagg, <SETEL>. Sluttaggane begynner med ein skråstrek, </SETEL>. Rekkefølgja på taggane er obligatorisk, men ein treng ikkje å fylle ut alle taggane i oppsettet. To av taggane har såkalla attributt. I <OPP GRM=> er GRM attributtnamnet for grammatisk merking, dvs. ordklasse (det er blir stort sett brukt dei same ordklasseforkortingane som i den trykte ordboka). GRM-utfylling er obligatorisk. I <INF DATO=> kan ein fylle inn eit årstal for når setelen er laga, men dette er ikkje obligatorisk. Dette taggeoppsettet er bygd på det som blei brukt i Dokumentasjonsprosjektet når dei skreiv inn setlane på L, M og N. SGML-tagga tekst kan skrivast inn med kva som helst av tekstbehandlingsprogram.

Nokre vil kanskje synast at det er snodig at ein tar med seg setelfasongen over i det elektroniske arkivet. Det er gjort for å samordne det nye materialet til det gamle. Tekstomfanget som får plass på ein setel høver godt som grunnlag for ordboksredigering. Her vil eg vise nokre eksempel på korleis SGML-tagga ekserpt kan sjå ut.

Eksempel på registrering av ord frå talemålet:

<SETEL>

<OPP GRM=m>sprikelort</OPP>

<ORDF>sprikelort

<DEF><SIT>De ær en årntli sprikelort.</SIT>

Ein skrytete mann som prøver å gjere seg viktigare enn han er.</DEF></ORDF>

<INF DATO=1998>Anne Engø</INF>

<HMF>Hobøl</HMF>

</SETEL>

Eksempel på registrering av ordsamband:

<SETEL>

<OPP GRM=v>pusta</OPP>

<ORDS>pusta ein i nakken</ORDS>

<SIT>Da Sigurd og Jens bar av garde med radioen, var Mads heilt knust. Han kunne kanskje greie seg utan radio, men han visste at han kunne ikkje leike seg fritt med fiolinen no når brørne <ORDFS>pusta</ORDFS> han i nakken.</SIT>

<INF DATO=>Anne Engø</INF>

<KJEL>Marit Tusvik: Ishuset, 1993 (1. utg. 1991)</KJEL>

</SETEL>

Eksempel på eit ekserpt frå dansk-norsk tekst med replikkar på dialekt:

<SETEL>

<OPP GRM=adj>agersam</OPP>

<SIT>Du nyder rigtigt godt af Beina dine idag, Gamlen, og er mye <ORDFS>ajersam</ORDFS>, og siden du nu er saa snil, at du vil gaa her og ajere med mig, saa skal jeg lære dig en Ting, jeg. Den, som tager et godt Ben fra en vond Hund, kan inte vente at gaa ubidt hjem, og det er ingen Sag at danse paa Kirkespiret, naar Kjerka er dættet ned, men det er mye farligt, naar Kjerka staar.</SIT>

<MERK>I ei fotnote bruker Meltzer det danske ordet "spøgefuld" som forklaring på "ajersam".</MERK>

<INF DATO=>Anne Engø</INF>

<KJEL>Harald Meltzer: Smaabilleder af Folkelivet, 1875</KJEL>

</SETEL>

Eksempel på ekserpt frå ein roman skrivi på dialekt:

<SETEL>

<OPP GRM=m>flodhest</OPP>

<SIT>- Dælan, det kommer til å gjøra seg innmari bra! Nei, se på ho sure dama der, a! - Å det bor mange sånne i veien hos vårs. - Rene <ORDFS>flodhesten</ORDFS>, jo!</SIT>

<MERK>Kjenner denne biletbruken frå eige mål (austlandsmål).</MERK>

<INF DATO=>Anne Engø</INF>

<KJEL>Magne Aasbrenn: Banna ben, 1978</KJEL>

</SETEL>

Taggane vil sjølvsagt ikkje vere synlege i databasen. Om nokre av dykk som les dette, får lyst til å lage tilsvarande ekserpt, blir dei vel mottekne i Norsk Ordbok (a.t.engo@inl.uio.no). Det same gjeld for dei som vil skrive ord på papirsetlar (Norsk Ordbok, Boks 1001 Blindern, 0315 Oslo).

Etter kvart skal det òg bli mogleg å registrere ord direkte på Internett. Det er planlagt eit samarbeidprosjekt med Ivar Aasen-senteret om ei internettside, Nynorsk på nettet. Her vil det blant anna bli mogleg å skrive inn ord og uttrykk. Etter ein fagleg kontroll vil dette materialet komme inn i databasen.

Litteratur:

Hellevik, Alf 1966: "Innleiing til fyrste heftet" i Norsk Ordbok, band I.

Norsk Ordbok 1931: "Upprop" i Syn og Segn.

Norsk Ordbok 1931: "Rettleiding for friviljuge medarbeidarar ved Norsk Ordbok" i Syn og Segn.

Norsk Ordbok 1956: "På skattegraving i vårt eige mål. Rettleiing for ordsamlarar" i Syn og Segn.

Norsk Ordbok 1994: Brukarrettleiing.

Skard, Sigmund 1932: "Norsk Ordbok historie - plan - arbeidsskipnad".

Vikør, Lars 1997: "Innleiing" i Norsk Ordbok - nynorskens leksikografiske kanon. Rapport frå eit seminar på Blindern 31. mai 1996.

Worren, Dagfinn 1992: "Ordinnsamling på data" i heftet Feltskjema for innskriving av ordmateriale, Avdeling for leksikografi, Universitetet i Oslo.

npn-botn