npn-topp

Christian-Emil Ore:

Norsk Ordbok, leksikalske databaser og elektronisk publisering

Innledning – Norsk Ordbok og seddelarkivet

Arbeidet med Norsk Ordbok har til nå vart i 66 år. Prosjektet har vokst langt ut over de forestillingene man hadde i 1930 om å sammenstøpe ordtilfanget i de da eksisterende ordbøkene for nynorsk og utvide dette med nyere ord til et firebindsverk. I dag er målet "ei vitskapeleg ordbok over dei norske målføra og det nynorske skriftspråket" planlagt i 12 store bind. Skiftet synes å ha kommet rundt andre verdenskrig da man erkjente at det da ferdige Grunnmanuskriptet ikke uten videre egnet seg som grunnlag for et trykkmanuskript og at tilfanget av nyere ord utgjorde en atskillig viktigere og større del av ordboken enn det man i utgangspunktet hadde forestilt seg. En del av denne erkjennelsen kan muligens ha kommet fra arbeidet med å bygge opp et leksikografisk seddelarkiv i forbindelse med prosjektet. Et typisk kort i et slikt arkiv inneholder et ord i grunnform, en liten tekstbit som gir et eksempel på bruk av ordet, hvor ordet er brukt, opplysninger om grammatikk, uttale og eventuelle andre forhold rundt dette eksempelet. Arkivet er sortert alfabetisk etter ordenes grunnform. Om man leser forordet til de ulike heftene som til nå er kommet av Norsk Ordbok, slår det en at oppbygningen av seddelarkivet har vært svært sentral hele tiden helt til i dag. Det har vært et uttalt ønske om å få arkivet størst mulig for nettopp å kunne ha mange eksempler for hvert eneste ord, også de mer sjeldne. Seddelarkivet rommer nå omlag 3,2 millioner sedler. Dette er ikke spesielt mye. Tilsvarende nasjonale prosjekter i Sverige og Danmark har mer enn 10 millioner hver, mens arkivet til "Oxford English Dictionary" rommer mer enn 30 millioner sedler.

Seddelarkivet er altså den tradisjonelle systematiske metoden for å samle belegg og opplysninger om ord til bruk i redigeringen av en ordbok. I de siste 40-50 årene har imidlertid datateknologien muliggjort alternative metoder for å fange inn og lagre tilsvarende informasjon. Den nye teknikken har skapt et skille i synet på bruk av materialet i ordboksredigeringen. For noen står seddelarkivet som en tilfeldig samling opplysninger eller deler av en konkordans, og arkivet er kun et eksempel på hva gårsdagens teknikk kunne produsere. For andre representerer seddelarkivet en skattkiste der hver seddel er valgt med omhu, mens det med et korpus kan være vanskelig få med det spesielle og sjeldne språket.

I Norsk Ordbok-prosjektet ble datateknologien introdusert på slutten av 1970-tallet gjennom arbeidet med Nynorskordboka, en håndordbok med omlag 90 000 oppslagsord. Men bruken av datamaskiner utviklet seg i løpet av 1980-årene ikke særlig lengre enn til en erstatning for skrivemaskinene i redaksjonen. På slutten av 1980-tallet vokste det frem en idé ved Det historisk-filosofiske fakultet ved Universitetet i Oslo om å la datamaskinene overta for arkivskapene. Dette noe uspesifiserte, men på det daværende tidspunkt svært ambisiøse og fremtidsrettede utopiske målet er blitt til det noe mer jordnære Dokumentasjonsprosjektet slik vi kjenner det i dag.

Det største delprosjektet innen Dokumentasjonsprosjektet er arbeidet med å lage en elektronisk erstatning for seddelarkivet til Norsk Ordbok. Arbeidet startet i august 1991. Etter planen skal prosjektet være avsluttet ved årsskiftet 1997/1998. De fem årene prosjektet har vart, har gitt oss mye erfaring: De teknologiske forutsetningene i verden rundt oss har også utviklet seg voldsomt i disse årene. Det som kunne virke utopisk i 1990, er i dag hverdagslige realiteter. Vi er alle knyttet til Internett der vi kan hente informasjon om de fleste emner. Det foregår en stadig økende elektronisk publikasjon av ordbøker, tekstarkiv og tekstkritiske kommentarutgaver både via nettet og via CD-ROM. Da vi startet arbeidet med seddelarkivet til Norsk Ordbok, eksisterte lite av dette og da gjerne som eksperimentelle prosjekter. Det synes derfor riktig å ta opp igjen forholdet mellom Norsk Ordbok, elektronisk tilgjengelig bakgrunnsmateriale og elektronisk publisering. Jeg vil i denne artikkelen kort gjøre rede for Dokumentasjonsprosjektets arbeid og hva databasene vil inneholde. Hovedvekten er lagt på en gjennomgang av forholdet mellom arkiv, kommenterte tekstutgaver og annen vitenskapelig publisering i en elektronisk tidsalder og hvilke innvirkninger dette kan ha for et prosjekt som Norsk Ordbok.

Dokumentasjonsprosjektet

Formålet med Dokumentasjonsprosjektet er å omstille samlingsavdelingenes behandling av informasjon til moderne datateknikk og dermed effektivisere det interne samlingsarbeidet, eksternt samarbeid og utveksling av informasjon samt innhenting av ny informasjon. På denne måten ønsker man å utløse et forskningspotensiale, men også å avdekke svakheter i rutiner og systemer og forbedre disse. Det er også et viktig mål å tilgjengeliggjøre informasjonen for andre forskere, for studenter, for undervisning, for offentlig forvaltning og for allmennheten så langt dette er forsvarlig ut fra personvern, sikkerhet, opphavsrettigheter og eventuelle kommersielle hensyn.

Dokumentasjonsprosjektet kan grovt deles inn i en museumsdel og en språklig orientert del. I den museumsrettede delen av prosjektet arbeider vi med å bygge opp forskningsdatabaser for de arkeologiske museene i Bergen, Oslo og Tromsø. I Tromsø arbeider vi også med nyere kulturhistorisk materiale. Den språklige delen består i hovedsak av tilrettelegging av bakgrunnsmateriale for ordboksavdelingene (bokmål, gammelnorsk og nynorsk) ved Avdeling for leksikografi i Oslo, for Trønderordboka ved Norges teknisk-naturvitenskapelige universitet (NTNU), og for navnegranskingsmiljøene i Oslo og Tromsø.

Dokumentasjonsprosjektet og de leksikografiske arkivene

Den opprinnelige målsetningen for delprosjektene ved Avdeling for leksikografi var "å gjøre seddelarkivene tilgjengelige på elektronisk form". Til sammen er det omlag 9 millioner sedler i avdelingens arkiver. Ved en mer inngående analyse av seddelmaterialet ble det besluttet bare å konvertere nyordsarkivet til Bokmålsavdelingen, seddelarkivet til Gammelnorskavdelingen og hele nynorskarkivet (seddelarkivet til Norsk Ordbok), i alt 4 millioner sedler. De resterende sedlene var stort sett laget ut fra hele forfatterskap (Wergeland, Bjørnson mm.) og inneholder den samme informasjonen som man vil finne i en vanlig KWIC-konkordans. Det aller meste av Bokmålsavdelingens sedler er av denne typen. Istedet for å arbeide med ordsedlene har vi her brukt optiske leseprogrammer (OCR) for å gjøre de opprinnelige tekstene elektronisk tilgjengelige. Disse tekstene blir kodet i overensstemmelse med anbefalingene til det SGML-baserte "Text Encoding Initiative" (Goldfarb 1991, Sperberg-McQueen and Burnard 1994).

Seddelarkivet er, som nevnt tidligere, det tradisjonelle redskapet i å samle belegg og opplysninger om ord til bruk i redigeringen av en ordbok. Det store arbeidet som er lagt ned i oppbygningen og vedlikeholdet av seddelsamlinger vitner om hvilket viktig hjelpemiddel ordsedlene har vært og fremdeles er i ordboksarbeid. I de senere år har datateknikken muliggjort en mye mer effektiv oppbygning av den informasjonen som et seddelarkiv representerer. Elektronisk lesning av tekst (OCR), konkordansprogrammer og hjelpemidler for (halv-)automatisk markering av grammatisk informasjon til ord i løpende tekst kan nevnes (se Atkins 1992).

I et leksikografisk seddelarkiv er det for et utvalg ord fra et utvalg tekstbrokker (1 til 20 linjer) gitt opplysninger om bøyningsform, ordets rot og annet. Et tagget tekstkorpus er derimot en samling større tekstfragmenter (fra 25 sider løpende tekst og oppover) der hver ordform i tekst(fragment)ene har fått markert grunnord, ordklasse og aktuell bøyningsform. Informasjonen i et seddelarkiv kan altså sammenlignes med den vi finner i et tagget tekstkorpus. Denne observasjonen lå til grunn da vi planla konverteringen av de leksikografiske arkivene og valgte å erstatte bokmålsarkivet med løpende elektronisk tekst, riktignok uten grammatisk informasjon.

Gammelnorskavdelingens arkiv er også et arkiv av "KWIC-konkordans"- typen. Men sedlene er så systematisk bygd opp at vi her har valgt å bruke informasjonen på dem til å bygge opp hele tekster der hver ordform har fått markert grunnord, ordklasse og aktuell bøyningsform. Vi har altså laget et lite tagget tekstkorpus for det gammelnorske materialet.

Figur 1: Skisse av et kombinert seddelarkiv og tagget tekstkorpus

Arkivet til Norsk Ordbok skiller seg ut fra de to andre arkivene ved at det er bygd opp av mange hundre frivillige uten spesiell leksikografisk utdannelse over en lang periode (omlag 60 år). Dette har resultert i et heterogent arkiv som både består av rene ekserptsedler og av sedler med mye ekstra informasjon om blant annet bruk og uttale. En effektiv konvertering av et slikt arkiv fordrer at de rene ekserptsedlene frasorteres og erstattes med elektronisk tekst. De resterende sedlene kan skrives inn og SGML-kodes (Sperberg-McQueen and Burnard 1994) slik at de kunne lastes inn i et databasesystem slik det er skissert i figur 1. Dette var også den opprinnelige planen for vårt arbeid. Etterhånden viste det seg at det var ekstremt ressurskrevende å foreta en sortering av arkivet. Det viste seg også at avskrift og koding av sedlene byr på de samme prinsipielle og metodologiske problemene som enhver transkripsjon av håndskrevet materiale. Vi valgte derfor gå bort fra avskriften av sedlene. I stedet satset vi på en database med faksimiler av samtlige nynorsksedler. Denne samlingen av faksimiler har oppslagsord, ordklasse og uttømmende kildeopplysninger som søkenøkler. Man mister på denne måten mulighetene til å søke i den løpende teksten på sedlene, men har fremdeles muligheten til å finne sedler etter grunnord, ordklasse, sted i landet, kildetype og hvem som har skrevet seddelen. Se Ore 1996 for en inngående diskusjon av fordeler og ulemper ved denne løsningen.

Dokumentasjonsprosjektet og leksikalske databaser

Med leksikalske databaser menes databaser som inneholder informasjon om ord som deres oppbygning og bøying (morfologi), grammatisk funksjon, mening, relativ frekvens og så videre. En leksikalsk database er altså datateknikkens svar på en ordbok. Den skiller seg fra en tradisjonell ordbok også ved at det ikke er meningen at all informasjonen skal leses av mennesker. I mange tilfeller kan leksikalske databaser inneholde informasjonen kodet til bruk i ulike språkteknologiske verktøy så som morfologiske analysatorer, syntaksanalysatorer og oversettelsesstøttesystemer. Men en leksikalsk database vil typisk kunne inneholde teksten fra en eller flere tradisjonelle ordbøker som hjelp og supplement til menneskene som bruker basen.

Dokumentasjonsprosjektets nynorske orddatabase (leksikalske database) inneholder informasjon fra mange kilder: seddelarkiv, ordbøker og ordsamlinger. Blant ordbøkene kan vi nevne Aasens Norsk Ordbog (1873), Nynorskordboka (1993) og Grunnmanuskriptet som er et første utkast til Norsk Ordbok fra 1930-tallet (se senere for en nærmere beskrivelse). I tillegg finner vi 20-30 ordsamlinger fra 1600-, 1700- og 1800-tallet. Det er også planer om å legge inn den såkalte Storm-synopsen, som er en oversikt over uttale og bøyning av omlag tusen ord tusen steder i Norge. I tillegg til dette historiske materialet inneholder orddatabasen også bøyningsinformasjon og annen grammatisk informasjon hentet fra IBM og fra arbeidet med et "Komputasjonelt leksikon (NorKompLeks)" ved Lingvistisk institutt ved NTNU (Nordgård 1995). Dokumentasjonsprosjektets nynorske ordbaser vil dermed være en blanding av en leksikalsk database i ordets mer tekniske betydning og en samling av elektroniske versjoner av ordbøker, ordsamlinger og annet leksikografisk bakgrunnsmateriale. Figur 2 gir en skjematisk oversikt over den nynorske leksikalske databasen slik denne kan bli.

Et viktig punkt som krever norskfilologisk og helst leksikografisk ekspertise, er å etablere en kobling av grunnord mellom de ulike delbasene. Dette kompliseres av de ulike rettskrivingstandardene som er brukt. De eldre ordsamlingene og ordbøkene følger sin egen rettskriving. Seddelarkivet og Grunnmanuskriptet følger ideelt sett 1938-rettskrivingen, mens det nyere materialet følger moderne rettskriving.

Figur 2: En skisse av den leksikalske databasen. De deler som er digitalisert eller planlagt digitalisert gjennom Dokumentasjonsprosjektet eller andre er satt i halvfet.

Sammenkoblingsarbeidet krever altså at alle oppslagsordene i de ulike samlingene og verkene også får påført en variant som følger den moderne rettskrivingen eller eventuelt 1938-rettskrivingen. Dette er et ikke-trivielt problem siden ingen av de nevnte normene dekker alle grunnordene i databasen. Fagkonsulentene i Dokumentasjonsprosjektet har begynt på standardiseringsarbeidet. Med dagens utgivelsesstrategi for Norsk Ordbok vil den leksikalske databasen de facto være den eneste samordnede presentasjon av grunnlagsmaterialet fra A til Å i de neste 50 årene. Det er derfor et spørsmål om ikke fagleksikografene burde delta sterkere i dette arbeidet (se forøvrig diskusjonen senere i denne artikkelen).

En frigjøring fra Gutenberg

Mange forskningsprosjekter vil vanligvis bygge på store mengder data som er samlet inn gjennom eksperimenter, gjennom feltarbeid eller som resultat av besøk i biblioteker og arkiver. På bakgrunn av disse dataene utarbeides det artikler og rapporter som presenterer de resultatene man har kommet frem til. Prosjektgenerert bakgrunnsmateriale blir så enten ødelagt eller bevart i et eller annet arkiv. Et slikt arkivmateriale kan selv bli gjenstand for (meta)forskning ved en senere anledning der det har vokst frem et ønske om å finne ut hvordan prosessen mot det ferdige resultatet egentlig var. Man kan her nevne ønsker om å studere Ivar Aasens arbeid frem mot hans Norsk Ordbog.

Som den motsatte ytterlighet til formidling av forskningsresultater gjennom artikler, kan vi sette temaarkivet eller temabiblioteket. Det er en lang tradisjon innen arkiv- og biblioteksverdenen å samle arkiver og bibliotek over spesielle temaer eller over enkeltstående personers etterlatte papirer. Her kan for eksempel nevnes Wittgensteinarkivet i Bergen, Kildeskriftavdelingen ved Riksarkivet eller det planlagte Aasensenteret der man vel opprinnelig tenkte seg å samle alle Aasens etterlatte papirer, hans bibliotek og ideelt sett alt som er skrevet om eller på nynorsk.

Tekstkritiske utgaver av ulike verk og verk som prøver å etablere "en beste tekst" ut fra eksisterende versjoner vil på denne tenkte skalaen kunne plasseres nærmere den vitenskapelige artikkel enn bibliotek og arkiv. Som eksempler på slike arbeider kan jeg nevne så ulike ting som utgivelser av Homer og bibelforskning. Den tradisjonelle publiseringen av større tekstsamlinger ved bruk av mikrofilm ligger derimot nær bibliotek eller arkiv på denne skalaen.

Denne klassifikasjonen kan kanskje virke noe uinteressant om ikke introduksjonen av ny teknologi hadde snudd opp ned på en lang rekke tilvante publiseringsmetoder. Det har til nå vært høyst uvanlig at forskningsprosjekters bakgrunnsmateriale er blitt publisert selv i de tilfeller der institusjonen som har huset prosjektet ikke har noen kommersielle eller sikkerhetsmessige grunner til å holde materialet for seg selv. Mye av årsaken ligger selvfølgelig i kostnadene. Men i en tid hvor det meste av ny informasjon finnes i elektronisk form, og hvor lagringsmediene (f.eks CD-ROM) er svært billige, vil en slik publisering av bakgrunnsmaterialet sammen med resultatene av forskningen kunne bli alminnelig.

Innen de humanistiske fag synes det å være en begynnende trend til å gi ut selve kildematerialet i elektronisk form utstyrt med søkeverktøy og/eller et elektronisk note- eller kommentarapparat. En slik publikasjon er på mange måter svært lik en mikrofilmversjon av et arkiv eller bibliotek, men synes likevel å være nærmere intensjonen bak tekstkritiske utgaver. Denne publiseringsmetoden er også et svært godt alternativ til det tradisjonelle filologiske arbeid der kildematerialet kun refereres gjennom noteapparatet. Ved å legge selve bakgrunnsmaterialet sammen med det vitenskapelige arbeidet, vil forholdet mellom kildematerialet og den vitenskapelige artikkelen endres. Som George Landow påpeker, får fotnoten eller henvisningen en annen rolle. De er ikke lenger underordnede tekstfragmenter, men vil bli pekere inn i andre komplette tekster (Landow 1991). I stedet for å stå som en egen overordnet enhet vil på mange måter artikkelen kunne bli et kommentarverk som eksisterer i parallell med sine kilder. Artikkelen vil således bevege seg i retning av en spesialisert kommentert tekstutgave.

Muligheten for å publisere hele arkiver med et noteapparat vil på den annen side kunne viske ut forskjellen mellom arkiv/bibliotek og de filologiske tekstkritiske samlingsutgavene. Dette vil stoppe utgivelsen av de store trykte kommentert tekstutgavene. Av økonomiske årsaker, men også av praktiske årsaker vil de bli erstattet av utgivelser av arkiver der grunnmaterialet vil være mer eller mindre bearbeidede rådata i form av avskrifter eller faksimiler supplert med ulike fortolkede utgaver av de samme tekstene. Et eksempel er utgivelsen av islandske ættesagaer på CD-ROM (Dagbladet 25/7-96). Dette er riktignok bare en ren tekstsamling. Men kommenterte verk eksisterer allerede. Det finnes for eksempel allerede tre ulike Shakespeareutgivelser på CD-ROM. Det virkelige flaggskipet for elektroniske kommenterte tekstutgaver er "The Wife of Bath's Prologue" publisert som CD-ROM gjennom "The Canterbury Tales Project" (Robinson 1996). Her er omlag 40 ulike manuskripter lemmatisert og sammenstilt med felles kommentarapparat og søkesystem.

Norsk Ordbok og de nye publikasjonstrendene

Prosjektet "Norsk Ordbok", slik vi kjenner det i dag, er et tradisjonelt nasjonalt ordboksprosjekt med sterk vekt på historisk leksikografi. Verk av denne typen blir oppfattet som en autoritativ og uttømmende beskrivelse av betydning og bruk av ordene i et språk. Enhver filologisk skolert person vet at dette ikke er tilfellet. Men de fleste vil akseptere påstanden om at disse historiske nasjonalensyklopediene er det nærmeste man kommer en slik altomfattende beskrivelse av et språk. Mange moderne ordbøker er laget mot en bestemt målgruppe som skoleelever eller (fremmedspråklige) studenter. Målgruppen for de store nasjonalensyklopediene er ofte noe mer diffuse. En ordartikkel i de store verkene representer resultatet av redaktørens analyse av sitt kildemateriale der de ulike betydninger og ordets utbredelse er underbygd med kildehenvisninger på en tilsvarende måte som noteapparatet i et hvilket som helst annet vitenskapelig filologisk arbeid. For å forstå mange av artiklene fullt ut forutsettes det derfor et relativt høyt kunnskapsnivå hos leserne. Norsk Ordbok presenterer seg selv som en "vitskapleg ordbok", noe som åpenbart henviser både til metode for redigering og anvendelsesområde. På dette grunnlaget kan det være riktig å sjangerbestemme Norsk Ordbok som vitenskapelig publikasjon.

Hvis man nå kan betrakte Norsk Ordbok som en slags antologi av vitenskapelige artikler, hvilke resultater vil vi få dersom vi appliserer de påståtte trendene fra forrige avsnitt? Prosjektet slik det er drevet i dag, baserer seg direkte på et seddelarkiv, en målføresamling (Storm-synopsen, se over) samt en rekke eksisterende ordbøker. Indirekte gjennom seddelarkivet baserer det seg på tusenvis av skriftlige kilder. Det er ikke urimelig å betrakte seddelarkivet som resultatet av den datainnsamling som foregår i ethvert empirisk prosjekt. Man skulle dermed kunne tenke seg en samlet publisering av både bakgrunnsmaterialet og artiklene som presenterer resultatene, det vil si ordboksartiklene. I dette tilfellet vil dermed artiklene være systematiseringer og kommentarer til bakgrunnsmaterialet. Kildehenvisningene vil være pekere inn i det originale materialet som er brukt i redigeringen. Man ville dermed få en enestående mulighet til å kunne studere hvordan ordboksredaktøren har arbeidet frem artikkelen. Siden Dokumentasjonsprosjektet har gjort hovedmengden av kildematerialet elektronisk tilgjengelig, er forutsetningene til stede for en slik kobling av ordboken mot kildematerialet.

Den andre påståtte trenden er at det vil skje en økt publisering av arkivmateriale i elektronisk form utstyrt med søkeverktøy og et kommentarapparat. Slike utgivelser vil sannsynligvis overta for de store mangebinds kommenterte tekstutgavene fordi de vil være billigere å utgi, inneholde mer informasjon og være mer hensiktsmessige i bruk. Nå kan vel neppe Norsk Ordbok sies å være en kommentert tekstutgave. Men bakgrunnsmaterialet for arbeidet er et arkiv som det vil være interessant å publisere i sin egen rett. Jeg tenker her både på seddelarkivet som eksempler på bruk av ord, men også på alle de ordlister, ordsamlinger og ordbøker som direkte eller indirekte gjennom seddelarkivet brukes i arbeidet med Norsk Ordbok. Her ligger det klart i dagen et stort utgivelsesarbeid og venter: en fortrinnsvis kommentert utgave av alle kjente ordlister, ordsamlinger og ordbøker over (ny)norsk og norske dialekter supplert med arkivet til Norsk Ordbok. Mesteparten av grovarbeidet er allerede gjort eller vil bli gjort gjennom Dokumentasjonsprosjektet.

Et eksempel på en slik blanding av ordbok og arkiv er "OED On Line" (OED 1996). Lik utgivere av andre gigantverk forsøker Oxford University Press å finne alternative utgivelsesformer. "OED On Line" er en abonnementtjeneste der man får tilgang til ordboken, men også til deler av bakgrunnsmaterialet som er brukt.

En ny strategi for utgivelsen av Norsk Ordbok?

Norsk Ordbok-prosjektet ble startet i 1930. Arbeidet går jevnt fremover, men verket vil med dagens hastighet neppe være fullført før om 60 år. Arbeidet er svært tidkrevende. I andre land har det vært alminnelig å bruke mellom 50 og 100 år på tilsvarende verk. Norsk Ordbok-prosjektet er således på ingen måte unormalt i sin klasse. Det er også klart at Norge mangler en nasjonalensyklopedi for nynorsk og de norske dialektene. Den lange utgivelsestiden bør altså ikke vekke bekymring i seg selv.

Redigeringsmetoden er en tradisjonelle sekvensiell gjennomgang av alfabetet der hver artikkel gjøres helt klar for trykk og hvor det er viktig å gjøre artiklene mest mulig stenografiske for at antall sider ikke skal bli for stort. De to største ulempene er den lange tidsperioden mellom første og siste hefte (100 år) og at artiklene kan være tunge å lese for legfolk. Det er grunnlag for å diskutere om det er riktig å fortsette å bruke en redigerings- og utgivelsesmetode som er så tett knyttet til papiret og trykkekunsten og den skriftlige presentasjonsmetoden slik vi har kjent den helt siden de hellenistiske filologene.

For å unngå misforståelser vil jeg understreke at det ikke et spørsmål om man skal utgi Norsk Ordbok, men heller om hvorledes utgivelsesprosessen best kan organiseres for at flest mulig nålevende skal få adgang til mest mulig informasjon om norsk på en måte som vil bli brukt. Som et memento mori viser nemlig et verk som Encyclopedia Britannica en sterk nedgang i salget av papirutgaven. De bindstore verkene nyter åpenbart ikke lenger den respekt de før fikk bare i kraft av sin fysiske størrelse. De anses vel rett og slett som for uhåndterlige.

Om dette er et problem, hva skulle i såfall skje med utgivelsen av Norsk Ordbok? Over hevder jeg at vi ser en begynnende trend til en elektronisk publisering av kildemateriale med kommentarer og en elektronisk publisering av vitenskapelige essays og monografier sammen med kildematerialet. Kunne man for Norsk Ordbok foreta et bevisst valg og publisere verket i bredde først istedenfor som nå i dybde først, det vil si å tilby en ordbok fra A til Å i en gradvis økende finhetsgrad for hver utgave, istedet for å starte på A og lage hver artikkel helt ferdig? Kan man bygge opp en norsk nasjonalordbok ved å flette sammen hovedkildene til et verk for deretter å legge til systematiserte målføreopplysninger, etymologi og definisjoner?

Tanken virker besnærende. Men det kan innvendes at ideen har vært prøvd i 1930-årene under oppstarten av prosjektet Norsk Ordbok. Resultatet var ikke oppløftende og planen ble oppgitt. Er det da noen hensikt i å prøve på nytt? La oss først se på hva som ble gjort på 30-tallet og hvorfor planen ble oppgitt.

I innledningen til det første heftet av Norsk Ordbok gir redaksjonen en kort skisse av den originale planen. Her heter det: "I samsvar med den planen som var lagd for ordboka, vart arbeidet skipa såleis at det fyrst vart laga eit grunnmanuskript, der alt tilfanget i Aasens og Ross' ordbøker (med alle tillegga), Schjøtts "Norsk Ordbok" og sume mindre ordbøker og ordsamlingar vart samanstøypt. Samstundes vart ordtydingane overførde til norsk. Grunnmanuskriptet var det så tanken å fylla ut med det nye tilfanget frå målføra og litteraturen, og såleis nå fram til det endelege prentemanuskriptet." (Førebels innleiing til Norsk Ordbok, 1950). Grunnmanuskriptet ble også laget og finnes i en maskinskrevet versjon på 13.500 sider. Når en studerer Grunnmanskriptet, slår det en også at mange av definisjonene bærer preg av de danske originalene, samt at mye av særlig Aasens stringente oppstilling av ordartiklene har gått tapt. Stilistisk er vel heller ikke Grunnmanuskriptet helt på topp. Det er åpenbart at store deler av manuskriptet måtte ha blitt renskrevet og nyere ord føyd til. Det var dermed ikke store spranget til dagens bruk av Grunnmanuskriptet. Det brukes nå som en viktig kilde når en ny ordartikkel skal skrives.

Med "sammenstøping" i forbindelse med Grunnmanuskriptet mente man altså en sammenskriving og oversettelse av høyst ulike forfatteres verker. Dette er en vanskelig oppgave dersom en ikke kan stoffet svært godt og klarer å frigjøre seg fra språket i de ulike originalene. En "sammenstøping" av originalkilder som ryggraden i en skrittvis utgivelse av Norsk Ordbok fra A til Å vil være en helt annen ting. Alle de originale kildene vil være med komplette, i sin opprinnelige form. Sammenstøpingen vil i sin mest basale form bestå i at denne samlingen av kilder får felles inngang gjennom grunnordene. For hvert grunnord vil man få tilgang til alle de ordartikler eller avsnitt der ordet er behandlet eller forekommer. I tillegg vil det selvfølgelig være andre søkemuligheter som datateknikken gir oss, som tid, sted, type og generelt fritekstsøk. Dette er selvfølgelig ikke én ordbok – det er mange. Men i motsetning til Grunnmanuskriptet danner den et fundament for en ordbok. Det trenger i seg selv ikke renskrives til et trykkmanuskript. Ordartiklene vil komme i tillegg og eksistere som et eget separat verk i parallell med sine kilder. Men de kan nå skrives i det omfang og i den rekkefølgen som er ønskelig. Det er også mulig for en enkelt redaktør å vie seg til enkeltfelter som målføreopplysninger eller etymologi.

Det store prosjektet "Norsk Ordbok" kan dermed deles opp i overkommelige delprosjekter som utgjør noen titalls årsverk hver. Et avsluttet delprosjekt vil resultere i en ny og større utgave. Men i motsetning til dagens situasjon vil hver utgave vil dekke hele alfabetet. Ordboken vil på denne måten vokse frem og alltid være temmelig ajour. Denne gradvise utviklingen av ordboken vil dermed være i samsvar med det den skal beskrive, nemlig et levende språk som hele tiden endres gjennom bruk.

Henvisninger

Atkins, S. 1992: The Hector Project. I: Proceedings of Complex ´92, Budapest

Delary P. og Landow G. (red.) 1991: Hypermedia and Literary Studies. The MIT Press, London

Goldfarb, C. 1991:The SGML Handbook. Oxford University Press

Myklebust T. 1996: Islandssagaer på CD-ROM. Dagbladet 27.7

Nordgård T. 1995: NorKompLeks – et norsk komputasjonelt leksikon. Prosjektbeskrivelse, Trondheim

Ore, C.-E. 1992: Dokumentasjonsprosjektet ved Det historisk-filosofiske fakultet, Universitetet i Oslo. I: Nordiske studier i leksikografi (konferanserapport), Oslo

Ore, C.-E. 1996: Korpus og seddelarkiv - fredelig sameksistens mellom det beste og det gode? I: Nordiske studier i leksikografi 3 (konferanserapport), Reykjavik

Oxford English Dictionary On Line, Oxford University Press, http://www.oed.com 1996

Robinson P. (red.) 1996:The Wife of Bath's Prologue. Cambridge University Press, Cambridge

Sperberg-McQueen, C.M. og L. Burnard (red) 1994: Guidelines for the Encoding and Interchange of Machine-Readable Texts (TEI P3), Chicago og Oxford