npn-topp

Karl Johan Sæth:

Nynorskmaterialet til Dokumentasjonsprosjektet

I dette innlegget skal eg ta for meg nynorskmaterialet til Dokumentasjonsprosjektet. Eg skal begynne innlegget med å seie litt om bakgrunnen for prosjektet, og korleis prosjektet har arbeidd. Eg skal vidare seie litt om korleis materialet er bygd opp. Deretter skal eg ta for meg dei ulike delane av materialet, og kjem til å seie litt om kva dei inneheld, og om status for dei ulike delane av materialet. Avslutningsvis skal eg seie litt om kva materialet kan brukast til, kven som kan bruke det, og om framtida til materialet. Desse siste problemstillingane er det andre som skal seie meir om seinare, så det blir ikkje nokon stor del av dette innlegget.

Dokumentasjonsprosjektet

Dokumentasjonprosjektet har vore eit samarbeidsprosjekt mellom dei humanistiske miljøa ved universiteta i Noreg. Formålet med prosjektet har vore å ta i bruk datateknologi i universiteta sine samlingar over språk og kultur, og å gjere ulike typar arkivmateriale elektronisk tilgjengeleg. Dokumentasjonsprosjektet har vore organisert med innskrivingseinheiter (registeringsgrupper og registreringssentralar) som har gjort registreringsarbeidet, mens fagkonsulentar knytta til kvart enkelt delprosjekt har hatt ansvar for opplæring, oppfølging og kvalitetskontroll av registreringsarbeidet og for korrekturlesing og ferdigstilling av materialet. Kvart delprosjekt har vore knytta til ei fagavdeling. I tillegg har Dokumentasjonsprosjektet hatt ein administrativ stab og ei programmerergruppe, som har vore på deling mellom alle delprosjekta. Dei tekniske løysingane for registeringsarbeidet har blitt til etter samarbeid mellom fagkonsulentane på delprosjektet, fagleg leiar, programmererane og fagavdelinga. Dokumentasjonsprosjektet blei avslutta i 1997, og har etter det vore drive av ein etterorganisasjon (Dokumentasjonsprosjektet sin etterorganisasjon) som er bygd opp av ein fagleg leiar (Christian-Emil Ore) og programmerarar.

Delprosjekt nynorsk

Dokumentasjonsprosjektet blei avslutta i 1997, men Delprosjekt nynorsk har haldt på i heile 1998, for midlar delprosjektet hadde sett av tidlegare år. I den siste delen av 1998 har vi også arbeidd med planlegging av dette seminaret, og med brukartilrettelegging av materialet, begge deler med støtte frå Ivar Aasen-stiftinga. Delprosjekt nynorsk har i første rekkje arbeidd med å digitalisere nynorskmateriale som finst ved Nynorskavdelinga, Seksjon for leksikografi og målføregransking på Institutt for nordistikk og litteraturvitenskap ved Universitetet i Oslo. Delprosjektet blei starta i 1992, og blei avslutta januar 1999.

Nynorskmaterialet til Dokumentasjonsprosjektet

Kva er nynorskmaterialet til Dokumentasjonsprosjektet, og korleis er det bygd opp?

Eg kan først seie at det finst ein eigen sluttrapport for Delprosjekt nynorsk, der kvar enkelt del av materialet blir gjennomgått og beskrive i detalj. Denne vil bli lagt ut på nettet saman med materialet når den er ferdig (dvs. snart). I denne samanhengen skal eg derfor nøye meg med å gå raskt igjennom dei ulike delane av materialet. Materialet er primært sett saman med tanke på redigeringa av Norsk Ordbok, og er bygd opp av fleire delar. Norsk Ordbok har undertittelen "Ordbok over det norske folkemålet og det nynorske skriftmålet" og skal altså dekke ordforrådet både i nynorsk skriftmål og i dei norske målføra. Nynorskmaterialet er tilsvarande vidtfamnande og består av:

Setelarkivet

Hoveddelen av materialet er setelarkivet til Norsk Ordbok, og dette arkivet er også grunnstamma i redigeringa av Norsk Ordbok. Setelarkivet til Norsk Ordbok består av omtrent 2,9 millionar ordsetlar, fordelt på omkring 540 000 ulike ordformer. Ordsetlane står i arkivskuffer, sortert etter oppslagsord. På setlane finst det dels ekserpt frå ulike nynorske tekstar, dels målføreopplysningar. Setlane er dels laga på fagavdelinga, dels sendt inn av frivillige medarbeidarar spredt over heile landet. Innsamlinga har gått for seg frå omkring 1930 til i dag. I tillegg er materiale frå andre arkiv, mellom anna frå Norsk målførearkiv ved Universitetet i Oslo, støypt inn i setelarkivet. Alle setlane er avfotograferte og lagra som elektroniske bilde. Grunnopplysningane på kvar enkelt setel, det vil seie oppslagsord, grammatisk merking og heimfesting/kjelde er registrerte, og søkbare i ein seteldatabase. For ei meir inngåande skildring av innhaldet i setelarkivet, vil eg vise til Oddrun Grønvik sin artikkel "Om kjeldegrunnlaget for Norsk Ordbok", som står i seminarrapporten "Norsk Ordbok - nynorskens leksikografiske kanon?" frå 1997.

I tillegg til desse 2,9 millonar setlane finst det også meir setelmateriale. For det første har vi ein viss tilvekst: Etter at Dokumentasjonsprosjektet byrja, har nytt tilfang til setelarkivet blitt dataført ved fagavdelinga. Denne tilveksten er på godt over 100.000 setlar og går inn som ein del av seteldatabasen. I tillegg kjem materialet til Trønderordboka. Ordbok over trøndermåla er eit prosjekt som starta i 1981 ved Nordisk institutt, NTNU. Til saman er det her samla inn ca. 187 000 sedlar som viser trøndske dialektvariantar, henta frå litteratur og talemål. Desse setlane er av samme type som setlane i Norsk Ordbok sitt setelarkiv, og vil går også inn som ein del av seteldatabasen.

Alt i alt er setelarkivet ei unik samling av dokumentasjon av nynorsk skriftspråk og norsk talemål, men materialet er svært ueinsarta. Dette gir både store moglegheiter og nokre begrensningar, noko andre heilt sikkert vil seie meir om etterkvart.

Grunnmanuskriptet

Grunnmanuskriptet til Norsk Ordbok er eit ordboksmanuskript frå 30-åra, som var meint utgitt som den første store nynorske ordboka med både oppslag og forklaring på nynorsk. Dette er den største fullstendige nynorske ordboka, manuset er ca 13.500 maskinskrivne A4-sider og har omkring 113.000 oppslagsord. Oppslaga er henta frå ordbøkene til Aasen, Ross, Schøtt, Vidsten, Torp og andre. Av ulike årsaker vart manuskriptet aldri utgitt som ordbok. Dokumentasjonsprosjektet har dataført heile manuskriptet og kategorisert og merka opp dei ulike opplysningane, som er tilgjengeleg på nettet.

Skanna tekstar

Prosjektet har også skanna eit utval nynorske tekstar, i hovedsak litterære verk av ulike nynorske forfattarar, mellom anna samla verk av Aasen, Vinje og Garborg. I tillegg kjem mellom anna Torp si Nynorsk etymologiske ordbok, 1921-utgåva av Bibelen, eit utval bøker frå NFL-serien (Norsk folkeminnelag) og 10 årgangar av Syn og Segn. Tekstkorpuset er alt i alt på over 30 000 sider. Mange av desse tekstane er tilgjengelege på nettet no, men for delar av materialet finst det opphavsrettar, slik at ikkje alt dette materialet er fritt tilgjengeleg. Tekstane er foreløpig tilgjengelege for enkle fritekstsøk. Tekstane er lagra i SGML-format, og i den grad dei ikkje er opphavsrettsbelagt, kan ein også få teksten for vidare behandling for eksempel i eit kva som helst konkordanseprogram.

Eldre ordsamlingar

Delprosjekt nynorsk har også skanna eit utvalg på 35 eldre ordsamlingar, for det meste frå 1600- og 1700-talet. Nokre av dei eldre ordsamlingane er tagga opp med normerte oppslagsord, og er tilgjengelege på nettet. Dei øvrige tekstane vil bli tilgjengelege for fritekstsøk og som tekstfiler i SGML-format.

Samarbeidsprosjekt med andre:

Nynorskordboka

Dokumentasjonsprosjektet og Seksjon for leksikografi og målføregransking, Institutt for nordistikk og litteraturvitenskap, UiO har samarbeidd om å kunne tilby ein enkel versjon av den nyaste utgava av Nynorskordboka på nettet.

Leksikalsk database/fullformsordlister

Dokumentasjonsprosjektet har også i samarbeid med Tekstlaboratoriet utarbeidd ein leksikalsk database for nynorsk. Denne leksikalske databasen byggjer mellom anna på ordlister og lister over bøyingsmønster frå IBM og frå Nynorskordboka. Dette materialet kan for eksempel brukast som grunnlagsmateriale for utvikling av språkteknologi, og er, iallefall foreløpig, berre tilgjengeleg for forskningsformål.

Multitaggar

Dokumentasjonsprosjektet har også samarbeidd med Tekstlaboratoriet på UiO om å utvikle ein multitaggar for nynorsk. Multitaggaren analyserer ordformer i tekstar på grunnlag av informasjonen i den leksikalske databasen. Dokumentasjonsprosjektet er også involvert i Taggarprosjektet ved UiO, som arbeider med å utvikle ein disambiguarande taggar.

Kven kan bruke materialet og kva kan det brukast til?

Vi ønskjer at så mange som mogleg skal kjenne til dette materialet og bruke det, sjølv om det i utgangspunktet er bygd opp med tanke på redigeringa av Norsk Ordbok. Til saman utgjer materialet unik dokumentasjon av nynorsk skriftspråk og norsk talemål, og det vil vere interessant for svært mange. Delar av materialet er også veleigna som grunnlag for utvikling av språkteknologi. Forutan for forskarar og andre språkfolk er også materialet av stor kulturhistorisk interesse. Det kan videre brukast i undervisninga både på skulane og på høgskulane/universiteta. Materialet inneheld grundig dokumentasjon av mange ulike sider av det nynorske språket: Dei eldre ordsamlingane dokumenterer den eldste kjende nynorsken, det skanna materialet gir eit tverrsnitt av den nynorske skriftkulturen og setelarkivet dokumenterer breidda i nynorsk skriftspråk og norsk talemål. Materialet kan for eksempel brukast til studiar i særskilde dialektar, studiar av språket til ulike forfattarar og til ulike typar lingvistiske studiar.

Korleis blir materialet tilgjengeleg?

Korleis vil materialet bli tilgjengeleg? Det meste av materialet er/blir tilgjengeleg frå Dokumentasjonsprosjektet sine nettsider, og det finst også ei eiga nettside for nynorskmaterialet. Opphavsrettar vil likevel begrense bruken av delar av materialet, men det meste er fritt tilgjengeleg.

Når det gjeld vedlikehald/oppdatering av materialet er dette litt meir komplisert:

Teknisk vedlikehald av materialet/databasane vil ligge til Dokumentasjonsprosjektet sin etterorganisasjon, i alle fall i første omgang. Når det gjeld fagleg vedlikehald, ligg dette i første rekkje til fagavdelinga, men det finst nokre viktige problemstillingar som må avklarast når det gjeld slikt vedlikehald, mellom anna av den leksikalske databasen.

Framtida

Mot slutten av seminaret vil det bli sagt meir om framtida til materialet, og meir om vidareføring av denne typen arbeid. Eg skal derfor la dette ligge her og berre seie at eg håpar at også det materialet som no er tilgjengeleg vil vere av interesse og komme til nytte for så mange som mogleg.

npn-botn