Av advokat Kirill Miazine, FØYEN Advokatfirma DA
«Knowledge management», «kunnskapsforvaltning» og «gjenbruk av kunnskap» er blitt ganske populære uttrykk. Selv om uttrykkene får mest oppmerksomhet i den digitale hverdagen, er tanken om å bruke på nytt noe man selv eller andre tidligere har gjort på ingen måte ny. Hyller, permer, mapper, saksnumre osv. har vært benyttet til å plassere et dokument på et bestemt sted, slik at det senere skal være mulig å finne igjen dokumentet, når behovet for dette måtte oppstå. Prosessen foregår i to trinn, som tydelig kan identifiseres: sortering/klassifisering og gjenfinning. Gjenfinning må skje etter de samme reglene som den opprinnelige klassifiseringen fulgte, ellers vil man ikke klare å finne ønsket materiale.
Konseptene «dokument» og «mappe» har vist seg å være svært overlevelsesdyktige, de har fått solid fotfeste også i den datamaskinbaserte verden, og røttene sitter meget dypt. Vi forventer av oss selv at filer, dokumenter, e-post-meldinger m.m. skal sorteres i «riktige» mapper. Inndelingen i mapper danner en hierarkisk struktur. Dersom dokumentene skal sorteres kronologisk er en hierarkisk struktur med egne mapper for år, måned og dag naturlig. Situasjonen blir mer komplisert når dokumentene skal ordnes etter emner: dokumentet kan passe til å bli plassert i flere mapper samtidig eller ingen i det hele tatt. «A lawyer cares about things like dates and cases. […] How can a lawyer file the same document by both client and by date?» — spør Thomas Rizzo fra Microsoft i artikkelen Death to Folders! i bladet The Economist. Med papirbaserte dokumenter var det nødvendig å gjøre ett valg. Med digitale dokumenter finnes det alternativer.
Dokumentsøk foreslås ofte som et alternativ til sortering. I sitt e-post-system, GMail, oppfordrer Google brukere til å bruke Google-søk i e-post for å finne frem til de ønskete meldingene, fremfor å drive tradisjonell sortering i mapper.
Den mest brukte teknikken for å finne frem i digitale tekster er i dag fritekstsøk i fulltekst. Fritekst-søk dreier seg om å finne dokumentene som omtaler det brukeren søker etter. Så lenge datamaskiner ikke kan forstå tekst, må man nøye seg med en ren analyse av teksten. Men det skjer ikke en eksakt mønstergjenkjenning, det skjer en mer tilnærmet sammenlikning der det til en viss grad tas hensyn til språkets syntaktiske egenskaper.
Å søke betyr ikke nødvendigvis å finne. Ethvert søk har den svakhet at søkeresultatet alltid vil ha irrelevante treff og noen relevante dokumenter ikke vil bli funnet i det hele tatt. I menneskelige språk vil ordets mening avhenge av konteksten. Homonymi (dvs. at et ord kan bety forskjellige ting) og synonymi (at forskjellige ord kan bety liknende ting) er utfordringer som datamaskiner ikke klarer å løse. Et eksempel fra avtaleretten kan tjene som en illustrasjon. Avtalelovens fulle navn er «Lov om avslutning av avtaler, om fuldmagt og om ugyldige viljeserklæringer». I § 1 benyttes ordet «rettshandel» som et synonym til ordet «viljeserklæring», og i tillegg har man «dispositivt utsagn» som en slags fellesbetegnelse på private partsytringer som får rettsvirkninger etter sitt innhold. En jurist vil forstå at disse utrykkene betyr tilnærmet det samme, en datamaskin (og også mange lekmenn) vil ikke sette likhetstegn mellom de nevnte termene.
I denne artikkelen skal jeg presentere en teknologi som kan hjelpe med gjenfinning av informasjon og gjenbruk av dokumenter og informasjon. Teknologien heter Emnekart (Topic Maps på engelsk) og er en vedtatt internasjonal standard (ISO/IEC 13250:2002). Det er meningen å gi en kort introduksjon om emnekart samt å skissere mulige anvendelsesområder.
Det er ikke bare jurister som jobber med store tekstmengder, også filologer gjør det. Resultatet av prosjektet Henrik Ibsens skrifterskal etter hvert gjøres tilgjengelig på WWW, slik at også ikke-filologer skal kunne ha glede av arbeidet som er blitt gjort. Emnekart-teknologi skal hjelpe brukere med å finne frem når nettstedet lanseres en gang i fremtiden, meningen er at brukere lettere skal finne relevant materiale, at systemet skal gi et overblikk over hvor brukeren befinner seg samt at materiale skal presenteres på en måte som vil gi brukeren motivasjon til å lete etter nytt stoff ved å utforske relasjonene i materiale. Henrik Ibsens skrifter er et omfattende prosjekt: 90.000 sider med faksimiler ble konvertert til maskinlesbar form ved at teksten var tastet inn for hånd og kodet i XML.
Hjelp til å finne relevant materiale, oversikt i uoversiktlige tekstmengder og motivasjon til å lete videre er noe alle jurister savner fra tid til annen i sin jakt på relevante rettskilder. Rettskildefaktorene danner en komplisert og uoversiktlig vev hvor det kan være vanskelig å finne frem.
Så, hva er emnekart for noe? Emnekart er en datamodell for å beskrive innholdet og relasjoner i informasjonsressurser. Når jeg sier «beskriver», mener jeg en formalbeskrivelse som også datamaskiner kan «forstå», behandle og utveksle. Modellen tillater en bruker å kode hvordan data er ment å skulle forstås samt hvordan innholdet i et dokument relaterer seg til innholdet i andre dokumenter.
Ordet «emnekart» består av «emne» og «kart». Disse to sier hva emnekart dreier seg om — emnekart er et kart over emner. Disse emnene befinner seg i forskjellige ressurser og disse ressursene er typisk forskjellige dokumenter av ymse slag i en eller flere dokumentsamlinger. Disse dokumentene behøver ikke å være elektroniske!
Emnekart låner mye fra et stikkordregister, men modellen er gjort generisk og noe utvidet, og egner seg like bra for tekst som for annet innhold. Grunnbegrepene i emnekart er emner (topics), assosiasjoner (associations) og forekomster (occurences). I tillegg har emnekart noe som stikkordregistre ikke har, nemlig perspektiv (scope) og temaidentitet (subject identity), men jeg lar disse to ligge i denne omgang.
Emner er kjernen i emnekart på samme måte som stikkord er kjernen i et stikkordregister. Emner kan være hva som helst, alt kan defineres som et emne og dermed representeres i et emnekart. Emner kan f.eks. representere de ulike temaene som omtales i dokumentene, emner kan representere forfattere, steder, hendelser osv. Et tema er noe abstrakt, noe som kan omtales og forstås av et menneske. Et emne er et navngitt tema. Det abstrakte temaet blir konkretisert gjennom et emne og på denne måten blir det mulig å behandle temaet ved hjelp av emnekart. Det er viktig når man lager et emnekart at et emne representerer bare ett tema og at et tema bare er representert ved ett emne.
Mennesker tenker ikke via mapper og dokumenter, men mennesker tenker i assosiasjoner. Temaer som omtales i dokumenter er i den virkelige verden ofte knyttet til andre temaer. I bøker og artikler brukes forskjellige former for henvisninger for å markere sammenhengene. I emnekart uttrykkes relasjonene mellom emner ved hjelp av assosiasjoner, disse kan være av forskjellige typer. Det er opp til forfatteren å bestemme hvilke typer assosiasjoner som skal brukes i emnekartet og hvilke assosiasjoner som skal gjelde mellom to emner. I den analoge verden sier en henvisning ikke noe ut over at det eksisterer en viss relasjon mellom innholdet i to dokumenter. For å finne ut hva slags relasjon det er, må man lese begge dokumentene og gjøre seg opp en mening om forholdet. Assosiasjoner i emnekart kan gis typer, og dermed kan man etterpå automatisk velge ut dokumenter som på en spesiell måte relaterer seg til et gitt dokument, f.eks. senere avsagte dommer som bygger på rettsoppfatningen i en rettsavgjørelse man har foran seg.
Emnekart er en modell som beskriver emner og relasjoner på samme måte som et kart beskriver et geografisk område. Det erforekomster som knytter sammen emner i emnekart og relaterte dokumenter i dokumentsamlinger. Forekomster er som sidetall i stikkordregistre, de forteller hvor den omtalte informasjonen er å finne.
Emnekart gir interessante muligheter. Modellen er enkel, men samtidig meget fleksibel. Den påtvinger verken forfattere eller lesere et regime av kataloger og hierarkier, men gir en frihet ved at det kan etableres vilkårlige relasjoner mellom vilkårlige tekster. Forfattere kobler sine arbeider til relevante emner ved hjelp av forekomster og til beslektede emner ved hjelp av assosiasjoner; lesere finner relevante tekster om et emne ved hjelp av forekomster og kan gå videre fra et emne til beslektede emner ved hjelp av assosiasjoner.
En fascinerende egenskap er at emnekart lar seg flette sammen og på denne måten dannes det et nytt emnekart som inneholder emnene, assosiasjonene og forekomstene til de emnekartene som ble flettet sammen. Dersom samme emne var tilstede i begge emnekartene, vil emnet i sammenflettet emnekart få egenskapene fra samtlige opprinnelige emnekart som omtalte emnet.
Dersom Lovdata hadde et emnekart for alt i sine databaser, ville det ikke være behov for andre å ha samme innhold i sine baser. Norsk Lovkommentar kunne bygge videre på Lovdatas lov- og avgjørelsessamling og publisere eget emnekart som bare inkluderte kommentarene til lovene. Brukere som hadde abonnement på Norsk Lovkommentar kunne flette sammen emnekartene fra Lovdata som hadde lovene og Gyldendal Rettsdata som hadde kommentarene, og til slutt sitte med en kommentert lovsamling. Gyldendal Rettsdata har ikke monopol på kommentering. Brukere kan ha sine egne emnekart der de føyer til nye assosiasjoner mellom eksisterende emner, legger til nye emner osv.
Mulighetene ender ikke der. I emnekart blir menneskelig forståelse av emner og relasjoner fanget opp. Det betyr at dersom kunnskap om innholdet i dokumenter foreligger som et emnekart, kan man utnytte denne kunnskapen ved søk etter relevante dokumenter om et gitt tema. Dette er mulig fordi emnekart beskriver hvordan et menneske forstår innholdet i et gitt dokument. Den formelle strukturen av denne beskrivelsen egner seg godt for formelle og presise spørrespråk.
Som jeg nevnte, er emnekart en generisk datamodell. En slik modell kan ikke i seg selv være en løsning, men løsningen kan bygge på den. Hvor vellykket løsningen blir vil ikke minst avhenge av om arkitekten klarer å tilpasse modellen til det område hvor emnekart tenkes å bli anvendt. En av de viktigste oppgavene vil være etablering av en ontologi. I forbindelse med emnekart snakker man om ontologi når det er tale om en oversikt over hvilke typer av emner, assosiasjoner og forekomster et emnekart har; en ontologi kan sies å være et slags meta-emnekart. For en illustrasjon av forholdet mellom dokumentsamlingen, emnekart og ontologi se figuren nedenfor.
Emnekart-miljøet i Norge er kompetent og meget aktivt. Siden 2002 har det vært arrangert årlige konferanser som i sin helhet er dedikert til emnekart. Mer informasjon om emnekart og om det norske emnekart-miljøet kan finnes på http://www.emnekart.no/.
(Kirill Miazine jobber som advokat i Føyen Advokatfirma DA. Artikkelen ble skrevet mens han var vitenskapelig assistent ved Institutt for rettsinformatikk).

Figur: Ontologi, emnekart og dataressurser