Subject data (Subject representation)

 

 

to be edited:

Emnedata er data, hvis tilsigtede eller utilsigtede funktion er at bistå informations­søgere med at identificere relevante dokumenter udfra indholdsmæssige kriterier. Emnedata er således et overbegreb for bl.a. klas­sifikationskoder, indextermer, emneord, titelord m.v.

I bibliotekernes periode med trykte kartotekskort var emnedata ofte i praksis begrænset til f.eks. DK5-klas­sifikationskoder, evt. med supplerende emneordssy­stem, der kan henvise til klassifikationsgrupper eller til enkelte dokumenter. I edb-alderen er disse muligheder væsentligt udvidet. Dels fungerer flere datakategorier som emnedata (f.eks. titelord i online-systemer), dels udveksler biblioteker og andre informations­systemer ofte emnedata, således at f.eks. Det kgl. Bibliotek foruden sine egne emnedata modtager bibliografiske poster fra udlandet med Dewey- og LC- klassifikationskoder, PRECIS-em­nestrenge o.a.

I trykte bibliografier og referatpublikationer er emnedata ofte begrænset til indholdsfor­tegnelser (klasssifikations­skemaer) og emneords- eller deskriptor baserede registre. I online referat­publikationer udgør mange dataelementer emnedata; vigtigst er her - foruden deskriptorer og klassifikationskoder - titelord og referatord (anvendt til f.eks. *Boolesk kombinatorisk søgning, søgning med nærhedsop­eratorer eller strengsøgning).

I *citationsindexer er bl.a. dokumenternes referencelister lagt op og gjort søgbare. D.v.s. her udgør eksplicitte referencer i de indekserede dokumenter (i AHCI til dels også de implicitte) potentielle emnedata.

Efterhånden kommer flere og flere dokumenter fuldtekst på maskinlæsbar form. Eksempler på eksisterende dokumenter i denne form er Bibelen, større leksika og ordbøger, kemiske værker, mange aviser og i visse fag udvalgte tidsskrifter. I sådanne fuldtekstbaser er hele dokument­teksten poten­tielle emnedata.

Det er naturligvis en meget central opgave for biblioteks- og informationsviden­skaben at belyse, hvordan hele denne mængde af emnedata optimeres. D.v.s. belyse de enkelte emnedatas relative fordele og svagheder, deres overlapning og supplering af hinanden, og også deres økonomi og brugervenlighed, deres egnethed indenfor forskellige vidensområder etc.

Vi skal her kort se på nogle vigtige destinktioner mellem typer af emnedata:

Dokumentbårne versus dokumentberigede emnedata.
Titelord, abstractsord, referencelister og fuldtekst-ord er eksempler på emnedata, der er indeholdt i selve dokumen­tet. Hvis disse dokument­data altid fungerede 100 % til­fredsstillende som emnedata, ville der ikke være behov for bibliotekarisk em­neanalyse og emnebeskrivelse af de enkelte dokumenter.

Eksempelvis anvender man i mange trykte bibliografier dokumenters egen titel i emneregistret, således at man under et givent emneord dels får dokumenttit­len, dels får et nummer, der henviser til dokumentets hovedindførsel i bibliografien. (F.eks. I ERIC). I andre bibliografier finder man, at dokumenttitler er for vage og intetsigende, og man anvender i stedet for en særlig udarbejdet "index phrase", en slags titelsurrogat (f.eks. i Psychological Abstracts & New York Times). Sådanne "indexeringsfraser" er således et eksempel på, at indexøren har beriget sit register med andre informationer end de, der var indeholdt i selve dokumentet. (Såkaldt "value added service").

Det er naturligvis en vigtig problemstilling at afklare, i hvilken omfang - om overhove­det - emnemæssig dokumentbe­rigelse er nødvendig i fremtidens elektroniske kommunika­tion. Under artiklen "Aboutness" blev citeret Hutchins opfattelse, at emneangivelser blot er en *semantisk konden­sering af et dokuments tekst. Hvis dette er tilfæl­det, vil der næppe være behov bibliotekarisk em­neberigelse af bibliografiske poster. Hvis en emneangivelse skal være formålstjen­lig, må den tilføre posten information, der ikke allerede findes i dokumentet eller i de bibliografiske poster fra andre instanser. (Se under *Emne).

Emnedata kan være eksplicitte eller implicitte.
Klassifikationskoder, deskriptorer m.v. er eksempel på eksplicitte emnedata. Hvis et forlag f.eks. hedder "Dansk Psykologisk Forlag", kan forlagsangivelsen i en bibliogra­fisk post siges at indeholde implicit­te emnedata. På samme måde kan f.eks. tids­skriftsnavne anvendes som implicitte emnedata. Selve dokumentets tekst kan - betragtet som emnedata - variere meget fra det eksplicitte til det implicitte. Et dokuments tekst vil typisk indeholde nogle data, der kan betragtes som eksplicitte emnedata, andre der kan betragtes som implicitte emnedata. Jo mere implicit noget er, desto højere grad af fortolkning kræver det af den, der skal foretage infor­mations­søgning eller emne­beskrivelser, og jo sværere er det derfor at automatisere søge­funk­tionen.

Emnedata kan være verbale eller symbolske. Verbale emnedata er f.eks. titelord, abstracts-ord, dokumentord, emneord og deskriptorer. Symbolske emneord er f.eks. klas­sifikationssymboler (-koder). Der er ikke nogen skarp grænse mellem verbalske og "kodede" emnedata, da fagsprog kan siges at udgøre en slags kode, og da også sproglige udtryk har "symbolsk" betydning. Alligevel er destinktionen be­tydningsfuld ved udformning af informationssystemer. Verbale og symbolske emnedata har forskellige kvaliteter såvel med hensyn til faglig adekvans som med hensyn til brugervenlighed. (Se også *"natur­ligt sprog")

Emnedata kan være overvejende indholdsorienterede eller behovsorien­terede, en distinktion, der skylder Soergel (1985). Soergels distinktion er imidlertid meget beslægtet med en opfattelse hos Foskett (1982, p. 84):

"At the indexing stage we are trying to foresee ways in which users may later wish to find a document; at the searching stage, we are trying to achieve a better match between our formulation of the query and that used by the indexer or author to define his approach. It should be remembered that every document is in effect the answer to a question that may - or may not - be posed in the future. The librarian is in the strange but fortunate position of being able to say: We have all the answers - what are the questions ?"

Emnedata kan være mere eller mindre refererende eller normative/­kritiske.

Endelig kan emnebeskrivelser være mere eller mindre "objektive" (intersubjektive) eller "subjektive". I og med litteratur ofte kræver meget specielle forudsætninger af sin læser for at dets erkendelses­mæssige potentialer kan forstås, vil forsøg på at beskrive de sider ved dokumentet, som lettest kan forstås af mange mennesker (d.v.s. dokumen­tets "objektive" egenskaber (i eet af dette ords betydninger) ofte bevirke, at man forholder sig til dokumentets mere triviel­le egenskaber fremfor de mere væsentlige egenskaber.

Idealet for emnedata er naturligvis, at de optimerer genfindingssystemernes ydelser (*"Information retrieval, evaluation").
 


Literature:

 

Foskett, A.C.: The Subject Approach to Information. 4. ed. London: Clive Bingley, 1982. (Reprinted 1986).
 

Emnedata i online alderen. Under redaktion af Niels-Henrik Gylstorff, Niels C. Nielsen & Morten Laursen Vig. København: Bi­bliotekscentralen, 1984. 117 sider.
 

Hjørland, Birger: Skitse til en emnedatateori. Foredrag 8:de Nordiska Konferencen för Information och Dokumentation 19-21 maj 1992 i Helsingborg. 6 sider.
 

Hjørland, Birger: Emnedata (emnerepræsentation). (Side 21-35 i: Emnerepræsentation og informationssøgning. Bidrag til en teori på kundskabsteoretisk grundlag. Göteborg: Valfrid. Publiceringsföreningen för inst Bibliotekshögskolan vid Högskolan i Borås och Centrum för biblioteks- och informationsvetenskap vid Göteborgs universitet, 1993. (Disputats)).

 

Hjørland, B. & Kyllesbech Nielsen, L. (2001). Subject Access Points in Electronic Retrieval. Annual Review of Information Science and technology, 35, 249-298. Click for full-text .pdf
 

Foskett, A.C.: The Subject Approach to Information. London, Bingley, 1982.
 

Soergel, Dagobert: Organizing Information. Principles of Data Base and Retrieval Systems. London: Academic Press, 1985.

Se også *indexering, *klassifikation og *"information retrieval languages".
metadata   subject access points

 

 

 

 

 

 

 

Birger Hjørland

Last edited: 20-05-2006

Home