Subject data (Subject representation)
to be edited:
Emnedata er data, hvis tilsigtede eller utilsigtede funktion er at bistå
informationssøgere med at identificere relevante dokumenter udfra
indholdsmæssige kriterier. Emnedata er således et overbegreb for bl.a.
klassifikationskoder, indextermer, emneord, titelord m.v.
I bibliotekernes periode med trykte kartotekskort var emnedata ofte i praksis
begrænset til f.eks. DK5-klassifikationskoder, evt. med supplerende
emneordssystem, der kan henvise til klassifikationsgrupper eller til enkelte
dokumenter. I edb-alderen er disse muligheder væsentligt udvidet. Dels fungerer
flere datakategorier som emnedata (f.eks. titelord i online-systemer), dels
udveksler biblioteker og andre informationssystemer ofte emnedata, således at
f.eks. Det kgl. Bibliotek foruden sine egne emnedata modtager bibliografiske
poster fra udlandet med Dewey- og LC- klassifikationskoder, PRECIS-emnestrenge
o.a.
I trykte bibliografier og referatpublikationer er emnedata ofte begrænset til
indholdsfortegnelser (klasssifikationsskemaer) og emneords- eller deskriptor
baserede registre. I online referatpublikationer udgør mange dataelementer
emnedata; vigtigst er her - foruden deskriptorer og klassifikationskoder -
titelord og referatord (anvendt til f.eks. *Boolesk kombinatorisk søgning,
søgning med nærhedsoperatorer eller strengsøgning).
I *citationsindexer er bl.a. dokumenternes referencelister lagt op og gjort
søgbare. D.v.s. her udgør eksplicitte referencer i de indekserede dokumenter (i
AHCI til dels også de implicitte) potentielle emnedata.
Efterhånden kommer flere og flere dokumenter fuldtekst på maskinlæsbar form.
Eksempler på eksisterende dokumenter i denne form er Bibelen, større leksika og
ordbøger, kemiske værker, mange aviser og i visse fag udvalgte tidsskrifter. I
sådanne fuldtekstbaser er hele dokumentteksten potentielle emnedata.
Det er naturligvis en meget central opgave for biblioteks- og
informationsvidenskaben at belyse, hvordan hele denne mængde af emnedata
optimeres. D.v.s. belyse de enkelte emnedatas relative fordele og svagheder,
deres overlapning og supplering af hinanden, og også deres økonomi og
brugervenlighed, deres egnethed indenfor forskellige vidensområder etc.
Vi skal her kort se på nogle vigtige destinktioner mellem typer af emnedata:
Dokumentbårne versus dokumentberigede emnedata.
Titelord, abstractsord, referencelister og fuldtekst-ord er eksempler på
emnedata, der er indeholdt i selve dokumentet. Hvis disse dokumentdata altid
fungerede 100 % tilfredsstillende som emnedata, ville der ikke være behov for
bibliotekarisk emneanalyse og emnebeskrivelse af de enkelte dokumenter.
Eksempelvis anvender man i mange trykte bibliografier dokumenters egen titel i
emneregistret, således at man under et givent emneord dels får dokumenttitlen,
dels får et nummer, der henviser til dokumentets hovedindførsel i bibliografien.
(F.eks. I ERIC). I andre bibliografier finder man, at dokumenttitler er for vage
og intetsigende, og man anvender i stedet for en særlig udarbejdet "index
phrase", en slags titelsurrogat (f.eks. i Psychological Abstracts & New York
Times). Sådanne "indexeringsfraser" er således et eksempel på, at indexøren har
beriget sit register med andre informationer end de, der var indeholdt i selve
dokumentet. (Såkaldt "value added service").
Det er naturligvis en vigtig problemstilling at afklare, i hvilken omfang - om
overhovedet - emnemæssig dokumentberigelse er nødvendig i fremtidens
elektroniske kommunikation. Under artiklen "Aboutness" blev citeret Hutchins
opfattelse, at emneangivelser blot er en *semantisk kondensering af et
dokuments tekst. Hvis dette er tilfældet, vil der næppe være behov
bibliotekarisk emneberigelse af bibliografiske poster. Hvis en emneangivelse
skal være formålstjenlig, må den tilføre posten information, der ikke allerede
findes i dokumentet eller i de bibliografiske poster fra andre instanser. (Se
under *Emne).
Emnedata kan være eksplicitte eller implicitte.
Klassifikationskoder, deskriptorer m.v. er eksempel på eksplicitte emnedata.
Hvis et forlag f.eks. hedder "Dansk Psykologisk Forlag", kan forlagsangivelsen i
en bibliografisk post siges at indeholde implicitte emnedata. På samme måde
kan f.eks. tidsskriftsnavne anvendes som implicitte emnedata. Selve dokumentets
tekst kan - betragtet som emnedata - variere meget fra det eksplicitte til det
implicitte. Et dokuments tekst vil typisk indeholde nogle data, der kan
betragtes som eksplicitte emnedata, andre der kan betragtes som implicitte
emnedata. Jo mere implicit noget er, desto højere grad af fortolkning kræver det
af den, der skal foretage informationssøgning eller emnebeskrivelser, og jo
sværere er det derfor at automatisere søgefunktionen.
Emnedata kan være verbale eller symbolske. Verbale emnedata er f.eks. titelord,
abstracts-ord, dokumentord, emneord og deskriptorer. Symbolske emneord er f.eks.
klassifikationssymboler (-koder). Der er ikke nogen skarp grænse mellem
verbalske og "kodede" emnedata, da fagsprog kan siges at udgøre en slags kode,
og da også sproglige udtryk har "symbolsk" betydning. Alligevel er destinktionen
betydningsfuld ved udformning af informationssystemer. Verbale og symbolske
emnedata har forskellige kvaliteter såvel med hensyn til faglig adekvans som med
hensyn til brugervenlighed. (Se også *"naturligt sprog")
Emnedata kan være overvejende indholdsorienterede eller behovsorienterede, en
distinktion, der skylder Soergel (1985). Soergels distinktion er imidlertid
meget beslægtet med en opfattelse hos Foskett (1982, p. 84):
"At the indexing stage we are trying to foresee ways in which users may later
wish to find a document; at the searching stage, we are trying to achieve a
better match between our formulation of the query and that used by the indexer
or author to define his approach. It should be remembered that every document is
in effect the answer to a question that may - or may not - be posed in the
future. The librarian is in the strange but fortunate position of being able to
say: We have all the answers - what are the questions ?"
Emnedata kan være mere eller mindre refererende eller normative/kritiske.
Endelig kan emnebeskrivelser være mere eller mindre "objektive"
(intersubjektive) eller "subjektive". I og med litteratur ofte kræver meget
specielle forudsætninger af sin læser for at dets erkendelsesmæssige
potentialer kan forstås, vil forsøg på at beskrive de sider ved dokumentet, som
lettest kan forstås af mange mennesker (d.v.s. dokumentets "objektive"
egenskaber (i eet af dette ords betydninger) ofte bevirke, at man forholder sig
til dokumentets mere trivielle egenskaber fremfor de mere væsentlige
egenskaber.
Idealet for emnedata er naturligvis, at de optimerer genfindingssystemernes
ydelser (*"Information retrieval, evaluation").
Literature:
Foskett, A.C.: The Subject Approach to Information. 4. ed. London:
Clive Bingley, 1982. (Reprinted 1986).
Emnedata i online alderen. Under redaktion af Niels-Henrik Gylstorff, Niels C.
Nielsen & Morten Laursen Vig. København: Bibliotekscentralen, 1984. 117 sider.
Hjørland, Birger: Skitse til en emnedatateori. Foredrag 8:de Nordiska
Konferencen för Information och Dokumentation 19-21 maj 1992 i Helsingborg. 6
sider.
Hjørland, Birger: Emnedata (emnerepræsentation). (Side 21-35 i: Emnerepræsentation og informationssøgning. Bidrag til en teori på kundskabsteoretisk grundlag. Göteborg: Valfrid. Publiceringsföreningen för inst Bibliotekshögskolan vid Högskolan i Borås och Centrum för biblioteks- och informationsvetenskap vid Göteborgs universitet, 1993. (Disputats)).
Hjørland, B. & Kyllesbech Nielsen, L. (2001). Subject Access Points in
Electronic Retrieval. Annual Review of Information Science and technology,
35, 249-298.
Click for full-text .pdf
Foskett, A.C.: The Subject Approach to Information. London, Bingley,
1982.
Soergel, Dagobert: Organizing Information. Principles of Data Base and Retrieval
Systems. London: Academic Press, 1985.
Se også *indexering, *klassifikation og *"information retrieval languages".
metadata subject access
points
Birger Hjørland
Last edited: 20-05-2006