Information retrieval (IR)

The term IR may be considered a research field, but it may also be considered a research tradition (or rather a set of related traditions) based on some particular assumptions. In the first sense of the word is it about any approach (manual or mechanical) to organizing and searching "information". In the last sense of the word IR is one among a set of competing approaches to organizing and searching "information". Today is the term IR mostly associated with a set of particular research traditions (the Boolean, the Vector, and the Probabilistic tradition), why it seems out place when Stockwell (2000) in his book A History of Information Storage and Retrieval writes about encyclopedias and ignores the experimental traditions. Stockwell's book is an example on how the term IR is used about the field rather than about the tradition.


The term IR was introduced by Calvin Mooers in 1951, who defined it in this way:

"Information retrieval is the name for the process or method whereby a prospective user of information is able to convert his need for information into an actual list of citations to documents in storage containing information useful to him. It is the finding or discovery process with respect to stored information. It is another, more general, name for the production of a demand bibliography. Information retrieval embraces the intellectual aspects of the description of information and its specification for search, and also whatever systems, technique, or machines that are employed to carry out the operation. Information retrieval is crucial to documentation and organization of knowledge". (Mooers, 1951, p. 25).


Van Rijsbergen writes:


"Information retrieval is a wide, often loosely-defined term but in these pages I shall be concerned only with automatic information retrieval systems. Automatic as opposed to manual and information as opposed to data or fact. Unfortunately the word information can be very misleading. In the context of information retrieval (IR), information, in the technical meaning given in Shannon's theory of communication, is not readily measured (Shannon & Weaver 1). In fact in many cases, one can adequately describe the kind of retrieval by simply substituting "document" for "information". Nevertheless, "information retrieval" has become accepted as a description of the kind of work published by Cleverdon, Salton, Spark Jones, Lancaster and others. A perfectly straightforward definition along this line is given by Lancaster 2: "Information retrieval is the term conventionally, though somewhat inaccurately, applied to the type of activity discussed in this volume. An information retrieval system does not inform (i.e. change the knowledge of) the user on the subject of his inquiry. It merely informs on the existence (or non-existence) and whereabouts of documents relating to his request". This specifically excludes Question-Answering systems as typified by Winograd 3 and those described by Minsky 4. It also excludes data retrieval systems such as used by, say, the stock exchange for on-line quotations.
. . . " (Van Rijsbergen, 1979, p. 1).


It is evident from the quotes by Mooers and Van Rijsbergen that the IR-tradition is related to a computer-based searching and experimenting in (mainly bibliographical or full-text) databases. Compared to the concept "Information seeking" it still has a connotation towards computer based retrieval, while information seeking has a broader connotation.


D. A. Kemp argues that "knowledge retrieval" should substitute "information retrieval": 


"Knowledge, information and data and their representation. It can be useful to distinguish between knowledge and information and data; it is also difficult and contentious. Four points should be made. [First] Knowledge, information and data is what the systems to be discussed are for: by storing it in an organized manner, they are intended to enable it to be found when needed. Secondly, there is a spectrum of increased size and organization between data, where the units are quite small, through to knowledge, where the units are large and distinguished by their complex internal structure and relationships, and overlap with other units (Serebria­koff, 1986, D91). Meunier (1987, E44) presents a typology of levels of representation which is useful for the breath of its approach and its classification of relationships. Thirdly, "information" in the expression "information retrieval" is generally abused, because what is retrieved is not information, but bibliographic details of sources in which desired information potentially exists. Very many information retrieval systems are at best document retrieval systems, and more usually they are systems which retrieve surrogates for documents (see also Lancaster, 1979, A140, p. 13). Finally, although the expression knowledge retrieval is particularly associated with artificial intelligence and expert systems (smith, 1984, C78), it should not be forgotten that this is what cataloguers, indexers and bibliographers have been doing, and devising systems for, for many years. For further discussion, see Kemp (1974, A36) and McGarry (1977, E189." (Kemp, 1988, p. 3).


Francis Miksa regards the traditional view within IR is a narrow view:


"In this context, information is retrieved primarily in response to a clearly delineated decision-making process and seems to serve chiefly to fill a consciously estimated gap in the view the user has of a problem. This leads in turn to viewing retrieval systems as mechanisms that by definition must respond directly and with reasonable precision to a relative precise information request―to function, in short, as question-answer processes . . . intellectual knowledge appears to be characterized by a relatively unfocused sense of inquiry where the initial goal is not to find some particular informational answer or to fill some sort of reasonably anticipated informational gap, but rather to bring order to (or to re-order) an ill-formed mass of ideas or to map some vaguely arranged area of knowledge. Information retrieval in such situations takes on the character, then, of helping an inquirer think about what he or she appears to be interested in, and might be better conceived as an exploratory and game-like mechanism rather than a precise response mechanism". (Miksa, 1992, p. 240-241).


Compare criticism by Julian Warner: query processing paradigm:


"Two antithetical, if not always clearly distinguished, traditions can be detected in information retrieval system design and evaluation. The idea of query transformation, understood as the automatic transformation of a query into a set of relevant records, has been dominant in information retrieval theory. A contrasting principle of selection power has been valued in ordinary discourse, librarianship, and, to some extent, in practical system design and use". (Warner, 2002).


The two last quotes are also in accordance with this definition of IR:


Information retrieval (IR) part of computer science which studies the retrieval of information (not data) from a collection of written documents. The retrieved documents aim at satisfying a user information need usually expressed in natural language. (Baeza-Yates & Ribeiro-Neto, 1999).


Ian Ruthven finds that the classical model of IR-systems evaluation is obsolete:


"The classical model of IR system evaluation, initiated by the Cranfield experiments and currently manifest in the TREC programme, demonstrates very clearly its origins in the era of batch retrieval systems. The system is seen as taking well-defined input (a query or topic) and producing well-defined output (a list of documents). However, with modern interactive systems, that input-output model is clearly becoming more and more inadequate as a representation of the IR situation". (Ruthven, 1996).


In the term "retrieval", the suffix "re" seems to indicate that something is "found again", implying that it has been identified at some earlier stage. This view may be correct when documents are represented in closed systems for specific purposes, but seems more problematic when items are retrieved by serendipity or by free text searching. In such cases are items found or identified, but not necessarily "retrieved". 








See also: Information seeking; Latent semantic indexing; Probabilistic models of IR; Vector space model





Birger Hjørland

Last edited: 15-10-2006





to be edited:

Indenfor informationsgenfindingsteori har man især arbejdet med formelle modeller for ir-systemer. Blair (1990, side 27-67) gennemgår følgende:

1. Anvendelsen af enkelt-deskriptorer til søgning. Dokumenter er tilordnet een eller flere deskriptorer.
2. Anvendelsen af et sæt deskriptorer til søgning. Dokumenterne er tilordnet et sæt deskriptorer. Dokumenter er enten genfundet eller ikke-genfundet.
3. Anvendelsen af et sæt deskriptorer samt en "cut off value" til søgning. Dokumenterne er enten genfundet eller ikke-genfundet.
4. Anvendelsen af et sæt deskriptorer samt en "cut off value" til søgning. Fundne dokumenter rangordnes.
5. Anvendelsen af et sæt deskriptorer i søgningen, hvor hver deskriptor har en positiv vægt knyttet til sig. Fundne dokumenter rangordnes.
6. Anvendelsen af et sæt deskriptorer i søgningen. Dokumenternes deskriptorer har en positiv vægt knyttet til sig. Fundne dokumenter rangordnes.
7. Kombination af 5 og 6, d.v.s. såvel dokumentdeskriptorer som søgetermer vægtes.
8. Vektormodellen. Udbygning af model 7. Vægtene i spørgsmål og indexering behandles som vektorer. Værdien af de fundne dokumenter er kosinus af vinklen mellem vektorerne.
9. Boolesk søgning. Deskriptorer kombineres med boolesk algebra.
10. Fuldtekst søgning. Den samlede tekst søges med boolesk algebra.
11. Simpel tesaurussøgning.
12. Vægtet tesaurussøgning.

Ovennævnte modeller udtømmer langt fra mulighederne. Blair behandler således ikke modeller byggende på syntaktiske relationer mellem søgetermer (f.eks. "roles og links", "PRECIS" etc.).

Iøvrigt er hele spørgsmålet om de formelle modellers betydning i forhold til ind­holdsmæssige spørgsmål næsten helt ubehandlet i den informationsvidenskabelige litteratur, f.eks. spørgsmålet om, hvorvidt forskellige brugerinteresser har interesse i samme vægtning af indexeringstermerne, og hvilke grundlæggende retningslinier, der skal anlægges ved dokumentbeskrivelsen (jfr. *emne).

Man kan sige, at hovedinteressen ved forskning i IR har været en ret snæver datalogisk, statistisk og lingvistisk sammenligning af *dokumentrepræsentationer med repræsentationer for *spørgsmål. Der har manglet et bredere samfundsvidenskabeligt og humanistisk perspektiv. Debatten omkring den positivistiske videnskabsteori har vist, at videnskaben ikke er værdifri. Det er ikke det samme som at videnskab er et rent kommercielt foretagende på linie med massemedierne, men det betyder dog, at dokumenter og dokumentrepræsentationer kan have tendenser, der minder om "reklame" eller "opreklamering", at "varedeklarationen" ikke kan forudsættes at være objektiv, og at bredere videnskabsteoretiske analyser af kvalitetsnormer, fagsprog, vidensrepræsentation etc. derfor må indgå i en videnskabelig teori om IR. De enkelte spørgsmål/brugere og dokumentrepræsentationer må søges opfattet i et bredere historisk, socialt og kulturelt lys. Informationsvidenskaben må komme ud over en snæver metodologisk individualisme.

Bygger IR på en illusion?
Grundantagelse: at man ved hjælp af formelle procedurer, f.eks. algoritmer kan udvikle procedurer, der kan optimere identificeringen af et sæt relevante referencer (d.v.s. maksimere såvel recall som precision). En måde at analysere hvad dette indebærer, er at gå tilbage: En forsker har publiceret et arbejde, hvori vedkommende refererer den litteratur, som han/hun har fundet frem til som væsentligst at citere.

Den første grundantagelse er en antagelse om, at der ligger saglige og rationelle motiver til grund for citeringen, ikke namedropping, politisk tæft, faglig rygklapperi, modeluner eller lignende. Dette er een af IR-forskningens implicitte grundtagelser, men det er ikke den mest ubehagelige, idet jeg antager at videnskab har en rationel kerne, og at det er denne rationelle kerne, som IR-systemerne skal designes til at betjene.

Men der er en anden implicit grundantagelse, der er mere problematisk. Kunne man forestille sig en retrieval-mekanisme, der f.eks. identificerer de referencer, jeg citerer i min disputats (Hjørland, 1993)?

Det mener jeg er en logisk umulighed! De citerede referencer har ikke formelle lighedstræk, der muliggør, at de ville kunne isoleres som en defineret mængde v.h.a. formelle ir-procedurer. Hvorfor ikke? Fordi de referencer, der f.eks. optræder i min disputats, er resultatet af en erkendelsesproces, der er forløbet i tid (det har taget mange år, men den faktiske varighed er ikke afgørende, kun at processen er udstrakt i tid). Min disputats behandler såvel begreber (f.eks. emnebegrebet) som processer (f.eks. informationssøgning som proces) og teorier (f.eks. Ranganathans teori og kognitivisme). Dette analyseres udfra metodologiske og videnskabsteoretiske op­fattelser, der også behandles.

IR-teknikken ville i princippet være mulig, såfremt, der var et udvendigt forhold imellem min behandling af begreber, pro­cesser, teorier og metodologi. Jeg ville så kunne specificere nogle formelle betingelser til et IR-system: identificer litteratur om emnebegrebets betydning for informationssøg­ningens almene teori udfra en metodologisk kollektivistisk opfattelse.

Når dette ikke kan lade sig gøre, så hænger det samme med, at der er et indvendigt forhold imellem de begreber, teorier o.s.v. jeg benytter. I en proces, der som sagt er udstrakt over tid (og som både indeholder teoretisk og praktisk arbejde med infor­mationssøgning), har jeg udviklet en opfattelse af fordele og mangler ved forskellige begreber, teorier og metoder. Min behandling af emnebegrebet har ført mig til Ranganathan, der har ført mig til klassisk rationalisme, der får mig til at se på Ranganatan med nye øjne, der får mig til at se på emnebegre­bet med nye øjne o.s.v. o.s.v. Selve det at identificere den relevante litteratur er uhyre intimt forbundet med selve forskningsprocessen: de kan ikke skilles ad. IR er ikke en udvendig teknik, der kan løsrives fra forskningsprocessen. Og forskningesprocessen er netop en proces, der strækker sig i tid, og hvor relevanskriterierne løbende ændrer sig i takt med erkendelsesprocessen.

På ethvert givet trin i forskningsprocessen kan forskeren naturligvis formulere nogle specifikke spørgsmål til et infor­mationssystem: Litteratur om Ranganathans emnebegreb, littea­tur, der kritisk analyserer Ranganathans emnebegreb o.s.v. Men kriterierne for hvilket sæt af referencer, der repræsenterer det optimale svar afhænger af den overordnede erkendelsespro­ces' og problemstillings udvikling og stade. Hvis man f.eks. støder på andre, der allerede har behandlet Ranganathan på en tilfredsstillende måde, kan man kort henvise hertil og lukke dette spor og gå videre med andre spor. I modsat fald må man selv underkaste denne forfatter en nøjere analyse.

Kriterierne for det optimale søgesæt og for relevans er med andre ord ikke tidsløse, men yderst dynamiske (teoriafhængige). En algoritme, der f.eks. rangordner søgesæt efter faldende relevans, kan f.eks. optimeres til een bruger i een situation, men et øjeblik efter er den forældet, fordi relevanskriterierne nu er ændret.

Dette rammer selve kernen i IR-forskningen, der ser sig selv som en formel og tidsuafhængig procedure, der kan optimeres uafhængigt af indholdet i vidensbasen og af erkendelsessitua­tionen på et område.

Men hvad er da alternativet til den formelle IR-forskning? Det er studiet af informationsværdien i forskellige "subject access points". Det er studiet af dokumenttyper og arkitekturer, af citationsmønstre, fagsprog, af forskeres relevanskri­erier, implicit og eksplicit information i tekster o.s.v. Kort sagt: undersøgelser af eksisterende dokumentmasser og deres repræsen­tationer i infor­mationssystemer med henblik på at give brugere mulighed for at orientere sig og optimere deres søg­ninger. I realiteten er dette anvendt epistemologi og videnssociologi: *domæneanalyse.


