Stefan Gradmann Inhaltlich redigiert - Lirias

Stefan Gradmann Inhaltlich redigiert - Lirias

Stefan Gradmann Inhaltlich redigiert: Keiner Ihrer Artikel in dieser Kategorie Marginal redigiert: Dokument Allgemein ein Zeichen tragendes Objekt, de...

493KB Sizes 0 Downloads 2 Views

Stefan Gradmann Inhaltlich redigiert: Keiner Ihrer Artikel in dieser Kategorie Marginal redigiert: Dokument Allgemein ein Zeichen tragendes Objekt, dessen Information im jeweiligen Kontext eine Relevanz erhält, z. B. eine ↗ Urkunde, ein Kassenbon, ein ↗ Brief, ein ↗ Zeitschriftenaufsatz, ein ↗ Film (3), bes. wenn die Relevanz rechtlicher Natur ist. Teilweise wird der Begriff so ausgeweitet, dass jeder Teil eines Wissenssystems als Dokument bezeichnet wird, z. B. eine Antilope im "Wissensraum" Zoo im Gegensatz zu einer solchen in freier Wildbahn; teilweise erhält der Begriff eine wertende Bedeutung, wenn nur solche Einheiten als Dokumente bezeichnet werden, die jeweilige Qualitätsmerkmale und damit im jeweiligen Kontext das Kriterium der Dokumentationswürdigkeit erfüllen. In der Bibliothekspraxis wird der Begriff Dokument zunehmend im Sinn von ↗ Medieneinheit verwendet (beschränkt auf ↗ selbstständige Publikationen). In der ↗ Informationspraxis und in der ↗ Bibliotheks- und Informationswissenschaft ist ein Dokument ein fixiertes und abgrenzbares Ergebnis eines Kommunikationsaktes zwischen Menschen (in Form von Text, Stand- oder Bewegtbild, akustischem Signal oder Kombinationen davon), also ↗ Information, die auf einem körperlichen Träger oder in Form einer elektronischen Datei (oder zusammenhängender elektronischen Dateien) aufgezeichnet ist. Dieser Dokumentbegriff steht dem Begriff ↗ Medium nahe, aber „Medium” steht primär im Kontext der ↗ Medienwirtschaft, des Verlagswesens und der ↗ Mediennutzung, während „Dokument“ hier vor allem im Kontext der ↗ Informationsaufbereitung, des ↗ Informationszugangs und des ↗ Dokumentenmanagements steht. Prozesse im Zusammenhang mit Dokumenten sind vor allem: die Erzeugung des Inhalts (↗ Informationsproduktion), die Gestaltung des Dokumentes (↗ Satz, ↗ Layout, ↗ Formatieren), seine Vervielfältigung und Verbreitung - innerbetrieblich im Rahmen der betrieblichen Informationswirtschaft oder öffentlich durch Publikation, -, die Speicherung oder ↗ Archivierung, die ↗ Dokumentanalyse, die das Dokument unter inhaltlichen Fragestellungen auswertet, und die Informationsaufbereitung, das ↗ Information Retrieval nach für den jeweiligen ↗ Informationsbedarf relevanten Dokumenten, ↗ Informationslogistik und die Verwendung der Dokumente durch den Benutzer, u. a. um weitere Dokumente zu produzieren. Diesen Durchlauf von der Produktion zur Nutzung nennt man Informationslebenszyklus. Weitere Prozesse im Zusammenhang mit Dokumenten können sein: ↗ Transkription, ↗ Transliteration, ↗ Sprachübersetzung, ↗ Versionierung (Nummerierung der einzelnen Versionen), Umformatieren, ↗ Auswertung, direkte oder indirekte Zitierung, Erzeugung von ↗ Mehrwertdiensten (die analytische Aufbereitung einer Mehrzahl von Dokumenten), ↗ Edition. Hinsichtlich des Inhalts von Dokumenten unterscheidet man ↗ Primärinformation (z. B. einen wissenschaftlichen Aufsatz), ↗ Sekundärinformation (z. B. eine ↗ bibliografische Datenbank) und ↗ Tertiärinformation (z. B. einen ↗ Datenbankführer). Zwischen Dokumenten können vielfältige Beziehungen bestehen, deren adäquate Abbildung in den Dokumenten selbst oder in ihren ↗ Metadaten nicht trivial ist: Gruppierung zu Einheiten, die wiederum als Dokumente bezeichnet werden können (↗ Periodikum, ↗ Sammelwerk), Exemplare einer ↗ Auflage, veränderte ↗ Ausgabe (z. B. illustriert, übersetzt); ferner Paraphrasierungen, Bearbeitungen, Dramatisierungen, Adaptionen in einem anderen Medientyp, Zusammenfassungen, Parodien, Variationen, Textvarianten, gekürzte oder ergänzte Fassungen, Fassungen mit zusätzlichem Material; bei

Filmen: Fassung mit Untertiteln, Synchronfassung, viragierte Fassung; übersetzte Fassung; bei Musikwerken: Arrangement, Fassung mit veränderter Besetzung; Ausgaben auf verschiedenen Datenträgern oder als ↗ Netzpublikation. Das kann auch bei Primärinformation so weit gehen, dass ein neues Dokument (oder neues Werk?) entsteht, indem kurze Sequenzen vorhandener Dokumente in neuer Zusammenstellung geboten werden (Beispiel aus der Literatur: „Hesse, H.: Lektüre für Minuten”; Beispiel aus dem Film: „Raumschiff Orion Rücksturz ins Kino” mit neuer, durchgehender Handlung). Die typisierbaren Relationen zwischen Dokumenten beschreiben die ↗ Funktionellen Anforderungen an bibliografische Datensätze (FRBR) mit den Begriffen ↗ Werk, ↗ Expression, ↗ Manifestation, ↗ Exemplar. Im Zuge der ↗ Digitalisierung beginnt der herkömmliche Dokumentsbegriff sich aufzulösen: Erstens können an die Stelle schwerfällig sich ablösender Ausgaben rasch wechselnde Versionen oder ↗ dynamische Dokumente treten. Zweitens können Netzpublikationen erzeugt werden, die an verschiedenen Speicherorten abgelegte Dokumente in eigener Anordnung enthalten bzw. daraus bestehen oder aus diesen extrahieren (z. B. ↗ Feeds oder bei der Syndikation, d.h. automatischen Zusammenstellung von Inhaltselementen zu neuen, komplexen Präsentationen); dabei kann es zu unvollständigen Dokument kommen, wenn ein Teil der benötigten Dateien nicht mehr gefunden wird. Drittens verschwimmt die Abgrenzbarkeit zwischen einem Dokument und seinen Bestandteilen bei ↗ Dokumenttypen wie ↗ Weblogs, ↗ Wikis oder ↗ Webforen. Viertens erlaubt die ↗ Granularität von Information im Internet die Referenzierung (vor allem mit ↗ Links) beliebig kleiner Einheiten, so dass die Bestimmung der Grenzen eines Dokumentes zu einem zunehmend problematischen Unterfangen wird. S. Gradmann, K. Umlauf Elektronisches Buch (E-Book, eBook) Ein ↗ Buch in digitaler Form, heute meist als ↗ Netzpublikation, das sich durch einen hohen Anteil von Text und ggf. statischen Bildern auszeichnet. Die Abgrenzung gegenüber Netzpublikationen mit mehr oder minder hohem Anteil von ↗ Multimedia fällt schwer und ist eindeutig nur bei Netzpublikationen mit Druckbild ähnlicher Darstellung. Seit 1990 versuchten wiederholt verschiedene Firmen (Sony, NuvoMedia, Softbook u. a.), Einzweck-Computer mit integriertem Bildschirm in der Gestalt eines gedruckten Buchs zur Nutzung proprietärer Software mit Druckbild ähnlicher Darstellung von Texten und Bildern auf den Markt zu bringen. Probleme waren das hohe Gewicht, die begrenzte Kapazität der Batterien, der hohe Preis, die Notwendigkeit der Verwendung einer dedizierten Hardware und vor allem das geringe Titelangebot. Die seit 2006 angebotenen E-Book-Reader überwinden diese Probleme, u. a. durch Einsatz der Strom sparenden, aber nur Schwarz-weißDarstellungen erlaubenden ↗ Immedia Electronic Display-Technologie für den Bildschirm in Größe einer Buchseite und meist ubiquitären Dateiformaten wie ↗ PDF, stehen aber in Konkurrenz zu Geräten, die ebenfalls elektronische Bücher als Software lesen können, jedoch unhandlicher sind (PC, Laptop) oder den kleineren Bildschirm haben, aber mehr Funktionalitäten (Handheld-Geräte) besitzen. Verbreitete Dateiformate sind: PDF, MOBI (MobiPocket, ein proprietäres Format, hauptsächlich für PDAs und Mobiltelefone) und EPUB (Electronic Publication des International Digital Publishing Forum (IDPF), ein offenes XMLFormat). Elektronische Bücher als Trägermedien, meist auf CD-ROM oder DVD, vereinzelt auf Flashcard, spielten vor allem in den 1990er Jahren eine Rolle. Inhalte waren hauptsächlich Nachschlagewerke und größere Texteditionen, auch abgeschlossene Jahrgänge von Zeitungen und Zeitschriften. Elektronische Bücher als Netzpublikationen benötigen einen Viewer (meist kostenlos vom ↗ Content Provider für ubiquitäre Systeme) und sind i. d. R. mit ↗ digitalem

Rechtemanagement (DRM) ausgestattet, z. T. so restriktiv, dass die Benutzung in Bibliotheken eingeschränkt ist. Zum Teil ist in Bibliotheken auch der ↗ Download seitens der Nutzer möglich - bei kommerziellen elektronischen Büchern nach einem DRM-Modell, dass den Verleih gedruckten Bücher imitiert (meist gilt: one person = one lending; nach Ablauf der „Leihfrist” ist die Datei nicht mehr nutzbar; ggf. kann sie vor Ablauf der Leihfrist hochgeladen werden, damit ein anderer Benutzer den Titel nutzen kann). Andere DRMModelle beschränken die Nutzung nach Stunden, z. B. kann die Lizenz dann die Nutzung pro Jahr für 365 x 24 Stunden erlauben, bei gleichzeitiger Nutzung durch 2 Benutzer für 1 Stunde werden 2 Stunden Nutzungsrecht „verbraucht”. Bei wieder anderen Lizenzmodellen stellt die Bibliothek den Benutzern eine große Zahl an Titeln zur Verfügung und zahlt an den Verlag nur bei tatsächlich erfolgter Nutzung (Demand-Driven Acquisition). Elektronische Bücher erscheinen ganz überwiegend parallel zur Printausgabe. Die führenden Wissenschaftsverlage, z. T. auch Fachverlage, publizieren weitgehend parallel. Gleichwohl ist der Marktanteil am Buchmarkt, wenn auch rasch wachsend, nach Umsatz, nach Neuerscheinungen und nach lieferbaren Titeln noch gering (Deutschland 2013: 4 % Umsatzanteil am Publikumsmarkt, USA bereits 2011 17 %). Für 2015 wird prognostiziert, dass die Hälfte der neuen wissenschaftlichen Bücher als Netzpublikation verfügbar sein wird. Der Vertrieb erfolgt weitgehend an wissenschaftliche Bibliotheken, und zwar in Form von titelreichen Paketen auf Basis von ↗ Lizenzen, seltener als bei ↗ elektronischen Zeitschriften im ↗ Konsortium, d.h. im Zusammenschluss zur kooperativen Nutzung von Ressourcen. In Öffentliche Bibliotheken spielen elektronische Bücher bislang eine marginale Rolle, zumal ein geeignetes Titelangebot sehr begrenzt ist. Neben dem kommerziellen Markt von Neuerscheinungen entwickelt sich, vor allem im Zusammenhang mit dem Aufbau von ↗ Repositorien und dem Ausbau des ↗ Open Access, der Publikation ohne kommerziellen Verlag bei unentgeltlichem Zugang, ein wachsendes Angebot kostenlos verfügbarer elektronischer Bücher, zu erheblichen Teilen als ↗ Retrodigitalisierung urheberrechtlich freier Materialien (z. B. über 100.000 digitalisierte franz. Bücher bei der ↗ Bibliothèque Nationale de France). Für Verwaltung und Zugang in Bibliotheken werden ↗ Electronic Resource Management Systems eingesetzt; sie bilden auch die Lizenzbedingungen ab und steuern danach die Zugriffsrechte. In der Nutzung in Bibliotheken sind führend Nachschlagewerke sowie elektronische Bücher der Fächer Informatik, Ingenieurwissenschaft, Technik, Wirtschaftswissenschaft, Management, Business, Recht und Medizin. Die typische Nutzung richtet sich auf ↗ Browsing und Überfliegen; relevante Passagen werden ausgedruckt (falls möglich). Wenn derselbe Titel sowohl gedruckt als auch als elektronisches Buch angeboten wird, werden meist beide genutzt, je nach Fach mehr die eine oder die andere Form. S. Gradmann, K. Umlauf, Dynamisches Dokument Als dynamisches Dokument im engeren Sinn bezeichnet man dynamische Web-Dokumente. Es handelt sich um WWW-Seiten, die zur Laufzeit ihres Aufrufs generiert werden, wobei die in der statischen Darstellung kombinierten Inhaltsquellen (Benutzerprofile und dargestellte Quelldaten) laufender Veränderung unterliegen können, so dass die betreffenden WWWSeiten bei jedem Aufruf ein anderes Aussehen und einen anderen Inhalt haben können. In einem weiteren Verständnis sind dynamische Dokumente solche Dokumente, deren Inhalt und Darstellungsform auch nach ihrer Publikation veränderbar sind, wie dies typischerweise bei ↗ Wiki-Dokumenten der Fall ist. Im Falle dieses weiteren Verständnisses ist i. d. R. auch eine ↗ Versionierung (Nummerierung der einzelnen Zustände; frühere Zustände werden archiviert und sind einsehbar) möglich, so dass der Zustand eines solchen dynamischen Dokuments zu

einem bestimmten Zeitpunkt idealerweise genau rekonstruierbar ist; dies ist bei dynamischen Web-Dokumenten i. d. R. nicht der Fall. Ob dynamische Dokumente im weiteren Sinn, die dann auch gerne als "living document" bezeichnet werden, in wissenschaftlichen Publikations- und Kommunikationsszenarien wertvoll sind (etwa in hochgradig verteilten, netzbasierten Produktionsumgebungen) oder ob sie im Gegenteil ↗ Integrität (Unversehrtheit der Daten) und Überprüfbarkeit wissenschaftlicher Arbeit eher beschädigen, ist eine offene und kontrovers diskutierte Frage.

S. Gradmann Hypertext Ein 1964 von Ted Nelson geprägter Begriff für durch Linkingrelationen miteinander verbundene Textdokumente, die solcherart Teil einer virtuellen, überspannenden SuperTextentität werden. Einen Vorläufer sah Nelson in Vannevar Bush, der schon in seinem 1945 erschienenen Artikel „As We May Think” durch „trails” verbundene Dokumente als Grundlage für seine „Memex”-Vision angenommen hatte, die durch inhaltliche Verknüpfung von Dokumenten dem menschlichen Denken in ihrer assoziativen Grundfigur näher stehe als linear-hierarchische Ordnungssysteme. Nelsons Entwurf war rein theoretischer Natur - er sollte dann in der Folge jahrzehntelang mit dem Versuch beschäftigt sein, seine Vision im Rahmen seines Projekts ↗ Xanadu in die technische Realität umzusetzen - inzwischen sind aber so viele seiner Entwicklungsziele in den Mainstream der Entwicklung des ↗ WWW eingeflossen, dass eine Fertigstellung von Xanadu bis zur Produktreife so gut wie ausgeschlossen scheint. Das erste kommerzielle Hypertext-System war ↗ HyperCard, das seit 1987 von der Firma Apple auf Macintosh-Computern vorinstalliert ausgeliefert wurde. 1990 legte dann Tim Berners-Lee mit seinem berühmten "proposal" für eine Informationsmanagementumgebung des Physikforschungszentrums CERN den Grundstein für die immer noch mit weitem Abstand weltweit größte Hypertext-Anwendung: das World Wide Web (↗ WWW). Kern des WWW ist ein Protokoll für den Nachrichtenaustausch in Hypertext-Umgebungen, das ↗ Hypertext Transfer Protocol (HTTP), welches heute immer noch die technische Grundlage ist, auf der das gesamte WWW basiert. Die im WWW miteinander verbundenen Dokumente sind seitdem in einer aus ↗ SGML abgeleiteten Sprachsyntax namens Hypertext Markup Language (↗ HTML) verfasst. Der HypertextAnsatz des WWW war von vornherein wesentlich pragmatischer als Nelsons Xanadu-Modell und hat sich wohl vor allem aus diesem Grund durchgesetzt. In der puristischen Sicht von Nelson liegen dem WWW jedoch eine Reihe von Designfehlern zugrunde: Die Links des WWW sind unidirektional, nicht semantisch typisiert und instabil. Auch liege dem WWW ein allzu stark an taxonomischen Hierarchien orientiertes gedankliches Modell zugrunde (diese Kritik zielt wohl in erster Linie auf ↗ XML). Inzwischen hat das WWW jedoch (und so von Nelson nie gewürdigt) insbes. mit der Weiterentwicklung zum ↗ Semantic Web, das eine automatische Verarbeitung von Inhalten auf Ebene der Bedeutung erlaubt, einen Teil dieser Monita behoben: Eines der Kernbestandteile sind dabei semantisch typisierte Links und ein noch konsequenter entlinearisiertes Dokumentmodell auf der Grundlage des ↗ Resource Description Framework (RDF). Eine Erweiterung hat der Begriff Hypertext in den letzten Jahren mit der zunehmenden Präsenz nicht-textueller Elemente im WWW gefunden, so dass er inzwischen häufig durch ↗ Hypermedia ersetzt wird.

Eines der wesentlichen Charakteristika von Hypertext als vernetztem Dokumentraum ist im Unterschied zu traditionellen Textdokumenten, die gesprochene Sprache transkribieren, der Verlust der für diese wesenskonstitutiven Linearität und Sequentialität: Im Hypertext kann alles mit allem verbunden sein, er hat keinen "Anfang" und kein "Ende" im landläufigen Sinn. In diesem Sinne ist Hypertext natürlich in gewisser Hinsicht nur ein neuer Name für ein altes Phänomen: Nicht-sequentielle Elemente wie Indexe, Inhaltsverzeichnisse oder Fußnoten sind von alters her Elemente von Textstrukturen - doch handelt es sich in traditionellen Texten dabei um Sekundärstrukturen, die in einem primär linear-sequentiell konstituierten Textmodell operieren. Dennoch geben radikalisierte Massierungen solcher nicht-linearer Muster schon eine Vorahnung von Hypertext, wie etwa in Arno Schmidts „Zettels Traum”, James Joyces „Finnegans Wake” und allen voran die „Cent Mille Milliards de Poèmes” von Raymond Queneau. Ob allerdings Hypertext in den Worten von Freisler (1994) tatsächlich als eine „Publikationsform aufgefasst werden [kann], die dabei ist, sich allmählich aus dem Inkunabelstatus herauszuentwickeln” muss sich noch erweisen, denn in einer Zeit, in der das WWW dabei ist, sich aus dem Web der Dokumente in das Netz der ↗ Linked Open Data weiterzuentwickeln, ist möglicherweise auch die Hypertext-Metapher schon wieder perspektivisch obsolet und könnte noch radikaler entlinearisierten und auf Netzgrafen beruhenden Ansätzen auf Basis von RDF weichen. S. Gradmann Dokumenttyp (Dokumentart) Klasse von ↗ Dokumenten mit gleichen Merkmalen. Ein konsistenter Begriff von Dokumenttyp existiert nicht, denn die Semantik der Klassifikationsmerkmale ist äußerst divers. Auch die Abgrenzung gegenüber verwandten Begriffen wie ↗ Editionsform, ↗ Materialart, ↗ Medientyp, ↗ Publikationsform oder ↗ Ressourcenart ist dementsprechend inkonsistent. Meist zielt der Begriff auf Unterscheidungen von Text, Bild, Film (Video), Ton, Multimedia, ausführbare Programme oder innerhalb dieser Typen auf weitere Unterscheidungen wie z. B. beim Dokumenttyp Text: Aufsatz, Monografie, Sprachwörterbuch u. a. Verbreitete Begriffe von Dokumenttypen sind: a) im Zusammenhang mit dem ↗ Dublin Core Metadata Element Set: Collection (Sammlung, Aggregation von Dokumenten), Dataset (Daten in spezifischer Anordnung, z. B. als Tabelle oder Datenbank), Event, Image, Interactive Resource, Moving Image (↗ Film), Physical Object, Service (Dienstleister oder Dienstleistung), Software, Sound, Still Image, Text; b) im Zusammenhang mit ↗ OPACs: Bibliografie, Bildtonträger, Biografie, elektronische Ressource, Festschrift, Gesetz, Hochschulschrift, Ausstellungskatalog, Kongressschrift, Musikalia, Schulbuch, Tonträger, Wörterbuch, Enzyklopädie, Zeitschrift. Eine spezifische Bedeutung erhält Dokumenttyp im Zusammenhang mit ↗ Dokumenttyp-Definitionen.

S. Gradmann, K. Umlauf Dokumenttyp-Definition (DTD) Eine DTD leistet im Zusammenhang mit den Dokumentbeschreibungssprachen wie ↗ HTML, ↗ SGML und ↗ XML die Definition einer Dokumentstruktur. Sie legt also im Sinne einer Dokumentgrammatik fest, welche Elemente prinzipiell Teil eines Dokuments sein und wie diese Elemente verbunden sein dürfen. Außerdem kann hier spezifiziert werden, welche Elemente obligatorisch sind, welche einander ausschließen bzw. auch welche einander

bedingen. Dokumente, die neben einer korrekten Syntax im Sinn der je verwendeten Dokumentbeschreibungssprache auch den Regeln der als relevant angegebenen DTD entsprechen, werden als "valide" Dokumente bezeichnet. Beispiele für komplexe DTD sind die Spezifikationen der ↗ Text Encoding Initiative in der Fassung P4 (www.tei-c.org/ @+Guidelines/@+P4/p4dtd.xml; die Fassung P5 verwendet XML Schema) oder auch die ähnlich komplexe DTD des DocBook-Standards (www.docbook.org/ @+xml/ @+5.0/ @+dtd/ @+docbook.dtd). Für HTML und SGML ist die DTD die einzige Methode der Dokument-Strukturdefinition, für XML existiert als (inzwischen deutlich vorherrschende, weil weitaus mächtigere) Alternative ↗ XML Schema. DTD werden in einer eigenen Spezifikationssprache verfasst, deren Syntax sich von der jeweils verwendeten Beschreibungssprache stark unterscheidet, so dass für die Prüfung der Dokumentvalidität immer 2 ↗ Parser (Programme zur Überprüfung der syntaktischen Korrektheit der DTD bzw. der Beschreibungssprache) eingesetzt werden müssen, was die Verarbeitung von DTD vergleichsweise aufwändig macht.

S. Gradmann HTML (Hypertext Markup Language) HTML ist eine textbasierte Auszeichnungssprache, mit der von Beginn an die im ↗ WWW miteinander verlinkten Dokumente geschrieben wurden insofern ist HTML eng mit der Entstehung der Hypertext-Anwendung WWW verknüpft. HTML wurde aus der ISO-standardisierten Meta-Auszeichnungssprache Standard Generalized Markup Language (↗ SGML) abgeleitet, trennt jedoch nicht wie diese sauber Inhalt und Darstellung: HTML ist damit eine klar für den menschlichen Rezipienten konzipierte Sprache, deren Konstrukte auf eine intellektuelle Interpretation hin angelegt sind. Maschineninstanzen können die in HTML codierten Inhalte nicht verarbeiten. Dies ist auch heute noch leider der Fall, denn obwohl rein darstellungsorientierte Tag-Paare wie 〈font〉〈/font〉 (für den Schrifttyp) oder 〈b〉 〈/b〉 (für die Schriftstärke fett) inzwischen in der Spezifikation als hinfällig bezeichnet werden, sind sie doch in der Praxis noch häufig anzutreffen. Die allg. Struktur eines HTML-Dokuments ist 3-teilig. Es besteht also immer aus 3 Teilen: einer Dokumenttypdeklaration, welche die eingesetzte ↗ Dokumenttyp-Definition (DTD) angibt (z. B. 〈!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"〉). Hierauf folgt ein mit dem Auszeichnungspaar 〈head〉〈/head〉 gekennzeichneter Kopf-Bereich, der hauptsächlich Dokumentmetadaten enthält, die im Browserfenster nicht angezeigt werden (z. B. 〈title〉Dokumenttitel〈/title〉), gefolgt vom mit 〈body〉〈/body〉 gekennzeichneten Hauptteil, dem Dokument-Körper. Das folgende Beispiel zeigt typische Inhalte dieser 3 Dokumentteile im Zusammenhang: 〈!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" „http://www.w3.org/TR/html4/loose.dtd"〉 〈html〉 〈head〉 〈title〉Dokumenttitel〈/title〉 〈meta name="author" content="Autorenname" /〉 〈!-- Evt. weitere Kopfinformationen --〉 〈/head〉 〈body〉 〈h1〉Angezeigte Hauptüberschrift〈/h1〉 〈p〉Dokumentinhalt〈/p〉

〈a href="http://moodle.hu-berlin.de/mod/ @+glossary/ @+view.php?id=238794"〉 Glossarseite des LBI〈/a〉 〈/body) 〈/html〉

Das Beispiel zeigt einige weitere Charakteristika der Syntax von HTML: HTML-Dokumente sind Abfolgen von Elementen, die jeweils durch ein Paar von Auszeichnungselementen gekennzeichnet sind. Das Anfangselement kann dabei Attribute enthalten (wie hier im Beispiel im Falle von 〈a href=”http ...〉) und das Endelement kann fehlen, wenn das Element über die im Anfangselement befindlichen Attribute hinaus keinen weiteren Inhalt hat: das Anfangselement wird dann mit „/” abgeschlossen. Syntax und Sprachumfang von HTML sind vollständig beim ↗ W3C dokumentiert. Das betrifft sowohl die großen Elementkategorien wie Text-, Listen- oder Tabellenelemente als auch hypertext- und medienunabhängige Links und schließlich multiple Dokument-Sichten wie "Framesets" oder darstellungsoptimierte Zusatztechniken wie ↗ Cascading Style Sheets (CSS). Dabei ist die bis heute gültige Variante des Standards die Version 4.01 aus dem Jahr 1999. Es hat in der Zwischenzeit verschiedentlich Versuche einer Weiterentwicklung gegeben, so etwa die im Jahr 2000 begonnene Neuformulierung des Standards in ↗ XML als ↗ XHTML, die aber im Jahr 2009 vom W3C wieder aufgegeben wurde. Der derzeit noch laufende Versuch einer Neufassung des Standards als HTML5 steht offensichtlich kurz vor dem erfolgreichen Abschluss, hat aber zurzeit (Stand: Dezember 2010) noch den Status eines "working draft". Stark behindert wurde die Konsensbildung um HTML5 durch die Tatsache, dass die Darstellung von HTMLDokumenten auf unterschiedlichen Ausgabegeräten auch eine jeweils entsprechende Darstellungsoptimierung erforderlich macht - dies war solange kein Thema, wie in den 1990er Jahren die Darstellung in einem ↗ Browser auf einem Monitor exklusiv im Fokus stand. Seitdem sind aber zunehmend mobile Ausgabegeräte wie Smartphones hinzugekommen, und die Auseinandersetzungen zwischen den unterschiedlich orientierten Entwicklergemeinden haben den Einigungsprozess über lange Zeit blockiert. S. Gradmann Deep Web (Hidden Web) Diejenigen Teile des ↗ WWW (World Wide Web), die für generische ↗ Suchmaschinen nicht oder nur mit großen Einschränkungen zugänglich sind. Beispiele sind kostenpflichtige Fachdatenbanken oder auch viele ↗ OPACs. Obwohl die Schätzungen stark schwanken, wird doch angenommen, dass der Umfang des Deep Web denjenigen des ↗ Surface Web um ein Mehrfaches übersteigt; allerdings werden vor allem durch Fortschritte in der Suchmaschinentechnologie zunehmend Teile des Deep Web im Surface Web sichtbar. S. Gradmann Creative Commons (CC) Eine Non-Profit-Organisation, die in Gestalt von 6 vorgefertigten StandardLizenzverträgen (CC-Lizenzverträge) ein Instrument für die Festlegung rechtlicher Bedingungen durch die Urheber bei der Veröffentlichung und Verbreitung digitaler Medieninhalte anbietet. Die Lizenzbedingungen variieren dabei von der einfachen Verpflichtung zur Namensnennung des Urhebers bis hin zur Namensnennung des Urhebers in Verbindung mit der Weitergabe unter gleichen Bedingungen und werden Abkürzungen oder Symbolen dargestellt:

BY BY ND BY NC BY NC ND BY NC SA BY SA

Namensnennung Namensnennung - Keine Bearbeitung Namensnennung - Nicht Kommerziell Namensnennung - Nicht Kommerziell - Keine Bearbeitung Namensnennung - Nicht Kommerziell - Weitergabe unter gleichen Bedingungen Namensnennung - Weitergabe unter gleichen Bedingungen

S. Gradmann, K. Umlauf Granularität Der Begriff ist aus dem lat. Wort "granum" (Korn) abgeleitet und bezeichnet die mehr oder minder große Feinkörnigkeit einer Entität. In Unterscheidung von der Verwendung des Begriffs in so unterschiedlichen Bereichen wie Physik, Wirtschaftswissenschaften oder auch Fotografie kann eine spezifisch bibliotheks- und informationswissenschaftliche Fassung des Begriffs aus dessen Verwendung in der Informatik abgeleitet werden. Dort bezeichnet Granularität die Feinheitsstufe der Segmentierung, in die eine gegebene Entität (Objekt oder Prozess) zerlegt ist. Übertragen auf ↗ Informationsobjekte und ↗ Informationsprozesse bezeichnet der Begriff mithin die Gliederungstiefe in der Modellierung beispielsweise eines Buchs. Ein Modell, das als kleinste Gliederungseinheiten Kapitel verwendet, ist so besehen deutlich grobkörniger als ein feinkörniges Modell, das diskrete Untereinheiten bis zur Wortebene unterscheidet. Ein Musterbeispiel für sehr granulare Dokumentmodellierung stellen die Guidelines der ↗ Text Encoding Initiative (TEI) dar. Sie beruhen auf XML und stellen eine Art Seitenauszeichnungssprache für Dokumenttypen wie Wörterbücher, Editionen mit textkritischen Anmerkungen oder andere kulturwissenschaftliche Textkorpora zur Verfügung.

S. Gradmann, K. Umlauf e-Science (e-Research, eScholarship) Ein derzeit gängiger forschungs- und förderpolitischer Topos, der ein neuartiges, stark durch netzbasierte digitale Infrastrukturen und kollaborative Arbeitsformen (↗ Kollaboration) geprägtes Verständnis wissenschaftlicher Arbeitsformen eher konnotiert denn wirklich beschreibt. Je nach Quelle löst sich das Teilakronym auf in "enhanced Science" oder "electronic Science". Kanonisch auch für das europäische Verständnis von e-Science ist der Begriff der ↗ Cyberinfrastructure, wie er im ↗ AtkinsReport im Jahr 2003 von D. Atkins in den USA geprägt wurde. In verschiedenen europäischen Förderprogrammen wurde in der Folge eine eher metaphorische Verbindung zwischen e-Science-Ansätzen und solchen des ↗ GRID Computing hergestellt (arbeitsteiliger Zusammenschluss von Computern). Inwiefern der Begriff eine grundsätzlich andere Konjunktur erleben könnte als das inzwischen weitgehend überholte ↗ E-Learning, kann als unsicher gelten. Ungeklärt bleibt ferner, inwieweit die bislang unter dem Rubrum e-Science diskutierten Konzepte auch im Bereich der digital basierten Geisteswissenschaften Anwendung finden können - ein entsprechender Übertragungsversuch der von J. Unsworth geleiteten Arbeitsgruppe hat zumindest bislang wenig Nachhall erzeugt.

S. Gradmann Entscheidungsunterstützungssystem (Decision Support System, DSS, Planungsinformationssystem) Werkzeug zur Unterstützung von Fach- und Führungskräften bei Planungs- und Entscheidungsprozessen. Als Anwendungssystem bedient es das Management mit Modellen, Methoden und problembezogenen Daten. Dies geschieht mit dem Ziel, die Entscheidungsqualität zu verbessern. Typische Bestandteile eines Entscheidungsunterstützungssystems sind Modellbanken (Sammlungen betrieblicher Planungsmodelle), Methodenbanken (Sammlungen von Lösungsmethoden und -algorithmen) und eine Datenkomponente, die sich aus betriebsinternen und -externen Quellen speist; ferner verfügt ein Entscheidungsunterstützungssystem immer über eine Dialogkomponente.

S. Gradmann Digitales Rechtemanagement (Digital Rights Management, DRM) Verfahren zur Kontrolle des Zugangs zu in ↗ digitalen Medien (gleich ob als körperliche Medien, wie z. B. CD, DVD, oder als ↗ Netzpublikationen) gespeicherten Inhalten. Mit Hilfe von DRM versuchten vor allem Content Provider aus der Unterhaltungsindustrie durch den Einsatz kryptografischer Verfahren sicher zu stellen, dass nur authentifizierte Personen und Softwareinstanzen für den Zugriff auf digitale Inhalte autorisiert sind und diese nur im Rahmen der ihnen gewährten oder von ihnen im Benutzungskontext erworbenen Rechte nutzen können. Die Elementarfunktionen von Systemen für das DRM sind dementsprechend ↗ Authentifizierung (Überprüfung der behaupteten Identität des Benutzers bzw. Computersystems durch Passwörter oder Schlüssel), ↗ Autorisierung (Zuweisung der Nutzungsberechtigung auf Basis der Authentifizierung) und Nutzungsabrechnung. Basistechnologien für die Realisierung dieser Funktionen sind ↗ Verschlüsselung, digitale ↗ Wasserzeichen und Sprachen für die generische Modellierung von Nutzungsrechten wie die eXtensible rights Markup Language (XrML) oder die Open Digital Rights Language (ODRL). Die massive Kritik vor allem im Hinblick auf die Langzeitverfügbarkeit DRM-geschützter Inhalte, die mangelnde technische Durchsetzbarkeit und die Unmöglichkeit, einen wirklich effektiven Schutz dauerhaft zu implementieren, führten zumindest in der Musikindustrie zum Scheitern der DRM-Ansätze: Das Akronym war allzu überzeugend als ‚Digital Restrictions Management’ auflösbar. Versuche, durch eine Kontrolle der Hardwarefunktionen von Computern doch noch ein ernsthaft effektives DRM durchzusetzen (↗ Trusted Computing), konnten am Markt bislang nicht etabliert werden.

S. Gradmann Harvesting Harvesting (wörtlich „ernten”) wird im Folgenden als Synonym von „Web Harvesting” verstanden. Es handelt sich allg. gesprochen um eine gerichtete Variante des Web Crawlings, bei dem ein ↗ Software-Agent (der ↗ Crawler) das ↗ WWW oder Teile davon systematisch auf Inhalte und Muster aller Art absucht. Demgegenüber ist Harvesting in dem Sinne gerichtet, dass es, ausgehend von durch Menschen gegebenen Anweisungen oder aber auch maschinell instruiert, das WWW nach bestimmten Typen von Informationsmustern

durchsucht. Ein Beispiel für Harvesting in diesem Sinne sind spezialisierte ↗ Suchmaschinen, die das WWW nach Personen- oder Adressdaten durchsuchen. Bedeutsamer als diese, oft auch mit kriminellen Motiven unternommenen HarvestingVersuche sind für die ↗ Bibliotheks- und Informationswissenschaft jedoch 2 andere spezifische Harvesting-Ansätze, nämlich das Harvesting von ↗ Metadaten und das semantische Harvesting. Beim Harvesting von Metadaten geht es um das Einsammeln von Daten, die ↗ Informationsobjekte beschreiben, identifizieren oder sonst Aussagen über sie machen. Als Standard hat sich dabei das Protocol for Metadata Harvesting (PMH) der ↗ Open Archives Initiative (OAI) etabliert, dessen Version 2.0 im Jahr 2008 veröffentlicht wurde (↗ OAI-PMH). Ziel des Protokolls ist der Austausch von Metadaten zwischen ↗ Repositorien mit wissenschaftlichem Inhalten mittels Werkzeugen des Web Harvesting. Das Protokoll definiert dabei eine Reihe von Kommunikationsregeln, die für die Harvesting-Beziehung zwischen ↗ Informationssystemen gelten, welche die Rolle eines ↗ Datenproviders (= Lieferant von inhaltsbezogenen Metadaten) oder die Rolle eines ↗ Service Providers einnehmen können. Letzterer stellt dabei die Harvesting-Anfrage an den Datenprovider und verwendet die zurückerhaltenen Daten für die Gestaltung eigener Informationsdienstleistungen. Dieser Harvesting-Ansatz wird ergänzt um ein Protokoll namens Object Reuse and Exchange (↗ OAI-ORE), das nun zusätzlich zu den Metadaten auch die Objektdaten austauschbar macht und komplexe digitale Informationsobjekte im WWW als Aggregationen von WWW-Ressourcen mithilfe von "resource maps" beschreibbar macht. Insbes. OAI-PMH ist inzwischen als Harvesting-Standard für Metadaten - zumindest im akademischen Umfeld - gut etabliert: Repositorien-Föderationen wie DRIVER oder auch die Server-Zertifikation durch die ↗ Deutsche Initiative für Netzwerkinformation beinhalten das Protokoll als unverzichtbares Kernelement. Semantisches Harvesting basiert auf den im WWW zunehmend populärer werdenden Techniken für die semantische Auszeichnung von Webinhalten (↗ Semantic Web). Dabei werden mit Techniken wie RDFa oder OpenGraph WWW-Ressourcen entweder semantisch annotiert (RDFa) oder zusätzlich noch in sozial basierte Bewertungsnetze integriert (OpenGraph). Damit wird die Möglichkeit eröffnet, ein semantisch basiertes Harvesting durchzuführen, wie dies etwa seit neuestem in Googles RichSnippets-Ansatz geschieht oder auch bei Facebook in deren OpenGraph-Umgebung zur Anwendung kommt. Die semantische Auszeichnung der WWW-Ressourcen geschieht dabei nur in Ausnahmefällen händisch-intellektuell (das würde sonst schnell zum Skalierbarkeitsproblem), i. d. R. kommen hier vielmehr (teil-)automatisierte Techniken für die semantische Extraktion und "named entity recognition" zum Einsatz, wie sie inzwischen von Anbietern wie Temis (Luxid) oder Thomson Reuters (OpenCalais) auf dem Markt angeboten werden. Solange ein auf solcherart ausgezeichneten Ressourcen basierendes semantisches Retrieval angesichts der Informationsmassen des WWW noch ein Performanzproblem ist, werden Techniken des semantischen Harvesting wichtiger Bestandteil von WWW basierten Informationsarchitekturen sein, doch es ist durchaus absehbar, dass eine Weiterentwicklung der semantischen Retrievaltechnologie oder auch nur das Aufkommen semantischer Suchmaschinentechnologie diese Situation wieder ändert.

S. Gradmann Dokumentationswürdigkeit

Ergebnis der Anwendung von Qualitätskriterien im ↗ Informationsprozess, insbes. bei der Entscheidung, ob ein ↗ Dokument in einem ↗ Informationsprodukt berücksichtigt werden soll oder nicht. Kriterien können sein: Nähe zum betreffenden Fachgebiet, Neuigkeitswert, Aktualität, Sprache, ↗ Medientyp, ↗ Dokumenttyp, ↗ Urheber, letztlich die Relevanz für einen (vermuteten) ↗ Informationsbedarf, über den allerdings nur schwer Prognosen möglich sind. Bei der ↗ Datenbankproduktion wird über die Dokumentationswürdigkeit oft pragmatisch entschieden, indem die Liste der zu indexierenden Zss. festgelegt wird. Hierbei können Kriterien wie ihr ↗ Impact Factor (Er gibt die Zitationshäufigkeit der Artikel einer Zeitschrift in Relation zur Zahl der Artikel in dieser Zeitschrift an) herangezogen werden. An die Stelle eines strikten Ja-Nein-Modells der Dokumentationswürdigkeit ist inzwischen meist ein ↗ Schalenmodell getreten: Je geringer die Stufe der Relevanz eines Dokuments, desto weniger Aufwand wird bei der ↗ Informationsaufbereitung betrieben. S. Gradmann, K. Umlauf Dublin Core Metadata Element Set (DIN ISO 15832-2003, ISO 15832-2003, Z39.85) Ursprünglich eine Liste von 13, später 15 Attributen, die auf einen 1995 in Dublin, Ohio, USA, durchgeführten Workshop zurückgeht und der Identifikation hauptsächlich von ↗ Netzpublikationen dienen soll. Das Set ist heute Teil von ↗ Kategorienkatalogen, ↗ Indexierungssprachen und technischen Spezifikationen, die von der ↗ Dublin Core Metadata Initiative (DCMI) formuliert werden (↗ DCMI Abstract Model). Über die ↗ Volltextindexierung hinaus soll das Set eine qualitätsvolle ↗ automatische Indexierung durch ↗ Suchmaschinen erlauben, indem ↗ Metadaten im Header von HTMLbzw. XML-Dokumenten in diesem Format angegeben werden. Das Set kann ohne Weiteres mit Werten (z. B. Autorennamen, Stichwörtern) gefüllt werden („Simple Dublin Core”). Bei „Qualified Dublin Core” werden Bezüge der verwendeten Metadaten hinzugefügt, z. B. die Benennung des Formats bei Datumsangaben oder die Bezeichnung des Thesaurus, dem inhaltsbeschreibende Terme entnommen sind. Das ↗ OAI-PMH, das maßgebliche Protokoll zur Übertragung von Metadaten aus Repositorien an Aggregatoren, unterstützt die Indexierung des Sets. Die ↗ Deutsche Initiative für Netzwerkinformation empfiehlt seine Anwendung. Die Anwender kommen hauptsächlich aus dem akademischen Umfeld und aus Gedächtnisinstitutionen; ihre Zahl ist noch überschaubar. Folgende Suchmaschinen (2009) bzw. Suchmaschinen-Software verwenden ausdrücklich das Set zur Indexierung: www.ultraseek.com, http://swish-e.org, Microsoft Index Server, Blue Angel Technologies MetaStar, ↗ BASE (http://base.ub.uni-bielefeld.de). Die ↗ Open Archives Initiative (OAI) gibt folgendes Beispiel für eine Anwendung des Sets im Rahmen des OAI-PMH (www.openarchives.org/OAI/openarchivesprotocol.html#dublincore): 〈?xml version="1.0" encoding="UTF-8"?〉 〈oai_dc:dc xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/ @+oai_dc/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:xsi="http://www.w3.org/2001/ @+XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/ @+OAI/2.0/ @+oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd"〉 〈dc:title xml:lang="en"〉Grassmann's space analysis〈/dc:title〉 〈dc:creator〉Hyde, E. W. (Edward Wyllys)〈/dc:creator〉 〈dc:subject〉LCSH:Ausdehnungslehre; LCCN QA205.H99〈/dc:subject〉 〈dc:publisher〉J. Wiley & Sons〈/dc:publisher〉 〈dc:date〉Created: 1906; Available: 1991〈/dc:date〉

〈dc:type〉text〈/dc:type〉 〈dc:identifier〉http://resolver. @+library. @+cornell.edu/ @+math/1796949〈/dc:identifier〉 〈dc:language〉english〈/dc:language〉 〈dc:rights xml:lang="en"〉Public Domain〈/dc:rights〉 〈/oai_dc:dc〉

In den letzten Jahren ist die ursprüngliche Attributliste zu einem komplexen Vokabular weiterentwickelt worden, den DCTerms, mit dem auch komplexe Zusammenhänge bezogen auf Informationsobjekte im ↗ Semantic Web, das eine automatische Verarbeitung von Inhalten auf Ebene der Bedeutung erlaubt, modellierbar sind. S. Gradmann, K. Umlauf Gedächtnisinstitution Das Wort Gedächtnisinstitution fasst als begriffliches Dach bestehende Einrichtungen zur Speicherung und Nutzbarmachung des kollektiven kulturellen Wissens wie etwa ↗ Bibliotheken, ↗ Archive, ↗ Museen und diverse audiovisuelle Sammlungen zusammen. Der Begriff ist eine Übersetzung des engl. „memory institution” und in der deutschsprachigen Lit. noch nicht wirklich eingeführt. S. Gradmann