Zukunftsfähige Inhaltserschließung – Strategien und Perspektiven in

Zukunftsfähige Inhaltserschließung – Strategien und Perspektiven in

Elisabeth Mödden Zukunftsfähige Inhaltserschließung – Strategien und Perspektiven in der Deutschen Nationalbibliothek 1 Anzahl der abgelieferten P...

774KB Sizes 0 Downloads 4 Views

Elisabeth Mödden

Zukunftsfähige Inhaltserschließung –

Strategien und Perspektiven in der Deutschen Nationalbibliothek 1

Anzahl der abgelieferten Publikationen pro Jahr 700.000 600.000 500.000 400.000 300.000 200.000 100.000 0 2006

2

2007

2008

Gedruckte Publikationen

2009

2010

2011

Netzpublikationen

2012

Strategische Ziele •

möglichst umfassende Erschließung



Geschäftsprozesse beschleunigen



Erschließungsaufwände verringern



Erschließungslücken überwinden

Entwicklung und Anwendung maschineller Erschließungsverfahren zur Ergänzung intellektueller Methoden, z. B.: •

Übernahme fremder Erschließungsdaten über Crosswalks



Zusammenführung ähnlicher bibliografischer Daten durch Match-und-Merge-Verfahren bzw. Clusteringverfahren zur Übernahme von Erschließungsdaten



Ableitung von Erschließungsdaten aus maschinenlesbaren Texten

3 | Elisabeth Mödden | 17. Verbundkonferenz des GBV | 27. August 2013

Inhaltserschließung der Bibliografiereihen im Jahr 2012 Reihe A:

112.156

Reihe B:

21.782

• Sachgruppe • DDC-Notation

21.182

• Sachgruppe • DDC-Notation

Reihe H:

Erschließung teilweise:

• Maschinell vergebene Sachgruppe

Reihe O:

Durch Datenübernahmen aus parallel erschlossener Printpublikationen:

153.870 78.002 16.662

4

• Sachgruppe • Schlagwortfolge nach RSWK • DDC-Notation

• Sachgruppe • Schlagwortfolge nach RSWK • DDC-Notation

Erschließung Reihe O Übernahme von Erschließungsdaten aus anderen Datensätzen: •

parallele Ausgaben

• •

verschiedene Ausgaben eines Werkes Personennormdatenverknüpfung

Datengrundlage sind Titel- und Normdaten:



mitgelieferte Fremddaten



eigener Datenbestand



Culturegraph

Erkennung und Zusammenführung ähnlicher bibliografischer Daten mit Clusteringverfahren

5 | Elisabeth Mödden | 17. Verbundkonferenz des GBV | 27. August 2013

Erschließung Reihe O Maschinelle Klassifikation •

DDC-Sachgruppen



medizin. Kurznotationen

Maschinelle Schlagwortvergabe •

Vokabular der GND

Software für Maschinelle Verfahren: Averbis Extraction Platform Datengrundlage sind maschinenlesbare Texte: •

Digitalisierte Inhaltsverzeichnisse gedruckter Publikationen



Elektronische Volltexte

+ Bibliografische Daten 6 | Elisabeth Mödden | 17. Verbundkonferenz des GBV | 27. August 2013

Maschinelle Sachgruppenvergabe Systematik mit ca. 100 Klassen



Training von Klassifikationsmodellen durch Einsatz statistischer Lernverfahren



Das System lernt anhand von Trainingsmaterial und leitet Gesetzmäßigkeiten aus diesen Trainingsbeispielen ab



Trainingsbeispiele sind Netzpublikationen und gescannte Inhaltsverzeichnisse mit Sachgruppen, die durch die Inhaltserschließung intellektuell vergeben wurden Training

Linguistische Textanalyse

7

Merkmalsextraktion

Klassifikations modell Zuordnung Sachgruppen

Produktive Anwendung für deutsch- und englischsprachige Netzpublikationen seit 2012.

Kennzeichnung der Herkunft der Sachgruppen

0500 Oaf

0600 ro;ra;pb 3000 |m|!1031805168!Colverson, Michael 4000 Bist Du schon wach oder schläfst Du noch? : In Geiselhaft der Großbanken und Großkonzerne werden wir entweder geschoren oder geschlachtet! / Michael Colverson Die dargestellte Reihenfolge entspricht der Rangfolge der 5050 330$Ei$D2013-03-05 Sachgruppen: 5050 330$Ep$D2013-03-08 $Ei – intellektuell erstellt $Ep – aus paralleler Ausgabe 5050 330$Em$Hdnb$K0,8$D2013-03-01 $Em – maschinell gewonnen $Ea – aus Fremddaten bei 5050 000$Ea$Honx$D2013-03-01 der Ablieferung 8 | Elisabeth Mödden | 17. Verbundkonferenz des GBV | 27. August 2013

Maschinelle Schlagwortvergabe für deutschsprachige Netzpublikationen ab 2014 Linguistische Textanalyse Grundlage: Abgleich mit dem Wörterbuch: Identifikation der GND-Entitäten, Disambiguierung mehrdeutiger Begriffe etc. Gewichtung und Selektion Ausgabe der Schlagwörter

Wörterbücher mit dem kontrollierten Vokabular der GND (Teilbestand s, Qualitätslevel 1) • • • • • •

9 | Elisabeth Mödden | 17. Verbundkonferenz des GBV | 27. August 2013

ca. 330.000 Personen ca. 172.000 Sachschlagwörter ca. 158.000 Geografika Körperschaften Kongresse Werke

Kennzeichnung der Schlagwörter 0500 Oaf 0600 ro;ra;pb

maschinelle Schlagwortvergabe PICA3 Feld 5540

4000 Mobility of Health Professionals [[Elektronische Ressource]] : Health Systems, Work Conditions, Patterns of Health Workers' Mobility and Implications for Policy Makers 5540 [GND]!040207757!Gesundheitswesen$K0,329$D2013-08-01 5540 [GND]!04024024X!Heilberuf$K0,321$D2013-08-01 5540 [GND]!040026418!Arbeitsbedingungen$K0,123$D2013-08-01 5540 [GND]!040688097!Arbeitsmobilität$K0,008$D2013-08-01 5540 [GND]!96463564X!Internationale Mobilität$K0,008$D2013-08-01 5540 [GND]!04120509X!Internationaler Vergleich$K0,006$D2013-08-01 10 | Elisabeth Mödden | 17. Verbundkonferenz des GBV | 27. August 2013

Produktionsumgebung IDNListe Dateien NP

Repository

Spracherkennung ARAS

Konfig. Englisch

Metadaten NP

CBS

SW 11

Konfig. Deutsch

Sachgruppe

DNBPetrusService

Averbis Webservice

Konfig. Reihe H Klassifikator

Einführung eines Qualitätsmanagementprozesses Maschinelle Sachgruppenvergabe

Prüfung von Stichproben

Monatl. Datenabzug

Datenauswertung Fehleranalyse

Maschinelle Schlagwortvergabe 12 | Elisabeth Mödden | 17. Verbundkonferenz des GBV | 27. August 2013

Planung Verbesserungen

Umsetzung Verbesserungen

Prinzipien der Qualitätssicherung



grundsätzlich keine intellektuelle (Nach-)Bearbeitung maschinell erstellter Erschließungsdaten



Stichprobenverfahren • zur Erkennung systematischer Fehler

• ggf. zur Gewinnung aktueller Trainingsdaten •

Statistiken zur Erkennung von Trends



Transparenz hinsichtlich Datenherkunft und Qualität bei der Verzeichnung und Auslieferung



schrittweise Verbesserung der maschinellen Erschließung durch: • Anpassung der Geschäftsprozesse (incl. Beseitigung bekannter Schwachstellen und Fehlerquellen) • Optimierung, Erweiterung und Kombination der Methoden

13 | Elisabeth Mödden | 17. Verbundkonferenz des GBV | 27. August 2013

Fehleranalyse maschinelle Schlagwortvergabe •

Bewertung von Titel-Stichproben -> Vierstufige Bewertungsskala: sehr nützlich / nützlich / wenig nützlich / falsch



Schlagwort-Stichproben -> Überprüfung der Erschließungskonsistenz



Gezielte Suche nach systematischen Fehlern



Automatischer Abgleich mit parallel erschlossenen Publikationen • Analyse der Indexierungsprotokolle • Analyse von Titeln mit „Problem-Schlagwörtern“ • Statistische Analyse • Einordnung in Fehlerklassen

14 | Elisabeth Mödden | 17. Verbundkonferenz des GBV | 27. August 2013

Bewertung Beispiel Titel: Ehrenschutz von Soldaten in Deutschland und anderen Staaten Sachgruppe: 340 Recht

Gesamtbewertung: Gut Fehlende Aspekte: |s|Rechtsvergleich 15 | Elisabeth Mödden | 17. Verbundkonferenz des GBV | 27. August 2013

Fehlerbehandlung Verschiedene Maßnahmen, abhängig von der Fehlerklasse Schwerpunkt Wörterbuchpflege Modifikationen im averbis Dictionary Configurator: •

Modus „exact“ – Term darf nur exakt so im Text stehen



Modus „ignore“ – Term wird „stillgelegt“

Modifikationen möglich für: • einzelne Synonyme • alle Benennungen

• ganze Hierarchiebäume Erstellung komplexer Filter möglich 16 | Elisabeth Mödden | 17. Verbundkonferenz des GBV | 27. August 2013

GND – Maschinelle Schlagwortvergabe Maschinelle Schlagwortvergabe versus Erschließung nach RSWK:



Sucheinstiege über relevante Suchterme statt über Schlagwortfolgen



Verwendung des GND-Vokabulars in eingeschränktem Umfang



Bedeutung der Vokabular- und Wörterbuchpflege



Nutzung des Beziehungsgeflechtes der GND

Qualitätsvergleich: bei aller Verfeinerung der Methoden bleibt bisher ein erheblicher Qualitätsunterschied zu beobachten. Ziel ist dennoch eine größtmögliche Homogenität der Indexate. 17 | Elisabeth Mödden | 17. Verbundkonferenz des GBV | 27. August 2013

Vielen Dank für Ihre Aufmerksamkeit.

Weitere Informationen unter: http://www.dnb.de/SharedDocs/Downloads/DE/DNB/wir/inhaltserschliess ung/nichterschliessenGesamt.pdf?__blob=publicationFile http://www.dnb.de/DE/Wir/Projekte/Abgeschlossen/petrus.html

Elisabeth Mödden Inhaltserschließung DNB Telefon: +49 – 69 – 1525 – 1533 18

mailto: [email protected]