Die Deduplizierung von bibliothekarischen Metadaten am Beispiel der Datenintegration eines Institutskatalogs in den Bibliotheksverbund IDS St.Gallen

Heim, Kathrin

Die Deduplizierung von bibliothekarischen Metadaten am Beispiel der Datenintegration eines Institutskatalogs in den Bibliotheksverbund IDS St.Gallen

Series

Masterarbeit / Technische Hochschule Wildau

Type

monograph

Date Issued

2019

Author(s)

Heim, Kathrin

Abstract

Duplicates are part of everyday life in libraries. Since duplicates cause major problems with retrieval and database efficiency, a lot of effort is put into avoiding them.
The topic of this master thesis is the deduplication of library metadata. The aim is to develop and parameterize a dedicated deduplication procedure based on existing procedures within the framework of data integration.
The initial situation is the integration of an institute catalogue into the library network IDS St. Gallen. The data analysis shows that the institute data are very heterogeneous and the data quality varies greatly. Wherever possible, the original data should therefore be replaced by better-quality metadata.
First, a catalogue of criteria is elaborated for the procedure. Existing deduplication procedures are then examined and their suitability for the present situation tested. Based on this evaluation, a dedicated deduplication procedure is developed.
The analysis of the data to be integrated, the schema mapping and the data cleansing play an important role in the successful deduplication of the institute's data. The adjustments made are shown and the differences in the results - compared to the unadjusted data - are presented.
The technical implementation of the own deduplication procedure is documented, the special features and the parameterization of the procedure are explained. In the present case, the data is deduplicated by queries in a large data pools such as swissbib or GVI, while improving the data quality at the same time.
The tests carried out and the results of this procedure are presented and com-mented on. The results on the effectiveness and efficiency of the procedure are satisfactory and can be implemented.

Abstract (De)

Dubletten gehören in Bibliotheken zum Alltag. Da Dubletten beim Retrieval und bei der Datenbankeffizienz grosse Probleme verursachen, wird viel Aufwand für deren Vermeidung betrieben.
Thema dieser Masterarbeit ist die Deduplizierung von bibliothekarischen Metadaten. Ziel ist es, im Rahmen einer Datenintegration ein eigenes Deduplizierungsverfahren nach Vorbild von bestehenden Verfahren zu entwickeln und parametrisieren.
Ausgangssituation ist die Integration eines Institutskatalogs in den Bibliotheksverbund IDS St. Gallen. Bei der Datenanalyse zeigt sich, dass die Institutsdaten sehr heterogen sind und die Datenqualität stark variiert. Daher sollen die Daten, wo immer möglich, durch qualitativ bessere Metadaten ersetzt werden.
Zunächst wird ein Kriterienkatalog für das eigene Verfahren aufgestellt. Danach werden bestehende Deduplizierungsverfahren untersucht und auf ihre Eignung für die vorliegende Situation geprüft. Aufgrund dieser Bewertung wird ein eigenes Deduplizierungsverfahren entwickelt.
Die Analyse der zu integrierenden Daten, das Schema Mapping sowie die Datenbereinigung spielen eine wichtige Rolle bei der erfolgreichen Deduplizierung der Institutsdaten. Die vorgenommenen Bereinigungen werden gezeigt und die Unterschiede in den Ergebnissen – im Vergleich mit unbereinigten Daten - präsentiert.
Die technische Umsetzung des eigenen Deduplizierungsverfahren wird dokumentiert, die Besonderheiten und die Parametrisierung des Verfahrens erläutert. Im vorliegenden Fall werden die Daten durch Abfragen in grossen Datenpools wie swissbib oder GVI dedupliziert und dabei gleichzeitig die Datenqualität verbessert.
Die vorgenommenen Tests und Ergebnisse dieses Verfahrens werden präsentiert und kommentiert. Die Ergebnisse zur Effektivität und Effizienz des Verfahrens sind zufriedenstellend und können umgesetzt werden.

Language

German

Publisher

TH Wildau

Publisher place

Wildau

Pages

135

URL

https://www.alexandria.unisg.ch/handle/20.500.14171/99292

Subject(s)

computer science

information managemen...

Division(s)

University of St.Gall...

Additional Information

Masterarbeit vorgelegt von Kathrin Heim
Technische Hochschule Wildau, 2019
Betreuer: Stefan Lohrum, Gutachterin: Petra Keidel

Eprints ID

260546

File(s)

open.access

Name

Thesis.pdf

Size

3.48 MB

Format

Adobe PDF

Checksum (MD5)

86bc48d025cc1731a9982ba168525811