Die Deduplizierung von bibliothekarischen Metadaten am Beispiel der Datenintegration eines Institutskatalogs in den Bibliotheksverbund IDS St.Gallen
Series
Masterarbeit / Technische Hochschule Wildau
Type
monograph
Date Issued
2019
Author(s)
Abstract
Duplicates are part of everyday life in libraries. Since duplicates cause major problems with retrieval and database efficiency, a lot of effort is put into avoiding them.
The topic of this master thesis is the deduplication of library metadata. The aim is to develop and parameterize a dedicated deduplication procedure based on existing procedures within the framework of data integration.
The initial situation is the integration of an institute catalogue into the library network IDS St. Gallen. The data analysis shows that the institute data are very heterogeneous and the data quality varies greatly. Wherever possible, the original data should therefore be replaced by better-quality metadata.
First, a catalogue of criteria is elaborated for the procedure. Existing deduplication procedures are then examined and their suitability for the present situation tested. Based on this evaluation, a dedicated deduplication procedure is developed.
The analysis of the data to be integrated, the schema mapping and the data cleansing play an important role in the successful deduplication of the institute's data. The adjustments made are shown and the differences in the results - compared to the unadjusted data - are presented.
The technical implementation of the own deduplication procedure is documented, the special features and the parameterization of the procedure are explained. In the present case, the data is deduplicated by queries in a large data pools such as swissbib or GVI, while improving the data quality at the same time.
The tests carried out and the results of this procedure are presented and com-mented on. The results on the effectiveness and efficiency of the procedure are satisfactory and can be implemented.
The topic of this master thesis is the deduplication of library metadata. The aim is to develop and parameterize a dedicated deduplication procedure based on existing procedures within the framework of data integration.
The initial situation is the integration of an institute catalogue into the library network IDS St. Gallen. The data analysis shows that the institute data are very heterogeneous and the data quality varies greatly. Wherever possible, the original data should therefore be replaced by better-quality metadata.
First, a catalogue of criteria is elaborated for the procedure. Existing deduplication procedures are then examined and their suitability for the present situation tested. Based on this evaluation, a dedicated deduplication procedure is developed.
The analysis of the data to be integrated, the schema mapping and the data cleansing play an important role in the successful deduplication of the institute's data. The adjustments made are shown and the differences in the results - compared to the unadjusted data - are presented.
The technical implementation of the own deduplication procedure is documented, the special features and the parameterization of the procedure are explained. In the present case, the data is deduplicated by queries in a large data pools such as swissbib or GVI, while improving the data quality at the same time.
The tests carried out and the results of this procedure are presented and com-mented on. The results on the effectiveness and efficiency of the procedure are satisfactory and can be implemented.
Abstract (De)
Dubletten gehören in Bibliotheken zum Alltag. Da Dubletten beim Retrieval und bei der Datenbankeffizienz grosse Probleme verursachen, wird viel Aufwand für deren Vermeidung betrieben.
Thema dieser Masterarbeit ist die Deduplizierung von bibliothekarischen Metadaten. Ziel ist es, im Rahmen einer Datenintegration ein eigenes Deduplizierungsverfahren nach Vorbild von bestehenden Verfahren zu entwickeln und parametrisieren.
Ausgangssituation ist die Integration eines Institutskatalogs in den Bibliotheksverbund IDS St. Gallen. Bei der Datenanalyse zeigt sich, dass die Institutsdaten sehr heterogen sind und die Datenqualität stark variiert. Daher sollen die Daten, wo immer möglich, durch qualitativ bessere Metadaten ersetzt werden.
Zunächst wird ein Kriterienkatalog für das eigene Verfahren aufgestellt. Danach werden bestehende Deduplizierungsverfahren untersucht und auf ihre Eignung für die vorliegende Situation geprüft. Aufgrund dieser Bewertung wird ein eigenes Deduplizierungsverfahren entwickelt.
Die Analyse der zu integrierenden Daten, das Schema Mapping sowie die Datenbereinigung spielen eine wichtige Rolle bei der erfolgreichen Deduplizierung der Institutsdaten. Die vorgenommenen Bereinigungen werden gezeigt und die Unterschiede in den Ergebnissen – im Vergleich mit unbereinigten Daten - präsentiert.
Die technische Umsetzung des eigenen Deduplizierungsverfahren wird dokumentiert, die Besonderheiten und die Parametrisierung des Verfahrens erläutert. Im vorliegenden Fall werden die Daten durch Abfragen in grossen Datenpools wie swissbib oder GVI dedupliziert und dabei gleichzeitig die Datenqualität verbessert.
Die vorgenommenen Tests und Ergebnisse dieses Verfahrens werden präsentiert und kommentiert. Die Ergebnisse zur Effektivität und Effizienz des Verfahrens sind zufriedenstellend und können umgesetzt werden.
Thema dieser Masterarbeit ist die Deduplizierung von bibliothekarischen Metadaten. Ziel ist es, im Rahmen einer Datenintegration ein eigenes Deduplizierungsverfahren nach Vorbild von bestehenden Verfahren zu entwickeln und parametrisieren.
Ausgangssituation ist die Integration eines Institutskatalogs in den Bibliotheksverbund IDS St. Gallen. Bei der Datenanalyse zeigt sich, dass die Institutsdaten sehr heterogen sind und die Datenqualität stark variiert. Daher sollen die Daten, wo immer möglich, durch qualitativ bessere Metadaten ersetzt werden.
Zunächst wird ein Kriterienkatalog für das eigene Verfahren aufgestellt. Danach werden bestehende Deduplizierungsverfahren untersucht und auf ihre Eignung für die vorliegende Situation geprüft. Aufgrund dieser Bewertung wird ein eigenes Deduplizierungsverfahren entwickelt.
Die Analyse der zu integrierenden Daten, das Schema Mapping sowie die Datenbereinigung spielen eine wichtige Rolle bei der erfolgreichen Deduplizierung der Institutsdaten. Die vorgenommenen Bereinigungen werden gezeigt und die Unterschiede in den Ergebnissen – im Vergleich mit unbereinigten Daten - präsentiert.
Die technische Umsetzung des eigenen Deduplizierungsverfahren wird dokumentiert, die Besonderheiten und die Parametrisierung des Verfahrens erläutert. Im vorliegenden Fall werden die Daten durch Abfragen in grossen Datenpools wie swissbib oder GVI dedupliziert und dabei gleichzeitig die Datenqualität verbessert.
Die vorgenommenen Tests und Ergebnisse dieses Verfahrens werden präsentiert und kommentiert. Die Ergebnisse zur Effektivität und Effizienz des Verfahrens sind zufriedenstellend und können umgesetzt werden.
Language
German
Publisher
TH Wildau
Publisher place
Wildau
Pages
135
Subject(s)
Division(s)
Additional Information
Masterarbeit vorgelegt von Kathrin Heim
Technische Hochschule Wildau, 2019
Betreuer: Stefan Lohrum, Gutachterin: Petra Keidel
Technische Hochschule Wildau, 2019
Betreuer: Stefan Lohrum, Gutachterin: Petra Keidel
Eprints ID
260546
File(s)![Thumbnail Image]()
Loading...
open.access
Name
Thesis.pdf
Size
3.48 MB
Format
Adobe PDF
Checksum (MD5)
86bc48d025cc1731a9982ba168525811