17. Januar 2011
von Stefan Buddenbohm
DOARC – Distributed Open Access Reference and Citation Services ist eines der DINI-Partnerprojekte von OA-Netzwerk. Im Folgenden stellt Michael Maune, Mitarbeiter bei DOARC, das Projekt vor.
Distributed Open Access Reference and Citation Services
Das DOARC-Projekt hat soeben die zweite Projektphase abgeschlossen und befindet sich auf dem Weg in die dritte Phase. Die Grundidee des Projekts ist im Portal des Cluster Science Network (CSN) illustriert. Dabei wurden die Metadaten des CSN in DOARC importiert. Dort wurden Zitationsgraphen erzeugt, welche die Ähnlichkeit zwischen unterschiedlichen Publikationen anhand der Co-Zitationen darstellen. Die so berechneten Daten werden anschließend an CSN exportiert. So wird die Suche nach interessanten und relevanten Publikationen um eine weitere Dimension ergänzt.
Vorgehen
Die Vorgehensweise, ist dabei in folgende Verarbeitungsschritte unterteilt:
- Import der Metadaten
- Aufbereitung der Metadaten
- Berechnung der Zitationsähnlichkeit
- Erzeugung von Zitationsgraphen
- Export der Ergebnisse
- Visualisierung der Ergebnisse
Die bei vielen Repositorien etablierte OAI-PMH Schnittstelle, welche in den meisten Fällen dc-simple übertragt, erwies sich hier für die Übertragung von komplexen Referenz- und Zitationsinformationen als nicht ausreichend. Aus diesem Grunde wurde in der jetzt abgeschlossenen Projektphase in Kooperation mit dem CSN, welches eine Datenbasis für die Cluster-Chemie darstellt und über ein vollständiges Set an Referenzdaten für jede dort verfügbare Publikation verfügt, ein Weg zum Datenaustausch über eine für diesen Zweck entwickelte REST-Schnittstelle etabliert.
Die Berechnung der Ähnlichkeiten zwischen den Publikationen wurde in dieser Projektphase ebenfalls erfolgreich implementiert und getestet. Dabei wird anhand der Co-Zitationen der Jaccard-Index berechnet und als Ähnlichkeitsmaß gespeichert. Dieses Ähnlichkeitsmaß wird dann genutzt, um einen Zitationsgraphen zu erzeugen, welcher die zu einem Dokument ähnlichsten anderen Publikationen in Graphenform darstellt. Ein Beispiel für einen solchen Graphen ist im Demonstrator zu sehen.
Herausforderungen
Bei der Betrachtung weiterer Repositorien wurde jedoch deutlich, dass nicht in allen Repositorien vollständige Metadatensets zu den einzelnen Publikationen vorliegen. In vielen Repositorien liegt nur ein minimales Set an Metadaten vor, meistens beschränkt auf Autor, Titel, Journal, manchmal sogar ohne einen Volltextlink. Dieses Set genügt jedoch nicht zur Erzeugung von Zitationsgraphen, da die Zitations- und Referenzinformationen nicht vorliegen. Somit war eines der zentralen Arbeitspakete die Suche nach Möglichkeiten, die Qualität und Vollständigkeit der Metadaten zu verbessern. Es wurden hier drei unterschiedliche Herangehensweisen identifiziert.
Metadatenextraktion aus Volltexten
Zum Einen kann mit Hilfe von Algorithmen zur Referenzextraktion, wie sie beispielsweise von CiteSeerX und Citebase eingesetzt werden, aus den vorliegenden Volltexten ein Set von Metadaten extrahiert werden.
Hierbei ergeben sich allerdings gleich wieder neue Hindernisse. Nicht jedes Dokument hat einen entsprechenden Volltextlink und nicht jeder Volltextlink verweist auch tatsächlich auf einen Volltext. So ist es oftmals der Fall, dass Volltextlinks auf eine beschreibende Seite führen, von der wiederum mehrere Links abgehen. Einer von diesen führt manchmal direkt zum gewünschten Dokument, manchmal muss man aber noch eine Ebene tiefer nach dem Volltext suchen.
Hat man diese Hürde jedoch überwunden und den Volltext eines Dokuments gefunden, so ist immer noch nicht gewährleistet, dass dieser auch verarbeitet werden kann. Manche PDF-Dokumente enthalten zum Beispiel keinen maschinenlesbaren Text, da es sich um Scans von Ausdrucken des Dokuments handelt.
In einem Test mit dem Citebase-Extraktor auf einer Testmenge von ca. 65.000 Dokumenten aus dem Citebase Datenbestand wurden so nur etwa 2.000 Dokumente mit einem herunterladbaren Volltext gefunden (ca. 3%). Von diesen 2.000 Volltexten konnten schließlich etwa 1.000 Dateien (ca. 1,5%) vom Extraktor verarbeitet werden.
Neben den Hürden der Verfügbarkeit und der maschinellen Lesbarkeit von Volltexten ist, insbesondere im Hinblick auf die Erfassung von Referenzinformationen, das nächste Problem die unterschiedliche Form von Zitierstilen in unterschiedlichen Disziplinen und Journalen, welche die Qualität der extrahierten Metadaten entscheidend beeinflusst.
Manuelle Ergänzung unvollständiger Metadatensätze
Eine weitere Möglichkeit die Vollständigkeit von Metadaten zu verbessern, liegt in der direkten Beteiligung der Autoren. Indem man ein Tool entwickelt, mit welchem die in Repositorien vorhandenen Metadaten editiert und vervollständigt werden können, hätte jeder Autor die Möglichkeit einen optimalen Satz an Metadaten zu jeder seiner Publikationen zu erstellen.

Upload von Publikation inklusive vollständiger Metadaten
Die dritte Alternative bezieht sich auf noch nicht publizierte Dokumente. Bei dieser Gruppe der zukünftigen Publikationen bietet sich die Möglichkeit an, ein Tool zu entwickeln, mit welchem direkt das komplette Set an Metadaten zum entsprechenden Repository mit übermittelt wird. Dabei kann eine solche Lösung eine Mischung aus den beiden vorher genannten Herangehensweisen darstellen.
So kann die Publikation zum einen durch Metadaten, welche bereits in BibTeX oder EndNote vorliegen, ergänzt werden. Zum zweiten kann der Volltext maschinell untersucht werden und so evtl. fehlende Daten nachgetragen werden. In einem letzten Schritt kann der Autor die so gesammelten Informationen manuell überarbeiten.
Ausblick und Vorhaben für die dritte Projektphase
In der bald beginnenden dritten Projektphase wird insbesondere das Problem der Anreicherung, Vervollständigung und Korrektur der Metadaten angegangen. Dabei wird eine Kombination der drei hier geschilderten Ansätze implementiert und getestet werden.
Des Weiteren wird die dritte Projektphase der massiven Erweiterung des Datenraumes dienen. Für diese Phase wurden mit dem Konrad-Zuse-Zentrum für Informationstechnik (ZIB), als Leiter der Zentrale des Kooperativen Bibliotheksverbund Berlin-Brandenburg (KOBV) und dem Konstanzer Online Publikationssystem (KOPS), weitere Partner hinzugewonnen, welche die Vernetzung von DOARC mit OPUS und DSpace-Repositorien vorantreiben werden und damit unter Anderem die Internationalisierung des Projekts unterstützen werden.
Da davon auszugehen ist, dass man einige Publikationen in mehreren Repositorien wiederfinden wird, stellt sich zusätzlich das Problem der Identifikation solcher Dubletten und die Frage der Zusammenführung der Datensätze. Hier geht DOARC mit zwei unterschiedlichen Strategien vor. Zum Einen wird mit der in OA-Netzwerk entwickelten Dublettenkontrolle auf Basis der Volltexte nach Dubletten gesucht. Zum Anderen wird, nach der positiven Erfahrung mit dem Autoridentifikationsdienst authorclaim, durch die Integration in das internationale ORCID-Projekt der Versuch unternommen, mittels Autoridentifizierungsdiensten Dubletten aufzufinden.
(Michael Maune, Januar 2011)