2014 Census of Open Access Repositories in Germany, Austria and Switzerland gestartet

Die konzeptionelle Phase des 2014 Census ist abgeschlossen. Der gestrige 6.1. 2014 war der Stichtag für den Beginn der Durchführung, der mit der Auswahl der zu untersuchenden Repositorien begann. Diese Auswahlliste basiert auf der von BASE gelieferten Liste der Repositorien, deren Metadaten mithilfe des OAI-PMH-Protokolls aggregiert werden. Sie wurden mit der 2014 Census Definition der Repositorien abgeglichen, die u.a. eine funktionale OAI-Schnittstelle erforderlich macht.

Dank der zahlreichen Hinweise der Kolleginnen und Kollegen aus der OA Repositories Community, die unserem Aufruf vor einigen Monaten gefolgt sind, konnten wir die zu untersuchenden Aspekte um wichtige neue Punkte erweitern.

Dafür wird der diesjährige Census im Vergleich zum 2012 Census neben

  1. der Analyse der Repositorien-Webseiten nach verschiedenen Kriterien durch uns und die Studierenden des Projektseminars  (siehe Aufruf) ab 7.1.14 bis maximal 21.1.14
  2. und der Metadaten-Analyse mithilfe des DINI-Validators ab 7.1.14 bis maximal 21.1.14
  3. eine zusätzliche Umfrage unter Repositorienbetreibern vom voraussichtlich 9.1.2014 bis 28.1.14 03.02.2014 (geändert am 30.01.2014) beinhalten.

Der diesjährige Census wird in Zusammenarbeit mit BASE voraussichtlich bis Ende Januar 2014 abgeschlossen. Wir freuen uns auf die gestern begonnene Mammut-Aufgabe ca. 180 Open-Access-Repositorien aus Deutschland, Österreich und Schweiz zu analysieren und deren Betreiber zu kontaktieren. Mit der Erfassung bzw. der Teilnahme an der Umfrage haben Repository-Betreiber die Chance ihre Einrichtung und ihr Repository zu präsentieren und gleichzeitig aktuelle Trends und Entwicklungen  in der Repositorienszene zu erkennen. Über den weiteren Verlauf werden im Blog berichten.

2012 Census of Open Access Repositories in Germany

The 2012 Census of Open Access Repositories in Germany is a snapshot of the current state of open access repositories in Germany looking at different aspects such as the size, software, value-added services, etc. The charts and best practice examples shall help stakeholders to improve open access repositories on different levels in Germany. The poster presented at the Open Access Tage Wien 2012 will is published in an open access repository with a citable URN: http://nbn-resolving.de/urn:nbn:de:kobv:11-100204211

Open-Access-Tage 2012: Anmeldung freigeschaltet und Programm online

Vom Kollegen Heinz Pampel auf Wisspub.net veröffentlicht und hier der Einfachheit halber direkt eingestellt:

In diesem Jahr finden die Open-Access-Tage zum sechsten Mal statt. Vom 26. bis 27. September 2012 widmet sich die Konferenz den Chancen und Herausforderungen des offenen Zugangs zu wissenschaftlicher Information. Gastgeberin ist die Universität Wien. Veranstaltet wird die Konferenz von der Informationsplattform open-access.netund ihren Partnerorganisationen.

Als Mitglied des Programmkomitees freue ich mich ganz besonders auf die Konferenz. Ich denke das Programm ist vielfältig und spannend. Am ersten Tag stehen, neben einer Keynote von Björn Brembs, u.a. die Entwicklungen von Open Access in Deutschland, Österreich und der Schweiz im Fokus. Am zweiten Tag der Konferenz ist u.a. eine Podiumsdiskussion unter dem Titel “Open Access Publishing Trends” mit Verlags-Vertreterinnen und –Vertretern geplant. Kern der Konferenz bilden eine Vielzahl von Sessions. Begleitet wird das Vortragsprogramm durch eine Messe, auf der sich Repositorien, Verlage und Initiativen präsentieren.

Darüber hinaus finden am Nachmittag des 27. Septembers noch drei Satellitenveranstaltungen statt: Workshops zur Publikationsplattform Open Journal Systems (OJS), zum DFG-Projekt Open-Access-Statistik (OAS) und zum europäischen Kompetenznetzwerk zur digitalen Langzeitarchivierung APARSEN.

Informationen zur Anmeldung finden sich auf open-access.net. Der Twitter-Hashtag für die Open-Access-Tage 2012 lautet: #oat12

Distributed Open Access Reference and Citation Services

DOARC – Distributed Open Access Reference and Citation Services ist eines der DINI-Partnerprojekte von OA-Netzwerk. Im Folgenden stellt Michael Maune, Mitarbeiter bei DOARC, das Projekt vor.

Distributed Open Access Reference and Citation Services

Das DOARC-Projekt hat soeben die zweite Projektphase abgeschlossen und befindet sich auf dem Weg in die dritte Phase. Die Grundidee des Projekts ist im Portal des Cluster Science Network (CSN) illustriert. Dabei wurden die Metadaten des CSN in DOARC importiert. Dort wurden Zitationsgraphen erzeugt, welche die Ähnlichkeit zwischen unterschiedlichen Publikationen anhand der Co-Zitationen darstellen. Die so berechneten Daten werden anschließend an CSN exportiert. So wird die Suche nach interessanten und relevanten Publikationen um eine weitere Dimension ergänzt.

Vorgehen

Die Vorgehensweise, ist dabei in folgende Verarbeitungsschritte unterteilt:

  1. Import der Metadaten
  2. Aufbereitung der Metadaten
  3. Berechnung der Zitationsähnlichkeit
  4. Erzeugung von Zitationsgraphen
  5. Export der Ergebnisse
  6. Visualisierung der Ergebnisse

Die bei vielen Repositorien etablierte OAI-PMH Schnittstelle, welche in den meisten Fällen dc-simple übertragt, erwies sich hier für die Übertragung von komplexen Referenz- und Zitationsinformationen als nicht ausreichend. Aus diesem Grunde wurde in der jetzt abgeschlossenen Projektphase in Kooperation mit dem CSN, welches eine Datenbasis für die Cluster-Chemie darstellt und über ein vollständiges Set an Referenzdaten für jede dort verfügbare Publikation verfügt, ein Weg zum Datenaustausch über eine für diesen Zweck entwickelte REST-Schnittstelle etabliert.

Die Berechnung der Ähnlichkeiten zwischen den Publikationen wurde in dieser Projektphase ebenfalls erfolgreich implementiert und getestet. Dabei wird anhand der Co-Zitationen der Jaccard-Index berechnet und als Ähnlichkeitsmaß gespeichert. Dieses Ähnlichkeitsmaß wird dann genutzt, um einen Zitationsgraphen zu erzeugen, welcher die zu einem Dokument ähnlichsten anderen Publikationen in Graphenform darstellt. Ein Beispiel für einen solchen Graphen ist im Demonstrator zu sehen.

Herausforderungen

Bei der Betrachtung weiterer Repositorien wurde jedoch deutlich, dass nicht in allen Repositorien vollständige Metadatensets zu den einzelnen Publikationen vorliegen. In vielen Repositorien liegt nur ein minimales Set an Metadaten vor, meistens beschränkt auf Autor, Titel, Journal, manchmal sogar ohne einen Volltextlink. Dieses Set genügt jedoch nicht zur Erzeugung von Zitationsgraphen, da die Zitations- und Referenzinformationen nicht vorliegen. Somit war eines der zentralen Arbeitspakete die Suche nach Möglichkeiten, die Qualität und Vollständigkeit der Metadaten zu verbessern. Es wurden hier drei unterschiedliche Herangehensweisen identifiziert.

Metadatenextraktion aus Volltexten

Zum Einen kann mit Hilfe von Algorithmen zur Referenzextraktion, wie sie beispielsweise von CiteSeerX und Citebase eingesetzt werden, aus den vorliegenden Volltexten ein Set von Metadaten extrahiert werden.

Hierbei ergeben sich allerdings gleich wieder neue Hindernisse. Nicht jedes Dokument hat einen entsprechenden Volltextlink und nicht jeder Volltextlink verweist auch tatsächlich auf einen Volltext. So ist es oftmals der Fall, dass Volltextlinks auf eine beschreibende Seite führen, von der wiederum mehrere Links abgehen. Einer von diesen führt manchmal direkt zum gewünschten Dokument, manchmal muss man aber noch eine Ebene tiefer nach dem Volltext suchen.

Hat man diese Hürde jedoch überwunden und den Volltext eines Dokuments gefunden, so ist immer noch nicht gewährleistet, dass dieser auch verarbeitet werden kann. Manche PDF-Dokumente enthalten zum Beispiel keinen maschinenlesbaren Text, da es sich um Scans von Ausdrucken des Dokuments handelt.

In einem Test mit dem Citebase-Extraktor auf einer Testmenge von ca. 65.000 Dokumenten aus dem Citebase Datenbestand wurden so nur etwa 2.000 Dokumente mit einem herunterladbaren Volltext gefunden (ca. 3%). Von diesen 2.000 Volltexten konnten schließlich etwa 1.000 Dateien (ca. 1,5%) vom Extraktor verarbeitet werden.

Neben den Hürden der Verfügbarkeit und der maschinellen Lesbarkeit von Volltexten ist, insbesondere im Hinblick auf die Erfassung von Referenzinformationen, das nächste Problem die unterschiedliche Form von Zitierstilen in unterschiedlichen Disziplinen und Journalen, welche die Qualität der extrahierten Metadaten entscheidend beeinflusst.

Manuelle Ergänzung unvollständiger Metadatensätze

Eine weitere Möglichkeit die Vollständigkeit von Metadaten zu verbessern, liegt in der direkten Beteiligung der Autoren. Indem man ein Tool entwickelt, mit welchem die in Repositorien vorhandenen Metadaten editiert und vervollständigt werden können, hätte jeder Autor die Möglichkeit einen optimalen Satz an Metadaten zu jeder seiner Publikationen zu erstellen.

Upload von Publikation inklusive vollständiger Metadaten

Die dritte Alternative bezieht sich auf noch nicht publizierte Dokumente. Bei dieser Gruppe der zukünftigen Publikationen bietet sich die Möglichkeit an, ein Tool zu entwickeln, mit welchem direkt das komplette Set an Metadaten zum entsprechenden Repository mit übermittelt wird. Dabei kann eine solche Lösung eine Mischung aus den beiden vorher genannten Herangehensweisen darstellen.

So kann die Publikation zum einen durch Metadaten, welche bereits in BibTeX oder EndNote vorliegen, ergänzt werden. Zum zweiten kann der Volltext maschinell untersucht werden und so evtl. fehlende Daten nachgetragen werden. In einem letzten Schritt kann der Autor die so gesammelten Informationen manuell überarbeiten.

Ausblick und Vorhaben für die dritte Projektphase

In der bald beginnenden dritten Projektphase wird insbesondere das Problem der Anreicherung, Vervollständigung und Korrektur der Metadaten angegangen. Dabei wird eine Kombination der drei hier geschilderten Ansätze implementiert und getestet werden.

Des Weiteren wird die dritte Projektphase der massiven Erweiterung des Datenraumes dienen. Für diese Phase wurden mit dem Konrad-Zuse-Zentrum für Informationstechnik (ZIB), als Leiter der Zentrale des Kooperativen Bibliotheksverbund Berlin-Brandenburg (KOBV) und dem Konstanzer Online Publikationssystem (KOPS), weitere Partner hinzugewonnen, welche die Vernetzung von DOARC mit OPUS und DSpace-Repositorien vorantreiben werden und damit unter Anderem die Internationalisierung des Projekts unterstützen werden.

Da davon auszugehen ist, dass man einige Publikationen in mehreren Repositorien wiederfinden wird, stellt sich zusätzlich das Problem der Identifikation solcher Dubletten und die Frage der Zusammenführung der Datensätze. Hier geht DOARC mit zwei unterschiedlichen Strategien vor. Zum Einen wird mit der in OA-Netzwerk entwickelten Dublettenkontrolle auf Basis der Volltexte nach Dubletten gesucht. Zum Anderen wird, nach der positiven Erfahrung mit dem Autoridentifikationsdienst authorclaim, durch die Integration in das internationale ORCID-Projekt der Versuch unternommen, mittels Autoridentifizierungsdiensten Dubletten aufzufinden.

(Michael Maune, Januar 2011)

Werden Sie ein Fan von Open Access!

Die Kollegen der Informationsplattform Open-Access.net sind jetzt auch auf Facebook vertreten. Dabei geht es weniger darum an einer zusätzlichen Stelle Informationen zu präsentieren als vielmehr darum, die verschiedenen Angebote und Kommunikationskanäle besser miteinander zu vernetzen. Wir hoffen, dass so auch neue Zielgruppen von Open Access erfahren und sich für das Thema begeistern. Wir unterstützen Open-Access.net dabei und wünschen gutes Gelingen!