Zusammenspiel der Open-Access-Projekte

Das Projekt Open-Access-Netzwerk stellt, wie im Überblick erwähnt, den Rahmen für zwei selbstständige Schwesterprojekte – Open-Acces-Statistik (OAS) und Open-Access-Zitationen (DOARC) – die zeitlich überlappend nachfolgen und deren Bemühungen u.a. in Mehrwertdiensten zum Nutzungs- und Zitationskontext der erfassten Dokumente gipfeln werden. Diese Mehrwertdienste werden mittelfristig in die Rechercheoberfläche integriert.

Wie ist das gedacht?

Folgende Grafik wurde bereits zur Veranschaulichung auf einem gemeinsamen Poster verwendet:


Zusammenspiel_OAProjects_380x380

Dargestellt sind, in sehr abstrahierter Form, die drei Projekte mit Open-Access-Netzwerk als stützende Kernarchitektur in der Mitte. Die Grafik ist am einfachsten von unten nach oben zu lesen.

Datenbeschaffung

Die Metadaten, die man auf der Ebene der in Deutschland verteilten Dokumentenserver („Repositories“) über Harvesting-Schnittstellen wie OAI-PMH V2.0 beziehen kann, werden in eine Datenbank („Core Data Storage“) gezogen. Das kleine Zahnrad-Symbol deutet an, dass hier eine Aufbereitung, Harmonisierung und Aggregation der Daten stattfindet. Zum Beispiel werden Metadaten-Felder zu Sprachkennung oder Daten auf ISO-Standards abgebildet. Aber es werden auch gänzlich neue Daten generiert, wie gesicherte Links zu den Volltexten oder die aufwändig erstellten Maßzahlen zur textuellen Ähnlichkeit von Dokumenten zueinander.

Datenverarbeitung

Um die zentrale Datenhaltung ist ein Ring gezogen. Dies stellt den REST-Webservice dar, der sowohl für das Einspielen als auch für das Auslesen von Daten in die Datenhaltung genutzt werden kann. Diese REST-Schnittstelle wird separat noch einmal zum Thema werden. Der Clou daran ist, dass man durch Zugriff auf den Webservice über das Internet (respektive dem HTTP-Protokoll) Zugriff auf die Datenhaltung erhält. Erst diese Indirektion ermöglicht eine sehr stark modularisierte, verteilte Architektur. Das Zahnrädchen sind eigentlich viele Zahnrädchen und alle arbeiten sie daran, die Daten, die von den Dokumentenservern bezogen und gespeichert werden, schrittweise zu verbessern und anzureichern.

Datenanwendung

Wie in den drei Bedeutungsaspekten des Projektes anklang, ist nicht nur die Datensammlung allein von Wert. Sie soll auch, um die konkreten Inhalte einsehbar zu machen und einige Möglichkeiten der Anwendung zu demonstrieren, in einer grafischen Benutzerschnittstelle enden, der Rechercheoberfläche. Dabei erschöpfen sich die nutzbaren Schnittstellen, über die die Nutzer auf die Datensammlung zugreifen können („User Interfaces“), nicht allein in einer Webanwendung. Es sind beispielsweise auch RSSFeeds, ein OAI-PMH-Export und eine rein lesende REST-Schnittstellen-Variante angedacht, über die jeder auf die Daten zugreifen und sie in einen eigenen Nutzungskontext integrieren kann. Letztlich werden auch übergeordnete Netzwerke diesen Weg gehen können, nötigenfalls mit Adapter-Module, die die Kommunikationswege und Austauschprotokolle miteinander bekannt machen.

Beitrag der Schwesterprojekte

Sowohl das Nutzungsdaten-Projekt (Open-Access-Statistik) als auch das Zitationsanalyse-Projekt (DOARC) wollen, wie eingangs erwähnt, die Quintessenz der durch ihre Systeme generierten Mehrwertdaten zur Datenhaltung hinzufügen und die darin verwalteten Objekte damit anreichern. Beide Projekte gehen dabei unterschiedliche (Daten-)Wege.

Um Nutzungsdaten für Dokumente zu erhalten, bedarf es einer weiteren Schnittstelle auf die Ebenen der Dokumentenserver, denn nur dort langern die Volltexte, deren Metadaten Open-Access-Netzwerk verarbeitet, als herunterladbare Dateien. Von dort werden sie also auch zum Lesen bezogen, nicht nur von Nutzern, die über die Rechercheoberfläche oansuche.open-acces.net kommen, sondern von allen Oberflächen, die die Dokumente des Servers zugänglich machen. Das bedeutet, genau dort fallen auch Nutzungsereignisse an, die registriert und ausgewertet werden können. Das Projekt Open-Access-Statistik muss also einen eigene Harvest-Prozess integrieren, der die Rohdaten der Dokumentnutzung da abholt, wo sie entstehen. Das ist in den Metadaten, die Open-Access-Netzwerk einsammelt, nicht enthalten.

Auch hier vereinfacht ein Zahnrad-Symbol die komplette Verarbeitungslogik rund um die Nutzungsdaten. Aus Sicht von Open-Access-Netzwerk wird dabei ein Zieldatensatz pro Objekt erzeugt, der auf Zeitintervalle normiert Maßzahlen nach verschiedenen Auswertungsstandards bereithält. Diese  Mehrwertdaten werden dann über die REST-Schnittstelle eingespielt und können sowohl in der Rechercheoberfläche angezeigt als auch von anderen Schnittstellen, die die Datenhaltugn anzapfen, nachgenutzt werden.

Um Zitationsdaten zu analysieren, genügen als Kern die Metadaten, die bereits in der Datenhaltung vorhanden sind, sowie die Volltexte, die über die in den angereicherten Metadaten enthaltenen URLs bezogen werden können. Der Pfeil und das obligatorische Zahnrädchen arbeiten hier von der Datenhaltung in die Datenhaltung. Auch hier werden zusätzlich erzeugte Mehrwertdaten erst als Anreicherung in das Kernsystem zurückgespielt.

Beide Projekte haben zusätzlich eine eigene Datenhaltung. Diese scheinbare Redundanz ist notwendig, um einerseits die Zwischenergebnisse der teilweise extrem aufwändigen Berechnungen lokal vorzuhalten und andererseits der verteilten Organisation und Entwicklung des virtuellen Projektverbundes Rechnung zu tragen.

Ausblick und Herausforderungen

Das unterschiedliche Vorgehen der beiden Projekte stellt verallgemeinernd betrachtet zwei Optionen dar, wie sich auch in Zukunft nachfolgende Projekte in die bestehende Infrastruktur integrieren können: Entweder werden Daten, die bereits vorliegen, auf neue Weise untereinander in Verbindung gebracht, analysiert und aggregiert, so dass neue Mehrwertdaten entstehen, oder es werden gänzlich neue Datenquellen erschlossen und dem System verständlich aufbereitet eingespielt.

Die wirkliche Herausforderung, die auf die Projekte zukommt, ist dabei nicht so sehr das Zusammentragen der Daten. Das verteilte System bietet hier über die REST-Schnittstelle gangbare Lösungen. Es sind eher die konkreten Visualisierungen der neu hinzukommenden Mehrwertdaten, die in die gemeinsame Oberfläche integriert werden müssen, was gemeinsames Arbeiten an der dahinterstehenden Webanwendung erfordert – oder ein Konzept, wie man es vielleicht mit „MashUp“ am einfachsten umschreiben könnte.

(-rm)

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: