Zweite Runde für Open-Access-Statistik!

Die Finanzierung des Projekts Open-Access-Statistik (OAS) wird von der DFG um zwei weitere Jahre verlängert. Sofern eine nach dem ersten Jahr eingereichte Machbarkeitsstudie zur Nachhaltigkeit der OAS-Infrastruktur die DFG überzeugt, wird die Finanzierung für das zweite Jahr freigegeben.

Seit April 2011 arbeiten die Projektpartner SUB Göttingen, CMS der HU Berlin, SULB Saarbrücken, UB Stuttgart und neu die VZG daran, ihren Kooperationspartnern eine dauerhafte Infrastruktur zur Erfassung, Verarbeitung und Visualisierung von Nutzungsdaten anzubieten. Diese Nutzungsdaten beinhalten den verteilten Zugriff auf Open-Access-Publikationen, die auf (DINI-zertifizierten) Repositorien liegen.
Ziel der zweiten Projektphase ist es, die Infrastruktur von Open-Access-Statistik um weitere deutsche Repositorien zu erweitern und so vergleichbare, standardisierte Nutzungsstatistiken bereitstellen zu können. Weiter werden Kooperationen mit nationalen und internationalen Projekten und Diensten eingegangen, um langfristig international vergleichbare Nutzungsstatistiken erarbeiten und anbieten zu können.
Durch exaktere Metriken und auf Nutzungsstatistiken aufbauende Mehrwertdienste erhofft sich Open-Access-Statistik, die Akzeptanz von Open Access bei Autoren und Rezipienten von wissenschaftlichen Publikationen langfristig steigern zu können.

Die Erhebung von Webstatistiken ist datenschutzrechtlich nicht unproblematisch. Um bei der Verarbeitung von Nutzungsdaten die Datenschutzrichtlinien adäquat zu erfüllen, arbeitet Open-Access-Statistik mit der Zentralen Datenschutzstelle der baden-württembergischen Universitäten (ZENDAS) zusammen.

Im Rahmen der Open-Access-Tage Anfang Oktober 2011 wird Open-Access-Statistik einen halbtägigen Workshop ausrichten. Zielgruppe dieses Workshops sind Repositorienbetreiber, die als Kooperationspartner an der OAS-Infrastruktur mitwirken möchten. Neben Beiträgen zur inhaltlichen und technischen Kooperation mit Open-Access-Statistik sowie Erfahrungsberichten wird die ZENDAS die Datenschutzstrategie näher vorstellen.

Kontakt: Open-Access-Statistik

Werbeanzeigen

Das ePublishing-Softwareportal CARPET

CARPET ist eines der DINI-Partnerprojekte von OA-Netzwerk. Im Folgenden stellt Stefan Daniel das Projekt vor:

CARPET (Community for Academic Reviewing, Publishing and Editorial Technology) ist ein Informationsportal für Software und Services für das elektronische Publizieren.

CARPET bringt innerhalb eines Portals Interessenten und Entwickler zusammen indem es

• ein strukturiertes Online-Verzeichnis für das Finden von Software und Services
Eingabemasken für Software, Services, Projekte und Virtuelle Forschungsumgebungen
• ein softwareübergreifendes Anwendersupportforum individuell für Ihre Community
• eine kollaborative Wissensbasis für das Erarbeiten gemeinsamer Dokumentationen
bietet.

CARPET stellt jeweils das offizielle deutsche Anwenderforum für alle Anwendungen des Public-Knowledge-Projects (OJS, OCS, OMP, Harvester), für die Langzeitarchivierungslösung LOCKS sowie das Digitalisierungsframework Goobi bereit.

CARPET hat das Ziel, sich dauerhaft als virtuelles Kompetenzzentrum für Software und Services des elektronischen Publizierens zu etablieren, im dem es die Ergebnisse von Research & Development Projekten verfügbar macht, deren Weiterentwicklung nachhaltig unterstützt und hilft redundante Entwicklungen zu vermeiden.

CARPET als DFG-gefördertes Projekt startete im August 2008. Eine zweite Phase des Projekts mit dem Titel „Technischer Ausbau der CARPET-Informationsplattform und Verbesserung der Community-Bildung“ beginnt ab August 2011.

Kontakt: info[at]carpet-project.net

Open Access und Elektronisches Publizieren auf dem Bibliothekartag

Vom 7. bis 10 Juni findet in Berlin der 100. Deutsche Bibliothekartag unter dem Motto „Bibliotheken für die Zukunft – Zukunft für die Bibliotheken“ statt. In Zeiten von Web 2.0 soll die Bibliothek als Ort des Bewahrens von Wissen und kulturellem Erbe geschützt und gefördert werden. Hierfür sind freier Zugang zu Wissen und Bildung, globaler Wissenstransfer, Exzellenzforschung, aber auch Leseförderung wichtige Bausteine um nur einige der genannten Forderungen zu nennen. Von der Forderung nach freiem Zugang zu Wissen und Bildung ist es nicht weit zu Open Access und Elektronischem Publizieren. Beide Begriffe klammern thematisch die Projekte ein, die sich auf dem Gemeinschaftsstand im Rahmen des Bibliothekartags interessierten Besuchern vorstellen. Der Gemeinschaftsstand ist eine Initiative der Arbeitsgruppe Elektronisches Publizieren der Deutschen Initiative für Netzwerkinformation e.V. (DINI) und OA-Netzwerk. Der Stand hat die Nummer H06 und befindet sich gegenüber des Vortragssaals A. Im Ausstellerverzeichnis ist er unter dem Titel „Open Access & Elektronisches Publizieren: Gemeinschaftsstand der OA-Projekte in Deutschland und der DINI-AG Elektronisches Publizieren“ verzeichnet. Folgende Projekte sind vertreten:

OA-Netzwerk

OA-Statistik

OA-Plagiatsuche

OA-Fachrepositorien

OA-Policies

OAPEN

DOARC

CARPET

OJS|de

Informationsplattform open-access.net

LuKII – LOCKSS und Kopal Infrastruktur und Interoperabilität

Was erwartet Sie am Stand?

Ansprechpartner der Projekte, eine anschauliche digitale Präsentation und zahlreiche Informationsmaterialien der einzelnen Projekte machen einen Besuch am Stand lohnenswert. Wir informieren über unsere Mehrwertdienste, über die individuellen Projekte, aber auch generell über Open Access und Elektronisches Publizieren. Auch das DINI-Zertifikat für Dokumenten- und Publikationsservices ist am Stand vertreten.

Welche Zielgruppe möchten wir erreichen?

Wir möchten mit dem Stand sowohl andere Projekte ansprechen, die sich mit uns austauschen wollen, aber auch Bibliotheken und Forschungseinrichtungen, die sich für die vorgestellten Mehrwertdienste und Technologien interessieren. Wenn Sie Fragen oder Wünsche haben, schreiben Sie uns oder hinterlassen Sie uns einen Kommentar hier im Blog. Wir freuen uns, Sie am Stand persönlich zu begrüßen.

IUWIS-Workshop „Urheberrecht und Repositorien“

Viele Repositorybetreiber sehen sich in der täglichen Arbeit mit Rechtsfragen konfrontiert. Die Vielfalt dieser Fragen, mögliche Konsequenzen und rechtlich einwandfreie Lösungen stellen eine erhebliche Herausforderung dar, schließlich hat nicht jeder einen in Urheberrechtsfragen versierten Juristen zur Hand.

Daher wird es zusammen mit den Vernetzungstagen am 2. März 2011 einen Workshop der Kollegen von „Infrastruktur Urheberrecht für Wissenschaft und Bildung (IUWIS) geben, der sich dieses Problemfelds annimmt. Aus dem Veranstaltungshinweis von IUWIS:

In den letzten Jahren haben sich viele Hochschulen und Forschungseinrichtungen Dokumenten- und Publikationsserver, sog. Repositories, eingerichtet. Bis Dezember 2010 sind allein bei der Deutschen Initiative für Netzwerkinformation e.V. (DINI) 144 Repositorien registriert. Die meisten dieser Einreichungen bekennen sich dazu, mit ihrem Angebot die Zugänglichkeit wissenschaftlicher Arbeiten – im Sinne der Open-Access-Bewegung – verbessern zu wollen.

Betreiber, Autoren und Nutzer werden dabei mit verschiedenen urheberrechtlichen Fragen konfrontiert, die nicht ohne weiteres zu beantworten sind.

In dem IUWIS-Workshop werden ausgewählte Problemstellungen in Vorträgen dargestellt und in Arbeitsgruppen diskutiert. Behandelte Themen sind unter anderem: Wie sollen Autorenverträge ausgestaltet werden? Wer haftet für rechtliche Verstöße? Welche Lizenzen sind sinnvoll? Was muss bei der Zweitveröffentlichung von bereits erschienenen Artikeln beachtet werden – national, und international?

Das Programm des Workshops ist auf den Seiten der Vernetzungstage zu finden. Die Anmeldung zur Veranstaltung wird in den nächsten Tagen freigeschaltet.

Distributed Open Access Reference and Citation Services

DOARC – Distributed Open Access Reference and Citation Services ist eines der DINI-Partnerprojekte von OA-Netzwerk. Im Folgenden stellt Michael Maune, Mitarbeiter bei DOARC, das Projekt vor.

Distributed Open Access Reference and Citation Services

Das DOARC-Projekt hat soeben die zweite Projektphase abgeschlossen und befindet sich auf dem Weg in die dritte Phase. Die Grundidee des Projekts ist im Portal des Cluster Science Network (CSN) illustriert. Dabei wurden die Metadaten des CSN in DOARC importiert. Dort wurden Zitationsgraphen erzeugt, welche die Ähnlichkeit zwischen unterschiedlichen Publikationen anhand der Co-Zitationen darstellen. Die so berechneten Daten werden anschließend an CSN exportiert. So wird die Suche nach interessanten und relevanten Publikationen um eine weitere Dimension ergänzt.

Vorgehen

Die Vorgehensweise, ist dabei in folgende Verarbeitungsschritte unterteilt:

  1. Import der Metadaten
  2. Aufbereitung der Metadaten
  3. Berechnung der Zitationsähnlichkeit
  4. Erzeugung von Zitationsgraphen
  5. Export der Ergebnisse
  6. Visualisierung der Ergebnisse

Die bei vielen Repositorien etablierte OAI-PMH Schnittstelle, welche in den meisten Fällen dc-simple übertragt, erwies sich hier für die Übertragung von komplexen Referenz- und Zitationsinformationen als nicht ausreichend. Aus diesem Grunde wurde in der jetzt abgeschlossenen Projektphase in Kooperation mit dem CSN, welches eine Datenbasis für die Cluster-Chemie darstellt und über ein vollständiges Set an Referenzdaten für jede dort verfügbare Publikation verfügt, ein Weg zum Datenaustausch über eine für diesen Zweck entwickelte REST-Schnittstelle etabliert.

Die Berechnung der Ähnlichkeiten zwischen den Publikationen wurde in dieser Projektphase ebenfalls erfolgreich implementiert und getestet. Dabei wird anhand der Co-Zitationen der Jaccard-Index berechnet und als Ähnlichkeitsmaß gespeichert. Dieses Ähnlichkeitsmaß wird dann genutzt, um einen Zitationsgraphen zu erzeugen, welcher die zu einem Dokument ähnlichsten anderen Publikationen in Graphenform darstellt. Ein Beispiel für einen solchen Graphen ist im Demonstrator zu sehen.

Herausforderungen

Bei der Betrachtung weiterer Repositorien wurde jedoch deutlich, dass nicht in allen Repositorien vollständige Metadatensets zu den einzelnen Publikationen vorliegen. In vielen Repositorien liegt nur ein minimales Set an Metadaten vor, meistens beschränkt auf Autor, Titel, Journal, manchmal sogar ohne einen Volltextlink. Dieses Set genügt jedoch nicht zur Erzeugung von Zitationsgraphen, da die Zitations- und Referenzinformationen nicht vorliegen. Somit war eines der zentralen Arbeitspakete die Suche nach Möglichkeiten, die Qualität und Vollständigkeit der Metadaten zu verbessern. Es wurden hier drei unterschiedliche Herangehensweisen identifiziert.

Metadatenextraktion aus Volltexten

Zum Einen kann mit Hilfe von Algorithmen zur Referenzextraktion, wie sie beispielsweise von CiteSeerX und Citebase eingesetzt werden, aus den vorliegenden Volltexten ein Set von Metadaten extrahiert werden.

Hierbei ergeben sich allerdings gleich wieder neue Hindernisse. Nicht jedes Dokument hat einen entsprechenden Volltextlink und nicht jeder Volltextlink verweist auch tatsächlich auf einen Volltext. So ist es oftmals der Fall, dass Volltextlinks auf eine beschreibende Seite führen, von der wiederum mehrere Links abgehen. Einer von diesen führt manchmal direkt zum gewünschten Dokument, manchmal muss man aber noch eine Ebene tiefer nach dem Volltext suchen.

Hat man diese Hürde jedoch überwunden und den Volltext eines Dokuments gefunden, so ist immer noch nicht gewährleistet, dass dieser auch verarbeitet werden kann. Manche PDF-Dokumente enthalten zum Beispiel keinen maschinenlesbaren Text, da es sich um Scans von Ausdrucken des Dokuments handelt.

In einem Test mit dem Citebase-Extraktor auf einer Testmenge von ca. 65.000 Dokumenten aus dem Citebase Datenbestand wurden so nur etwa 2.000 Dokumente mit einem herunterladbaren Volltext gefunden (ca. 3%). Von diesen 2.000 Volltexten konnten schließlich etwa 1.000 Dateien (ca. 1,5%) vom Extraktor verarbeitet werden.

Neben den Hürden der Verfügbarkeit und der maschinellen Lesbarkeit von Volltexten ist, insbesondere im Hinblick auf die Erfassung von Referenzinformationen, das nächste Problem die unterschiedliche Form von Zitierstilen in unterschiedlichen Disziplinen und Journalen, welche die Qualität der extrahierten Metadaten entscheidend beeinflusst.

Manuelle Ergänzung unvollständiger Metadatensätze

Eine weitere Möglichkeit die Vollständigkeit von Metadaten zu verbessern, liegt in der direkten Beteiligung der Autoren. Indem man ein Tool entwickelt, mit welchem die in Repositorien vorhandenen Metadaten editiert und vervollständigt werden können, hätte jeder Autor die Möglichkeit einen optimalen Satz an Metadaten zu jeder seiner Publikationen zu erstellen.

Upload von Publikation inklusive vollständiger Metadaten

Die dritte Alternative bezieht sich auf noch nicht publizierte Dokumente. Bei dieser Gruppe der zukünftigen Publikationen bietet sich die Möglichkeit an, ein Tool zu entwickeln, mit welchem direkt das komplette Set an Metadaten zum entsprechenden Repository mit übermittelt wird. Dabei kann eine solche Lösung eine Mischung aus den beiden vorher genannten Herangehensweisen darstellen.

So kann die Publikation zum einen durch Metadaten, welche bereits in BibTeX oder EndNote vorliegen, ergänzt werden. Zum zweiten kann der Volltext maschinell untersucht werden und so evtl. fehlende Daten nachgetragen werden. In einem letzten Schritt kann der Autor die so gesammelten Informationen manuell überarbeiten.

Ausblick und Vorhaben für die dritte Projektphase

In der bald beginnenden dritten Projektphase wird insbesondere das Problem der Anreicherung, Vervollständigung und Korrektur der Metadaten angegangen. Dabei wird eine Kombination der drei hier geschilderten Ansätze implementiert und getestet werden.

Des Weiteren wird die dritte Projektphase der massiven Erweiterung des Datenraumes dienen. Für diese Phase wurden mit dem Konrad-Zuse-Zentrum für Informationstechnik (ZIB), als Leiter der Zentrale des Kooperativen Bibliotheksverbund Berlin-Brandenburg (KOBV) und dem Konstanzer Online Publikationssystem (KOPS), weitere Partner hinzugewonnen, welche die Vernetzung von DOARC mit OPUS und DSpace-Repositorien vorantreiben werden und damit unter Anderem die Internationalisierung des Projekts unterstützen werden.

Da davon auszugehen ist, dass man einige Publikationen in mehreren Repositorien wiederfinden wird, stellt sich zusätzlich das Problem der Identifikation solcher Dubletten und die Frage der Zusammenführung der Datensätze. Hier geht DOARC mit zwei unterschiedlichen Strategien vor. Zum Einen wird mit der in OA-Netzwerk entwickelten Dublettenkontrolle auf Basis der Volltexte nach Dubletten gesucht. Zum Anderen wird, nach der positiven Erfahrung mit dem Autoridentifikationsdienst authorclaim, durch die Integration in das internationale ORCID-Projekt der Versuch unternommen, mittels Autoridentifizierungsdiensten Dubletten aufzufinden.

(Michael Maune, Januar 2011)

Call for Papers für die Vernetzungstage 2011

„Wissen schafft Vernetzung: Kooperationen & Mehrwertdienste für Repositorien in vernetzten Umgebungen“

Die Vernetzungstage 2011 werden vom DFG-Projekt „Open-Access-Netzwerk 2“ (OA-Netzwerk) in Zusammenarbeit mit der Deutschen Initiative für Netzwerkinformation e. V. (DINI) ausgerichtet. Sie finden vom 3.-4. März 2011 an der Universität Osnabrück statt.

Vernetzung von Wissen lässt sich durch die Vernetzung von Open-Access-Repositorien sichtbar machen wie auch mit neuen Diensten voranbringen. Wir laden daher dazu ein, auf den Vernetzungstagen 2011 die folgenden Themen zu diskutieren und bitten um Vorschläge für Beiträge:

  • Vernetzung von digitalen Objekten wie Publikationen, Forschungsdaten und anderen Daten (Enhanced Publications, Linked Open Data etc.)
  • Übergreifende (Mehrwert-)Dienste in einer verteilten Publikationsinfrastruktur
  • Vernetzung und Integration von Repositorien und Publikationsmanagement
  • Organisatorische Vernetzung in Form von Kooperationen
    • mit Blick auf die Nachhaltigkeit von geförderten Projekten
    • internationale Netzwerke von Repositorien
    • unter dem Aspekt der Langzeitarchivierung
  • Rechtliche Fragestellungen, die durch die Aggregation und Vernetzung von Inhalten entstehen
  • Vernetzung von disziplinären und institutionellen Repositorien
  • Ansätze und Erfahrungsberichte („Erfolgsgeschichten“) der lokalen/überregionalen/fachlichen Sammlung und Vernetzung von Inhalten
  • Wissenschaftliches Publizieren unter vernetzten Bedingungen

Die Vernetzungstage 2011 richten sich neben Betreibern von Repositorien und Entwicklern von Mehrwertdiensten im Kontext von Repositorien insbesondere an Wissenschaftlerinnen und Wissenschaftler verschiedener Fachdisziplinen, die vor dem Hintergrund ihrer Disziplin oder Fachgesellschaft mehr über Open-Access-Repositorien und Mehrwertdienste erfahren möchten.

Insbesondere laden wir zur Einreichung von Beiträgen aus dem wissenschaftlichen Umfeld ein, die sich mit dem wissenschaftlichen Publizieren unter vernetzten Bedingungen beschäftigen und Wünsche und Anforderungen hinsichtlich Funktionalitäten und Mehrwertdiensten formulieren.

Darüber hinaus sollen die Vernetzungstage eine systematische Darstellung der Projekte und Aktivitäten im Bereich Elektronisches Publizieren bieten und Anlass zum konkreten Austausch sein.

Bitte übermitteln Sie die Abstracts mit ca. 750 Wörtern bis zum 1. Dezember 2010 an Stefan Buddenbohm.

Tagungswebseite: Vernetzungstage 2011

Upload-Formulare in Repositorien

Eine interessante Artikelserie zu Upload-Formularen von Repositorien findet sich bei den Kollegen von Infobib. Ausgangspunkt ist die Erfahrung, die wohl die meisten Betreiber von Repositorien miteinander teilen, wenn ratlose oder überforderte Nutzer sie ansprechen (O-Ton Infobib):

  1. “Welche Lizenz wähle ich?”
  2. “Um Himmels Willen, muss ich das alles ausfüllen?”
  3. “Was ist SWD, warum sieht die aus wie eine Webseite von 2001 und vor allem: Was soll ich damit?”
  4. “Muss das wirklich so kompliziert sein?”

Diese und ähnliche Fragen kulminieren oft in: “Können Sie das vielleicht für mich übernehmen?”

Neben einer Erfassung und kritischen Bewertung des Status Quo finden sich auch eine Reihe von Anregungen, wie man es als Repositoriumsbetreiber besser machen kann.