5. Dezember 2011
von juliaiwanowa
OA-Netzwerk startet eine Blogreihe zum Thema „Pragmatische Lösungsansätze für automatisierte Linked Open Data Dienste für Open Access Repositorien am Beispiel von OA-Netzwerk“. Die Blogreihe beginnt mit einer Einführung in die Standards und Semantic Web Technologien und konzentriert sich später auf die konkreten Lösungenansätze und deren Umsetzung im OA-Netzwerk-Kontext.
Standards für das Netz der Daten
Der Aufbau eines funktionierenden globalen semantischen Netzes ist auf die Anwendung einheitlicher Standards angewiesen. Schon seit den frühen 90’ger haben zahlreiche Arbeitsguppen unter dem Dach des World Wide Web Consortium an die Lösungen zur Erarbeitung der notwendigen Standards getüftelt. Somit wurde im Jahre 1999 mit der offiziellen Veröffentlichung des ersten Semantic Web Standards – das Resource Description Framework – der Grundstein zur globalen semantischen Vernetzung gelegt. Es folgten weitere Bausteine wie das RDFS, OWL und OAI-ORE. Diese Standards schafften die Voraussetzungen für den Aufbau eines angereicherten semantischen Netztes im WWW. Heute existieren zahlreiche Softwarelösungen und Tools, die auf diese Standards aufegbaut sind.
1. Resource Description Framework
Der Grundbaustein vom Linked Data ist das Resource Description Framework, kurz RDF. RDF ist das W3C Standardpackage für die Modellierung von Informationen über Objekte. Laut RDF werden alle Web-Ressourcen durch eindeutige (URIs) identifiziert. Das RDF-Modell ist ein auf formale Semantik graphenbasierendes einfaches Datenmodell. In RDF werden Aussagen über Ressourcen als einfache sprachliche Triple modelliert. Das Subjekt ist die Ressource über die eine Aussage getroffen wird, das Prädikat ist die Eigenschaft oder Erläuterung des Subjektes und das Objekt ist das Argument bzw. den Eigenschaftswert des Prädikates. Eine Menge solcher RDF-Tripel ist ein RDF-Graph. Die Beziehungskante ist im RDF eine gleichwertige Informationseinheit, die keinem der beiden Knoten hierarchisch untergeordnet ist, was den Unterschied zu einem XML-Dokument ausmacht. Tripeln können beliebig zusammengefügt werden und somit Teil eines globalen semantischen Graphen werden, die dadurch miteinander kombiniert und weiterverarbeitet werden können. Durch RDF sollen Anwendungen in die Lage versetzt werden, Daten im Web Auszutauschen, ohne dass ihre ursprüngliche Bedeutung dabei verloren geht. Durch die formale Repräsentation in RDF sind Informationen von Maschinen auswertbar. Dadurch sind sie maschinell durchsuchbar (z. B. mithilfe der Anfragesprache SPARQL) und implizit vorhandene Informationen können durch den Einsatz von genaueren Spezifikationen des modellierten Bereichs, z. B. mithilfe von RDF-Schema (RDFS) oder der Web Ontology Language (OWL) maschinell erschlossen werden, obwohl die Information nicht explizit vorliegt. Das RDF-Schema ist die Schemasprache für RDF und liefert neben der Informationen über Daten auch Informatioenen über deren Semantik. RDFS ermöglicht die Beschreibung von Ressoursen, die in Relation stehen und die Beziehungen zwischen dieser Ressoursen. RDF Schema ist RDF/XML serialisiert. Weitere RDF Notationen sind N3, N-TRIPLE und Turtle.
2. Object Reuse and Exchange
Ein weiterer Standard, der die Zusammenführung und die eindeutige Identifizierung von verteilten Web-Ressourcen unterstützt ist die ORE-Spezifikation der Open Archives Inititive. Diese wurde von Herbert Van de Sompel und Carl Lagoze entwickelt und im Oktober 2008 vom W3C-Konsortium als Standard- Spezifikation in der Version 1.0 veröffentlicht. ORE ist eine Erweiterung vom OAI-PHM Standard, um die Binnenstruktur von digitalen Objekten in Repositorien und die Verknüpfungen zwischen ihnen abzubilden. Die Dokumentstruktur von digitalen Objekten in Repositorien kann aus verschiedenen Versionen und Formaten bestehen. Der Volltext kann in PDF und HTML vorliegen. Die Metadaten des Objektes können z.B. in RDF-Form existieren. Desweiteren kann ein digitales Objekt unterschiedliche Teile wie Kapitel, Bilder und Dateien bein- halten. Es können Verknüpfungen zu anderen Objekten in Form von Zitationen oder Versionierungen existieren. Die Gesamtheit dieser Ressourcen wird im ORE als Aggregation bezeichnet. Die Grundideel von OAI ORE ist es, mittels URIs die Binnenstruktur der Aggregation – d. h. die Beziehungen, die aus den einzelnen Objekten eine Aggregation machen – zu identifizieren und gleichzeitig die Komponenten und Grenzen der Aggregation zu beschreiben. Das Ziel von ORE ist diese Binnenstruktur eines Dokumentes maschinenlesbar zu machen und in einer Resource Map abzubilden. Somit wird der Austausch und die Nachnutzung von digitalen Objekten und deren Aggregationen ermöglicht. Digitale Objekte werden mittels URIs eindeutig identifiziert, um Interoperabilität auf Objektebene zu schaffen. Durch die Objektidentifikation wird das Wiederverwenden und veränderte Zusammensetzen von publizierten Inhalten vereinfacht. Um diese Standards anzuwenden bedarf es ein domänenespezifisches Vokabular mit der dazugehörigen Grammatik bzws. Ontologie, die es möglich macht eine standardisierte Lösung für die Vernetzung heterogener Datenprovider im kulturellen Bereich zu etablieren. Dies ist das Ziel vom Europeana Datenmodell.
3. EDM
Das Europeana Datenmodell (EDM) ermöglicht den Erhalt der Originaldaten und erreicht dennoch Interoperabilität der Daten. Um eine Datenintegration und Kontextualisierung zwischen Europeana und OA-Netzwerk zu erreichen werden folgende Maximalziele als notwendige Bausteine einer Semantic Web Applikation im OA-Netzwerk verfolgt. Erstellung Semantischer Resource Map und Mapping der Metadatensätze nach RDF bzw. RDFS in RDF/XML-Syntax. Unter Berücksichtigung des Europeana Datenmodells (EDM) werden die RDF-Tripels idealerweise in einen RDF-Triplestore gespeichert. Der Zugriff auf den Triplestore wird durch eine SPARQL-Schnittstelle ermöglicht und bereit gestellt. Die RDF-Triples können so als Linked Open Data im Semantic Web freigegeben werden. Um diese Ziele zu erreichen und korrekte semantische Beziehungen der Metadatensätze zu identifizieren wären ideallerweise Zusatzangaben seitens der lokalen Repositorien notwendig. Eine dezentrale Lösung auf Repositirienseite für eine semantische Anreicherung der Daten wäre erstrebenswert ist aber in der Projektlaufzeit nicht realisierbar. Daher wird derzeit eine zentrale Lösung zur Kontextualisierung und semantischer Anreicherung der geharvesten und aufbereiteten Dublin-Core-Metadaten erarbeitet. Dabei wurde die Ontologie vom Europeana Datenmodell als eine übergreifende universelle Datenstruktur berücksichtigt.
Fortsetzung folgt…