About

Event based exploration of Linked Open Data

Time and geographic information has become ubiquitous, ranging from geotagged tweets to elaborate description of phenomena in textual documents. Time and geographic information in particular provides the basis for events, that is, descriptions of something that happens at a particular point in time and location, including entities such as persons and organizations involved in events. The need for event-based exploration of data, represented as linked open data (LOD) or traditional document repositories, becomes more and more urgent in many disciplines, such as the humanities, history, and medicine.logo_neu

In this project, we aim at developing a novel and comprehensive framework in support of diverse search and exploration tasks of event data that are to be extracted from heterogeneous resources. As a schema for event descriptions, we will employ and combine existing event ontologies with a focus on the description of time and geographic information, exploiting the well-defined semantics of time and space. The event schema serves as the basis for different extraction and integration tasks that will be developed in the course of the project. Sources include existing LOD repositories, such as YAGO2 and DBpedia, event-related sources, such the Website eventful.com, and traditional textual sources such as Wikipedia. For our event extraction approaches, we put a particular emphasis on text documents from which event descriptions are extracted using event-centric information extraction approaches.

The extraction and integration of event data includes different mapping and normalization techniques to provide a consistent and uniform basis for different event search and exploration tasks. A core novelty of the proposed approaches includes the development, implementation and evaluation of event-correlation operators. The operators, targeted towards the efficient processing of event data represented as RDF, aim at detecting correlations between events. Basis for correlations and thus different event similarity measures are temporal and spatial properties of events.

stratification

Supported by a comprehensive and partially automated event extraction, integration and processing pipeline, this project will (1) design, implement, and populate a comprehensive event repository that is interlinked with other LOD sources and (2) provide users with rich event search and exploration functionality. These include searching for similar events, given a specific event, derivation of event trajectories for persons, and correlation events based on temporal, spatial, and contextual information. The event repository as well as the processing pipeline including event correlation operators will be made available to the research community and public.

Event-basierte Exploration von Linked Open Data

Informationen sind heutzutage zunehmend durch explizite und implizite zeitliche und geographische Aspekte beschrieben, dies reicht von geo-annotierten Tweets bis hin zu Umschreibungen von Ort und Zeit in Textdokumenten. Derartige Zeit- und Rauminformationen bilden die Basis für Ereignisbeschreibungen, d.h. Beschreibungen des Auftreten bestimmter Geschehen an einem Ort zu einer bestimmten Zeit sowie weiterer damit verbundener Eigenschaften wie etwa die beteiligten Personen oder Organisationen. Die Exploration derartiger Informationen aus den unterschiedlichsten Quellen – seien es Linked Data im Web oder eher traditionelle Dokumentkollektionen – ist eine immer dringender werdende Aufgabe in vielen Disziplinen wie etwa den Geistes- und Geschichtswissenschaften oder der Medizin. Ziel des hier beantragten Projektes ist die Entwicklung eines neuartigen und umfassenden Frameworks zur Extraktion und Identifikation von Ereignisbeschreibungen aus heterogenen Quellen. Die Basis für ein Schema von Ereignisbeschreibungen sollen existierende Ontologien bilden, wobei der Fokus auf zeitlichen und geographischen Informationen mit der wohldefinierten Semantik von Raum und Zeit liegt. Dieses Schema soll als Zielschema für die verschiedenen Extraktions- und Integrationssaufgaben genutzt werden. Obwohl grundsätzlich offen für beliebige Datenquellen konzentrieren wir uns zunächst auf existierende Linked-Data-Quellen wie DBpedia und YAGO2, ereignis-spezifische Quellen wie eventful.com und traditionelle Textkollektionen wie Wikipedia. Das Framework umfasst drei wesentliche Schritte: Extraktion, Normalisierung und Integration von Ereignisdaten. Der Schwerpunkt der Extraktion liegt auf der Erschließung von Textdokumenten. Der Aufbau einer konsistenten und einheitlichen Ereignisbasis für Such- und Explorationsaufgaben soll durch Techniken zur Normalisierung und Integration von Ereignisbeschreibungen unterstützt werden. Als ein weiterer Beitrag des Vorhabens sind die Konzeption, Umsetzung und Evaluierung von Operatoren zur Ereigniskorrelation geplant. Diese Operatoren zielen auf die effiziente Verarbeitung von in RDF repräsentierten Ereignisdaten und hierbei speziell die Aufdeckung von Beziehungen zwischen Ereignissen in Raum und Zeit, wofür Ähnlichkeitsmaße entwickelt bzw. ausgewählt werden müssen. Basierend auf einer umfassenden und teilweise automatisierten Verarbeitungspipeline aus Extraktion, Integration und Analyse von Ereignisdaten sollen im Rahmen des Projektes weiterhin (1) ein Repository von Ereignisdaten entwickelt und der Öffentlichkeit verfügbar gemacht werden, das die Daten mit anderen Linked-Open-Data-Quellen verknüpft, und (2) Nutzern die Möglichkeiten zur Suche und Exploration von Ereignisdaten bietet. Letzteres umfasst u.a die Suche nach ähnlichen Ereignissen, die Ableitung von Ereignistrajektorien für (historische) Personen oder Organisationen sowie Korrelationen basierend auf zeitlichen, räumlichen und kontextbezogenen Informationen.

dfg_logo

DFG-Webseite des Projekts