Das Hellespont-Projekt: die Integration von Arachne und Perseus

Projektseite

GapVis for Hellespont

Hellespont Linked Data Interface

Als Partner des Deutschen Archäologischen Instituts kooperiert das CoDArchLab mit der Perseus Digital Library der Tufts University, um die digitalen Bestände zur Altertumswissenschaft beider Institutionen zu kombinieren. Dadurch wird eine der umfangreichsten und zudem für öffentlichen und wissenschaftlichen Gebrauch kostenlos bereitstehenden Online-Ressourcen zur griechisch-römischen Antike geschaffen. Kern des Hellespont-Projekts ist die Verknüpfung von Text- und Objektdaten auf der Basis des Metadatenformats CIDOC CRM. Das CRM-Mapping der Arachne-Inhalte wird in einem weiteren Projekt bereits erarbeitet. Methodisch neu ist dabei, das CIDOC CRM für die Abbildung von antiken Textinhalten anzuwenden, um so die Brücke zu anderen Quellenarten zu schlagen. Als Ausgangspunkt für die Integration beider Datenbestände dient die materielle Welt in Thukydides' Pentekontaetie (Thuk. 1,89-1,118), der sich weitere Teile des Textes anschließen sollen.
Es werden dabei zwei grundlegende Schritte zur Strukturierung des Textes vorgenommen: Zunächst die Auszeichnung durch TEI der im thukydideischen Text enthaltenen Entitäten, d. h. von historischen Orten, Gebäuden (oder anderen Artefakten), Personen und Gruppen bzw. politischen Organisationsformen, für die Verweise auf externe Handbuch- und Datenbankeinträge gelegt werden. Gleichzeitig werden schon hier die einzelnen historischen Vorgänge (events) im Text des Thukydides, die in der Sekundärliteratur eine zentrale Rolle spielen, in derjenigen Reihenfolge ausgezeichnet, wie sie vom Autor geschildert werden. Dies dient als Grundlage für die Abbildung im CIDOC CRM der im Text beschriebenen historischen Vorgänge und somit derjenigen Ereignisse, die zur Zuspitzung des Konflikts zwischen Athen und Sparta geführt haben (Peloponnesischer Krieg). Im CIDOC CRM-Mapping werden die TEI-Strukturen mitgeführt. Auf diese Weise wird die Grundlage für weitere Arbeitswerkzeuge, die der Verbindung von Text und archäologischem Objekt dienen, gelegt.
Gleichzeitig werden in einem seit 2012 durch ein gemeinsames Programm des Center for Hellenic Studies und des DAI geförderten Forschungsprojekt die narrative und diskursive Struktur des Textes sowie die relevanten linguistischen Merkmale annotiert. Dies dient unter anderem auch dazu, eine solide Grundlage für die zuvor genannte Bestimmung von historischen Ereignissen im Text zu schaffen. Die linguistische Auszeichnung der thukydideischen Historiae wird gemäß den Richtlinien der Ancient Greek Dependency Treebank vorgenommen, die eine wortgenaue Analyse der morphologischen und syntaktischen Merkmale des Textes ermöglicht. Eine weitere Stufe der linguistischen Analyse, nämlich die sogenannte tektogrammatische Annotierung von semantischen und pragmatischen Phänomenen, ist für das Verständnis der event-Struktur des Textes notwendig. Sie soll im Verlauf des Projektes nach dem Vorbild der Prague Dependency Treebank ebenfalls erprobt werden.
Ein weiterer Bereich kommt durch die automatisierte Erschließung relevanter digital verfügbarer Sekundärliteratur zum Themenbereich der Pentekontaetie hinzu, die seit Januar 2011 im Zusammenhang mit einem PhD-Projekt am Department of Digital Humanities des King's College (ehemals Centre for Computing in the Humanities) für das Projekt erarbeitet wird.
Die Verknüpfung jeweils aller zur Verfügung stehenden und differenziert strukturierten unterschiedlichen Quellen zu einem historischen Themenkomplex sowie deren digitale Nutzbarkeit schafft eine virtuelle Forschungslandschaft, die neue Ansatzmöglichkeiten mit sich bringt.
Das Projekt wird seit Oktober 2010 auf drei Jahre durch das NEH/DFG Bilateral Digital Humanities Program 'Enriching Digital Collections' finanziert, das Kooperationen zwischen US-amerikanischen und deutschen Wissenschaftlern und in diesem Rahmen Digitalisierungsprojekte für die Geisteswissenschaften fördert. Jedes dieser Projekte wird gemeinsam von einer amerikanischen und einer deutschen Institution betrieben.


Dokumentation und geplanter weiterer Projektverlauf


Beginn bis März 2011: Testphase zur Entwicklung der Arbeitsweise anhand des ersten Kapitels der Pentekontaetie (Thuk. 1,89).
Was sind die Möglichkeiten im TEI?
Aufteilung des Texts in eindeutig benennbare Wortfolgen anhand des Elements <seg>, die der mehr oder weniger ausführlichen Nennung einzelner historischer Ereignisse (events) im Text folgen. Der Text wird auf diese Weise lückenlos aufgeteilt. Jede Wortfolge erhält nach einer durchgängigen Zählung einen eindeutigen Bezeichner. Die Bezeichner werden für das mapping der events im CIDOC CRM weiterverwendet, wodurch beide Strukturen verknüpft sind. Innerhalb der events liegen Entitäten, welche konkrete Orte, Personen oder Dinge bezeichnen. Sie erhalten nach derselben Vorgehensweise eindeutige Bezeichner, die durch Unterstrich von denen der event-Wortfolgen abgesetzt sind und fortlaufend durchgezählt werden können.
Annotation der Entitäten durch das Element <name>, das in @type drei unterschiedliche Werte enthalten kann: population, topography, person.
In <name> werden Verweise auf externe Datenbank- und Handbucheinträge gesetzt, insbesondere auf die archäologischen Datensätze in Arachne.
Ein weiterer Verweis zielt auf die Systematik des Zenon-online-Katalogs der Bibliotheken des DAI, der bereits wichtige Kategorien zur Unterscheidung archäologischer Objekte und Orte enthält.
@ana gibt eine wörtliche Übersetzung des griechischen Begriffs auf Englisch an.
Noch nicht gelöst ist die Kennzeichnung von Mehrfachnennungen ein- und derselben Einheit im Text ev. durch @sameAs, @link oder <listPerson>.
Durch @subtype könnte der Wert „topography“ weiter differenziert werden, was bisher aber noch nicht ausgearbeitet wurde. Die Frage ist hier, inwieweit es sinnvoll ist, zwischen Gebäuden und Nennung nicht bebauter Landschaften zu unterscheiden und ob eine weitere Differenzierung sinnvoll ist (Stadtanlage, Wohnhaus, Stadtmauer bzw. Gebirge, Fluß, Meerenge etc.).

Was sind Möglichkeiten der Visualisierung?
Erste Ansätze durch das Extrahieren einer Tabellenform aus der TEI-Struktur und das Erstellen von Graphiken auf dieser Grundlage (s. Abb.).

April bis September 2011: TEI-Annotierung der weiteren Kapitel Thuk. 1,90-1,118. Klärung von Einzelfragen über die TEI community: stand-off markup, Aufbau von authority lists für Personen- und Ortsnamen. Vergabe von eineindeutigen IDs für jedes tag.

September 2011 bis Februar 2012 Aufbau einer Datenbank für die sogenannten events aus Thuk. 1,89-118, deren Felder (was? wann? wo? durch wen? etc.) mit den jeweiligen CIDOC-CRM Klassen korrelieren. Klärung der Kriterien für die Auswahl von events aus dem antiken Text nach historischen Aspekten.

März bis Oktober 2012: Annotierung der events in TEI und Eingabe in die Datenbank. Duch die TEI-IDs Verweise vom CIDOC-mapping auf den Originaltext möglich. Diese TEI-Dokumente bleiben von denjenigen mit Annotierungen der named entities zunächst getrennt.

Oktober bis Dezember 2012: CIDOC-CRM mapping der events auf Grundlage der Datenbank

November 2012 bis Mai 2013: Planung und Gestaltung eines gemeinsamen Interface für alle bisher erarbeiteten Daten, Visualisierung

November und Dezember 2012: Integration von Treebank und CIDOC-Mapping zur Entwicklung einer teilweise automatisierten entity und event extraction aus antiken Texten

Januar 2013: (teil-)automatisierte linguistische Annotation der sogenannten Perikles-Rede (2,35-2,46)

Februar bis Mai 2013: (teil-)automatisierte event Annotation der sogenannten Perikles-Rede (2,35-2,46)