# Beispiel 1: DraCor API

Zum Einstieg beschäftigen wir uns mit der API von DraCor: [https://dracor.org/doc/api](https://dracor.org/doc/api)

DraCor umfasst mehrere [Korpora](https://fortext.net/ueber-fortext/glossar/korpus) mit Dramen in verschiedenen Sprachen. Alle Dramen sind in [XML-TEI](https://fortext.net/ueber-fortext/glossar/tei) codiert. Mithilfe der API können Metadaten zu den verschiedenen Korpora oder zu einzelnen Dramen abgefragt werden, und es können einzelne Bestandteile der Dramen direkt extrahiert werden: Zum Beispiel alle Abschnitte in den Texten, die in XML-TEI als "Sprechtexte" codiert sind. Ein Beispiel: [https://dracor.org/ger/goethe-iphigenie-auf-tauris#downloads](https://dracor.org/ger/goethe-iphigenie-auf-tauris#downloads)

Im Folgenden werden wir die Sprechtexte aller Dramen von Johann Wolfgang Goethe im deutschsprachigen DraCor-Korpus über die API abfragen und als Plaintext-Dateien auf dem Computer speichern.

Zunächst importieren wir alle notwendigen Pakete und definieren Variablen, die wir für unsere Abfrage benötigen. `base_url` ist die URL, die unter "Servers" auf der [Dokumentationsseite](https://dracor.org/doc/api) zur DraCor-API angegeben wird. `corpusname` ist das Kürzel des deutschsprachigen DraCor-Korpus. Diese Information entnehmen wir der Beispielabfrage unter "List corpus content". `author` ist der volle Name von Goethe in der Schreibweise, die im DraCor-Korpus verwendet wird. Diese Information entnehmen wir dem Objekt, das die Abfrage  Inhalts des deutschsprachigen DraCor-Korpus unter "List corpus content" liefert. Die Anfrage kann zunächst über das Interface der Dokumentationsseite zur DraCor-API gestellt werden, um einen Überblick über die verfügbaren Daten zu erhalten. In folgenden Abschnitt führen wir die Anfrage mithilfe von Python requests aus.


In [21]:
import requests
import os

In [2]:
corpusname = "ger"
base_url = "https://dracor.org/api/v1"
author = "Goethe, Johann Wolfgang"

### 1. Informationen zu allen Dramen aus dem deutschsprachigen DraCor Korpus abfragen

Der Dokumentationsseite zur DraCor-API können wir entnehmen, dass der Inhalt eines bestimmten DraCor-Korpus nach dem Schema "https://dracor.org/api/v1/corpora/{corpusname}" abgefragt werden kann. Hierbei ist {corpusname} durch das Kürzel des interessierenden Korpus zu ersetzen, in unserem Fall "ger" für das deutschsprachige DraCor-Korpus.

In [3]:
# Abfrage-URL für das ausgewählte Korpus vorbereiten mit F-String (s.u.)
full_url = f"{base_url}/corpora/{corpusname}"
print(full_url)  # zum Überprüfen ausgeben lassen


https://dracor.org/api/corpora/ger


In [6]:
# API Anfrage (call)
api_response = requests.get(full_url)


In [10]:
# API Antwort (response) ansehen
api_response.status_code
api_response.text

200

In [11]:
# API Antwort lesbar machen und in einem Dictionary speichern
api_data = api_response.json()

In [12]:
# Output überprüfen
# Hier auskommentiert, da die Ausgabe sehr lang ist
# api_data

{'licence': 'CC0', 'licenceUrl': 'https://creativecommons.org/share-your-work/public-domain/cc0/', 'description': 'Edited by Frank Fischer and Peer Trilcke. Features more than 600 German-language plays from the 1540s to the 1940s. For a corpus description and full credits please see the [README on GitHub](https://github.com/dracor-org/gerdracor).', 'title': 'German Drama Corpus', 'repository': 'https://github.com/dracor-org/gerdracor', 'name': 'ger', 'dramas': [{'writtenYear': None, 'wikidataId': 'Q112943724', 'yearPremiered': None, 'source': 'Google Books', 'yearWritten': None, 'id': 'ger000588', 'title': 'Der deutsche Student', 'sourceUrl': 'https://books.google.com/books?id=F7XPW3ReAeIC&printsec=frontcover', 'networkSize': '20', 'name': 'anonym-der-deutsche-student', 'yearNormalized': 1779, 'yearPrinted': '1779', 'printYear': '1779', 'subtitle': 'Ein Trauerspiel in fünf Aufzügen', 'premiereYear': None, 'authors': [{'name': '(Anonym)', 'fullname': '(Anonym)', 'shortname': '(Anonym)',

In [13]:
# api_data['plays']

[{'writtenYear': None, 'wikidataId': 'Q112943724', 'yearPremiered': None, 'source': 'Google Books', 'yearWritten': None, 'id': 'ger000588', 'title': 'Der deutsche Student', 'sourceUrl': 'https://books.google.com/books?id=F7XPW3ReAeIC&printsec=frontcover', 'networkSize': '20', 'name': 'anonym-der-deutsche-student', 'yearNormalized': 1779, 'yearPrinted': '1779', 'printYear': '1779', 'subtitle': 'Ein Trauerspiel in fünf Aufzügen', 'premiereYear': None, 'authors': [{'name': '(Anonym)', 'fullname': '(Anonym)', 'shortname': '(Anonym)', 'refs': [{'ref': 'Q4233718', 'type': 'wikidata'}]}], 'networkdataCsvUrl': 'https://dracor.org/api/corpora/ger/play/anonym-der-deutsche-student/networkdata/csv', 'author': {'name': '(Anonym)'}}, {'writtenYear': None, 'wikidataId': 'Q111795417', 'yearPremiered': '1920', 'source': 'Projekt Gutenberg-DE', 'yearWritten': None, 'id': 'ger000569', 'title': 'Am ersten Mai', 'sourceUrl': 'https://www.projekt-gutenberg.org/adolph/am1mai/index.html', 'networkSize': '7', 

Das Dictionary `api_data` enthält einen Schlüssel `plays` mit einer Liste von Dictionaries. Jedes Dictionary in dieser Liste repräsentiert ein Drama im deutschsprachigen DraCor-Korpus. Jedes dieser Drama-Dictionaries hat u.a. einen Schlüssel `name` mit dem Namen des Dramas und einen Schlüssel `authors` mit einer einelementigen Liste, die ein Dictionary mit den Listen der Autor:innen des Dramas enthält.
Der Zugriff auf ein Dictionary erfolgt wie gewohnt mit eckigen Klammern über die Schlüssel; der Zugriff auf Listen erfolgt wie gewohnt über den Index.

In [None]:
# Zugriff auf den Name der Autor:in des zweiten Dramas in der Liste `plays` (mit Indexposition 1)
api_data['plays'][1]['authors'][0]['name']

In [None]:
# Zugriff auf den Namen des Stücks des zweiten Dramas in der Liste `plays`
api_data['plays'][1]['name']

In [14]:
type(api_data)

dict

In [None]:
type(api_data['plays'])

### 2. Sprechtexte weiblich und männlich codierter Charaktere aus allen Dramen bestimmter Autor:innen abrufen

Der Dokumentationsseite zur DraCor API können wir entnehmen, dass eine Abfrage von Sprechtexten über den entsprechenden API Endpunkt dem Schema "https://dracor.org/api/v1/corpora/{corpusname}/plays/{playname}/spoken-text folgen soll. Hierbei ist {corpusname} durch das Kürzel des Korpus (in unserem Fall "ger") zu ersetzen und {playname} durch den Namen des Stücks, und zwar so, wie der Name unter dem Schlüssel `name` in unserem Dictionary `api_data` angegeben wird.

Wir müssen also zunächst eine Liste mit den Namen aller Dramen von Goethe erstellen und anschließend daraus unsere Abfrage-URLs zusammensetzen. Um eine Liste der Namn aller Goethe-Dramen zu erhalten, können wir entweder mithilfe des Zugriffsoperators sofort auf alle Dramen des gewählten Autors zugreifen:


In [None]:
# Mit for-Schleife wie gewohnt
plays_selected = []
for drama in api_data["plays"]:
    if drama["authors"][0]["name"] == author:
        plays_selected.append(drama["name"])

In [17]:
# Mit List Comprehension (s.u.)
plays_selected = [drama['name'] for drama in api_data['plays'] if drama['authors'][0]['name'] == author]
plays_selected

['goethe-torquato-tasso',
 'goethe-stella',
 'goethe-satyros',
 'goethe-proserpina',
 'goethe-pandora',
 'goethe-iphigenie-auf-tauris',
 'goethe-goetz-von-berlichingen-mit-der-eisernen-hand',
 'goethe-goetter-helden-und-wieland',
 'goethe-faust-in-urspruenglicher-gestalt',
 'goethe-faust-eine-tragoedie',
 'goethe-faust-der-tragoedie-zweiter-teil',
 'goethe-erwin-und-elmire',
 'goethe-egmont',
 'goethe-die-wette',
 'goethe-die-natuerliche-tochter',
 'goethe-die-mitschuldigen',
 'goethe-die-laune-des-verliebten',
 'goethe-des-epimenides-erwachen',
 'goethe-der-triumph-der-empfindsamkeit',
 'goethe-der-grosskophta',
 'goethe-der-buergergeneral',
 'goethe-das-jahrmarktsfest-zu-plundersweilern',
 'goethe-clavigo']

... oder erst Namen aller Dramen aus ger-Dracor einer Variable zuweisen...

In [None]:
# plays = [drama['name'] for drama in api_data['plays']]
# plays  # überprüfen

... und dann nach Dramen der gewählten Autor:in (in unserem Fall Goethe) filtern:

In [18]:
# plays_selected = [play for play in plays if author in play]
# plays_selected

['goethe-torquato-tasso',
 'goethe-stella',
 'goethe-satyros',
 'goethe-proserpina',
 'goethe-pandora',
 'goethe-iphigenie-auf-tauris',
 'goethe-goetz-von-berlichingen-mit-der-eisernen-hand',
 'goethe-goetter-helden-und-wieland',
 'goethe-faust-in-urspruenglicher-gestalt',
 'goethe-faust-eine-tragoedie',
 'goethe-faust-der-tragoedie-zweiter-teil',
 'goethe-erwin-und-elmire',
 'goethe-egmont',
 'goethe-die-wette',
 'goethe-die-natuerliche-tochter',
 'goethe-die-mitschuldigen',
 'goethe-die-laune-des-verliebten',
 'goethe-des-epimenides-erwachen',
 'goethe-der-triumph-der-empfindsamkeit',
 'goethe-der-grosskophta',
 'goethe-der-buergergeneral',
 'goethe-das-jahrmarktsfest-zu-plundersweilern',
 'goethe-clavigo']

Zuletzt müssen wir noch die URLs für die Abfrage vorbereiten:

In [None]:
# Mit for-Schleife
request_urls = []
for drama in plays_selected:
    current_url = f"{full_url}/plays/{drama}/spoken-text"
    request_urls.append(current_url)

In [29]:
# Mit List Comprehension (s.u.)
request_urls = [f"{full_url}/plays/{play}/spoken-text" for play in plays_selected]
request_urls

['https://dracor.org/api/corpora/ger/play/goethe-torquato-tasso/spoken-text',
 'https://dracor.org/api/corpora/ger/play/goethe-stella/spoken-text',
 'https://dracor.org/api/corpora/ger/play/goethe-satyros/spoken-text',
 'https://dracor.org/api/corpora/ger/play/goethe-proserpina/spoken-text',
 'https://dracor.org/api/corpora/ger/play/goethe-pandora/spoken-text',
 'https://dracor.org/api/corpora/ger/play/goethe-iphigenie-auf-tauris/spoken-text',
 'https://dracor.org/api/corpora/ger/play/goethe-goetz-von-berlichingen-mit-der-eisernen-hand/spoken-text',
 'https://dracor.org/api/corpora/ger/play/goethe-goetter-helden-und-wieland/spoken-text',
 'https://dracor.org/api/corpora/ger/play/goethe-faust-in-urspruenglicher-gestalt/spoken-text',
 'https://dracor.org/api/corpora/ger/play/goethe-faust-eine-tragoedie/spoken-text',
 'https://dracor.org/api/corpora/ger/play/goethe-faust-der-tragoedie-zweiter-teil/spoken-text',
 'https://dracor.org/api/corpora/ger/play/goethe-erwin-und-elmire/spoken-text'

Bevor wir die API-Abfragen durchführen, erstellen wir einen Ordner auf dem Computer, in dem die extrahierten Sprechtexte gespeichert werden sollen. Diesen Ordner müssen wir mithilfe der Funktion `chdir()` als sogenanntes "Arbeitsverzeichnis" festlegen. Per Default ist der Ordner, aus dem heraus Jupyter Lab gestartet wird, das Arbeitsverzeichnis.

In [None]:
# neues Verzeichnis anlegen: in diesem Ordner werden die Textdateien gespeichert
if not os.path.exists("spokentext_corpus"):
    os.makedirs("spokentext_corpus")
# Arbeitsverzeichnis wechseln: Die Texte sollen im Verzeichnis "spokentext_corpus" gespeichert werden
os.chdir(os.path.join(os.getcwd(), "spokentext_corpus"))

Zuletzt können wir die Anfragen stellen und die extrahierten Sprechtexte zu den Goethe-Dramen als Plaintext-Dateien speichern:

In [34]:
# API calls durchführen und Output speichern
for i in range(len(request_urls)):
    api_response = requests.get(request_urls[i])
    spokentext = api_response.text
    filename = f"{plays_selected[i]}.txt"
    with open(filename, "w") as file:
        file.write(spokentext)

Der Anfrage können laut Dokumentationsseite zur DraCor-API auch zusätzliche Anfrage-Parameter (oder engl. "query parameters") übergeben werden. Diese werden nach einem `?` an die Anfrage-URL angefügt. Die `get()`-Funktion hat dazu einen eigenen Parameter `params`. Wenn beim Funktionsaufruf ein Dictionary mit zusätzlichen Anfrage-Parametern angegeben wird, werden diese Parameter automatisch an die Anfrage-URL angefügt.

In [35]:
# Mit query nach dem Geschlecht
genders = ["FEMALE", "MALE", "UNKNOWN"]
for i in range(len(request_urls)):
    for j in range(len(genders)):
        api_response = requests.get(request_urls[i], params={"gender": genders[j]})
        spokentext = api_response.text
        filename = f"{plays_selected[i]}_{genders[j]}.txt"
        with open(filename, "w") as file:
            file.write(spokentext)

### List Comprehension, F-Strings und Daten schreiben

In dem Skript haben wir zwei neue Syntaxregeln angewendet, die wir bisher nicht besprochen haben. Außerdem haben wir den Code, den ihr bereits bei der Bearbeitung von Übungsblatt 6 kennengelernt habt, angewendet, um die extrahierten Sprechtexte der Goethe-Stücke in Textdateien zu schreiben. In diesem Abschnitt werden diese neuen Inhalte erläutert.

#### List Comprehension

Für einfache for-Schleifen haben wir in diesem Abschnitt eine spezielle Syntax verwendet, die sich "List Comprehension" nennt. Was haben nämlich alle diese einfachen for-Schleifen gemeinsam? Sie dienen dazu, über eine Liste zu iterieren und dieselbe Operation auf jedes Listenelement anzuwenden, und anschließend eine neue Liste mit den veränderten Elementen zu erstellen. Formell gesprochen wird also aus den Elementen der bereits existierenden Liste nach einer bestimmten "Berechnungsvorschrift" eine neue Liste erstellt.

Betrachten wir als Beispiel mal die folgende list comprehension:

In [43]:
plays = [drama['name'] for drama in api_data['plays']]

Was bedeutet dieser Code?
Um das zu verstehen, müssen wir erst verstehen, was für ein Objekt api_data['dramas'] ist.

In [39]:
type(api_data['plays'])

list

In [40]:
type(api_data['plays'][0])

dict

In [41]:
api_data['plays'][0]

{'writtenYear': None,
 'wikidataId': 'Q112943724',
 'yearPremiered': None,
 'source': 'Google Books',
 'yearWritten': None,
 'id': 'ger000588',
 'title': 'Der deutsche Student',
 'sourceUrl': 'https://books.google.com/books?id=F7XPW3ReAeIC&printsec=frontcover',
 'networkSize': '20',
 'name': 'anonym-der-deutsche-student',
 'yearNormalized': 1779,
 'yearPrinted': '1779',
 'printYear': '1779',
 'subtitle': 'Ein Trauerspiel in fünf Aufzügen',
 'premiereYear': None,
 'authors': [{'name': '(Anonym)',
   'fullname': '(Anonym)',
   'shortname': '(Anonym)',
   'refs': [{'ref': 'Q4233718', 'type': 'wikidata'}]}],
 'networkdataCsvUrl': 'https://dracor.org/api/corpora/ger/play/anonym-der-deutsche-student/networkdata/csv',
 'author': {'name': '(Anonym)'}}

Es handelt sich also um eine Liste, deren Elemente alle Dictionaries sind, und zwar Dictionaries, die jeweils Metadaten zu den Stücken enthalten. Die Metadaten sind als Schlüssel-Wert Paare organisiert, der Schlüssel für den Titel des Stücks heißt dabei z.B. title und hat als Wert den Titel des Stücks.
Wir wollen für jedes Stück allerdings nicht den Titel abfragen, sondern wir brauchen die Zeichenkette, die in der URL das Stück eindeutig identifiziert. Diese Zeichenkette hat den Schlüssel name. Was macht also unser Code mit der list comprehension?

Für jedes Element drama der Liste api_data['dramas'] wird mithilfe des Schlüssels name auf die Zeichenkette zugegriffen, die in der URL als eindeutiger Verweis auf jedes Stück verwendet wird. Die so extrahierte Zeichenkette wird zuletzt in die Ergebnisliste eingefügt.
Der Code oben ist also genau dasselbe wie diese deutlich kompliziertere for-Schleife:

In [44]:
# Liste plays heißt hier plays_neu
plays_neu = []
for drama in api_data['plays']:
    plays_neu.append(drama['name'])
# Überprüfen, ob beide for-Schleifen wirklich dieselbe Liste ergeben haben:
plays_neu == plays

True

Bei der list comprehension können auch einfache if-Bedingungen in den Schleifenkörper eingefügt werden:

In [None]:
plays_selected = [play for play in plays if author in play]

Überlegt selbst: Was macht dieser Code? Wie würde dieser Code als "normale" for-Schleife aussehen?

#### F-Strings

Zur Verkettung von Strings haben wir in diesem Abschnitt außerdem nicht wie gewohnt den +-Operator verwendet, sondern eine spezielle Syntax:

In [46]:
request_urls = [f"{full_url}/play/{play}/spoken-text" for play in plays_selected]

Was bedeutet aber `f"{full_url}/play/{play}/spoken-text"` und warum wird es verwendet?

Formatierte Zeichenkettenliterale (auch als f-Strings abgekürzt) ermöglichen es, den Wert von Python-Ausdrücken in eine Zeichenkette einzufügen, indem die Zeichenkette mit f als Präfix versehen wird und Ausdrücke in der Form {Ausdruck} schreiben. In den geschweiften Klammern {} können entweder Variablen oder auch konkrete Werte stehen, die in den String eingesetzt werden sollen. Werte, die einen anderen Datentyp als Strings haben, werden dabei automatisch in Strings umgewandelt:

In [51]:
name = "Lisa"
f"Hallo ich bin {name} und ich bin {60} Jahre alt."

'Hallo ich bin Lisa und ich bin 29 Jahre alt.'

Im Vergleich mit der bisher bekannten Syntax mit dem +-Operator zeigt sich, dass die Schreibweise mit f-Strings deutlich eleganter ist:

In [53]:
"Hallo ich bin " + name + " und ich bin " + str(60) + " Jahre alt."

'Hallo ich bin Lisa und ich bin 29 Jahre alt.'

#### Daten schreiben

Zuletzt schauen wir uns auch den Code zum schreiben von Daten in Dateien aus der for-Schleife oben noch einmal genauer an:

In [None]:
# with open(filename, "w") as file:
 #            file.write(spokentext)

Die Funktion open() liefert ein Dateiobjekt zurück. Das erste Argument filename ist ein Zeichenfolge, die den Dateinamen enthält. Das zweite Argument ist eine Zeichenfolge, die einige Zeichen enthält, die die Art und Weise beschreiben, wie die Datei verwendet wird, also den "Modus", in dem die Datei geöffnet wird. Das Argument "w" steht für "writing". Mit diesem Schlüsselwort wird die Datei für den Schreibzugriff vorbereitet. Andere Modi sind zum Beispiel "r" für "reading" oder "a" für "appending". Der Modus "a" wird verwendet, wenn Inhalte am Ende einer bereits existierenden Datei hinzugefügt statt überschrieben werden sollen. "w" überschreibt Dateien mit demselben Dateinamen, wenn diese bereits existieren. Zusätzlich kann beim Aufruf der Funktion open() das Encoding der Datei festgelegt werden:

In [47]:
f = open('beispieldatei', 'w', encoding="utf-8")

Nach dem Öffnen muss die Datei immer wieder geschlossen werden:

In [48]:
f.close()

In [49]:
# Überprüfen, ob die Datei nach dem Schreiben geschlossen wurde:
f.closed

True

Die Syntax aus dem Beispiel oben mit "with open() as file" ist eine Abkürzung. Damit wird die Datei nach dem Lesen oder Schreiben automatisch wieder geschlossen, sodass die Methode close() nicht benötigt wird. Es empfiehlt sich deswegen, immer diese Syntax zu verwenden, wenn Daten in Dateien geschrieben oder aus Dateien eingelesen werden sollen.

### Quellen

```{bibliography}
   :list: enumerated
   :filter: keywords % "dracor" or keywords % "fstrings" or keywords % "list_comp" or keywords % "reading_writing" or keywords % "params"
```