6.1. Der rechtliche Rahmen#
“Im Regelfall ist Web Scraping für die empirische Forschung rechtlich zulässig. Die Nutzungsbedingungen, die häufig verwendet werden, ändern daran nichts. Anders sieht es mit technischen Sperren aus, die nicht umgangen werden dürfen.”
Quelle: Thilo Klawonn, Grenzen des “Web Scraping”, in: Forschung & Lehre 1, 2020.
Was bedeutet das?
6.1.1. Nutzungsbedingungen: Beispiel Facebook#
Obwohl Web Scraping für die eigenen Forschungszwecke grundsätzlich erlaubt ist, versuchen manche Webseitenbetreiber, Web Scraping und ähnliche Aktivitäten in ihren Nutzungsbedingungen zu verbieten. In den Facebook-Nutzungsbedingungen steht beispielsweise: “You may not access or collect data from our Products using automated means (without our prior permission) or attempt to access data you do not have permission to access. We also reserve all of our rights against text and data mining.” (Facebook 2022) Die beiden Rechtswissenschaftler Sebastian Golla und Max Schönfeld haben die rechtliche Stellung der Facebook-Nutzungsbedingungen untersucht und sind zu dem Schluss gekommen, dass die rechtliche Wirksamkeit dieser Passage “zweifelhaft” ist:
“Die Passage der Nutzungsbedingungen von Facebook, die einen automatisierten Zugriff auf Daten ohne Genehmigung grundsätzlich ausschließt, ist gem. § 307 Abs. 1 S. 1, Abs. 2 Nr. 1 BGB wegen eines Verstoßes gegen den wesentlichen Grundgedanken von §60d Abs.1 UrhG unwirksam. […] Ähnliches gilt für die inhaltlich vergleichbaren Passagen in den Nutzungsbedingungen weiterer sozialer Netzwerke wie Twitter, YouTube oder LinkedIn.”
Quelle: Sebastian Golla und Max Schönfeld, Kratzen und Schürfen im Datenmilieu, in: Kommunikation & Recht 22 (2019), S. 19 und S. 21.
Wenn man beim Web Scraping gegen die Nutzungsbedingungen einer Website verstößt, macht man sich also nicht automatisch strafbar. Das heißt allerdings nicht, dass man einfach alles nach dem eigenen Gusto scrapen darf. Im Folgenden klären wir drei wichtige rechtliche Einschränkungen auf.
6.1.2. Technische Schranken#
In der eingangs zitierten Passage aus dem Artikel in der “Forschung & Lehre” werden “technische Schranken” erwähnt, die beim Web Scraping nicht umgangen werden dürfen. Was hat es damit auf sich?
In den letzten Jahren haben einige Gerichtsurteile die grundsätzliche Zulässigkeit von Web Scraping bestätigt und dabei auf die Eigenverantwortung der Websitebetreiber hingewiesen, Schutzmaßnahmen zu ergreifen, um das Webscraping zu unterbinden, wenn das nicht gewünscht ist (Specht-Riemenschneider 2020, S. 72) Viele Webseiten nutzen als eine solche Schutzmaßnahme das sogenannte “Robot Exclusion Standard Protokoll”: Das Protokoll wurde ursprünglich in den 1990er Jahren entwickelt, als Suchmaschinen angefangen haben, Webcrawler (auch genannt “Spider”) einzusetzen, die automatisch das World Wide Web durchsuchen, Webseiten analysieren und für die Suchmaschine indexieren. Beim Web Crawling geht es im Unterschied zum Web Scraping also darum, den gesamten Inhalt einer Website zu erfassen. Webcrawler senden dabei Anfragen an den Webserver, auf dem die Website gehostet wird (–> nächste Woche lernen wir dazu mehr). Wenn ein Webserver viele Anfragen erhält, kann das den Server überlasten und die Website ist vorübergehend nicht erreichbar. Websitebetreiber:innen wollen deswegen zum einen verhindern, dass Web Crawler zu viele Anfragen stellen, und sie wollen Webcrawler gegebenenfalls davon abhalten, Unterseiten ihrer Website zu analysieren, die sensible Inhalte enthalten.
Aus diesem Grund wurde das sogenannte Robot Exclusion Standard Protokoll erfunden. Ein Protokoll ist im Grunde einfach eine Vereinbarung, wie die Kommunikation zwischen verschiedenen Parteien abläuft. Wenn es sich bei diesen Parteien um Computer handelt, spricht man von Netzwerkprotokoll. Dazu lernen wir in der nächsten Woche mehr. Seriöse Webcrawler befolgen das Robot Exclusion Standard Protokoll. Das Protokoll legt fest, dass Crawler für jede neue Seite, die sie “besuchen”, zuerst eine spezielle Datei lesen, die direkt im Stammverzeichnis (root) einer Website abgelegt wird. Diese Datei heißt immer robots.txt. In der robots.txt steht zum Beispiel, welche Unterseiten ein Crawler analysieren darf, und wie viele Anfragen an den Server in welchen zeitlichen Abständen gestellt werden dürfen. Manchmal wird in der Datei auch ganz speziellen Web Crawlern das Crawlen der Seite komplett untersagt, zum Beispiel, wenn die Crawler dafür bekannt sind, dass sie zu viele Anfragen in zu kurzer Zeit stellen.
Beispiele:
Die Verhaltensregeln, die in der robots.txt festgehalten werden, gelten aber nicht nur für Web Crawler, sondern auch für Web Scraper. Denn wie wir in der nächsten Woche sehen werden, senden auch Web Scraper Anfragen an Webserver.
Wenn die Verhaltensregeln in der robots.txt nicht eingehalten werden, kann zum Beispiel der Crawler bzw. Scraper geblockt werden. Bei jeder Anfrage an den Server wird nämlich auch die IP-Adresse des Computers, von dem aus die Anfrage gesendet wird, mit übermittelt. Dadurch ist jeder Web Scraper eindeutig identifizierbar. Es kann auch sein, dass ein Web Scraper nicht sofort blockiert wird, sondern dass ein reCAPTCHA-Bilderkennungstest aktiviert wird. Diese Tests sind durch Bots nicht lösbar und dienen dazu, automatisierte Anfragen zu verhindern.
Im Internet finden sich deswegen viele Tipps, wie man seine IP-Adresse beim Web Scrapen verstecken kann. Wenn man aber blockiert wird, weil man sich nicht an das robots.txt gehalten hat, und dann sein Skript so umschreibt, dass man nicht mehr blockiert wird, dann umgeht man ganz bewusst die von den Websitebetreiber:innen getroffenen Schutzmaßnahmen und man macht sich möglicherweise strafbar. Wenn der eigene Webscraper so viele Anfragen gestellt hat, dass der Webserver dadurch überlastet ist und die Website einige Zeit nicht erreichbar ist, dann hat man die Funktionalität der Website beeinträchtigt, man hat einen “technischen Schaden” produziert. Auch das kann rechtliche Konsequenzen haben. Die Forschungsstelle RobotRecht der Universität Würzburg hat in einem Rechtsgutachten zum Einsatz von WebScraping in der nicht-kommerziellen wissenschaftlichen Forschung deswegen dazu ermahnt, dass durch das Web Scrpaing keine “technische Schädigung beim Betreiber der Website” verursacht werden darf (Forschungsstelle RobotRecht 2019).
Um rechtlich auf der sicheren Seite zu sein, müsst ihr also immer sicherstellen, dass sich eure Web Scraper “gutartig” verhalten und die Verhaltensregeln in der robots.txt einhalten.
6.1.3. Urheberrecht#
Der “Kratzen und Schürfen”-Artikel nennt neben technischen Einschränkungen das Urheberrecht als eine Einschränkung, an die sich Forschende beim Web Scraping halten müssen.
Grundsätzlich gilt nämlich auch für Inhalte auf Facebook das Urheberrecht:
“Auf Facebook veröffentlichte Inhalte können in zweierlei Hinsicht urheberrechtlichem Schutz unterfallen. Einerseits können einzelne Beiträge nach §2 Abs.1 Nr.1 UrhG geschützte Sprachwerke sein, worauf sich deren jeweilige Verfasser als Urheber berufen können. Andererseits kann sich Facebook als Datenbankhersteller auf das sui generis-Schutzrecht nach §§ 87 a ff. UrhG berufen.” (S. 20)
Im Fall von Facebook kommen die Autoren jedoch zu dem Schluss:
“Der Zugriff auf bei Facebook veröffentlichte Nutzerinhalte mittels Web Scraping zu Forschungszwecken beeinträchtigt aus urheberrechtlicher Sicht das Recht von Facebook als Datenbankhersteller nach § 87 b UrhG nicht, sofern er sich nur auf einzelne Bereiche des Netzwerks bezieht. Im Einzelfall kann der Zugriff aber Urheberrechte von Nutzerinnen an Textbeiträgen als Schriftwerken gem. § 2 Abs. 1 Nr. 1 UrhG beeinträchtigen.” (S.21)
“Sofern die Vervielfältigung der auf Facebook veröffentlichten Inhalte urheberrechtlich relevant ist, ist sie nach § 60 c Abs. 1, Abs. 3 UrhG im Rahmen des zur Erfüllung der wissenschaftlichen Forschung erforderlichen Umfangs zulässig.” (S. 21)
§ 60 c Abs. 1, Abs. 3 UrhG bezieht sich auf die sogenannnte Schranke für Text und Data Mining (auch TDM-Schranke genannt), welche seit 2018 gilt. Man darf demnach im “geringen Umfang” auch urheberrechtliche Daten vervielfältigen, wenn es für die Forschung notwendig ist.
Allerdings gibt es dabei eine zeitliche Begrenzung:
“Vervielfältigungen und Korpus dürfen nur für ein konkretes Forschungsprojekt erstellt und müssen nach Abschluss dieses wieder gelöscht werden. Dauerhaft archivieren dürfen das Korpus nur öffentliche Bibliotheken, Archive und vergleichbare Institutionen.”
Quelle: Thilo Klawonn, Grenzen des “Web Scraping”, in: Forschung & Lehre 1 (2020).
6.1.4. Datenschutz (DSGVO)#
Neben urheberrechtlich geschützten Daten gibt es auch Einschränkung bei der Verarbeitung von personenbezogenen Daten. Nach Artikel 4 § 1 der 2018 in Kraft getretenen Datenschutzgrundverordnung (DSGVO) gelten als personenbezogene Daten
“alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person (im Folgenden „betroffene Person“) beziehen; als identifizierbar wird eine natürliche Person angesehen, die direkt oder indirekt, insbesondere mittels Zuordnung zu einer Kennung wie einem Namen, zu einer Kennnummer, zu Standortdaten, zu einer Online-Kennung oder zu einem oder mehreren besonderen Merkmalen, die Ausdruck der physischen, physiologischen, genetischen, psychischen, wirtschaftlichen, kulturellen oder sozialen Identität dieser natürlichen Person sind, identifiziert werden kann;”
Quelle: DSGVO, Artikel 4 Abs. 1.
Dazu gehören zum Beispiel auch IP-Adressen (Meffert 2023).
Bei der Verarbeitung von solchen Daten müssen verschiedene Regeln eingehalten werden. Der bereits erwähnte Rechtswissenschaftler Sebastian Golla et al. haben eine Reihe von Maßnahmen empfohlen, die eine datenschutzkonformen Umgang mit Daten in der Forschung gewähleisten sollen (Golla et al. 2018, S. 100) Die Maßnahmen sind in einer Handreichung zur “rechtskonformen Durchführung von Web-Scraping Projekten in der nicht-kommerziellen wissenschaftlichen Forschung” der Universität Hamburg in etwas verständlicherer Sprache zusammengefasst:
Klare Darlegung der Forschungsfrage; Erstellung eines Datenmanagmentplans
Eintrag in das Verzeichnis von Verarbeitungstätigkeiten (DSGVO Art. 30) sowie die Dokumentation technisch-organisatorischer Maßnahmen (DSGVO Art. 32)
Gewährleistung der Betroffenenrechte sowie informierte freiwillige Einwilligung
technische Vorkehrungen zur Datenminimierung
Nutzung von Anonymisierungs- bzw. Pseudoanonymisierungsmöglichkeiten
Festlegung von Speicherfristen sowie deren Befolgung
All diese Schritte seien “in frühzeitiger Rücksprache mit dem Datenschutzbeauftragten zu treffen” (Universität Hamburg 2019, S. 2).
6.1.5. Nationales Recht#
Die DSGVO gilt in allen Mitgliedsstaaten der EU. In anderen Ländern gelten dagegen andere Datenschutzbestimmungen. Wenn im WebScraping-Projekt Daten, die auf Servern in anderen Ländern liegen, gesammelt werden sollen, ist es ratsam, sich vorab über mögliche nationale Gesetze zu informieren.
6.1.6. Über den rechtlichen Rahmen hinaus: Ethik, FAIR-Prinzipien und die FU-Forschungsdaten-Policy#
An der FU gibt es neben einem Datenschutzbeautragten auch Mitarbeitende in der Universitätsbibliothek und der ZEDAT, die Angehörige der FU beim Forschungsdatenmanagement unterstützen. Die FU hat eine eigene Forschungsdaten-Policy, in der Leitlinien zum Umgang mit Forschungsdaten für Angehörige der FU festgelegt werden. Darunter zählt zum Beispiel auch die Orientierung an den sogenannten FAIR-Prinzipien. Was ist damit gemeint? 2016 haben sich einige Wissenschaftler:innen und Forschungsinstitute zu einem Konsortium zusammengeschlossen und in der Zeitschrift Scientific Data eine Reihe Prinzipien definiert, die sicherstellen sollen, dass die großen Mengen digitaler Forschungsdaten, die in den letzten Jahren produziert wurden, auch für die Zukunft zugänglich und nachnutzbar sind. Diese Prinzipien werden mit dem Akronym FAIR abgekürzt, das für Findable, Accessible, Interoperable und Reusable steht. Was diese Prinzipien im Einzelnen umfassen, könnt ihr hier nachlesen.
Einen Schritt zur Einhaltung der FAIR-Prinzipien in euren Web Scraping-Projekten habt ihr schon vorgenommen: Die Verwendung von virtuellen Umgebungen stellt sicher, dass eure Skripte später wiederverwendbar, also reusable, sind. Das Prinzip der Reusability umfasst nämlich auch die Möglichkeit zur “Reproducibility”, also die Möglichkeit, eine Forschung anhand der bereitgestellten Daten “nachzubauen”. “Reproducibility” wird von der US-amerikanischen National Science Foundation definiert als:
The ability for a researcher to replicate the results of a prior study using the same materials and procedures used by the original investigator.
Quelle: National Science Foundation (2015), zitiert in Harvard University, Reproducibility and Reusability.
6.1.7. Zusammenfassung: Before you scrape…#
Web Scraping bewegt sich als relativ neue Methode zur Beschaffung von Forschungsdaten noch immer in einer rechtlichen Grauzone. Um auf der sicheren Seite zu sein, sollte man sich vor jedem Webscraping-Projekt folgende Fragen stellen:
Welche Daten brauche ich in welcher Form?
Unterliegen die Daten einem bestimmten Schutz (Urheberrecht, Datenschutz)?
Kann ich gewährleisten, dass ich die Daten rechtskonform verarbeiten und speichern kann?
Gibt es mögliche Gefahren für die betroffenen Personen, falls ich den Schutz der Daten nicht gewährleisten kann?
Welche Einschränkungen sind in der robots.txt der Seite definiert?
6.1.7.1. Quellen#
DSGVO, Art. 4: Begriffsbestimmungen. 2018. URL: https://dsgvo-gesetz.de/art-4-dsgvo/.
How to Read robots.txt for Web Scraping. 2023. URL: https://www.zenrows.com/blog/robots-txt-web-scraping.
Sebastian Golla. Kratzen und Schürfen im Datenmilieu. Webscraping in Sozialen Netzwerken zu wissenschaftlichen Forchungszwecken. 2019. URL: https://www.academia.edu/38267337/Kratzen_und_Sch%C3%BCrfen_im_Datenmilieu_Web_Scraping_in_sozialen_Netzwerken_zu_wissenschaftlichen_Forschungszwecken.
Sebastian J. Golla, Henning Hofmann, and Matthias Bäcker. Connecting the Dots. Sozialwissenschaftliche Forschung in Sozialen Online-Medien im Lichte von DS-GVO und BDSG-neu. 2020. URL: https://doi.org/10.1007/s11623-018-0900-x.
Thilo Klawonn. Grenzen des "Web Scraping". 2020. URL: https://www.forschung-und-lehre.de/recht/grenzen-des-web-scrapings-2421.
Klaus Meffert. IP-Adressen: Grundlagen und DSGVO. 2023. URL: https://dr-dsgvo.de/ip-adressen/.
Louisa Specht-Riemenschneider, Severin Riemenschneider, and Ruben Schneider. Internetrecht. 2020. URL: https://doi.org/10.1007/978-3-662-61726-7.
Forschungslabor Universität Hamburg. Handreichung zur rechtskonformen Durchführung von Web-Scraping Projekten in der nicht-kommerziellen wissenschaftlichen Forschung. 2020. URL: https://www.wiso.uni-hamburg.de/forschung/forschungslabor/downloads/20200130-handreichung-web-scraping.pdf.
Forschungstelle Robotrecht Universität Würzburg. Gutachten zum Web Scraping. 2019. URL: https://www.jura.uni-wuerzburg.de/fakultaet/forschungsprojekte/forschungsstelle-robotrecht/startseite-forore/meldungen/single/news/gutachten-zum-web-scraping/.
Freie Universität Berlin. Forschungsdaten-Policy der Freien Universität Berlin. 2021. URL: https://www.fu-berlin.de/sites/forschungsdatenmanagement/policy/index.html.
Mark D. Wilkinson et al. The FAIR Guiding Principles for Sscientific Data Management and Stewardship. 2016. URL: https://www.nature.com/articles/sdata201618.
Research Data Management @Harvard. Reproducibility and Reusability. 2023. URL: https://researchdatamanagement.harvard.edu/best-practices-reproducibility-reusability.