Meine Website gehört mir – Schutz vor Scraping

Wenn Inhalte und Bilder der eigenen Website plötzlich an anderer Stelle auftauchen, ist Vorsicht geboten. Hier kam vermutlich Scraping zum Zug. Bei diesem Prinzip liest eine Anwendung oder ein Script Informationen von einer Website oder einem Online-Dienst aus und speichert diese. Scraping an sich kann auch positive Effekte haben und wird zum Teil auch dafür eingesetzt: Dank einer solchen Indexierung kann zum Beispiel im Idealfall eine höhere Reichweite über Google erzielt werden. Die Technik birgt andererseits Gefahren wie Missbrauch von Daten. Zum Beispiel könnte ein Konkurrenzunternehmen oder Hacker die Informationen einfach kopieren und für eigene Zwecke nutzbar machen. Wir beleuchten Pro und Contra von Scraping.

Der Begriff Scraping (die Kurzform von Screen Scraping oder Web Scraping) beschreibt das automatische Auslesen und Extrahieren von Inhalten im Internet. Beim Scraping werden viele verschiedene Arten von Informationen gesammelt. Das können z. B. Kontaktdaten wie E-Mail-Adressen oder Telefonnummern, aber auch einzelne Suchwörter oder URLs sein. Dabei werden Inhalte von Websites oder anderen Online-Diensten manuell oder mit Hilfe von Software extrahiert, kopiert und gespeichert. Diese finden sich dann zum Beispiel in verändertem Design auf anderen Websites wieder.

Mit dem Prinzip des Scrapings arbeitet zum Beispiel Google. Die Suchmaschine nutzt die Technologie, um mit Bots, die permanent im Netz unterwegs sind, Websites zu indexieren. Auch viele der gängigen Preisvergleichsportale verwenden Scraping, um Informationen von vielen verschiedenen Websites und Anbietern darzustellen. Diese Technologie hat also durchaus positive Seiten und ist von Unternehmen auch gewollt. Schwierig wird es dann, wenn Missbrauch mit den Daten betrieben wird.

Wo liegen die rechtlichen Grenzen von Scraping?

Scraping ist nicht immer legal. Werden lediglich Informationen gesammelt, die jeder Mensch öffentlich einsehen kann, ist dies noch kein rechtlicher Verstoß. Was jedoch danach mit den Daten passiert – das ist entscheidend. Wenn Bilder und Inhalte ohne Erlaubnis anderweitig veröffentlicht werden, dann werden rechtliche Grenzen überschritten.

Neben dem legalen und erwünschten Scraping, wie es beispielsweise Suchmaschinen durchführen, um Websites zu indexieren, gibt es immer häufiger auch schädliche Absichten – beispielsweise von Angreifern. Wenn diese Technologien nutzen, um den Content einer Website komplett zu kopieren und auf einer anderen Seite zu veröffentlichen, kann dies für die betroffenen Unternehmen geschäftsschädigende Folgen haben.

Illegal ist außerdem auch das Scraping von persönlichen Daten. Über die DSGVO und andere Datenschutzgesetze gibt es klare Richtlinien, wenn es um das Sammeln und Speichern persönlicher Daten geht. Hierbei muss die Person ausdrücklich zum Sammeln und Speichern der personenbezogenen Daten zugestimmt haben.

Wie können Unternehmen sich gegen ungewolltes Scraping schützen?

Um sich vor den illegalen Machenschaften des Web Scraping durch andere Personen wie Hacker & Co. zu schützen, können verschiedene Sicherheitsvorkehrungen getroffen werden:

Eine Firewall bietet eine klassische Schutzwand für eigene Website-Inhalte. Diese schützt vor möglichen Hacker-Angriffen durch Web Scraping. Firewalls können effektiv verhindern, dass bestimmte Zugriffe stattfinden oder Bots Zugang erhalten. Außerdem erscheinen mögliche Zugriffe in den Logfiles und können vom Admin gesehen und bewertet werden.
Eine weitere Schutzmaßnahme gegen illegale Scraping-Versuche ist ein CAPTCHA-Test. Beim sogenannten „Completely Automated Public Turing test to tell Computers and Humans Apart“ wird ermittelt, ob es sich bei einem Website-Besucher um einen Bot oder um einen Menschen handelt.
Beliebt zum Schutz vor Scraping ist die Verwendung einer robots.txt-Datei. Hierbei können Website-Inhaber festlegen, welche Inhalte ihrer Seite von z. B. Bots ausgelesen werden dürfen und welche nicht. Das sogenannte „Robots Exclusion Standard Protokoll“ wurde erstmalig 1994 veröffentlicht und regelt das Verhalten von Suchmaschinen-Bots auf Websites. Eine Garantie, dass sich Crawler an die erstellten Verbote in der robots.txt-Datei halten, gibt es allerdings nicht. Die festgelegten Anweisungen stellen lediglich Richtlinien dar und können folglich kein bestimmtes Verhalten der Crawler erzwingen.

Fazit:

Web Scraping kann sich wie Diebstahl anfühlen. Website-Betreiber oder Social-Media-Nutzer sollten sich zunächst darüber bewusst sein, dass jede Information, die sie öffentlich im Web zugänglich machen, missbraucht werden kann. Auf der technischen Seite empfiehlt sich der Schutz durch gewisse Maßnahmen wie CAPTCHA-Abfragen, eine Verstärkung der Firewall oder eine Bot-Blockade über die robots.txt.

Wo liegen die rechtlichen Grenzen von Scraping?

Wie können Unternehmen sich gegen ungewolltes Scraping schützen?

Fazit:

Text und „Enter“ eingeben, um eine Suche zu starten.