Web Scraping mit Python – Ausführlich Einführung mit Tutorial + Beispiele


Das World Broad Internet besteht aus Milliarden untereinander verlinkter Dokumente, weithin bekannt als Webseiten. Der Quelltext der Webseiten ist in der Sprache Hypertext Markup Language (HTML) geschrieben. Beim HTML-Quelltext handelt es sich um eine Mischung von menschenlesbaren Informationen und maschinenlesbaren Codes, den sogenannten Tags. Der Webbrowser – z. B. Chrome, Firefox, Safari oder Edge – verarbeitet den Quelltext, interpretiert die Tags und stellt die darin enthaltenen Informationen für den Nutzer dar.

Um gezielt nur die für Menschen interessanten Informationen aus dem Quelltext zu extrahieren, bedient man sich spezieller Software program. Diese als „Internet Scraper“, „Crawler“, „Spider“ oder einfach „Bot“ bekannten Programme durchsuchen den Quelltext von Webseiten nach vorgegebenen Mustern und extrahieren die darin enthaltenen Informationen. Die durch Web Scraping gewonnenen Informationen werden zusammengefasst, kombiniert, ausgewertet oder für weitere Verwendung gespeichert.

Im Folgenden erklären wir, warum sich die Sprache Python besonders intestine für das Erstellen von Internet Scrapern eignet, und geben Ihnen mit einem entsprechenden Tutorial eine Einführung.



Source link

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.