Dank den Fortschritten in der Texterkennung durch Künstliche Intelligenz, auch als Natural Language Processing bekannt, wächst das Bedürfnis, größere Textmengen zwecks Analyse von Websites zu extrahieren.
Ein gutes Beispiel dafür sind Tageszeitungen, News-Aggregatoren und Presse-Überblicksseiten: Diese liefern wertvolle Informationen für eine Trendanalyse.
Für unsere Anwendungs-Demonstration wählen wir den Presseüberblick newstral.com. Wir wollen einfach eine Liste sämtlicher Pressemeldungen (Headlines) extrahieren. Dazu gehen wir wie folgt vor:
- Inhalte im Quellcode der Webpage ermitteln
Im Entwicklertool (Funktionstaste F12 oder mit rechte Maustaste „untersuchen“ klicken) selektieren wir eine Schlagzeile und schauen uns an, wie diese strukturiert ist. Die Struktur ist in diesem Fall ganz unkompliziert: Die Schlagzeile ist der Ankertext des Links (unterste Zeile):