Google Tabellen: importXML()-Funktion für Daten in Google Sheets


Dank den Fortschritten in der Texterkennung durch Künstliche Intelligenz, auch als Natural Language Processing bekannt, wächst das Bedürfnis, größere Textmengen zwecks Analyse von Websites zu extrahieren.

Ein gutes Beispiel dafür sind Tageszeitungen, News-Aggregatoren und Presse-Überblicksseiten: Diese liefern wertvolle Informationen für eine Trendanalyse.

Für unsere Anwendungs-Demonstration wählen wir den Presseüberblick newstral.com. Wir wollen einfach eine Liste sämtlicher Pressemeldungen (Headlines) extrahieren. Dazu gehen wir wie folgt vor:

  1. Inhalte im Quellcode der Webpage ermitteln

Im Entwicklertool (Funktionstaste F12 oder mit rechte Maustaste „untersuchen“ klicken) selektieren wir eine Schlagzeile und schauen uns an, wie diese strukturiert ist. Die Struktur ist in diesem Fall ganz unkompliziert: Die Schlagzeile ist der Ankertext des Links (unterste Zeile):



Source link

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.