So extrahieren Sie Text aus Webseiten

Das Extrahieren von Text von einer Webseite kann auf verschiedene Arten erfolgen. Die von Ihnen gewählte Methode sollte von dem Zweck abhängen, den Sie für den Text haben. Wenn Sie lediglich den Text ausdrucken und als Anweisungen oder Richtlinien verwenden möchten, können Sie den Text nur als HTML-Code extrahieren. Wenn sich auf der Webseite Bilder und Text befinden und Sie die Seite in ihrer ursprünglichen Form beibehalten möchten, sollten Sie die gesamte Webseite extrahieren. Es gibt drei Möglichkeiten, den Text zu extrahieren, und es gibt zwei Möglichkeiten, Text und Bilder zusammen zu extrahieren.

Nur Text extrahieren

1

Öffnen Sie die Webseite, von der Sie Text extrahieren möchten. Klicken Sie auf das Menü "Datei" und dann auf die Option "Speichern unter" oder "Seite speichern unter". Wählen Sie "Webseite, nur HTML" im Dropdown-Menü "Dateityp" aus, geben Sie einen Namen für die Datei ein und klicken Sie auf "Speichern". Der Text wird extrahiert und als HTML-Datei mit den ursprünglichen Seitenformatierungsoptionen gespeichert. Die Datei kann in Webbrowsern angezeigt und in Texteditoren wie Notepad bearbeitet werden.

2

Klicken Sie auf die Option "Speichern unter" oder "Seite speichern unter" und wählen Sie "Textdateien" aus dem Dropdown-Menü "Dateityp". Geben Sie einen Namen für die Textdatei ein und klicken Sie auf "Speichern". Der Text von der Webseite wird extrahiert und als Textdatei gespeichert, die in Texteditoren und Dokumentprogrammen wie Microsoft Word angezeigt werden kann.

3.

Klicken und ziehen Sie, um den Text auf der Webseite auszuwählen, den Sie extrahieren möchten, und drücken Sie "Strg-C", um den Text zu kopieren. Öffnen Sie einen Texteditor oder ein Dokumentprogramm und drücken Sie "Strg-V", um den Text von der Webseite in die Textdatei oder das Dokumentfenster einzufügen. Speichern Sie die Textdatei oder das Dokument auf Ihrem Computer.

Extrahieren Sie Text und Bilder

1

Klicken Sie in Ihrem Webbrowser auf das Menü "Datei" und dann auf die Option "Speichern unter" oder "Seite speichern unter". Wählen Sie im Dropdown-Menü „Dateityp“ die Option „Webseite, vollständig“ und geben Sie einen Namen für die Datei ein. Klicken Sie auf "Speichern". Der Text und die Bilder von der Webseite werden extrahiert und gespeichert. Der Text wird in eine HTML-Datei eingefügt und die Bilder werden in einem Ordner am selben Ort wie die HTML-Datei abgelegt.

2

Doppelklicken Sie auf die HTML-Datei, um den extrahierten Text und die Bilder anzuzeigen. Sie werden in Ihrem Webbrowser geöffnet. Die andere Methode zum Extrahieren von Text und Bildern ist nur im Internet Explorer-Browser verfügbar. Öffnen Sie die gewünschte Webseite in Internet Explorer, bevor Sie mit dem nächsten Schritt fortfahren.

3.

Klicken Sie im Menü "Datei" auf die Option "Speichern unter" und wählen Sie im Dropdown-Menü "Dateityp" die Option "Webarchiv, einzelne Datei (* .mht)". Geben Sie einen Namen für die Datei ein und klicken Sie auf die Schaltfläche "Speichern". Der Text und die Bilder werden von der Webseite in die Datei extrahiert. Doppelklicken Sie auf die Datei, um den extrahierten Text und die Bilder in Ihrem Webbrowser anzuzeigen.

Beliebte Beiträge