Wie man mit wget eine ganze Website auf den Computer kopiert
Web
2024-04-06T16:00:14Z
Schnelle Links
Das Wichtigste in Kürze
- Sie können wget verwenden, um ganze Websites für den Offline-Zugriff herunterzuladen.
- wget ist ein Befehlszeilentool, das für Linux, Windows und MacOS verfügbar ist.
- Es kann anstelle von anderen Tools wie cURL, HTTrack, WebCopy und SiteSucker verwendet werden.
Das Herunterladen einer ganzen Website ist nützlich, wenn Sie eine eigene Kopie des Textes, der Bilder und anderer Inhalte haben möchten, für den Fall, dass der Autor sie löscht oder die Website geschlossen wird. Allerdings bieten Webbrowser diese Funktion nicht von Haus aus. Hier erfahren Sie, wie Sie eine ganze Website mit dem Tool wget herunterladen können.
Bevor Sie beginnen
Vergewissern Sie sich zunächst, dass Sie über genügend Speicherplatz verfügen, um die herunterzuladende Website zu speichern. Manche Websites haben viele Seiten und viele Inhalte, die sich schnell summieren können. Denken Sie also daran, was Sie herunterladen werden, damit Ihnen nicht der Speicherplatz ausgeht. Wenn Sie einen Laptop benutzen, stellen Sie sicher, dass Sie an eine Steckdose angeschlossen sind, da das Herunterladen von möglicherweise Tausenden von Dateien eine Weile dauern kann.
Wenn Sie mit Windows arbeiten, müssen Sie das Windows Subsystem für Linux (WSL) installieren, um Zugang zu wget zu erhalten.
Beachten Sie auch, dass viele moderne Websites dynamisch generiert werden, d. h., sie verarbeiten Daten auf ihren Servern, um Seiten zu generieren, die sich ändern, wenn neue Inhalte hinzugefügt werden oder wenn Sie die Seite aktualisieren. Beim Herunterladen einer Website oder einer Seite wird ein Schnappschuss zu diesem Zeitpunkt erstellt, so dass Sie die Website erneut herunterladen müssen, wenn Sie eine aktuelle Kopie wünschen.
Wie man mit Wget eine ganze Website lokal kopiert
Wget ist ein Befehlszeilentool zum Herunterladen von Daten aus dem Internet. Es ist standardmäßig auf Ubuntu (also auch auf WSL) und Fedora installiert. Wenn Sie mit einer Arch-basierten Distribution arbeiten, müssen Sie es installieren. Unter macOS ist wget über MacPorts verfügbar.
Wenn Sie Linux oder MacOS verwenden, müssen Sie ein Terminal-Fenster öffnen. Wenn Sie unter Windows WSL verwenden, starten Sie die Linux-Distribution, die Sie verwenden möchten.
Sie können bestätigen, dass wget installiert ist, indem Sie Folgendes ausführen:
wget --help
Wenn wget auf Ihrem System verfügbar ist, gibt der Befehl Informationen über den wget-Befehl zurück.
Jetzt können Sie mit dem Herunterladen beginnen. Mit dem folgenden Befehl können Sie eine ganze Website herunterladen:
wget -mpEk https://example.com
Dieser Befehl versucht, alles, was er kann, von der Website https://example.com zu holen , scannt alle Links auf der ersten Seite, lädt diese verlinkten Seiten und alles darauf herunter und fährt dann mit den Seiten fort, die von diesen Seiten verlinkt sind.
Im Folgenden wird erläutert, was die einzelnen Befehlsflags (die Buchstaben nach dem Bindestrich im obigen wget-Befehl) bedeuten:
- -
- m aktiviert mehrere Optionen, die wget für die Spiegelung einer Website konfigurieren, einschließlich Zeitstempelprüfung und unendliche Rekursionstiefe
- -p weist wget an, alle erforderlichen Seiten zu holen, wie Bilder, Medien, Stylesheets und JavaScript-Dateien
- -E passt die Dateierweiterungen der heruntergeladenen Dateien an die auf dem Server
- -k wandelt Links in den gespeicherten Seiten so um, dass sie auf Ihre lokalen Kopien zeigen, so dass Ihre Offline-Site auch ohne Internetverbindung vollständig navigiert werden kann
Sie wissen, dass die Website erfolgreich heruntergeladen wurde, wenn Sie eine Ausgabe ähnlich der folgenden sehen:
$ wget -mpEk https://example.com
--2024-04-05 10:00:00-- https://example.com/
Resolving example.com (example.com)... 93.184.216.34
Verbindung zu example.com (example.com)|93.184.216.34|:443... verbunden.
HTTP-Anfrage gesendet, Antwort erwartet... 200 OK
Länge: unspezifiziert [text/html]
Speichern in: 'example.com/index.html'
example.com/index.html [ <=> ] 1.07K --.-KB/s in 0s
2024-04-05 10:00:01 (68.7 MB/s) - 'example.com/index.html' gespeichert [1096]
Beachten Sie, dass es sich hierbei um einen rekursiven Download handelt, bei dem nur Links von der angegebenen Website heruntergeladen werden. Seiten auf anderen Websites bleiben online und benötigen eine Internetverbindung, um angezeigt zu werden.
Eine vollständige Liste aller wget-Befehlsflags und ihrer Funktionen finden Sie im wget-Benutzerhandbuch.
Denken Sie daran, dass dieser Vorgang eine Weile dauern kann, und es gibt keine wirkliche Möglichkeit abzuschätzen, wie lange das Herunterladen großer Websites dauern wird.
Was ist mit dem Herunterladen von nur einer Seite?
Wenn Sie eine einzelne Webseite herunterladen möchten, ist das mit Ihrem Webbrowser viel einfacher: Gehen Sie einfach zum Menü Datei und klicken Sie dann auf die Schaltfläche "Speichern" (die Formulierung kann bei Ihrem Browser etwas anders lauten, bei Firefox lautet sie "Seite speichern unter...").
Wenn Sie wget verwenden möchten, um eine einzelne Seite herunterzuladen, führen Sie den folgenden Befehl aus:
wget -pk https://example.com
Dabei werden die Optionen weggelassen, die wget anweisen, Seiten rekursiv herunterzuladen, und Erweiterungen und Links anzupassen.
Herunterladen von Websites für den Offline-Zugriff
Das Herunterladen einer ganzen Website ist in vielen Situationen nützlich, zum Beispiel:
- SichernIhres Blogs für den Fall, dass Ihr Webhost herunterfährt
- Archivieren von Webseiten für historische Zwecke (z. B. Speichern der Website eines Familienmitglieds für Ihr Projekt zur Familiengeschichte)
- Speichern von Webseiten und allem, was darauf zu finden ist, um sie im Urlaub zu lesen (noch nicht überall gibt es vernünftiges Internet!)
Wie greifen Sie auf die heruntergeladene Seite zu?
Eine Website, die Sie mit wget herunterladen, wird als HTML-Datei auf Ihrem PC gespeichert. Wenn Sie WSL verwendet haben, müssen Sie über den Datei-Explorer auf Ihre WSL-Dateien zugreifen.
In unserem Beispiel befand sich die Datei unter "//wsl.localhost/Ubuntu-22.04/home/example", da wir Ubuntu 22.04 verwendet haben und unser Linux-Benutzername "example" lautet Wget speichert die Ordner in dem Verzeichnis, das Sie im Terminal aktiviert haben, wenn Sie den Befehl ausführen, sofern Sie nicht manuell einen anderen Pfad angeben.
HTML-Dateien können mit jedem Browser geöffnet werden, obwohl es auch andere Programme gibt, die das können, wenn Sie eines davon bevorzugen.
Andere Tools zum Herunterladen von Webinhalten für die Offline-Nutzung
Während wget eine der gebräuchlichsten Methoden zum Herunterladen von Webinhalten ist, gibt es andere, die Sie verwenden können, wenn Sie andere Anforderungen haben oder sich nicht mit der Befehlszeile befassen möchten.
- cURL ist ein weiteres kostenloses Kommandozeilen-Tool, das zum Herunterladen ganzer Websites verwendet werden kann
- HTTrack ist ein Windows-Tool, das eine grafische Oberfläche zum Herunterladen ganzer Websites bietet, wenn Sie mit der Kommandozeile nicht zurechtkommen
- Cyotek WebCopy bietet ebenfalls eine grafische Benutzeroberfläche zum Herunterladen ganzer Websites und enthält viele konfigurierbare Optionen sowie Regeln, um Inhalte vom Herunterladen auszuschließen
- Scrapy und BeautifulSoup sind Python-Bibliotheken, mit denen ganze Websites heruntergeladen werden können, sind jedoch für Python-Entwickler gedacht
- SiteSucker bietet eine benutzerfreundliche grafische Oberfläche zum Herunterladen von Websites für MacOS und ist im App Store erhältlich
- Webscrapbook ist eine Firefox- oder Chrome-Erweiterung, mit der ganze Websites zum späteren Lesen archiviert werden können; außerdem können Sie die Seiten mit Anmerkungen versehen und bearbeiten
- Offline Explorer ist leistungsstark und kann möglicherweise Website-Inhalte herunterladen, wo andere Tools Schwierigkeiten haben, aber es ist teuer
Was auch immer der Grund dafür ist, dass Sie eine ganze Website auf Ihren eigenen Computer kopieren wollen, jetzt wissen Sie, wie es geht! Wenn Sie vorhaben, offline zu lesen, ist ein guter eReader ein absolutes Muss.