如何在Linux终端上下载网站页面?

Linux命令行除了具有处理Web服务器和Web浏览的固有功能外,还提供了用于Web爬网的greta功能。在本文中,我们将检查一些可用的工具,或者可以在Linux环境中安装和使用这些工具进行脱机Web浏览的工具。这是通过基本上下载一个或多个网页来实现的。

Wget

Wget可能是所有下载选项中最著名的一种。它允许从http,https以及FTP服务器下载。它可以下载整个网站,还可以浏览代理。

以下是安装和开始使用它的步骤。

检查wget是否已经可用

ubuntu@ubuntu:~$ which wget ; echo $?

运行上面的代码将为我们提供以下结果:

/usr/bin/wget
0

如果退出代码($?)为1,则我们在下面的命令中运行他以安装wget。

ubuntu@ubuntu:~$ sudo apt-get install wget

现在,我们为要下载的特定网页或网站运行wget命令。

#Downlaod a webpage
wget https://en.wikipedia.org/wiki/Linux_distribution
# Download entire website
wget abc.com

运行上面的代码给我们以下结果。我们仅显示网页的结果,而不显示整个网站的结果。您下载的文件将保存在当前目录中。

ubuntu@ubuntu:~$ wget https://en.wikipedia.org/wiki/Linux_distribution
--2019-12-29 23:31:41-- https://en.wikipedia.org/wiki/Linux_distribution
Resolving en.wikipedia.org (en.wikipedia.org)... 103.102.166.224, 2001:df2:e500:ed1a::1
Connecting to en.wikipedia.org (en.wikipedia.org)|103.102.166.224|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 216878 (212K) [text/html]
Saving to: ‘Linux_distribution’
Linux_distribution 100%[===================>] 211.79K 1.00MB/s in 0.2s
2019-12-29 23:31:42 (1.00 MB/s) - ‘Linux_distribution’ saved [216878/216878]

卷曲

cURL是一个客户端应用程序。它支持从http,https,FTP,FTPS,Telnet,IMAP等下载文件。与wget相比,它还支持不同类型的下载。

以下是安装和开始使用它的步骤。

检查cURL是否已经可用

ubuntu@ubuntu:~$ which cURL ; echo $?

运行上面的代码将为我们提供以下结果:

1

值1表示cURL在系统中不可用。因此,我们将使用以下命令进行安装。

ubuntu@ubuntu:~$ sudo apt-get install curl

运行上面的代码,我们得到以下指示cURL安装的结果。

[sudo] password for ubuntu:
Reading package lists... Done
….
Get:1 http://us.archive.ubuntu.com/ubuntu xenial-updates/main amd64 curl amd64 7.47.0-1ubuntu2.14 [139 kB]
Fetched 139 kB in 21s (6,518 B/s)
…….
Setting up curl (7.47.0-1ubuntu2.14) ...

接下来,我们使用cURL来下载网页。

curl -O https://en.wikipedia.org/wiki/Linux_distribution

运行上面的代码给我们以下结果。您可以在当前工作目录中找到下载的文件。

% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 211k 100 211k 0 0 312k 0 --:--:-- --:--:-- --:--:-- 311k