Linux命令行除了具有处理Web服务器和Web浏览的固有功能外,还提供了用于Web爬网的greta功能。在本文中,我们将检查一些可用的工具,或者可以在Linux环境中安装和使用这些工具进行脱机Web浏览的工具。这是通过基本上下载一个或多个网页来实现的。
Wget可能是所有下载选项中最著名的一种。它允许从http,https以及FTP服务器下载。它可以下载整个网站,还可以浏览代理。
以下是安装和开始使用它的步骤。
ubuntu@ubuntu:~$ which wget ; echo $?
运行上面的代码将为我们提供以下结果:
/usr/bin/wget 0
如果退出代码($?)为1,则我们在下面的命令中运行他以安装wget。
ubuntu@ubuntu:~$ sudo apt-get install wget
现在,我们为要下载的特定网页或网站运行wget命令。
#Downlaod a webpage wget https://en.wikipedia.org/wiki/Linux_distribution # Download entire website wget abc.com
运行上面的代码给我们以下结果。我们仅显示网页的结果,而不显示整个网站的结果。您下载的文件将保存在当前目录中。
ubuntu@ubuntu:~$ wget https://en.wikipedia.org/wiki/Linux_distribution --2019-12-29 23:31:41-- https://en.wikipedia.org/wiki/Linux_distribution Resolving en.wikipedia.org (en.wikipedia.org)... 103.102.166.224, 2001:df2:e500:ed1a::1 Connecting to en.wikipedia.org (en.wikipedia.org)|103.102.166.224|:443... connected. HTTP request sent, awaiting response... 200 OK Length: 216878 (212K) [text/html] Saving to: ‘Linux_distribution’ Linux_distribution 100%[===================>] 211.79K 1.00MB/s in 0.2s 2019-12-29 23:31:42 (1.00 MB/s) - ‘Linux_distribution’ saved [216878/216878]
cURL是一个客户端应用程序。它支持从http,https,FTP,FTPS,Telnet,IMAP等下载文件。与wget相比,它还支持不同类型的下载。
以下是安装和开始使用它的步骤。
ubuntu@ubuntu:~$ which cURL ; echo $?
运行上面的代码将为我们提供以下结果:
1
值1表示cURL在系统中不可用。因此,我们将使用以下命令进行安装。
ubuntu@ubuntu:~$ sudo apt-get install curl
运行上面的代码,我们得到以下指示cURL安装的结果。
[sudo] password for ubuntu: Reading package lists... Done …. Get:1 http://us.archive.ubuntu.com/ubuntu xenial-updates/main amd64 curl amd64 7.47.0-1ubuntu2.14 [139 kB] Fetched 139 kB in 21s (6,518 B/s) ……. Setting up curl (7.47.0-1ubuntu2.14) ...
接下来,我们使用cURL来下载网页。
curl -O https://en.wikipedia.org/wiki/Linux_distribution
运行上面的代码给我们以下结果。您可以在当前工作目录中找到下载的文件。
% Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 100 211k 100 211k 0 0 312k 0 --:--:-- --:--:-- --:--:-- 311k