如何使用Wget将多个网页转换为PDF

有许多在线工具,浏览器扩展程序和桌面插件可以将网页转换为PDF。如果您经常使用这些工具,可能会遇到需要一次性转换多个链接的情况。一对一地执行操作会浪费时间和繁琐的工作。

您可以通过一个名为Wget的简单命令行实用程序来自动执行此任务。借助一些脚本或应用程序以及此工具,我们将向您展示如何将多个网页保存为PDF文件。

为什么要使用Wget?

Wget是免费软件包以从网上下载文件。但这也是将整个网页镜像到您计算机中的理想工具。原因如下:

  • 它是非交互式的,这意味着它可以在后台运行,并且可以让您传输数据而无需您在场。
  • Wget可以理解目录的结构。网站。它可以跟踪HTML页面中的链接,以创建远程网站的本地版本。在此过程中,它也遵守robots.txt文件。
  • 它甚至可以在缓慢或不稳定的网络连接中工作。如果服务器支持重新获取,它将继续重试,直到整个文件传输到您的计算机。
  • Wget支持代理服务器。
  • 安装Wget

    安装Wget最快的方法是通过Homebrew。这是macOS的软件包管理器,用于安装有用的Unix实用程序和应用。查看有关如何通过Homebrew安装macOS应用程序的本文。然后,输入

    brew install wget

    ,您将获得安装Wget在Mac上运行所需的所有工具(如果有)的实时进度。如果您已经安装了Homebrew,请确保运行 brew upgrade 以获取此实用程序的最新版本。

    Windows 10有许多版本的Wget。董事会下载最新的64位版本。将可执行文件放在文件夹中,然后将其复制到C:驱动器。

    现在,我们将Wget路径添加到系统的环境变量中,以便从任何目录运行此工具。导航到控制面板>系统,然后单击高级系统设置。在打开的窗口中,单击环境变量

    选择系统变量下的路径,然后单击编辑。然后,点击窗口右上角的 New 按钮。键入 C:\ wget ,然后单击确定

    打开命令提示符并键入 wget-h 测试是否一切正常。在 PowerShell 中,键入 wget.exe -h 以加载Wget帮助菜单。

    将链接保存为文本文件

    由于我们要处理多个链接,因此一对一地粘贴链接是一项艰巨的任务。幸运的是,有浏览器扩展可以帮助您完成此任务。

    链接剪辑器:它将网页上的所有链接提取为CSV或TXT文件。您甚至可以在网页上拖动一个矩形区域以选择性地复制链接。该文件将保存到 Download 文件夹中。

    Snap Links Plus:这使您可以套用页面上的元素并对其进行处理。按住鼠标右键,然后在链接周围拖动选择矩形。按下 Control 键,然后将链接复制到剪贴板。

    设置目录

    Wget的工作原理类似于网络爬网程序,方法是从HTML文件,包括徽标,字体,图像缩略图,CSS和JavaScript文件。它还尝试创建类似于远程服务器的目录结构。为Wget下载创建一个单独的目录,以保存网页并防止混乱。

    在Mac终端上或Windows的命令提示符中,输入

    mkdir Wgetdown

    这将在以下位置创建一个新文件夹主目录。您可以随意命名。接下来,输入

    cd Wgetdown

    更改目录。这会将当前的工作目录更改为Wgetdown。

    Wget命令的详细信息

    创建目录后,我们将使用实际的Wget命令

    wget -E -H -k -K -p -i [Path to Your Text File]

    Wget使用GNU getopt处理命令行参数。每个选项都有一个长格式和一个短格式。长选项很容易记住,但要花一些时间输入。您也可以混合使用不同的选项样式。我们来详细研究这些选项:

  • -E(–adjust-extension):如果文件类型为“ app / xhtml + xml"或“ text / html"下载且URL并非以HTML结尾的情况下,此选项会将HTML附加到文件名中。
  • -H(–span-hosts):当您尝试递归地检索链接,人们不希望检索大量不必要的数据。您希望Wget仅遵循特定的链接。此选项打开主机跨接,这允许Wget递归运行访问链接引用的任何主机。例如,图像是从其他主机提供的。
  • -p(-页面要求):此选项下载显示HTML页面所需的所有文件。它包括嵌入式图像,音频和引用的样式表。
  • -k(–convert-links):它将文档中的链接转换为适合脱机查看的链接。它包括嵌入式图像,指向样式表的链接,指向非HTML内容的超链接等。
  • -K(–备份转换):转换文件时,此选项备份后缀为 .orig 的原始版本。
  • -i(–输入文件):从指向本地或本地的路径读取URL
  • 放置正在使用的命令

    要在实践中演示这些命令,请考虑一个名为《编写工作流程》的网站手册。本手册由目录和指向各章的链接组成。最终目标是要为这些部分创建一个单独的PDF文件。

    步骤1 :打开 Terminal 并创建一个新文件夹,如前所述

    第2步:使用Link Klipper扩展名将链接另存为文本文件。将文件保存到下载文件夹。

    第3步:在Wgetdown文件夹中,键入

    wget -E -H -k -K -p -i /Users/rahulsaigal/Downloads/links.txt

    第4步:按Enter键。等待该过程完成。

    第5步:浏览至Wgetdown文件夹。您将看到具有所有网页资产和Chapter1.html的主域处理过的word.net文件夹。

    将HTML转换为PDF

    将网页转换为PDF看起来很简单。但是让它们看起来像原始网页是一项艰巨的任务。产生令人满意的结果取决于:

  • 可用的系统字体。
  • HTML标记的完整性。
  • 需要支持表或浮动图像的功能。
  • 可选的目录。
  • PrinceXML是一款可将HTML文件快速转换为PDF的应用程序。它使您能够使用可配置的布局和Web标准支持来排版,格式化和打印HTML内容。它带有许多有用的字体,还允许您自定义PDF输出。该应用程序可免费用于非商业用途。

    在Mac上,您可以创建Automator服务,将一批HTML文件转换为PDF。打开 Automator 并创建一个 Quick Action 文档。设置服务选项以从Finder接收文件或文件夹。接下来,拖动运行Shell脚本,并将传递输入选项设置为作为参数。然后,将此脚本粘贴到正文中

    for theFileToProcess in "$@"docupsfilter "$theFileToProcess" > "${theFileToProcess%.*}.pdf"done

    将文件另存为HTML2PDF。

    现在,在Finder中选择所有HTML文件。右键单击并选择服务> HTML2PDF 。等待片刻以转换所有文件。

    将单个网页转换为PDF的方式

    乍一看,将多个网页转换为PDF的步骤看起来很复杂。但是,一旦您了解了这些步骤和流程,从长远来看就可以节省时间。您不必花任何钱在任何Web订阅上或昂贵的PDF转换器上。

    如果您正在寻找将单个网页转换为PDF的方法,请阅读此文章,了解如何将网页转换为PDF。

    标签: PDF Wget