我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python3实现网页内容转换成PDF文档和图片

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python3实现网页内容转换成PDF文档和图片

1、引言

小鱼:小屌丝,你这是干啥呢?

小屌丝:我的女神想要这个网页的内容。

小鱼:那你也不能这一点点的复制粘贴啊,

小屌丝:为了我的女神,再辛苦我都愿意…

小鱼:咱能不能man一点,你直接把网页内容爬下来不就完事了,

小屌丝:我的女神还要把这些内容转换成PDF,

小鱼:你的女神事可真多…

小屌丝:鱼哥,你有什么好的法子吗?

小鱼:嗯,办法嘛,确实有

小屌丝:我懂。

小鱼:…上道这么快,果然为了你的女神,你什么都舍得,我也不磨叽了,直接上教程。

2、代码实战

关于网页的内容转换成PDF,通常思路:

  • 爬取网页内容
  • 保存到本地
  • 转换成PDF文档

这种方法, 确实可以实现,但是,很麻烦,需要转两次。

而今天,小鱼给大家分享的方法,就3行代码,一次搞定。

2.1 模块介绍

2.1.1 pdfkit

pdfkit 是把 HTML+CSS 格式的文件转换成 PDF 的一种工具,它是 wkhtmltopdf 这个工具包的 python 封装。

2.2 安装

pip install pdfkit

其它安装方式,直接看这两篇:

《Python3自动安装第三方库,跟pip说再见》

《Python:一行代码,导入Python所有库》

敲黑板:

pdfkit 是基于 wkhtmltopdf 的封装,所以需要先安装 wkhtmltopdf 。

wkhtmltopdf官网

2.3 代码实例

2.3.1 URL 对应网页转 PDF

代码示例:

# -*- coding:utf-8 -*-
# @Time   : 2022-06-12
# @Author : carl_DJ

import pdfkit

'URL 对应网页转 PDF'
#wkhtmltopdf.exe 为本地安装的路径
config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
#调用pdfkit.from_url参数,转换PDF
pdfkit.from_url(r'https://blog.csdn.net/wuyoudeyuer?type=blog', 'Carl_奕然.pdf', configuration=config)

运行结果:

2.3.2 HTML 文件转 PDF

代码示例:

# -*- coding:utf-8 -*-
# @Time   : 2022-06-12
# @Author : carl_DJ

import pdfkit

'HTML 文件转 PDF'
config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
#调用pdfkit.from_file参数,转换PDF
pdfkit.from_file(r'D:\Carl_奕然的博客.html, 'Carl_奕然.pdf', configuration=config)

敲黑板

读取html,需要调用pdfkit.from_file 参数。

2.3.3 字符串转 PDF

代码示例:

# -*- coding:utf-8 -*-
# @Time   : 2022-06-12
# @Author : carl_DJ

import pdfkit

'字符串转 PDF'
config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
#调用pdfkit.from_file参数,转换PDF
pdfkit.from_string(r'Ilike wangxinling, 'Carl_奕然.pdf', configuration=config)

运行结果

2.4 拓展

小屌丝:鱼哥,如果我不想写代码,能不能一键转换成PDF呢?

小鱼:嗯,这个可以实现,但是不能一键,必须一行代码。

小屌丝:也行,能少些一行是一行。

2.4.1 网页转换PDF

开篇小鱼也说过:pdfkit 是基于 wkhtmltopdf 的封装,所以功能肯定也是基于 wkhtmltopdf 的。

于是乎,我们就能先到,直接用wkhtmltopdf 的功能,看看能否实现PDF转换。

代码示例

第一步、找到wkhtmltopdf的安装路径,以小鱼的为例:

D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe

第二步、powershell打开,输入命令

.\wkhtmltopdf.exe https://blog.csdn.net/wuyoudeyuer/category_9471191.html D:\carl.pdf

运行结果

解析

  • .\wkhtmltopdf.exe :调用wkhtmltopdf.exe
  • https://blog.csdn.net/wuyoudeyuer?type=blog:url地址
  • D:\carl.pdf:保存的路径

2.4.2 网页转换图片

代码示例

我们来试一下网页转换成图片,

同样,

第一步、打开powershell,进入到bin文件夹下

第二步、输入命令:.\wkhtmltoimage.exe https://blog.csdn.net/wuyoudeyuer/category_9471191.html D:\carl.png

运行结果

3、总结

今天的分享,就到这里了。

是不是奇奇怪怪的姿势,又增加了呢。

我们总结一下今天的内容:

pdfkit 可以可以实现的转换:

  • URL 对应网页转 PDF
  • html文件转 PDF
  • 字符串转 PDF

wkhtmltopdf.exe可以实现的转换:

  • 网页转图片
  • 网页转 PDF

到此这篇关于Python3实现网页内容转换成PDF文档和图片的文章就介绍到这了,更多相关Python网页内容转PDF 图片内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python3实现网页内容转换成PDF文档和图片

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

在PHP中怎么将网页内容转换成PDF文件

这篇“在PHP中怎么将网页内容转换成PDF文件”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“在PHP中怎么将网页内容转换成P
2023-07-05

使用C#实现网页内容保存为图片并生成压缩包

本文介绍了如何使用C#将网页内容保存为图片并生成压缩包。利用Selenium.WebDriver和System.IO.Compression库,可以实现网页截图和ZIP压缩。文章提供了一个完整的代码示例,可帮助您将网页内容保存为PNG图像,并将其添加到ZIP存档中。
使用C#实现网页内容保存为图片并生成压缩包
2024-04-02

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录