我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python基于pyppeteer如何制作PDF文件

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python基于pyppeteer如何制作PDF文件

这篇文章主要讲解了“python基于pyppeteer如何制作PDF文件”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“python基于pyppeteer如何制作PDF文件”吧!

Pyppeteer 是什么

介绍 Pyppeteer 之前,有必要先介绍一下 Puppeteer,Puppeteer 是谷歌官方出的一个通过DevTools协议控制headless Chrome的Node库。通过Puppeteer可以直接控制Chrome浏览器模拟大部分用户操作。

所谓Headless Chrome 就是 Chrome 浏览器的无界面形态。

而 Pyppeteer 就是 Puppeteer 的 Python 版本非官方实现,它是一位来自于日本的工程师依据 Puppeteer 的一些功能开发出来的非官方版本

Pyppeteer 采用了 Python 的 async 机制,需要Python3.5 及以上版本才支持。

Pyppeteer能做什么

但凡是需要通过Chrome浏览器手动完成的操作都可以通过 Pyppeteer 自动完成,例如:

  • 生成页面截图

  • 生成PDF文件

  • 抓取单页面应用并生成预先呈现的内容

  • 从网站抓取你需要的内容

  • 自动表单提交,UI测试,键盘输入等

截图

例如将页面生成截图可以直接调用 page.screenshot 方法

import asynciofrom pyppeteer import launchasync def main(): browser = await launch() page = await browser.newPage() await page.goto('https://foofish.net') await page.screenshot({'path': 'example.png'}) await browser.close()asyncio.get_event_loop().run_until_complete(main())

截图功能在海报分享等场景用的多,有看过有赞工程师分享的一篇文章,就有用到Puppeteer来做海报分享,性能比Canvas高。

而将网页转换为PDF的应用场景更多,比如将网站博客、专栏,或者公众号文章批量导出PDF,方便离线阅读,比如我们最近做的一个医疗项目需要将用户填写的资料支持PDF形式批量导出,就是用的Pyppeteer

导出PDF

导出pdf直接调用page.pdf方法就可以, 代码非常简洁

import asynciofrom pyppeteer import launchasync def main(): browser = await launch() page = await browser.newPage() await page.goto('https://foofish.net') await page.pdf({  "path": "example.pdf", "format": 'A4'}) await browser.close()asyncio.get_event_loop().run_until_complete(main())

接下来我们以公众号文章为例,将html页面制作成一个PDF文件。

公众号链接导出PDF示例

安装 pyppeteer

pip install pyppeteer

任意找一篇公众号的文章链接

 url = "https://mp.weixin.qq.com/s/6VBXs19icV0O5hT7cHYwgw"

完成代码:

 browser = await launch(  options={'headless': True,     'args': ['--no-sandbox',       '–disable-gpu',       '–disable-dev-shm-usage',       '–disable-setuid-sandbox',       '–no-first-run',       '–no-zygote',       '–single-process'       ]}, ) page = await browser.newPage() url = "https://mp.weixin.qq.com/s/6VBXs19icV0O5hT7cHYwgw" await page.goto(url) file_name = "test.pdf" await page.pdf({"path": file_name, "format": 'A4'}) await browser.close()

第一次运行的时候,会自动下载chromium浏览器,chromium是chrome的开源版本, 需要几分钟才能下载完

[W:pyppeteer.chromium_downloader] start chromium download.Download may take a few minutes.100%|██████████| 127496521/127496521 [00:20<00:00, 6268578.80it/s][W:pyppeteer.chromium_downloader] chromium download done.[W:pyppeteer.chromium_downloader] chromium extracted to: C:\Users\lzjun\AppData\Local\pyppeteer\pyppeteer\local-chromium\575458

执行完成后,我们来预览下pdf文件

python基于pyppeteer如何制作PDF文件

和原文链接对比,发现文章中的图片丢失了。

通过分析,原来是页面源代码中,img 标签没有class="lazy" data-src属性,只有个data-class="lazy" data-src 属性,默认情况下图片是无法正常显示的,图片之所有能在浏览器能正常展示出来,是有个js脚本动态地修改了dom元素为 <img class="lazy" data-src='xxxx'>

python基于pyppeteer如何制作PDF文件

这个网页使用的是一种叫懒加载的技术展示图片内容,所谓懒加载就是图片不会一次全部下载完,而是当前浏览到什么位置,就加载该处的图片,这样能提高页面的响应速度,同时减轻服务器性能。

所以,我们也可以通过js代码模拟真人浏览网页一样,滚动鼠标,不停地往下滑动,将图片动态加载出来。

最后,完整代码就变成了这样:

async def main():    browser = await launch()    page = await browser.newPage()    url = "https://mp.weixin.qq.com/s/6VBXs19icV0O5hT7cHYwgw"    await page.goto(url)    await page.evaluate('''async () => {                    await new                Promise((resolve, reject) => {                    var                totalHeight = 0;                var                distance = 100;                var                timer = setInterval(() => {                    var                scrollHeight = document.body.scrollHeight;                window.scrollBy(0, distance);                totalHeight += distance;                if (totalHeight >= scrollHeight){                clearInterval(timer);                resolve();                }                }, 100);                });        }''')    await page.pdf({        "path": "test.pdf", "format": 'A4'})    await browser.close()if __name__ == '__main__':    asyncio.get_event_loop().run_until_complete(main())

将js 代码封装成一个字符串当作参数传给 page.evaluate 函数, 该代码就是获不断滚动页面,直到页面底部为止。这样整个页面的图片就全部加载出来了。

效果看起来还不错,和原页面的样式是一样的

python基于pyppeteer如何制作PDF文件

感谢各位的阅读,以上就是“python基于pyppeteer如何制作PDF文件”的内容了,经过本文的学习后,相信大家对python基于pyppeteer如何制作PDF文件这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是编程网,小编将为大家推送更多相关知识点的文章,欢迎关注!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python基于pyppeteer如何制作PDF文件

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

python基于pyppeteer如何制作PDF文件

这篇文章主要讲解了“python基于pyppeteer如何制作PDF文件”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“python基于pyppeteer如何制作PDF文件”吧!Pyppete
2023-06-13

基于Python如何制作AI聊天软件

这篇文章主要介绍“基于Python如何制作AI聊天软件”,在日常操作中,相信很多人在基于Python如何制作AI聊天软件问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”基于Python如何制作AI聊天软件”的疑
2023-07-02

基于Python实现对PDF文件的OCR识别

最近在做一个项目的时候,需要将PDF文件作为输入,从中输出文本,然后将文本存入数据库中。为此,我找寻了很久的解决方案,最终才确定使用tesseract。所以不要浪费时间了,我们开始吧。 1.安装tesseract 在不同的系统中安装tess
2022-06-04

基于Python+OpenCV如何制作屏幕录制工具

这篇文章跟大家分析一下“基于Python+OpenCV如何制作屏幕录制工具”。内容详细易懂,对“基于Python+OpenCV如何制作屏幕录制工具”感兴趣的朋友可以跟着小编的思路慢慢深入来阅读一下,希望阅读后能够对大家有所帮助。下面跟着小编
2023-06-26

基于SpringBoot框架如何管理Excel和PDF文件类型

这篇文章主要介绍基于SpringBoot框架如何管理Excel和PDF文件类型,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一、文档类型简介1、Excel文档Excel一款电子表格软件。直观的界面、出色的计算功能和图
2023-06-02

如何用python抓取网站教程并制作成PDF文档

这篇文章主要介绍“如何用python抓取网站教程并制作成PDF文档”,在日常操作中,相信很多人在如何用python抓取网站教程并制作成PDF文档问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何用python
2023-06-04

基于Python如何制作公交车站查询系统

这篇文章给大家介绍基于Python如何制作公交车站查询系统,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。一、设计目的1、教学目的本课程设计是学生学习完《Python程序设计》课程后,进行的一次全面的综合训练,通过课程设
2023-06-26

Python如何使用reportlab实现制作pdf报告

这篇文章主要讲解了“Python如何使用reportlab实现制作pdf报告”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python如何使用reportlab实现制作pdf报告”吧!rep
2023-07-04

如何制作html文件

HTML是网页编程中最基础的语言之一。它是一种标记语言,用于描述网页的结构和内容。跟着本文,你将学习到如何制作HTML文件。1. 安装文本编辑器要编写HTML文件,你需要安装一个文本编辑器。有很多文本编辑器可供选择,例如Sublime Text、Notepad++和Atom。选择一个适合你的编辑器并下载安装。2. 创建一个新文件打开你的文本编辑器,点击“新建文件”或“创建新文件
2023-05-14

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录