Phantomjs抓取渲染JS后的网页（Python代码）

2022-06-04 19:03

短信预约 -IT技能 免费直播动态提醒

最近需要爬取某网站，无奈页面都是JS渲染后生成的，普通的爬虫框架搞不定，于是想到用Phantomjs搭一个代理。

Python调用Phantomjs貌似没有现成的第三方库（如果有，请告知小编），漫步了一圈，发现只有pyspider提供了现成的方案。

简单试用了一下，感觉pyspider更像一个为新手打造的爬虫工具，好比一个老妈子，有时无微不至，有时喋喋不休。轻巧的小工具应该更受人喜爱，我也怀着一点私心，可以带着我最爱的BeautifulSoup一块儿用，而不用再学PyQuery（pyspider用来解析HTML），更不用忍受浏览器写Python的糟糕体验（偷笑）。

所以花了一个下午的时间，把pyspider当中实现Phantomjs代理的部分拆了出来，独立成一个小的爬虫模块，希望大家会喜欢（感谢binux！）。

准备工作

你当然要有Phantomjs，废话！（Linux下最好用supervisord守护，必须保持抓取的时候Phantomjs一直处于开启状态）
用项目路径下的phantomjs_fetcher.js启动：phantomjs phantomjs_fetcher.js [port]
安装tornado依赖（使用了tornado的httpclient模块）

调用是超级简单的


from tornado_fetcher import Fetcher

# 创建一个爬虫
>>> fetcher=Fetcher(
  user_agent='phantomjs', # 模拟浏览器的User-Agent
  phantomjs_proxy='http://localhost:12306', # phantomjs的地址
  poolsize=10, # 最大的httpclient数量
  async=False # 同步还是异步
  )
# 开始连接Phantomjs的代码，可以渲染JS！
>>> fetcher.fetch(url)
# 渲染成功后执行额外的JS脚本（注意用function包起来！）
>>> fetcher.fetch(url, js_script='function(){setTimeout("window.scrollTo(0,100000)}", 1000)')

代码 https://github.com/2shou/PhantomjsFetcher

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

代码网页 Phantomjs

阅读原文内容投诉

Phantomjs抓取渲染JS后的网页（Python代码）

下载Word文档到电脑，方便收藏和打印～

下载Word文档

Phantomjs抓取渲染JS后的网页（Python代码）

Phantomjs抓取渲染JS后的网页（Python代码）

相关文章

猜你喜欢

Phantomjs抓取渲染JS后的网页（Python代码）

android 封装抓取网页信息的实例代码

Using Django with GAE Python 后台抓取多个网站的页面全文

Python爬取网页的所有内外链的代码

html网页调用后端python代码的方法实例

Python：使用爬虫抓取网页中的视频并下载（完整源码）

python flask p5.js mysql 实现数据库查询并网页显示数据（后附完整代码分享）

热门标签

编程热搜

Python 学习之路 - Python

chatgpt的中文全称是什么

C/C++中extern函数使用详解

C/C++可变参数的使用

css样式文件该放在哪里

php中数组下标必须是连续的吗

Python 3 教程

Python pip包管理

ubuntu如何重新编译内核

改善Java代码之慎用java动态编译

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

Phantomjs抓取渲染JS后的网页（Python代码）

Phantomjs抓取渲染JS后的网页（Python代码）

相关文章

猜你喜欢

Phantomjs抓取渲染JS后的网页（Python代码）

android 封装抓取网页信息的实例代码

Using Django with GAE Python 后台抓取多个网站的页面全文

Python爬取网页的所有内外链的代码

html网页调用后端python代码的方法实例

Python：使用爬虫抓取网页中的视频并下载（完整源码）

python flask p5.js mysql 实现数据库查询并网页显示数据（后附完整代码分享）

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复