我的编程空间,编程开发者的网络收藏夹
学习永远不晚

怎么用JavaScript爬虫百度贴吧数据

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

怎么用JavaScript爬虫百度贴吧数据

这篇文章主要介绍“怎么用JavaScript爬虫百度贴吧数据”,在日常操作中,相信很多人在怎么用JavaScript爬虫百度贴吧数据问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用JavaScript爬虫百度贴吧数据”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

抓取帖子用的JavaScript函数如下:

function getPostByAJAX(requestURL){   var html = $.ajax({         url: requestURL,         async: false}).responseText;         return html;
}

就是一个非常简单的AJAX请求:

怎么用JavaScript爬虫百度贴吧数据

传入该函数的输入参数requestURL的值为:  http://tieba.baidu.com/i/i/my_tie

怎么用JavaScript爬虫百度贴吧数据

上面的url,我直接在浏览器里访问可以正常工作,返回47.2KB大小的数据。

然而当我用AJAX函数访问该url时,在Chrome开发者工具里遇到如下错误:

怎么用JavaScript爬虫百度贴吧数据

怎么用JavaScript爬虫百度贴吧数据

怎么用JavaScript爬虫百度贴吧数据

然而,这个错误没有任何明细信息,我没有线索去排错。

于是,就有了本文这个Chrome开发者工具的隐藏技能的用武之地。

在Chrome地址栏打开:  chrome://net-internals

点击Event标签页:

怎么用JavaScript爬虫百度贴吧数据

再回到我的百度贴吧爬虫网页,该网页发起AJAX请求,按F5刷新后发送一个新的请求,然后回到Chrome开发者工具。

该AJAX请求的明细就详细显示出来了。找到我关心的url: http://tieba.baidu.com/i/i/my_tie

chrome://net-internals 这个界面显示的网络请求的明细比Network标签页里要详细得多:

怎么用JavaScript爬虫百度贴吧数据

在响应头字段里发现了引起这个错误的一些线索:

怎么用JavaScript爬虫百度贴吧数据

从上面的截图发现,HTTP响应状态字段为302,location字段为 “ http://static.tieba.baidu.com/tb/error.html?ErrType=1 ” 。这两条线索给了我提示:这个错误一定和百度网站的登陆状态处理相关:我使用的url不支持匿名访问。

我在浏览器里访问该url能够成功,因为我的Cookie在起作用。

怎么用JavaScript爬虫百度贴吧数据

Goole了一下,发现了解决方案。在AJAX的请求参数中添加:

xhrFields:{
withCredentials: true}

如此一来,可以将我的cookie和AJAX请求一齐发送给百度服务器。

怎么用JavaScript爬虫百度贴吧数据

加上该参数后,请求就能够得到期望的响应了。

怎么用JavaScript爬虫百度贴吧数据

使用Chrome开发者工具这个隐藏技能,我们还能观察到一些其他的平时很难发现的细节。

比如我的AJAX请求通过本地的jQuery库文件发出,我的HTML代码里直接引用了本地文件jquery1.7.1.js。在运行时,这个jquery1.7.1.js文件需要被加载到内存中。

使用这个隐藏技能,我现在能观察到jquery1.7.1.js是通过分块的方式被读入到内存中的,参考现在URL_REQUEST_JOB_BYTES_READ的参数:byte_count = 32768。总共分了8块读取,最后1块因为尺寸不满32768,只读了剩下的22285字节。

怎么用JavaScript爬虫百度贴吧数据

这8块的总字节数251661正好是jquery1.7.1.js的字节数。由此再次证明, chrome://net-internals 提供的功能比Network标签页里的要强大。

怎么用JavaScript爬虫百度贴吧数据

到此,关于“怎么用JavaScript爬虫百度贴吧数据”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

怎么用JavaScript爬虫百度贴吧数据

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

怎么用python抓取百度贴吧内容

本篇内容介绍了“怎么用python抓取百度贴吧内容”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!# -*- coding: utf-8imp
2023-06-03

如何用Python网络爬虫抓取百度贴吧评论区图片和视频

如何用Python网络爬虫抓取百度贴吧评论区图片和视频,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。百度贴吧是全球最大的中文交流平台,你是否跟我一样,有时候看到评论区的图片
2023-06-01

如何使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号

本篇文章给大家分享的是有关如何使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。不知道大家过年都是怎么过的,反正栏主是在家睡了
2023-06-17

怎么使用python爬虫爬取数据

本篇内容介绍了“怎么使用python爬虫爬取数据”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!python爬出六部曲第一步:安装reques
2023-06-29

怎么使用python爬虫爬取二手房数据

这篇文章主要介绍怎么使用python爬虫爬取二手房数据,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!python的数据类型有哪些?python的数据类型:1. 数字类型,包括int(整型)、long(长整型)和flo
2023-06-14

怎么用Scrapy爬虫框架爬取食品论坛数据并存入数据库

这篇文章主要介绍“怎么用Scrapy爬虫框架爬取食品论坛数据并存入数据库”,在日常操作中,相信很多人在怎么用Scrapy爬虫框架爬取食品论坛数据并存入数据库问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用
2023-06-17

怎么使用Java爬虫来对比某东上的数据

本篇内容介绍了“怎么使用Java爬虫来对比某东上的数据”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!Java如何做爬虫大家在想到爬虫的时候,
2023-06-17

Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据

这篇文章主要介绍了Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Python爬虫之怎么使用BeautifulSoup和Reque
2023-07-05

怎么用Python爬虫获取国外大桥排行榜数据清单

这篇文章主要介绍“怎么用Python爬虫获取国外大桥排行榜数据清单”,在日常操作中,相信很多人在怎么用Python爬虫获取国外大桥排行榜数据清单问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用Python
2023-06-30

编程热搜

目录