怎么用JavaScript爬虫百度贴吧数据

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

这篇文章主要介绍“怎么用JavaScript爬虫百度贴吧数据”，在日常操作中，相信很多人在怎么用JavaScript爬虫百度贴吧数据问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”怎么用JavaScript爬虫百度贴吧数据”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

抓取帖子用的JavaScript函数如下：

function getPostByAJAX(requestURL){   var html = $.ajax({         url: requestURL,         async: false}).responseText;         return html;
}

就是一个非常简单的AJAX请求：

怎么用JavaScript爬虫百度贴吧数据

传入该函数的输入参数requestURL的值为： http://tieba.baidu.com/i/i/my_tie

怎么用JavaScript爬虫百度贴吧数据

上面的url，我直接在浏览器里访问可以正常工作，返回47.2KB大小的数据。

然而当我用AJAX函数访问该url时，在Chrome开发者工具里遇到如下错误：

怎么用JavaScript爬虫百度贴吧数据

然而，这个错误没有任何明细信息，我没有线索去排错。

于是，就有了本文这个Chrome开发者工具的隐藏技能的用武之地。

在Chrome地址栏打开: chrome://net-internals

点击Event标签页：

怎么用JavaScript爬虫百度贴吧数据

再回到我的百度贴吧爬虫网页，该网页发起AJAX请求，按F5刷新后发送一个新的请求，然后回到Chrome开发者工具。

该AJAX请求的明细就详细显示出来了。找到我关心的url： http://tieba.baidu.com/i/i/my_tie

chrome://net-internals 这个界面显示的网络请求的明细比Network标签页里要详细得多：

怎么用JavaScript爬虫百度贴吧数据

在响应头字段里发现了引起这个错误的一些线索：

怎么用JavaScript爬虫百度贴吧数据

从上面的截图发现，HTTP响应状态字段为302，location字段为 “ http://static.tieba.baidu.com/tb/error.html?ErrType=1 ” 。这两条线索给了我提示：这个错误一定和百度网站的登陆状态处理相关：我使用的url不支持匿名访问。

我在浏览器里访问该url能够成功，因为我的Cookie在起作用。

怎么用JavaScript爬虫百度贴吧数据

Goole了一下，发现了解决方案。在AJAX的请求参数中添加:

xhrFields:{
withCredentials: true}

如此一来，可以将我的cookie和AJAX请求一齐发送给百度服务器。

怎么用JavaScript爬虫百度贴吧数据

加上该参数后，请求就能够得到期望的响应了。

怎么用JavaScript爬虫百度贴吧数据

使用Chrome开发者工具这个隐藏技能，我们还能观察到一些其他的平时很难发现的细节。

比如我的AJAX请求通过本地的jQuery库文件发出，我的HTML代码里直接引用了本地文件jquery1.7.1.js。在运行时，这个jquery1.7.1.js文件需要被加载到内存中。

使用这个隐藏技能，我现在能观察到jquery1.7.1.js是通过分块的方式被读入到内存中的，参考现在URL_REQUEST_JOB_BYTES_READ的参数：byte_count = 32768。总共分了8块读取，最后1块因为尺寸不满32768，只读了剩下的22285字节。

怎么用JavaScript爬虫百度贴吧数据

这8块的总字节数251661正好是jquery1.7.1.js的字节数。由此再次证明， chrome://net-internals 提供的功能比Network标签页里的要强大。

怎么用JavaScript爬虫百度贴吧数据

到此，关于“怎么用JavaScript爬虫百度贴吧数据”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注编程网网站，小编会继续努力为大家带来更多实用的文章！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

怎么用JavaScript爬虫百度贴吧数据

下载Word文档到电脑，方便收藏和打印～

下载Word文档

怎么用JavaScript爬虫百度贴吧数据

怎么用JavaScript爬虫百度贴吧数据

相关文章

猜你喜欢

怎么用JavaScript爬虫百度贴吧数据

怎么用python抓取百度贴吧内容

如何用Python网络爬虫抓取百度贴吧评论区图片和视频

如何使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号

怎么使用python爬虫爬取数据

怎么使用python爬虫爬取二手房数据

怎么用Scrapy爬虫框架爬取食品论坛数据并存入数据库

怎么使用Java爬虫来对比某东上的数据

Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据

怎么用Python爬虫获取国外大桥排行榜数据清单

热门标签

编程热搜

怎么安装配置nodejs

Vue中Vue.extend()的使用及解析

NodeJs模拟登陆正方教务

如何让DIV水平垂直居中

css中怎么设置div背景颜色

nodejs怎么查看版本

html如何设置按钮文字

html如何设置div的透明度

JavaScript对象(详细)

html5 mui怎么使用

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

怎么用JavaScript爬虫百度贴吧数据

怎么用JavaScript爬虫百度贴吧数据

相关文章

猜你喜欢

怎么用JavaScript爬虫百度贴吧数据

怎么用python抓取百度贴吧内容

如何用Python网络爬虫抓取百度贴吧评论区图片和视频

如何使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号

怎么使用python爬虫爬取数据

怎么使用python爬虫爬取二手房数据

怎么用Scrapy爬虫框架爬取食品论坛数据并存入数据库

怎么使用Java爬虫来对比某东上的数据

Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据

怎么用Python爬虫获取国外大桥排行榜数据清单

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复