怎么用JavaScript爬虫百度贴吧数据
这篇文章主要介绍“怎么用JavaScript爬虫百度贴吧数据”,在日常操作中,相信很多人在怎么用JavaScript爬虫百度贴吧数据问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用JavaScript爬虫百度贴吧数据”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
抓取帖子用的JavaScript函数如下:
function getPostByAJAX(requestURL){ var html = $.ajax({ url: requestURL, async: false}).responseText; return html;
}
就是一个非常简单的AJAX请求:
传入该函数的输入参数requestURL的值为: http://tieba.baidu.com/i/i/my_tie
上面的url,我直接在浏览器里访问可以正常工作,返回47.2KB大小的数据。
然而当我用AJAX函数访问该url时,在Chrome开发者工具里遇到如下错误:
然而,这个错误没有任何明细信息,我没有线索去排错。
于是,就有了本文这个Chrome开发者工具的隐藏技能的用武之地。
在Chrome地址栏打开: chrome://net-internals
点击Event标签页:
再回到我的百度贴吧爬虫网页,该网页发起AJAX请求,按F5刷新后发送一个新的请求,然后回到Chrome开发者工具。
该AJAX请求的明细就详细显示出来了。找到我关心的url: http://tieba.baidu.com/i/i/my_tie
chrome://net-internals 这个界面显示的网络请求的明细比Network标签页里要详细得多:
在响应头字段里发现了引起这个错误的一些线索:
从上面的截图发现,HTTP响应状态字段为302,location字段为 “ http://static.tieba.baidu.com/tb/error.html?ErrType=1 ” 。这两条线索给了我提示:这个错误一定和百度网站的登陆状态处理相关:我使用的url不支持匿名访问。
我在浏览器里访问该url能够成功,因为我的Cookie在起作用。
Goole了一下,发现了解决方案。在AJAX的请求参数中添加:
xhrFields:{
withCredentials: true}
如此一来,可以将我的cookie和AJAX请求一齐发送给百度服务器。
加上该参数后,请求就能够得到期望的响应了。
使用Chrome开发者工具这个隐藏技能,我们还能观察到一些其他的平时很难发现的细节。
比如我的AJAX请求通过本地的jQuery库文件发出,我的HTML代码里直接引用了本地文件jquery1.7.1.js。在运行时,这个jquery1.7.1.js文件需要被加载到内存中。
使用这个隐藏技能,我现在能观察到jquery1.7.1.js是通过分块的方式被读入到内存中的,参考现在URL_REQUEST_JOB_BYTES_READ的参数:byte_count = 32768。总共分了8块读取,最后1块因为尺寸不满32768,只读了剩下的22285字节。
这8块的总字节数251661正好是jquery1.7.1.js的字节数。由此再次证明, chrome://net-internals 提供的功能比Network标签页里的要强大。
到此,关于“怎么用JavaScript爬虫百度贴吧数据”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341