我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python爬虫系列 - 初探:爬取新闻

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python爬虫系列 - 初探:爬取新闻

Get发送内容格式

Get方式主要需要发送headers、url、cookies、params等部分的内容。

t = requests.get(url, headers = header, params = content, cookies = newscookies)

基本上发送以上四个变量即可,以下是示例代码。

url = 'https://weibo.com/a/aj/transform/loadingmoreunlogin'
content = {
    'ajwvr':        6,
    'category':     1760,
    'page':         3,
    'lefnav':       0
    }
header = {
        'User-Agent':       r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1',
        'Accept':           r'*/*',
        'Accept-Language':  r'en-US,en;q=0.5',
        'Accept-Encoding':  r'gzip, deflate',
        'Referer':          referer,
        'DNT':              '1',
        'Connection':       r'keep-alive'
    }
# "\" 字符可以起到代码换行的作用
newscookies = \
{
    "Apache":       "8599973819110.777.1525849965283",
    "SINAGLOBAL":   "8599973819110.777.1525849965283"
}
t = requests.get(url, headers = header, params = content, cookies = newscookies)
print(t.text)

处理JSON文件

主要思路将JSON文件转化为Python字典变量,二者的形式类似。

处理时注意JSON文件中可能同时包含列表List,有时需要指定下标,提取字典。

json.loads()

该函数将str类型转换为dict类型,其中字典中的引号为双引号。

p = '''{"a": 1, "b": 2}'''
q = json.loads(p)

json.dumps()

该函数将dict类型的数据转换为str

p = {"a": 1, "b": 2}
q = json.dumps(p)

 通过DataFrame保存为xlsx

位于pandas库中的dataframe用法有很多,这里只举一个例子,就是将列表组合成字典,存成dataframe,最后保存xlsx。

labelFrame = {
        'Date':         newDate,
        'UsefulCount':  newUseful,
        'ServeScore':   newScoreA,
        'PlayScore':    newScoreB
    }
p = pd.DataFrame(labelFrame)
p.to_excel('a.xlsx')

 

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python爬虫系列 - 初探:爬取新闻

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python爬虫系列 - 初探:爬取新闻

Get发送内容格式Get方式主要需要发送headers、url、cookies、params等部分的内容。t = requests.get(url, headers = header, params = content, cookies =
2023-01-30

python爬虫中如何爬取新闻

这篇文章主要介绍了python爬虫中如何爬取新闻,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,专
2023-06-14

python爬虫中如何爬取网页新闻内容

小编给大家分享一下python爬虫中如何爬取网页新闻内容,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!python可以做什么Python是一种编程语言,内置了许多
2023-06-14

Python3爬虫系列:理论+实验+爬取

Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star爬虫系列: (1) 理论Python3爬虫系列01 (理论) - I/O Models 阻塞 非
2023-01-30

怎么用Python代码实现新闻爬虫

本篇内容介绍了“怎么用Python代码实现新闻爬虫”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!新闻源:Reddit我们可以通过Reddit
2023-06-16

python如何爬取新闻门户网站

这篇文章主要介绍了python如何爬取新闻门户网站,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python主要应用领域有哪些1、云计算,典型应用OpenStack。2、WE
2023-06-14

python爬虫系列Selenium定向爬取虎扑篮球图片详解

前言:作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队、CBA明星、花边新闻、球鞋美女等等,如果一张张右键另存为的话真是手都点疼了。作为程序员还是写个程序来进行吧!所以我通过Pytho
2022-06-04

python爬取新闻门户网站的示例

项目地址: https://github.com/Python3Spiders/AllNewsSpider 如何使用 每个文件夹下的代码就是对应平台的新闻爬虫py 文件直接运行pyd 文件需要,假设为 pengpai_news_spider
2022-06-02

python如何使用Scrapy爬取网易新闻

这篇文章主要介绍python如何使用Scrapy爬取网易新闻,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!1. 新建项目在命令行窗口下输入scrapy startproject scrapytest, 如下然后就自动
2023-06-14

python 简单爬取今日头条热点新闻(

今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的;在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式network下很快能找到一个‘?category=
2023-01-30

Python如何爬取汽车之家新闻信息

这篇文章给大家介绍Python如何爬取汽车之家新闻信息,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。为大家介绍一个爬取汽车之家的新闻标题,链接.以及相关图片并下载的Python项目案例,用基本的BeautifulSou
2023-06-02

python爬虫系列三:html解析大法

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。 它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。 在爬虫开发中主要用的是Beautiful Soup的查找提取功能。
2023-01-31

Python怎么进行简单的百度新闻爬取

Python怎么进行简单的百度新闻爬取,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。这个实战例子是构建一个大规模的异步新闻爬虫,但要分几步走,从简单到复杂,循序
2023-06-02

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录