我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python小白的初步爬虫

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python小白的初步爬虫

 

前序: 

最近工作不是很忙,领导突然找我谈话,说是谈话,其实就是分配活呗。果不其然,很快进入正题, 给了我一个网址链接,然后说需要商品的信息。。。巴拉巴拉。好吧,去做吧。

我当时的内心是崩溃的,python爬虫压根没碰过,这下完蛋了,理了理思绪,决定先从网页来看。

好了,吐槽完毕,开始正题:

 

需求:

https://youpin.mi.com/ 需要这个电商网址里边的商品信息, 其中包括:【商品类目】【商品名称】【商品链接】【商品售价】【商品市场价】【评价星级】【评价满意度】【评价总数量】 

由于需要类目信息,我决定从类目到商品再到评价这个路子去着手。

首先呢,打开地址,发现首页可以看到类目信息,所以开启网页调试模式,发现了一个请求,如图:

 

 这个请求的返回,有我们需要的分类信息哇,心里一抖,再去看了看请求入参的信息,如下:

之后,我通过postman模拟,居然请求ok了。这可是决定性的一步啊。(ps:其实也不是一下子就试成功的,中间走了一些弯路,由于抓包看到的请求入参格式是application/x-www-form-urlencoded,但是在postman模拟请求的时候,却怎么也请求不到,结果用application/json 去请求的话就可以了,这块存在一部分的侥幸啊)postman请求如下:

这里入参用的是 application/json , 其中请求头的 Referer是必须的,抓包看请求就可以获取到。

 接下来,我用类似的方法找到了从分类点进去的商品列表的接口,商详接口,商品评价接口,其中,商详接口请求到code=0,但是result为空,我猜可能是平台的商详接口有反爬虫的机制,就放弃了请求商详接口,如此一来,分析了下,分类点进去的商品列表里边有商品的信息,然后我根据商品的id 可以获取到评论信息,如此一来,我需要的数据都有了,开始动工。

 

我先说下大体思路哈:

1.  打开网页,分析自己需要的数据,查找对应的网页请求。

2. postman模拟网页请求,获取数据。

3. 用python 去请求对应的接口,获取数据,保存至excel。

 

下边上代码:

环境:windows7, Python 2.7.0,PyChram编辑器  ,其中有用到python的库:urllib2  json  xlwt (这些库具体的安装,用法大家可以自行百度,这里就不再赘述)

# -*- coding: UTF-8 -*-

import xlwt
import urllib2
import json

# 设置编码格式为utf-8 import sys reload(sys) sys.setdefaultencoding('utf8') # 设置url shop_url = "https://youpin.mi.com/app/shopv3/pipe" # 代理 user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' # 请求格式 con_type = 'application/json' # 类目的referer caty_referer = "https://youpin.mi.com/" # 商品列表的referer goods_referer = 'https://youpin.mi.com/detail?gid=101975' # 组建header caty_headers = {'Referer': caty_referer, "Content-Type": con_type} # 分类入参 caty_data = {"result": {"model": "Homepage", "action": "GetGroup2ClassInfo", "parameters": {}}} # 商品列表入参 list_data = {"uClassList": {"model": "Homepage", "action": "BuildHome", "parameters": {"id": 1}}} # 评论入参 comment_data = {"overView": {"model": "Product", "action": "CommentIndexV2", "parameters": {"gid": 1}}} # 获取商品的评论信息 def get_good_comment(url, gid): caty_headers["Referer"] = url comment_data["overView"]["parameters"]["gid"] = gid comment_param = json.dumps(comment_data) com_req = urllib2.Request(shop_url, headers=caty_headers, data=comment_param) com_resp = urllib2.urlopen(com_req) com_res = com_resp.read() com_result = json.loads(com_res) com_info = com_result['result']['overView']['data'] com_count = 0 if com_info['tags']: com_count = com_info['tags'][0]['count'] else: com_count = 0 # for com in com_info['tags']: # com_count = com['count'] comment_info = { "score": com_info['avg_score'], "rate": com_info['positive_rate'], "count": com_count } return comment_info # 获取商品列表,并获取到商品信息,保存到excel def get_good_list(caty_id, caty_name): # 1. 请求分类的商品列表 list_referer = "https://youpin.mi.com/goodsbycategory?firstId=%s&secondId=%s&title=%s" list_referer_r = list_referer % (caty_id, caty_id, caty_name) caty_headers["Referer"] = list_referer_r list_data["uClassList"]["parameters"]["id"] = caty_id list_param = json.dumps(list_data) list_req = urllib2.Request(shop_url, headers=caty_headers, data=list_param) list_resp = urllib2.urlopen(list_req) list_res = list_resp.read() list_result = json.loads(list_res) list_info = list_result['result']['uClassList']['data'] worksheet = workbook.add_sheet(caty_name) worksheet.write(0, 0, '类目') worksheet.write(0, 1, '链接') worksheet.write(0, 2, '商品名称') worksheet.write(0, 3, '价格') worksheet.write(0, 4, '划线价') worksheet.write(0, 5, '评论星级') worksheet.write(0, 6, '评论满意度') worksheet.write(0, 7, '评论条数') # 3. 获取商品url,从而获取商品信息 index = 1 for list_index in list_info: if list_index['item_type'] == 5: continue # 获取商品url,获取商品信息 child_caty_name = list_index['content']['name'] real_caty_name = caty_name+'/'+child_caty_name for goods in list_index['data']: # 获取评论 comment = get_good_comment(goods['url'], goods['gid']) # 获取商品信息 goods_info = { "caty": real_caty_name, "url": goods['url'], "name": goods['name'], "price_min": goods['price_min'], "market_price": goods['market_price'], "score": comment['score'], "rate": comment['rate'], "count": comment['count'] } print goods_info worksheet.write(index, 0, goods_info['caty']) worksheet.write(index, 1, goods_info['url']) worksheet.write(index, 2, goods_info['name']) worksheet.write(index, 3, goods_info['price_min']) worksheet.write(index, 4, goods_info['market_price']) worksheet.write(index, 5, goods_info['score']) worksheet.write(index, 6, goods_info['rate']) worksheet.write(index, 7, goods_info['count']) index = index + 1 workbook.save(filename) return # 入口 # 1. 类目入参处理,并请求获取类目信息列表 caty_param = json.dumps(caty_data) req = urllib2.Request(shop_url, headers=caty_headers, data=caty_param) response = urllib2.urlopen(req) res = response.read() caty_resp = json.loads(res) caty_groups = caty_resp["result"]["result"]["data"]["groups"] print len(caty_groups) # 2. excel表格初始化 filename = "小米优品.xls".decode(encoding="utf-8") workbook = xlwt.Workbook(encoding='utf-8') # 3. 获取分类列表,以及id for caty in caty_groups: for caty_class in caty: caty_info = { 'id': caty_class['class']['ucid'], 'name': caty_class['class']['name'] } list_data["uClassList"]["parameters"]["id"] = caty_info["id"] # 获取该类目下的商品列表 get_good_list(caty_info['id'], caty_info['name'])

之后,获取到的数据如图:

我这里是按照大的类目去分的sheet 。

 

总结:

1. 我理解的爬虫其实就是模拟浏览器请求,去获取数据,之后将数据按照自己的要求去保存excel或者是数据库。

2. 数据获取可以通过访问接口 ( ps:也可以通过获取网页html,抓取html标签元素去获得数据 )

3. 注意编码:

  3.1: 代码中有中文的,Python文件的开头需要设置:

    # -*- coding: UTF-8 -*-

  3.2 :windows下,Python的默认编码是ASCII,但是为了开发方便,一般开发者都是设置的UTF-8。

     python操作Excel的时候,如果插入数据有中文,需要在创建workbook的时候,设置UTF-8:      

    workbook = xlwt.Workbook(encoding='utf-8')

        python操作Excel的时候,如果文件名有中文,也需要给文件名设置UTF-8:      

    filename = "爬取结果.xls".decode(encoding="utf-8")

  

 以上,就是我这个python小白的初体验,希望可以帮助到python的初学者~

 

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python小白的初步爬虫

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

python小白的初步爬虫

前序: 最近工作不是很忙,领导突然找我谈话,说是谈话,其实就是分配活呗。果不其然,很快进入正题, 给了我一个网址链接,然后说需要商品的信息。。。巴拉巴拉。好吧,去做吧。我当时的内心是崩溃的,python爬虫压根没碰过,这下完蛋了,理了理思绪
2023-01-30

小白学Python网络爬虫从哪入手?

Python爬虫工程师也是一个比较热门且容易入门的岗位,因此很多人会选择学习,最近看到好几个伙伴的提问:学Python网络爬虫该从哪里入手?下面跟着陕西优就业小优一起来涨知识:可以分为两步走:一、学会python语言编程基础;二、学习pyt
2023-06-02

Python-爬虫小计

# -*-coding:utf8-*-import requestsfrom bs4 import BeautifulSoupimport timeimport osimport urllibimport reimport jsonrequ
2023-01-30

Python爬虫系列 - 初探:爬取新闻

Get发送内容格式Get方式主要需要发送headers、url、cookies、params等部分的内容。t = requests.get(url, headers = header, params = content, cookies =
2023-01-30

Python爬虫基础之初次使用scrapy爬虫实例

项目需求 在专门供爬虫初学者训练爬虫技术的网站(http://quotes.toscrape.com)上爬取名言警句。 创建项目 在开始爬取之前,必须创建一个新的Scrapy项目。进入您打算存储代码的目录中,运行下列命令:(base) λ
2022-06-02

用pycharm进行python爬虫的步骤

使用 pycharm 进行 python 爬虫的步骤:下载并安装 pycharm。创建一个新项目。安装 requests 和 beautifulsoup 库。编写爬虫脚本,包括获取页面内容、解析 html 和提取数据的代码。运行爬虫脚本。保
用pycharm进行python爬虫的步骤
2024-04-25

python网络爬虫的流程步骤

本文将为大家详细介绍“python网络爬虫的流程步骤”,内容步骤清晰详细,细节处理妥当,而小编每天都会更新不同的知识点,希望这篇“python网络爬虫的流程步骤”能够给你意想不到的收获,请大家跟着小编的思路慢慢深入,具体内容如下,一起去收获
2023-06-08

python异步爬虫机制的原理

python异步爬虫机制的原理?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。1、说明默认情况下,在使用get请求时,会出现堵塞,需要很多时间等待,如果有很多请求url,速度会变
2023-06-15

Python爬虫:爬取美拍小姐姐视频

最近在写一个应用,需要收集微博上一些热门的视频,像这些小视频一般都来自秒拍,微拍,美拍和新浪视频,而且没有下载的选项,所以只能动脑想想办法了。第一步  分析网页源码。 例如:http://video.weibo.com/show?fid=1
2023-01-30

Python微型异步爬虫框架

Python微型异步爬虫框架(A micro asynchronous Python website crawler framework)基于Python 3.5 + 的异步async-await 框架,搭建一个模块化的微型异步爬虫。可以
2023-01-31

python 网络爬虫初级实现代码

首先,我们来看一个Python抓取网页的库:urllib或urllib2。 那么urllib与urllib2有什么区别呢? 可以把urllib2当作urllib的扩增,比较明显的优势是urllib2.urlopen()可以接受Request
2022-06-04

用Python写一个小爬虫吧!

学习了一段时间的web前端,感觉有点看不清前进的方向,于是就写了一个小爬虫,爬了51job上前端相关的岗位,看看招聘方对技术方面的需求,再有针对性的学习。我在此之前接触过Python,也写过一些小脚本,于是决定用Python来完成这个小项目
2023-01-30

Python制作爬虫采集小说

开发工具:python3.4 操作系统:win8 主要功能:去指定小说网页爬小说目录,按章节保存到本地,并将爬过的网页保存到本地配置文件。 被爬网站:http://www.cishuge.com/ 小说名称:灵棺夜行 代码出处:本人亲自码的
2022-06-04

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录