我的编程空间,编程开发者的网络收藏夹
学习永远不晚

怎么在python中使用xpath爬取网上数据

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

怎么在python中使用xpath爬取网上数据

本篇文章给大家分享的是有关怎么在python中使用xpath爬取网上数据,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

设计数据库

from django.db import modelsfrom uuslug import slugifyimport uuidimport osdef products_directory_path(instance, filename):  ext = filename.split('.')[-1]  filename = '{}.{}'.format(uuid.uuid4().hex[:8], ext)  # return the whole path to the file  return os.path.join('images', "products", instance.title, filename)def product_relatedimage_directory_path(instance, filename):  ext = filename.split('.')[-1]  filename = '{}.{}'.format(uuid.uuid4().hex[:8], ext)  # return the whole path to the file  return os.path.join('images', "product_relatedimage", instance.product.title, filename)class ProductsCategory(models.Model):  """产品分类"""  name = models.CharField('产品分类名', max_length=80, unique=True)  description = models.TextField('产品分类描述', blank=True, null=True)  slug = models.SlugField('slug', max_length=80, blank=True, null=True)  parent_category = models.ForeignKey('self', verbose_name="父级分类", blank=True, null=True, on_delete=models.CASCADE)  def save(self, *args, **kwargs):    if not self.id or not self.slug:      self.slug = slugify(self.name)    super().save(*args, **kwargs)  def __str__(self):    return self.name  class Meta:    ordering = ['name']    verbose_name = "产品分类"    verbose_name_plural = verbose_nameclass ProductsTag(models.Model):  """产品标签"""  name = models.CharField('产品标签名', max_length=30, unique=True)  slug = models.SlugField('slug', max_length=40)  def __str__(self):    return self.name  def save(self, *args, **kwargs):    if not self.id or not self.slug:      self.slug = slugify(self.name)    super().save(*args, **kwargs)  class Meta:    ordering = ['name']    verbose_name = "产品标签"    verbose_name_plural = verbose_nameclass Product(models.Model):  title = models.CharField('标题', max_length=255, unique=True)  slug = models.SlugField('slug', max_length=255, blank=True, null=True)  jscs = models.TextField('技术参数', blank=True, null=True)  image = models.ImageField(upload_to=products_directory_path, verbose_name="产品图片")  views = models.PositiveIntegerField('浏览量', default=0)  category = models.ForeignKey('ProductsCategory', verbose_name='分类', on_delete=models.CASCADE, blank=True, null=True)  tags = models.ManyToManyField('ProductsTag', verbose_name='标签集合', blank=True)  def save(self, *args, **kwargs):    if not self.id or not self.slug:      self.slug = slugify(self.title)    super().save(*args, **kwargs)  def update_views(self):    self.views += 1    self.save(update_fields=['views'])  def get_pre(self):    return Product.objects.filter(id__lt=self.id).order_by('-id').first()  def get_next(self):    return Product.objects.filter(id__gt=self.id).order_by('id').first()  def __str__(self):    return self.title  class Meta:    verbose_name = "产品"    verbose_name_plural = verbose_nameclass ProductAdvantage(models.Model):  content = models.TextField('产品优势', blank=True, null=True)  product = models.ForeignKey(Product, on_delete=models.CASCADE, blank=True, null=True)  def __str__(self):    return self.content  class Meta:    verbose_name = "产品优势"    verbose_name_plural = verbose_nameclass ProductBody(models.Model):  body = models.CharField('产品内容', max_length=256, blank=True, null=True)  product = models.ForeignKey(Product, on_delete=models.CASCADE, blank=True, null=True)  def __str__(self):    return self.product.title  class Meta:    verbose_name = "产品内容"    verbose_name_plural = verbose_name

2.脚本编写

1编写获取网页源代码函数

def get_one_page(url):  try:    headers = {      "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"}    res = requests.get(url=url, headers=headers)    res.encoding = 'utf-8'    if res.status_code == 200:      return res.text    else:      return None  except Exception:    return None

2根据base页面获取所有产品分类页面链接

if __name__ == '__main__':  content = get_one_page(url)  tree = etree.HTML(content)  # 产品分类url  catgory_urls = tree.xpath('//div[@class="fdh-01-nav"]/div/h4/a/@href')  # 处理catgory_urls  for url in catgory_urls:    url = 'http://www.kexinjianji.com' + url    print(url)

3根据产品分类页面链接获取对应所有产品链接

if __name__ == '__main__':  content = get_one_page(url)  tree = etree.HTML(content)  # 产品分类  catgory = tree.xpath('//div[@class="cplb-3n-ts-03 b"]/h4/span/text()')  print("产品分类:" + catgory[0])  # 该分类下产品url  urls = tree.xpath('//div[@class="cplb-3n-ts-03-list"]/dl/dt/a/@href')  # 处理url  for url in urls:    url = 'http://www.kexinjianji.com' + url    print(url)  print("=====================================================")

两者结合起来就可以打印出所有产品链接

if __name__ == '__main__':  content = get_one_page(url)  tree = etree.HTML(content)  # 产品分类url  catgory_urls = tree.xpath('//div[@class="fdh-01-nav"]/div/h4/a/@href')  # 处理catgory_urls  for url in catgory_urls:    url = 'http://www.kexinjianji.com' + url    content = get_one_page(url)    tree = etree.HTML(content)    # 产品分类    catgory = tree.xpath('//div[@class="cplb-3n-ts-03 b"]/h4/span/text()')    print("产品分类:" + catgory[0])    # 该分类下产品url    urls = tree.xpath('//div[@class="cplb-3n-ts-03-list"]/dl/dt/a/@href')    # 处理url    for url in urls:      url = 'http://www.kexinjianji.com' + url      print(url)    print("=====================================================")

2使用xpath解析函数返回产品链接的内容

if __name__ == '__main__':  content = get_one_page(url)  tree = etree.HTML(content)  # 产品名称  title = tree.xpath('//*[@id="wrap"]//h2/text()')  images = tree.xpath('//div[@class="sol_tj_left"]/a/img/@class="lazy" data-src')  # 产品图片  images_url = 'http://www.kexinjianji.com/' + images[0]  # 性能特点  xntd = tree.xpath('//div[@class="w"]//div/span/text()|//div[@class="w"]//div/text()')  # 技术参数  jscs = tree.xpath('//table')[0]  jscs_str = etree.tostring(jscs, encoding='utf-8').decode('utf-8')  # 产品内容  cpnr = tree.xpath('//div[@class="describe"]/p')  print('产品名称:' + title[0])  print('产品图片:' + images_url)  for td in xntd:    print('性能特点:' + td)  print('技术参数:' + jscs_str)  for cp in cpnr:    # string(.) 获取当前标签下所有文本内容    cp = cp.xpath('string(.)')    print('产品内容:' + cp)  print('============================================')

将三者结合在一起就可以获取所有产品信息

if __name__ == '__main__':  content = get_one_page(url)  tree = etree.HTML(content)  # 产品分类url  catgory_urls = tree.xpath('//div[@class="fdh-01-nav"]/div/h4/a/@href')  # 处理catgory_urls  for url in catgory_urls:    url = 'http://www.kexinjianji.com' + url    content = get_one_page(url)    tree = etree.HTML(content)    # 产品分类    catgory = tree.xpath('//div[@class="cplb-3n-ts-03 b"]/h4/span/text()')    # 该分类下产品url    urls = tree.xpath('//div[@class="cplb-3n-ts-03-list"]/dl/dt/a/@href')    # 处理url    for url in urls:      url = 'http://www.kexinjianji.com' + url      content = get_one_page(url)      try:        tree = etree.HTML(content)        # 产品名称        title = tree.xpath('//*[@id="wrap"]//h2/text()')        images = tree.xpath('//div[@class="sol_tj_left"]/a/img/@class="lazy" data-src')        # 产品图片        images_url = 'http://www.kexinjianji.com' + images[0]        # 性能特点        xntd = tree.xpath('//div[@class="w"]//div/span/text()|//div[@class="w"]//div/text()')        # 技术参数        jscs = tree.xpath('//table')[0]        jscs_str = etree.tostring(jscs, encoding='utf-8').decode('utf-8')        # 产品内容        cpnr = tree.xpath('//div[@class="describe"]/p')        print("产品分类:" + catgory[0])        print('产品链接:' + url)        print('产品名称:' + title[0])        print('产品图片:' + images_url)        for td in xntd:          print('性能特点:' + td.strip())        # print('技术参数:' + jscs_str)        for cp in cpnr:          # string(.) 获取当前标签下所有文本内容          cp = cp.xpath('string(.)')          print('产品内容:' + cp)        print('============================================')      except Exception as e:        print(e)        print('出错url:' + url)        pass

3.存储到django模型

import requestsfrom lxml.html import etreeimport osimport djangoimport uuidfrom django.core.files.base import ContentFileos.environ.setdefault("DJANGO_SETTINGS_MODULE", "jiaobanzhan.settings")django.setup()from products.models import ProductBody, ProductsCategory, Product, ProductAdvantageurl = 'http://www.kexinjianji.com/product/hzshntjbz_1/'def get_one_page(url):  try:    headers = {      "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"}    res = requests.get(url=url, headers=headers, timeout=10)    res.encoding = 'utf-8'    if res.status_code == 200:      return res.text    else:      return None  except Exception:    print('aa')    return Noneif __name__ == '__main__':  content = get_one_page(url)  tree = etree.HTML(content)  # 产品分类url  catgory_urls = tree.xpath('//div[@class="fdh-01-nav"]/div/h4/a/@href')  # 处理catgory_urls  for url in catgory_urls:    url = 'http://www.kexinjianji.com' + url    content = get_one_page(url)    tree = etree.HTML(content)    # 产品分类    p_catgory = tree.xpath('//div[@class="cplb-3n-ts-03 b"]/h4/span/text()')    # 该分类下产品url    urls = tree.xpath('//div[@class="cplb-3n-ts-03-list"]/dl/dt/a/@href')    # 处理url    for url in urls:      url = 'http://www.kexinjianji.com' + url      content = get_one_page(url)      try:        tree = etree.HTML(content)        # 产品名称        title = tree.xpath('//*[@id="wrap"]//h2/text()')        images = tree.xpath('//div[@class="sol_tj_left"]/a/img/@class="lazy" data-src')        # 产品图片        images_url = 'http://www.kexinjianji.com' + images[0]        # 性能特点        xntd = tree.xpath('//div[@class="w"]//div/span/text()|//div[@class="w"]//div/text()')        # 技术参数        jscs = tree.xpath('//table')[0]        jscs_str = etree.tostring(jscs, encoding='utf-8').decode('utf-8')        # 产品内容        cpnr = tree.xpath('//div[@class="describe"]/p')        # 判断是否有这分类,没有则新建        catgory = p_catgory[0]        products_catgory = ProductsCategory.objects.filter(name=catgory).exists()        if products_catgory:          products_catgory = ProductsCategory.objects.get(name=catgory)        else:          products_catgory = ProductsCategory(name=catgory)          products_catgory.save()        print(products_catgory)        # 保存产品图片        image_content = requests.get(url=images_url)        ext = images_url.split('.')[-1] # 获取图片类型        filename = '{}.{}'.format(uuid.uuid4().hex[:8], ext) # 随机生成图片名字        upload_image_file = ContentFile(image_content.content, name=filename) # 将图片保存为django类型        product = Product(title=title[0], jscs=jscs_str, image=upload_image_file, category=products_catgory)        product.save()        for td in xntd:          product_advantage = ProductAdvantage()          product_advantage.content = td          product_advantage.product = product          product_advantage.save()        for cp in cpnr:          cp = cp.xpath('string(.)')          product_body = ProductBody()          product_body.body = cp          product_body.product = product          product_body.save()      except Exception as e:        print(e)        print('出错url:' + url)

最后自己手动处理出错url(页面没有获取到技术参数,技术参数是一张图片)

4.总结

xpath 获取标签内容时,p标签中嵌套span标签,源码如下

<div class="describe" >    <p><span>板  宽:</span>1500mm</p>    <p><span>板  厚:</span>4.5 mm</p>    <p><span>出料口:</span>6口</p>    <p><span>重  量:</span>6000 kg</p></div>

使用xpath获取p标签内容
我想得到的效果如下
板 宽:1500mm
板 厚:4.5 mm
出料口:6口
重 量:6000 kg
使用以下xpath 只能分开获取,不是想要的效果

//div[@class="describe"]/p/span/text()|//div[@class="describe"]/p/text()

百度之后找到的解决办法,使用xpath(‘string(.)')
1.先获取所有p标签

cpnr = tree.xpath('//div[@class="describe"]/p')

使用**string(.)**获取所有标签所有文本

cp = cp.xpath('string(.)')

以上就是怎么在python中使用xpath爬取网上数据,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注编程网行业资讯频道。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

怎么在python中使用xpath爬取网上数据

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

怎么在python中使用xpath爬取网上数据

本篇文章给大家分享的是有关怎么在python中使用xpath爬取网上数据,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。1.设计数据库from django.db import
2023-06-06

python中怎么使用XPath爬取小说

这篇文章将为大家详细讲解有关python中怎么使用XPath爬取小说,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,专注的是解决
2023-06-14

python如何使用XPath解析数据爬取起点小说网数据

小编给大家分享一下python如何使用XPath解析数据爬取起点小说网数据,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!python的数据类型有哪些?python
2023-06-14

怎么使用python爬虫爬取数据

本篇内容介绍了“怎么使用python爬虫爬取数据”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!python爬出六部曲第一步:安装reques
2023-06-29

使用 Python 爬取网页数据

1. 使用 urllib.request 获取网页urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 HTML 解析库, 可以编写出用于采集网络
2023-01-31

怎么用python爬取网站数据

正文一、工具准备Python库:requests、BeautifulSoup4、lxml开发环境:Python3.x、IDE二、步骤详解发送HTTP请求,解析HTML响应提取数据,处理数据解决常见问题:受限网站、复杂结构、动态页面、封禁三、高级技巧多线程爬取、数据库存储分布式爬取、云服务四、应用场景价格比较、新闻聚合社交媒体分析、电子邮件营销搜索引擎优化
怎么用python爬取网站数据
2024-04-13

使用python怎么爬取数据

使用python怎么爬取数据?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。Python的优点有哪些1、简单易用,与C/C++、Java、C# 等传统语言相比,P
2023-06-14

怎么用python爬取网站数据

要用Python爬取网站数据,可以使用Python的爬虫库来实现。下面是一个简单的示例,使用`requests`库来获取网页内容,使用`BeautifulSoup`库来解析网页。首先,需要先安装`requests`和`beautifulso
2023-09-07

怎么在Django中使用Scrapy爬取数据

怎么在Django中使用Scrapy爬取数据?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。在django项目根目录位置创建scrapy项目,django_12是django
2023-06-14

怎么在python中利用Selenium+Requests爬取数据

本篇文章给大家分享的是有关怎么在python中利用Selenium+Requests爬取数据,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。python的数据类型有哪些?pyth
2023-06-14

怎么用Python爬取数据

这篇文章主要介绍“怎么用Python爬取数据”,在日常操作中,相信很多人在怎么用Python爬取数据问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用Python爬取数据”的疑惑有所帮助!接下来,请跟着小编
2023-06-16

怎么使用python爬虫爬取二手房数据

这篇文章主要介绍怎么使用python爬虫爬取二手房数据,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!python的数据类型有哪些?python的数据类型:1. 数字类型,包括int(整型)、long(长整型)和flo
2023-06-14

Python实战使用Selenium爬取网页数据

这篇文章主要为大家介绍了Python实战使用Selenium爬取网页数据示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步早日升职加薪
2023-05-18

怎么使用pycharm爬取数据

要使用PyCharm爬取数据,可以按照以下步骤进行操作:1. 创建一个新的PyCharm项目:打开PyCharm,点击“Create New Project”或者选择“File” -> “New Project”,然后设置项目名称和路径。2
2023-08-17

Python中怎么爬取音频数据

本篇文章为大家展示了Python中怎么爬取音频数据,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。 分析频道3.下面就是开始获取每个频道中的全部音频数据了,前面通过解析页面获取到了美国频道的链接。比
2023-06-17

Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据

这篇文章主要介绍了Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Python爬虫之怎么使用BeautifulSoup和Reque
2023-07-05

使用python怎么爬取谷歌趋势数据

本篇文章为大家展示了使用python怎么爬取谷歌趋势数据,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。python有哪些常用库python常用的库:1.requesuts;2.scrapy;3.pi
2023-06-14

怎么使用python爬取网页图片

本篇内容介绍了“怎么使用python爬取网页图片”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!在现在这个信息爆炸的时代,要想高效的获取数据,
2023-07-02

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录