我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python爬虫如何获取数据并保存到数据库中

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python爬虫如何获取数据并保存到数据库中

本篇内容主要讲解“Python爬虫如何获取数据并保存到数据库中”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python爬虫如何获取数据并保存到数据库中”吧!

    1.简介介绍

    -网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
    -一般在浏览器上可以获取到的,通过爬虫也可以获取到,常见的爬虫语言有PHP,JAVA,C#,C++,Python,为啥我们经常听到说的都是Python爬虫,这是因为python爬虫比较简单,功能比较齐全。

    2.Xpath获取页面信息

    通过Xpath进行爬虫就是获取到页面html后通过路径的表达式来选取标签节点,沿着路径选取需要爬取的数据。

    Xpath常用表达式:

    表达式描述
    /从根节点选取(取子节点)
    //选择的当前节点选择文档中的节点
    .选取当前节点。
    …选取当前节点的父节点。
    @选取属性
    *表示任意内容(通配符)
    |运算符可以选取多个路径

    Xpath常用函数:

    函数用法解释
    startswith()xpath(‘//div[starts-with(@id,”celent”)]‘)#选取id值以celent开头的div节点
    contains()xpath(‘//div[contains(@id,”celent”)]‘)#选取id值包含celent的div节点
    and()xpath(‘//div[contains(@id,”celent”) and contains(@id,”in”)]‘)#选取id值包含celent的div节点
    text()_.xpath(’./div/div[4]/a/em/text()’)#选取em标签下文本内容

    Xpath实操解析:

    # 案例1# //为从当前html中选取节点;[@class="c1text1"]为获取所有的class为c1text1的节点;/h2[1]为选取的节点下的第一个h2节点,如果没有[1]则是获取所有的,可以通过循环进行获取数据etreeHtml.xpath('//*[@class="c1text1"]/h2[1]/text()')# 案例2#//为从当前html中选取节点;[@class="c1text1"]为获取所有的class为c1text1的节点;/a为获取当前节点下的所有a标签节点,得到一个ObjectList;通过for循环获取里面每个标签数据,./@class="lazy" data-src为获取当前节点的class="lazy" data-src属性值etreeHtml2 = etreeHtml.xpath('//*[@class="c1text1"]/a')for _ in etreeHtml2: etreeHtml.xpath(./@class="lazy" data-src)

    3.通过Xpath爬虫实操

    3-1.获取xpath

    通过F12打开开发者模式,点击左上角图标可参考下图,选择需要爬取数据的容器,在右边选择复制选择xpath就可以得到xpath路径了(//*[@id=“userSkin”]/div[2]/div/div[2]/div[1]/div[2]/div/div);

    Python爬虫如何获取数据并保存到数据库中

    完整代码展示:

    # 导入需要的库import requestsfrom lxml import etreeimport pymysql# 文章详情信息类class articleData():    def __init__(self, title, abstract, path,date):        self.title = title #文章名称        self.abstract = abstract #文章摘要        self.path = path #文章路径        self.date = date #发布时间    def to_string(self):        print("文章名称:"+self.title              +";文章摘要:"+self.abstract              +";文章路径:"+self.path              +";发布时间:"+self.date)#保存狗狗详情数据#保存数据def saveData(DataObject):    count = pymysql.connect(        host='xx.xx.xx.xx',  # 数据库地址        port=3306,  # 数据库端口        user='xxxxx',  # 数据库账号        password='xxxxxx',  # 数据库密码        db='xxxxxxx'  # 数据库名    )    # 创建数据库对象    db = count.cursor()    # 写入sql    # print("写入数据:"+DataObject.to_string())    sql = f"insert into article_detail(title,abstract,alias,path,date) " \          f"values ('{DataObject.title}','{DataObject.abstract}','{DataObject.path}','{DataObject.date}')"    # 执行sql    print(sql)    db.execute(sql)    # 保存修改内容    count.commit()    db.close()# 爬取数据的方向def getWebData():    # 网站页面路径    url = "https://blog.csdn.net/BadBoyxiaolin?spm=1000.2115.3001.5343"    # 请求头,模拟浏览器请求    header = {        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36"    }    # 获取页面所有节点代码    html = requests.get(url=url, headers=header)    # 打印页面代码查看    # print(html.text)    # 如果乱码可以设置编码格式    # html.encoding = 'gb2312'    # 通过xpath获取数据对应节点    etreeHtml = etree.HTML(html.text)    dataHtml = etreeHtml.xpath('//*[@class="mainContent"]/div/div/div')    # 循环获取数据    for _ in dataHtml:        # ''.join()是将内容转换为字符串可以后面接replace数据进行处理        title = ''.join(_.xpath('./article/a/div[1]/h5/text()'))#文章标题        abstract = ''.join(_.xpath('./article/a/div[2]/text()'))#文章摘要        path = ''.join(_.xpath('./article/a/@href'))#文章路径        date = ''.join(_.xpath('./article/a/div[3]/div/div[2]/text()')).replace(' ','').replace('·','').replace('发布博客','')#发布时间        #初始化文章类数据        article_data = articleData(title,abstract,path,date)        article_data.to_string() #打印数据看看是否对        #保存数据到数据库        # saveData(article_data)if __name__ == "__main__":    getWebData()

    到此,相信大家对“Python爬虫如何获取数据并保存到数据库中”有了更深的了解,不妨来实际操作一番吧!这里是编程网网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

    免责声明:

    ① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

    ② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

    Python爬虫如何获取数据并保存到数据库中

    下载Word文档到电脑,方便收藏和打印~

    下载Word文档

    猜你喜欢

    Python爬虫如何获取数据并保存到数据库中

    本篇内容主要讲解“Python爬虫如何获取数据并保存到数据库中”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python爬虫如何获取数据并保存到数据库中”吧!1.简介介绍-网络爬虫(又称为网页蜘
    2023-07-02

    python怎么爬取数据保存到数据库

    要将爬取的数据保存到数据库,可以使用Python的数据库模块(如SQLite、MySQL、MongoDB等)将数据插入到数据库中。以下是一个使用SQLite数据库保存爬取数据的示例:首先,需要安装sqlite3模块。可以使用以下命令进行安装
    2023-09-08

    python爬虫如何获取数据

    使用Python爬虫获取数据可以分为以下几个步骤:导入所需的库:通常情况下,使用requests库发送HTTP请求获取网页内容,使用beautifulsoup4库解析网页内容。import requestsfrom bs4 import
    python爬虫如何获取数据
    2024-02-29

    将爬取的数据保存到mysql中

    为了把数据保存到mysql费了很多周折,早上再来折腾,终于折腾好了安装数据库1、pip install pymysql(根据版本来装)2、创建数据      打开终端 键入mysql -u root -p  回车输入密码      crea
    2023-01-30

    Python 爬虫 招聘信息并存入数据库

    新学习了selenium,啪一下腾讯招聘  1 from lxml import etree 2 from selenium import webdriver 3 import pymysql 4 def Geturl(fullurl):#
    2023-01-30

    Python网络爬虫之如何获取网络数据

    本篇内容介绍了“Python网络爬虫之如何获取网络数据”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!使用 Python 获取网络数据使用 P
    2023-07-06

    bs4爬虫实战三:获取电影信息并存入mysql数据库

    目标分析这次爬虫的目标网站是:http://dianying.2345.com,爬虫的搜索目标仅限于今年的电影,在网站打开搜索,在年代中选择2018 获取页面的过程在页面的下方单击"下一页",发现URL变成了http://dianying.
    2023-01-30

    怎么用Scrapy爬虫框架爬取食品论坛数据并存入数据库

    这篇文章主要介绍“怎么用Scrapy爬虫框架爬取食品论坛数据并存入数据库”,在日常操作中,相信很多人在怎么用Scrapy爬虫框架爬取食品论坛数据并存入数据库问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用
    2023-06-17

    Python如何爬取51cto数据并存入MySQL

    实验环境 1.安装Python 3.72.安装requests, bs4,pymysql 模块实验步骤1.安装环境及模块 可参考https://www.jb51.net/article/194104.htm 2.编写代码# 51cto 博客
    2022-05-27

    Java如何使用jxl读取excel并保存到数据库

    小编给大家分享一下Java如何使用jxl读取excel并保存到数据库,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!项目中涉及到读取excel中的数据,保存到数据库
    2023-05-31

    python爬虫如何爬取微博粉丝数据

    这篇文章主要介绍了python爬虫如何爬取微博粉丝数据,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python可以做什么Python是一种编程语言,内置了许多有效的工具,P
    2023-06-14

    php如何上传图片并保存到数据库

    要上传图片并保存到数据库,需要先创建一个表来存储图片的相关信息,包括图片的文件名、文件类型、文件大小等。然后使用PHP的文件上传功能将图片上传到服务器,并将上传的图片信息保存到数据库中。以下是一个简单的示例代码:1. 创建一个名为`imag
    2023-10-11

    Python爬取彩票双色球并存到把数据e

    环境:python3目的:爬取15年的双色球开奖号以及期数和开奖日期:上代码#!/usr/bin/env python3#-*-coding:utf-8-*-# @Author  : 杜文涛# @Time    : 2018/4/19 16
    2023-01-31

    编程热搜

    • Python 学习之路 - Python
      一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
      Python 学习之路 - Python
    • chatgpt的中文全称是什么
      chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
      chatgpt的中文全称是什么
    • C/C++中extern函数使用详解
    • C/C++可变参数的使用
      可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
      C/C++可变参数的使用
    • css样式文件该放在哪里
    • php中数组下标必须是连续的吗
    • Python 3 教程
      Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
      Python 3 教程
    • Python pip包管理
      一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
      Python pip包管理
    • ubuntu如何重新编译内核
    • 改善Java代码之慎用java动态编译

    目录