我的编程空间,编程开发者的网络收藏夹
学习永远不晚

jspXCMS用户采集管理的方法是什么

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

jspXCMS用户采集管理的方法是什么

这篇文章主要介绍了jspXCMS用户采集管理的方法是什么的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇jspXCMS用户采集管理的方法是什么文章都会有所收获,下面我们一起来看看吧。

采集可以把其它网站的文章、新闻采集到自己系统里。旧系统迁移到新系统时,也可以用采集将旧系统的数据采集到新系统里。

系统自带了一些网站采集规则,但如果相关网站版面进行了改动,有可能导致无法正确采集。

原理

采集主要分析两种类型的页面:栏目列表页和文章详细页。网站的文章一般都是以栏目的方式分类,先找到要采集的栏目列表页,分析页面源代码找到其中的文章列表代码,再解析出文章的URL地址;然后分析文章详细页源代码,解析出标题、发布日期、正文等数据。

如何查看网页的HTML源代码

在浏览器的页面空白处中点击右键(不要在图片或文字上点右键),会弹出菜单(个别网站会屏蔽右键),点击菜单中的“查看页面源代码”(各浏览器的名称会稍有不同),会显示该网页HTML的源代码。

采集列表

点击后台功能导航“生成”-“采集管理”,进入采集列表页面。

jspXCMS用户采集管理的方法是什么

采集新增

在“采集管理-列表”页面点击“新增”。

jspXCMS用户采集管理的方法是什么

进入采集新增页面。

jspXCMS用户采集管理的方法是什么

名称:采集的名称。

保存到栏目:采集的数据保存到哪个栏目。

页面编码:采集的页面的编码。通常为UTF-8或GBK。如果编码设置不正确,会出现乱码。查看要采集的页面的源代码可以确认编码格式,如:<meta http-equiv="Content-type" content="text/html; charset=utf-8" />。如果页面显示的编码为GB2312,也可以设置为GBK,因为GBK包含GB2312。

是否提交:“否”则采集到的数据为“采集”状态,需要审核后才会显示在网站上;“是”则作为采集用户提交的数据,如果采集用户拥有终审权限,采集到的数据为“已发布”状态,会直接显示在网站上。

间隔时间:采集上一条数据到下一条数据的间隔时间,取最小到最大之间的随机数。部分网站会屏蔽访问频繁的请求,在采集数据时随机间隔一段时间可以模拟正常用户浏览网站的行为。

用户代理:User Agent,模拟浏览器访问的User Agent信息,通常默认为“Mozilla/5.0”就可以。浏览器访问网站时,会带有User Agent信息,里面包含浏览器版本、操作系统版本等信息。有些网站会根据User Agent信息判断是正常用户浏览还是机器爬虫访问,如果是机器爬虫访问网站,网站有可能拒绝访问或者返回不同的页面。如果碰上此类问题,可以设置一个更像浏览器访问的User Agent。

列表地址:采集的列表页地址。可以填写多条,一行一条。可以使用占位符(*),将会被替换成“页数”,比如:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_(*).shtml,页数为2到10,则相当于http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_3.shtml … http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_10.shtml。

倒序采集:如果页数为2到10,则从第10页开始采集。

文章URL地址:从栏目列表页中解析出文章详细页的地址。区域HTML,在列表页选定文章列表的区域;条目HTML,从区域HTML中选取文章详细页的URL地址。是否正则表达式:是否通过正则表达式匹配。

文章URL地址设置

设置好“列表地址”后,在“文章URL地址”处点击“设置”,可以进入设置页面。设置页面可以测试匹配规则,验证匹配规则是否正确。

jspXCMS用户采集管理的方法是什么

这里出现了一些乱码,这是由于新浪网的列表页编码(GB2312)和详细页编码(UTF-8)不一样导致的,因为采集的内容主要在详细页,所以采用了UTF-8作为采集的页面编码,这里并不影响采集效果。同一网站的列表页和详细页编码不一样的情况非常少见,可能正在改版,只改了一半,另一半还没来得及改。

URL地址集:顶部下拉框里显示的是采集新增页面“列表页地址”的URL地址集。如果每个列表页不完全相同时,可以选择不同的页面,以验证匹配规则是否通用。

HTML源代码:左边区域是要采集的栏目列表页的HTML源代码,点击“获取”可以重新加载当前URL地址的HTML源代码。

区域HTML:先匹配列表页的详细页列表区域。(*)是占位符,代表被匹配的内容。匹配规则对空格和换行是敏感的,利用这点可以更好的达到匹配效果。设置好匹配规则后,点击“匹配”,左侧“HTML源代码”会显示匹配结果,如果没有达到效果,可以点“获取”,修改匹配规则,重新匹配。对于复杂页面,可以勾选“是否正则表达式”,适用java正则表达式。

jspXCMS用户采集管理的方法是什么

条目HTML:确定了区域HTML,点击区域HTML的“匹配”按钮,左侧“HTML源代码”显示匹配结果,然后设置条目HTML匹配规则,点击“匹配”,从区域HTML中匹配结果中,匹配详细页的URL。(*)是占位符,代表被匹配的内容。此时可以看到详细页的URL地址显示在左侧“HTML源代码”中,代表匹配规则设置成功,点击“确定”按钮,设置的内容会回写到采集新增页面。

jspXCMS用户采集管理的方法是什么

正则表达式匹配

对于复杂的页面,占位符(*)方式可能无法达到匹配效果,这时可以使用无所不能的正则表达式。勾选“是否正则表达式”就可以开启正则表达式模式,正则表达式通过括号()匹配。

由于html中包含换行,不能直接用.匹配任意字符,而要用[\d\D]匹配任意字符。

  • <ul class="list_009">(*)<\/ul>改为正则表达式为<ul class="list_009">([\d\D]*?)<\/ul>

  • <li><a href="(*)" target="_blank">改为正则表达式为<li><a href="([\d\D]*?)" target="_blank">

采集字段列表

采集新增定义了要采集的列表页,并解析列表页的详细页URL地址,采集字段则是解析详细页的标题、发布日期、正文等内容。

“采集新增”保存之后,点击“字段列表”。

jspXCMS用户采集管理的方法是什么

进入“采集字段列表”页面。此时没有设置任何字段,列表中没有数据。

jspXCMS用户采集管理的方法是什么

采集字段新增

“采集管理-字段列表”页面点击“字段新增”。

jspXCMS用户采集管理的方法是什么

进入采集字段新增页面。

jspXCMS用户采集管理的方法是什么

这里显示的字段和文档模型相关。不必新增所有字段,常用的字段有标题、正文、发布时间。勾选需要的新增字段,点击“保存”。

jspXCMS用户采集管理的方法是什么

采集字段设置

“发布日期”可以设置日期格式(Java的日期格式化规则),要和采集到的日期数据格式一致。如:2016-03-24 13:41:58则日期格式为yyyy-MM-dd HH:mm:ss,2016年03月24日23:14则日期格式为yyyy年MM月dd日HH:mm。

点击字段的“设置”按钮,进入设置页面。

jspXCMS用户采集管理的方法是什么

过滤表达式:支持Java正则表达式,在匹配结果的基础上,删除一些不必要的数据,比如广告之类的。

采集开始与停止

设置好采集规则并保存后,在“采集管理-列表”页面点击“开始”。采集结束后,会自动停止,如果在采集过程中,要强制停止采集,可以点击“停止”按钮。

jspXCMS用户采集管理的方法是什么

查看采集结果

在后台“文档”管理中,可以查看到采集的结果。由于采集需要时间,采集到的数据会逐步增加,而不是瞬间采集到所有数据。

文档列表默认按发布日期排序,如果采集的数据的发布日期比较早,就有可能不会出现在文档列表的第一页,而是在后面几页。

如果采集中的“是否提交”设置为“否”,可点击“文档列表”页面的“采集”选项卡查看。

关于“jspXCMS用户采集管理的方法是什么”这篇文章的内容就介绍到这里,感谢各位的阅读!相信大家对“jspXCMS用户采集管理的方法是什么”知识都有一定的了解,大家如果还想学习更多知识,欢迎关注编程网行业资讯频道。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

jspXCMS用户采集管理的方法是什么

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

jspXCMS用户采集管理的方法是什么

这篇文章主要介绍了jspXCMS用户采集管理的方法是什么的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇jspXCMS用户采集管理的方法是什么文章都会有所收获,下面我们一起来看看吧。采集可以把其它网站的文章、新闻
2023-06-26

jspXCMS模型管理的方法是什么

这篇文章主要介绍“jspXCMS模型管理的方法是什么”,在日常操作中,相信很多人在jspXCMS模型管理的方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”jspXCMS模型管理的方法是什么”的疑惑有所
2023-06-26

jspXCMS文档管理的方法是什么

本篇内容介绍了“jspXCMS文档管理的方法是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!文档是一个网站最主要的数据。可以通过模型定义
2023-06-26

jspXCMS站点管理的方法是什么

这篇文章主要介绍“jspXCMS站点管理的方法是什么”,在日常操作中,相信很多人在jspXCMS站点管理的方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”jspXCMS站点管理的方法是什么”的疑惑有所
2023-06-26

jspXCMS栏目管理的方法是什么

本篇内容介绍了“jspXCMS栏目管理的方法是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!栏目是网站最核心的概念之一。设置制作一个网站
2023-06-26

skywalking日志采集的方法是什么

Skywalking是一个开源的分布式系统追踪工具,可以用于监控分布式系统的运行情况,并进行性能分析。日志采集是Skywalking进行监控的一个重要环节,通过收集和分析系统运行中产生的日志信息,可以更好地了解系统的运行状态和性能表现。S
skywalking日志采集的方法是什么
2024-03-15

java用户日志管理的方法是什么

Java用户日志管理的方法有多种,以下是其中几种常用的方法:1. 使用Java内置的日志管理框架 - Java提供了一个标准的日志框架java.util.logging(JUL),它是Java平台的一部分。可以使用该框架来记录和管理日志信息
2023-08-30

docker集群管理的方法是什么

Docker集群管理的方法有多种,以下是其中一些常用的方法:1. Docker Swarm:Docker Swarm是Docker官方提供的原生集群管理工具,它可以将多个Docker主机组成一个集群,并提供高可用、负载均衡、服务发现等功能。
2023-09-20

Jspxcms分页的方法是什么

本篇内容介绍了“Jspxcms分页的方法是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!使用方式:只需将分页代码用include 标签包
2023-06-26

python网站数据采集的方法是什么

Python网站数据采集方法Python提供丰富库和工具,可从网站提取数据。常见方法包括:BeautifulSoup:解析HTML/XML文档,提取指定数据。Selenium:模拟浏览器行为,通过WebDriver界面交互和提取数据。Requests:发送HTTP请求,获取响应内容并解析数据。Scrapy:自动处理页面导航、数据提取和存储的爬虫框架。Lxml:高效轻量级的XML/HTML解析库。
python网站数据采集的方法是什么
2024-04-10

Ubuntu采用的包管理工具是什么

Ubuntu采用的包管理工具是APT(Advanced Package Tool)。APT是一个用于管理软件包的工具,可以帮助用户安装、更新和卸载软件包。通过APT,用户可以轻松地从Ubuntu软件仓库中下载并安装各种软件包。APT还提供了
Ubuntu采用的包管理工具是什么
2024-03-13

Zookeeper的配置与集群管理方法是什么

这篇文章主要讲解了“Zookeeper的配置与集群管理方法是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Zookeeper的配置与集群管理方法是什么”吧!4.1 配置文件ZooKeep
2023-06-04

hadoop集群节点ip管理的方法是什么

Hadoop集群节点的IP地址可以通过以下几种方法进行管理:静态配置:管理员可以手动在Hadoop集群的配置文件中指定每个节点的IP地址。这种方法适用于固定数量的节点,IP地址不经常变化的情况。动态配置:使用动态主机配置协议(DHCP)或类
hadoop集群节点ip管理的方法是什么
2024-03-14

Langchain集成管理prompt功能的方法是什么

本篇内容介绍了“Langchain集成管理prompt功能的方法是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!LangChain是什么
2023-07-05

数据采集中代理ip的作用是什么

本篇内容介绍了“数据采集中代理ip的作用是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!现在很多人每天的工作都要和网络打交道。网络爬虫是
2023-06-20

Zookeeper集群管理与选举方法是什么

这篇文章主要讲解了“Zookeeper集群管理与选举方法是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Zookeeper集群管理与选举方法是什么”吧!  1.集群机器监控  这通常用于
2023-06-02

python串口数据采集并保存的方法是什么

在Python中,可以使用pyserial库来进行串口数据采集和保存。以下是一个示例代码,演示了如何使用pyserial库来读取串口数据并将其保存到文件中:import serial# 打开串口ser = serial.Serial('
2023-10-27

HBase中集群监控和管理的方法是什么

HBase中集群监控和管理的方法主要包括以下几种:HBase自带的Web界面:HBase提供了一个内置的Web界面,可以通过浏览器访问并查看集群的状态、性能指标、表信息等。Hadoop的Web界面:HBase是构建在Hadoop之上的,可以
HBase中集群监控和管理的方法是什么
2024-03-11

erp中采购管理的流程是什么

ERP采购管理流程通常包括以下步骤:一、采购需求的产生;二、采购计划的编制;三、询价和比价;四、采购订单的下达;五、采购合同的签订;六、采购物品的验收;七、付款和结算。由于生产需要或库存不足,需要采购部门根据生产计划或库存情况提出采购需求。
erp中采购管理的流程是什么
2023-10-29

ADO管理的方法是什么

这篇文章主要介绍“ADO管理的方法是什么”,在日常操作中,相信很多人在ADO管理的方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”ADO管理的方法是什么”的疑惑有所帮助!接下来,请跟着小编一起来学习吧
2023-06-17

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录