我的编程空间,编程开发者的网络收藏夹
学习永远不晚
位置:首页-资讯-开源

08CMS v3.4 版本采集系统使用教程

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

08CMS v3.4 版本采集系统使用教程

虽然现在坛子里人气不咋滴,有不少提问贴没有解决,但是这些都会过去,G大说再进行一轮开发之后就将进入市场推广了,也就意味着官方不会再一味的闭门开发

这个所谓的 “再一轮开发”或许就是指V3.5版本吧,GBK编码版本已经发布了,再出UTF8的就应该算是完成了吧,具体还看官方的日程安排了

这个教程版的版主也当了不短的一段时间了,最郁闷的事就是老看见人在那吼:不会用啊,文档太少了……云云。汗颜哪,貌似有点占着茅坑不拉屎的嫌疑

这也不能全怪我啊,我也很想吼一句:G大你丫也太低调了点吧,让不让人活了,自己不出来也就算了,多少给个日程表,俺也好有个方向啊,瞎子走路还有盲棍探路呢,好歹给老娘指条路啊

---------------- 美丽分割线 ----------------

抱怨到这里结束吧,上正题

08cms采集系统的使用说明

因为08CMS架构上的特殊性,目前市面上还没有完美支持的外部采集器提供(我没看到,有知道的分享下哈)

单篇采集一般的采集器都能应付,问题主要出在合辑的采集

不过即使有我也会选择系统自带的采集器,毕竟合适的才是最好的,系统自带的采集器明显是量身定做的

个人感觉,即使目前系统自带的采集器还有不少不足,但是也不是一般的采集器能替代的,契合度上的先天优势哈

下面开始介绍08CMS内置的采集系统

第一、登陆后台进入采集管理

[attach]1646[/attach]

那些个什么怎么登陆后台,点击先后顺序就别问我了哈

第二、第一次使用采集系统,系统会要求添加采集模型

所谓采集模型,就是搭建采集的框架,设定需要采集的字段以及采集到的内容添加至哪个文档模型

这里的设置有个让人小郁闷的地方,只要填写模型名称就可以建立模型

相关设置得在建立之后才能编辑,个人觉得在建立模型中设置采集模型相关参数比较靠谱

2.jpg

第三步、编辑采集模型

请看图解:

图一、编辑模型

4.jpg

图二、

模型编辑界面

3.jpg

到这里,采集模型的添加完成了

下面开始添加采集任务

第四步、采集任务的添加

5.jpg

下面是采集任务界面图解,请仔细阅读图中注释

第六步、重头戏开始了,采集规则的设置

首先分析采集目标页的代码结构,这里以IE浏览器为例

查看采集目标页,点击IE的

页面 ---- 查看源文件

很简单就能看到目标页面的代码结构

采集页面的代码分析,主要是找采集目标的特征

页面太大这里不好拿上来解析,上图解释网址采集界面相关规则的设置

7.jpg

点击提交保存这里的设置

我很奇怪为什么不直接跳到下一步内容采集而是提交之后回到这个页面

在这个截图页面的下面还有一部分,称之为追溯网址规则

这个不是非必填项,一般不用

而且这个只能得到一个网址,而不是网址列表,个人感觉有点鸡肋,附上官方的解释

追溯网址:内容网址的一种延伸。有部分被采集文档,个别字段的内容不在主内容页,而是在附加页面,特别是有关附件的内容,追溯网址用于采集其附加页面网址,每个内容网址可追溯两级附加页面,追溯网址2是在追溯网址1的基础上采集的。

追溯概念举例:我们去下载站的时候,往往点进去的页面只有软件信息说明和一个或多个进入下载页面的链接

注意:这里是进入下载页面的链接,而不是下载地址。当我们要下载该软件的时候要先打开这个下载页面才能看到下载地址

这里就是一级追溯,因为我们要再点一次才能到达下载页面。这时我们的1级追溯地址就是那个进入下载页面的链接

接下来是内容页的规则

同样用图来解析,本处只选用一个字段的规则设置为例,其他字段基本类同

8.jpg

入库参数设置

9.jpg

如果是非合辑也就是单文档采集,那么规则到此就设置结束了

经过测试没问题即可进行采集

如果你有足够的信心,完全可以不用测试直接采集哦

如果是合辑的采集,比如小说,那么采集的设置还只进行到一半哦

合辑的采集还需要设置子任务的的规则

如图:

10.jpg

子任务在父任务下方,而且任务名称前有缩进

子任务的规则设置跟父任务的规则设置基本相同,不赘述了

理论上采集到这里就结束了,开始愉快的采集之旅吧,个人感觉还是蛮有快感的

采集,你可以自己按照网址、内容、入库一步步来

直接 一键 采集就更干脆了

不过这里有个让人吐血的问题

采集任务除非是合辑采集中的父任务跟子任务

不然你就得一个个任务一键过去,不让排队。。。。

虽然有不少地方有不足,不过总体上来说采集体验还是良好的

教程就到这里结束了,有什么不明白的可以跟帖提出

2.jpg

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

08CMS v3.4 版本采集系统使用教程

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

08CMS v3.4 版本采集系统使用教程

虽然现在坛子里人气不咋滴,有不少提问贴没有解决,但是这些都会过去,G大说再进行一轮开发之后就将进入市场推广了,也就意味着官方不编程客栈会再一味的闭门开发这个所谓的 “再一轮开发”或许就是指V3.5版本吧,GBK编码版
2022-06-12

使用shell脚本采集系统cpu、内存、磁盘、网络等信息

一、cpu信息采集 1).采集cpu使用率 采集算法:通过/proc/stat文件采集并计算CPU总使用率或者单个核使用率。以cpu0为例,算法如下:1. cat /proc/stat | grep ‘cpu0'得到cpu0的信息2. cp
2022-06-04

怎么使用shell脚本采集系统cpu、内存、磁盘、网络等信息

这篇文章主要介绍“怎么使用shell脚本采集系统cpu、内存、磁盘、网络等信息”,在日常操作中,相信很多人在怎么使用shell脚本采集系统cpu、内存、磁盘、网络等信息问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家
2023-06-09

LINUX系统笔记本电脑用U盘装装原版Win7系统(图文教程)

linux笔记本安装Win7系统共分为步骤如下:  第一:制作一个可以支持U盘启动的Win7PE启动盘  第二:在笔记本里设置U盘启动  第三:进入PE并对硬盘分区  第四:用虚拟光驱加载Win7的镜像  第五:安装Win7  那就是等待系
2023-05-26

新版ubuntu20.04 使用root用户登录系统的详细教程

ubuntu20.04 默认是没有开启root登录的,这在我们桌面操作和配置文件的时候很不方便,于是这里教大家用root直接登录桌面,这样操作系统起来非常方便 一:设置root用户密码 在桌面上右键鼠标选择Open in Termi
2022-06-04

Windows系统安装配置MySQL5.6教程 解压版免安装直接使用

首先去MySQL官网下载压缩包MySQL 官方网站地址:MySQL http://www.mysql.com/依次找到 Downloads -> Community -> MySQL Community Downloads -> MySQL Community
Windows系统安装配置MySQL5.6教程 解压版免安装直接使用
2021-09-23

2024下半年软考系统集成项目管理工程师考试教材用第几版?

2024年下半年软考系统集成项目管理工程师考试教材使用的是第3版。这一版本的教材是由全国计算机专业技术资格考试办公室组织专家重新编写的,旨在更好地适应当前行业的需求和考试要求。具体请见下文。
2024下半年软考系统集成项目管理工程师考试教材用第几版?
2024-09-08

Win7旗舰版使用系统自带功能找回删除的文件教程

这Shift+Del用惯php了的代价,怎么办?小编最终因祸得福,找回了文件,还能给大家分享删除的文件找回教程。如果你是正版Win7旗舰版,也有这样的烦恼,就看下文吧。 作为一个IT小编,随时随地都会冒着电脑被当python机的风险为大家
2023-06-06

Ubuntu系统中Git客户端的安装与基本命令的使用教程

这篇文章主要介绍“Ubuntu系统中Git客户端的安装与基本命令的使用教程”,在日常操作中,相信很多人在Ubuntu系统中Git客户端的安装与基本命令的使用教程问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”U
2023-06-13

Windows系统安装配置MySQL5.6教程 超简单 解压版免安装直接使用

首先去MySQL官网下载压缩包MySQL 官方网站地址:MySQL http://www.mysql.com/依次找到 Downloads -> Community -> MySQL Community Downloads -> MySQL Community
Windows系统安装配置MySQL5.6教程 超简单 解压版免安装直接使用
2021-05-28

编程热搜

  • wordpress错位如何解决
    这篇文章主要介绍“wordpress错位如何解决”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“wordpress错位如何解决”文章能帮助大家解决问题。wordpress
    wordpress错位如何解决
  • 帝国cms调用栏目别名的修改步骤
    请留意下面的修改方法 修改后栏目别名使用 !--bname--] 调用 打开e/class/t_functions.php搜索定位到带模板的栏目导航标签修改1复制代码代码如下://替换变量$bclassname=$class_r[$clas
    帝国cms调用栏目别名的修改步骤
  • 动易Cms MAC验证视图失败的解决方法
    “/”应用程序中的服务器错误。 -------------------------------------------------------------------------------- 验证视图状态 MAC
    动易Cms  MAC验证视图失败的解决方法
  • DEDECMS如何支持中文水印
    DEDECMS如何支持中文水印?修改/include/inc_photograph.php,在165行处加这行代码:$w_text = iconv("GB2312","UTF-8",$w_text);OK,现在可以用中文做水印了,但默认的字体大小是5,中文字体
    DEDECMS如何支持中文水印
  • 快速了解Discuz!程序文件功能
    相信有不少人热衷于基于修改原有系统文件所做的插件,当然了解程序文件功能是最重要的,下面我把Discuz! X2.0主要的程序文件功能说一下。Tips:Q:针对说明的文件是?A:我只基于原版文件对upload目录中基本的程序文件(php,ht
    快速了解Discuz!程序文件功能
  • DedeCMS编辑器fck更换成eWebEditor编辑器具体步骤
    将eWebEditor编辑器插入DEDE后台的效果: 完全Word在线编辑的功能,让你从此摆脱发可编辑器卡得死,进入流畅干净编辑界面新时代。 下面是具体步骤: 首先,你要知道eWebEditor是一个什么工具。 eWebEditor是由国
    DedeCMS编辑器fck更换成eWebEditor编辑器具体步骤
  • 允许 WordPress 上传任意文件的方法
    此时如果上传一个不在预定义编程客栈的安全扩展名列表,如.lrc,会报kAtKhHRl错: F编程客栈ile type does not meet security guidelines. Try another. 解决此问题有两方法: 在
    允许 WordPress 上传任意文件的方法
  • dedecms 软件下载模块中添加下载方式为迅雷下载联盟代码
    修改 /plus/download.php 文件 www.cppcns.com查找
    dedecms 软件下载模块中添加下载方式为迅雷下载联盟代码
  • dedecms网站tag标签全部静态化的解决方法
    更改tags.php文件在根目录 找到$tag = FilterSearch(urldecode($tag)); 替换为:$tag = urldecode($tag); 更改文件arc.taglist.class.php文件文件所在的路径是
    dedecms网站tag标签全部静态化的解决方法
  • 帝国CMS远程保存图片的方法
    本文实例讲述了帝国cms远程保存图片的方法。分享给大家供大家参考。 具体实现方法如下:复制代码代码如下:
    帝国CMS远程保存图片的方法

目录