【测试说明】
说明:
采集插件是通过程序来远程获取目标网页内容,经过本地规则解析处理后存储到服务器的数据库内。
采集规则与采集界面分离,规则设置更简单,只需有基础技术知识的人员设置好相关规则。编辑人员无需了解太过细节的技术规则,只需选中自己想要采集的文章列表,就可以像发布文章一样,轻松地完成数据采集操作。
一、采集流程
简单的讲有三个步骤:
1、添加采集点,填写采集规则。
2、采集网址,采集内容
3、发布内容到指定版块
以采集某站未解之谜栏目(http://www.83133.com/weijiezhimi/list-199-2.html)为例,作一下详细流程介绍。
实例说明:
目标:采集83133未解之谜数据到系统 默认版块 中。
目标网址:http://www.83133.com/weijiezhimi/list-199-2.html
1、添加采集点
1.1 网址规则配置
查看要采集的目标网址源代码,查找到要采集网址的开始点和结束点(这二个点要有在整个源代码里具有唯一性)。更进一步缩小采集网址搜索范围。
测试你的网址采集规则是否正确,如下图所示
1.2 内容规则配置
标题采集配置:
从网页<title></title>里取标题,并去除不需要的字符。如下图
注:
_百山探索 将会被替换为空
内容采集配置:
内容都包含在 <div class="art-main mt10" id="art_main"> </div> 之间,而且这个结点(id="art_main"),在整个页面源代码中具有唯一性。所以可以以此为规则取内容。并对内容进行过滤。如下图
注:
内容的a标签和链接将会被替换为空
1.3 高级设置
可设置是否把图片下载到服务器上,是否打水印等配置。
注:1.图片水印:图片路径相对于网站根目录;填写文字将使用文字水印
2.发帖用户ID:10,20,30,40,50 导入帖子的时候将随机取一个作为发帖人
3.发帖间隔时间:
例:1 ;如果写的 10 ,假如导入了3篇帖子
第一篇发帖时间为:2018-06-26 09:00:00
第二篇发帖时间为:2018-06-26 09:10:00
第二篇发帖时间为:2018-06-26 09:20:00
如果当前时间小于发帖时间,前台将暂时显示负数,直到当前时间大于发帖时间恢复正常
2、采集网址,采集内容采集规则配好以后,即可进行网址的采集,然后进行内容的采集。
3、发布内容到指定版块选择导入的版块
4、定时发布
升级定时发布
发布时间示例:
10:00|10
16:30|5
20:45|2
注:每天上午10点发布10篇,下午16点30发布5篇,晚上20点45 发布2篇,根据计划任务设置会有响应的延迟
5、体验地址http://xiuno.swoole.net/
账号:test
密码:123456
6、计划任务发帖接口
http://xx.com/skycollection-post.htm
[backcolor=rgb(248, 249, 250)]
[/backcolor]
下载地址:【魔趣建站提示】此资源经过魔趣建站测试可用!如使用发现问题或者有技术问题,可 发帖 免费咨询或者咨询本站客服寻求付费技术支持! |
下载地址:https://www.xiuno.top/thread-388.htm
历史资源提醒--必看
该页面资源/教程来自原魔趣吧历史资源转移,因发布历史久远,部分资源/教程可能已失效或无法在最新版程序中安装使用!DZ资源建议在Discuz3.4及以下版本使用,PHP版本建议5.6。资源仅提供做代码研究学习使用!
因改版,部分贴内链接将无法正常跳转,如链接失效或未正常跳转,请利用站内搜索功能搜索资源名称获取对应资源!