xiuno天空采集插件 [复制链接]

moqu8 2018-7-11

35741 0


资源介绍:
【测试说明】
说明:
采集插件是通过程序来远程获取目标网页内容,经过本地规则解析处理后存储到服务器的数据库内。
采集规则与采集界面分离,规则设置更简单,只需有基础技术知识的人员设置好相关规则。编辑人员无需了解太过细节的技术规则,只需选中自己想要采集的文章列表,就可以像发布文章一样,轻松地完成数据采集操作。

一、采集流程

简单的讲有三个步骤:
1、添加采集点,填写采集规则。
2、采集网址,采集内容
3、发布内容到指定版块

以采集某站未解之谜栏目(http://www.83133.com/weijiezhimi/list-199-2.html)为例,作一下详细流程介绍。


实例说明:

目标:采集83133未解之谜数据到系统 默认版块 中。
目标网址:http://www.83133.com/weijiezhimi/list-199-2.html


1、添加采集点
1.1 网址规则配置
896625b457e8965e08.png
查看要采集的目标网址源代码,查找到要采集网址的开始点和结束点(这二个点要有在整个源代码里具有唯一性)。更进一步缩小采集网址搜索范围。978635b457e946c632.png


测试你的网址采集规则是否正确,如下图所示


57355b457ea385f70.png

683455b457eaa36972.png

1.2 内容规则配置
内容规则这里看起来比较复杂,其实很简单。采集内容网址:
http://www.83133.com/doc/344341.html 的内容采集规则,请你打开这个网址,然后页面空白处右键->查看源文件搜索标题和内容的开始边界。

标题采集配置:
从网页<title></title>里取标题,并去除不需要的字符。如下图



723605b457eb6a90cb.png

注:
"[内容]"作为通配符
_百山探索 将会被替换为空


内容采集配置:

内容都包含在 <div class="art-main mt10" id="art_main"> </div> 之间,而且这个结点(id="art_main"),在整个页面源代码中具有唯一性。所以可以以此为规则取内容。并对内容进行过滤。如下图
179515b457ec2d27f7.png

注:
内容的a标签和链接将会被替换为空

1.3 高级设置

可设置是否把图片下载到服务器上,是否打水印等配置。
476465b457ed143a99.png

注:
1.图片水印:图片路径相对于网站根目录;填写文字将使用文字水印
2.发帖用户ID:10,20,30,40,50 导入帖子的时候将随机取一个作为发帖人
3.发帖间隔时间:
例:1 ;如果写的 10 ,假如导入了3篇帖子
第一篇发帖时间为:2018-06-26 09:00:00
第二篇发帖时间为:2018-06-26 09:10:00
第二篇发帖时间为:2018-06-26 09:20:00
如果当前时间小于发帖时间,前台将暂时显示负数,直到当前时间大于发帖时间恢复正常

2、采集网址,采集内容
采集规则配好以后,即可进行网址的采集,然后进行内容的采集。
69595b457ef60fe8b.png
3、发布内容到指定版块
选择导入的版块

4、定时发布
升级定时发布
发布时间示例:
10:00|10
16:30|5
20:45|2
注:每天上午10点发布10篇,下午16点30发布5篇,晚上20点45 发布2篇,根据计划任务设置会有响应的延迟

5、体验地址
http://xiuno.swoole.net/
账号:test
密码:123456

6、计划任务发帖接口
http://xx.com/skycollection-post.htm
[backcolor=rgb(248, 249, 250)]
[/backcolor]





下载地址:魔趣建站提示】此资源经过魔趣建站测试可用!如使用发现问题或者有技术问题,可 发帖 免费咨询或者咨询本站客服寻求付费技术支持!


下载地址:https://www.xiuno.top/thread-388.htm





最新回复 (0)
返回
支持中心
邮箱:winkill2012@qqcom
新站优化中!部分功能尚未完善,敬请谅解!
支持中心