昨天是中秋佳节,是赏月吃饼好时分,但有两位采集大师忙于一较高低,无暇理会嫦娥姑娘,这两位大师empirecms自带采集和火车头采集,两者对比谁更胜一筹呢?
一、什么是火车头采集器?
火车采集器(LocoySpider) 是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序。使用火车采集器,你可以瞬间建立一个拥有庞大内容的网站。系统支持远程图片下载,图片批量水印,Flash下载,下载文件地址探测,自制作发表的cms模块参数,自定义发表的内容等有关采集器。对于数据的采集其可以分为两部分,一是采集数据,二是发布数据。
火车头采集器下载地址:http://www.locoy.com/
二、火车头采集器有哪些功能?
无限级多页采集
任务队列运行管理功能
无限级分组任务管理,任务回收站功能
RSS地址采集功能
列表页分页采集获取功能
列表页附加参数获取功能
列表页及标签XPath可视化提取功能
标签纯正则替换功能
Http接口查看运行情况
导出记录为单个或多个Txt、html 文件
标签间自由组合功能
针对标签内容继续发送Http请求功能
无限级列表网址采集
从Http头信息中获取数据
标题内容正文提取功能
Aspx列表分页自识别
多网站站群式web发布
导出记录为Word格式
导出所有记录为Excel格式
使用随机二级代理服务器(支持Socket代理)
多扩展间数据交换功能
下载的图片自动加增强型水印功能
Ocr识别(图片转化为文字)
Http接口管理采集器运行
Mongodb数据库保存数据
主从服务器分布式采集
三、帝国CMS自带采集功能有哪些?
帝国CMS采集
1、采集替换字符设置,支持自定义字段。
2、采集广告过滤设置,支持自定义字段。
3、采集验证字段内容为空不采集,支持自定义字段设置,并且支持多个字段同时验证。
4、采集内容分页支持自动识别https地址。
5、采集增加入库时间间隔设置,对于要远程保存附件时,可防止过度采集被封。
6、管理采集节点页面和执行采集页面均增加“数据更新中心”快捷链接,方便采集入库后刷新生成当天内容页面。
7、单个采集执行也采用弹窗方式,方便采集过程中执行其它操作,更人性化。
8、帝国CMS7.5版将PHP超时时间设置前台、后台分离,方便单独对后台超时时间改大,防止执行或采集过程中PHP超时导致中断。
四、两者对比谁厉害?
1、首先火车头采集器分免费版和商业版。国内起步较早,商业化程度最高。但其v9版的推出,性能令人表示遗憾,免费版需联网认证,其耗费系统资源是所有采集器中最高的,bug一堆,免费版开放功能较少。web发布功能一般,连帝国cms72版的发布都得定制接口。适用:各新闻cms,论坛,博客,商城等,几乎全能。
特点:采集速度快,无限级采集(可惜免费版有限制),SEO一般(同意词替换,插入关键词),插件(强大)
优点:文档较丰富。商用版插件功能强大,功能上更加全面,速度更快也更稳定。
缺点:操作较复杂,较耗系统资源,bug较多。
2、帝国CMS采集是基于WEB的采集,和火车头不是一个量级的,没法比!
优点:操作较简单,耗系统资源少,bug较少。
缺点:文档较少,商用功能不强大
3、适用人群:
帝国CMS采集:适用于初学者和小白
车头采集器:适用于网站资深开发者