最新公告
  • 欢迎您光临仿站吧 帝国CMS模板一站式建站供应平台 . 欢迎加入VIP
  • WordPress自动采集Crawling插件

    正文概述 仿站吧   2022-05-31 14:11:53  
    WordPress自动采集Crawling插件 采集插件,

    Crawling插件说明

    Crawling是一款WordPress下的自动采集爬虫插件,能够自动采集爬取目标网站内容并自动发布。插件开源免费。爬虫漫步版权所有。

    简单设置,轻松几步设置即可全站采集,定时更新。分类、标签自动匹配,内容批量替换。

    高速采集,可设置抓取线程数和抓取延时,最大限度控制抓取速度。防止主机商限制,防止反爬虫。

    内容过滤,支持翻页、内容过滤、广告过滤。灵活控制抓取内容,发布文章干净简洁。

    智能发布,支持文章图片自动保存替换,添加到媒体库同时链接到文章。支持上传至七牛云。

    Crawling插件使用教程

    首先,下载最新版,得到crawling_v*.tar.gz。然后,解压压缩包,上传到wordpress插件目录。激活插件。

    首先我们需要新建一个任务,一个任务可以理解为一个爬虫,在这里你可以配置多个任务,每个任务可以单独设置参数。

    以采集精准像素网站为例,这里只需要右键查看网页源代码,即可知道相应的链接 Xpath 规则是如何的,在我们目标网站中,文章的链接在网站 h2 标签下的 a 标签,所以规则就写//h2/a,即可。如下图所示。

    WordPress自动采集Crawling插件
    WordPress采集,Crawling插件截图

    同理,文章标题匹配方式为文章页源代码中<div class=”post-main clearfix”>标签下的 h1 标签,那么我们匹配的时候按照 Xpath 规则,写为//div[@class=”post-main clearfix”]/h1 即可,@的作用是选中 class=”post-main clearfix”的 div 标签,按照这样的规则,再将文章内容匹配的标签规则写上,即可开始采集。

    WordPress自动采集Crawling插件
    WordPress采集,Crawling插件截图

    还有更多高级功能,如翻页,内容过滤等,完全可以实现自定义采集目标网站内的任意内容。

    不足之处,在实际运行这个插件中,发现,如果目标网站的文章链接为相对链接,则无法采集成功(此处也可能是小编对 Xpath 的规则掌握尚浅),所以选定目标网站时候,需要先查看一下,确认该网站的文章链接为绝对链接才行。

    采集插件

    默认解压缩密码:www.fangzhanba.com

    免费资源

    [积分下载]:积分,不扣除下载次数·
    [VIP免费]:VIP会员免费下载,扣除下载次数· 下载即代表您已阅读并同意
    仿站吧,一个优质的源码资源平台!
    仿站吧 » WordPress自动采集Crawling插件

    特别注意

    本站部分样式或模板代码移植或仿站自互联网(如有侵权,出示著作权证书联系我删除),所有代码不能用于非法站点(色情,暴力,政治类站点)。本站只提供源代码服务,不提供任何建站服务。不承担任何建站后的法律问题!本站所得费用均为制作模板劳动报酬。使用开源免费的帝国CMS作为核心,请保留帝国CMS的版权。如商用请购买帝国商业版,本站只做帝国CMS模板服务,不做任何建站、不制作采集任何网站内容、不出售任何非开源有版权源代码更不卖任何域名和空间服务器,我出卖的只是我的技术劳动力!如在本站发生交易任何资源或者下载任何资源,则代表默认同意以上文字内容。感谢小伙本的支持,做一个知法守法的好公民!