wordpress 万能采集方法,实现任何网站都能采集!

来源https://zhuanlan.zhihu.com/p/674116266

玩wordpress的小伙伴都知道,自己写内容是非常痛苦的事情而且自己写有很多局限性,那么有什么办法获得大量优质的文章资源呢?其实采集就是一条路子,当然不是说采集就是直接照搬别人,这不是很道德,对自己网站的seo也没有好处,但是可以以此为底稿,优化完善内容,这才是一条可行的健康的路子。

如何采集

首先你要知道采集的概念,采集是通过对别人的网站源代码的下载梳理获得自己需要的内容,所以我们需要准备一些工具:火车头采集工具

,office套件,wordpress插件:Import Export Lite

wordpress 万能采集方法,实现任何网站都能采集!插图

准备好工具以后我们就可以找目标写火车头的规则了,以下面的网站为例子,我们先确定一下,我们要采集的部分内容,一般情况下采集一个网站是以分类为中心,而不是首页,所以进入分类页面看网站url的变化,我们就会发现其url出现了地址结构:

https://url/news  前面是地址 /news 是分类的标签

我们再滑到页面底部看一下,底部有一个翻页的按钮,在切换页面时url也发生了变化,由此我们知道了这个网站的分页逻辑:

https://url/news_2  
 
/news 是分类的标签
 
/_2 是页数

如果你采集的网站没有发生url的变化,说明有防采的设置,那就试试添加一些明显的分页url段,例如:url/news 不发生变化,在后面添加:/page/2 多数网站都能相应。

有了这一特征我们就可以写规则了,打开火车头添加采集规则,选择向导添加,然后使用批量添加url,把链接贴上去,然后在链接的分页数字处用”地址参数“表示,在下面有采集的页数,这里就要看你采集的网站,你看它有没有显示翻页总数,没有就用分页数字去测试,直到测试出数字最大值页面404为止,即可知道有多少页面。

wordpress 万能采集方法,实现任何网站都能采集!插图1

确定好页数然后就可以确定采集的页面逻辑了,然后点进任意一篇文章,观察文章的url变化,在这里你可以看到url的参数逻辑,这里有一个固定的格式,与其他页面不同,所以在此我们知道,文章的固定格斯是:url+文章id+.html 这样我们在火车头的链接采集规则中加一个”包含.html“这个要求即可拿到准确的文章地址。

wordpress 万能采集方法,实现任何网站都能采集!插图2

然后就可以点击网址采集拿到需要的链接了,在这里要检查一下网址的可用性,点击展开网址然后看一下网址段落有没有缺少,然后双击开始编写规则。

wordpress 万能采集方法,实现任何网站都能采集!插图3

在写规则的时候要注意的是,我们需要先用开发者工具

检查一下,文章的内容是否在源代码里面有展现,如果有的话可以继续采集,没有出来可能是需要登录验证,可以尝试在浏览器里面登录一下然后再开发者工具里面拿到cookie然后再采集工具里面添加一下即可。

wordpress 万能采集方法,实现任何网站都能采集!插图4

使用焦点工具拿到源代码位置的标签,注意采集的内容是两个标签里面的内容所以你需要有一个开始标签和一个结束标签,例如你要采集这样的内容:

<h1 class="article-title">《BanG Dream! Ave Mujica》动画制作中,PV公布 </a></h1>

里面的内容是我们要采集的,所以在火车头里面设置开始标签名是<h1 class="article-title">
结尾的标签是</a></h1>

这样火车头返回的数据就是:《BanG Dream! Ave Mujica》动画制作中,PV公布
wordpress 万能采集方法,实现任何网站都能采集!插图5

如此我们就可以采集到各个内容,包括文章内容,文章标签,文章标题等等内容,包括下载的链接。采集规则确定完毕后,我们就可以设置一个名称开始采集内容了。

wordpress 万能采集方法,实现任何网站都能采集!插图6

采集完成的内容会在任务数的一侧里面有一个数据量,蓝色的数字就是采集了的文章数量,双击一下采集数量后就可以看到所有的内容,然后我们按住shift选择最前和最后一列,ctrl+c复制到word文档中去,然后调出替换选项卡,在这里面展开更多,选择特殊符号,然后选择段落标记

,然后点击全部替换,替换后再替换一遍手动换行符,这样数据就可以放到excel里面了,方法还全选文章内容,复制黏贴到excel就可以了

wordpress 万能采集方法,实现任何网站都能采集!插图7
wordpress 万能采集方法,实现任何网站都能采集!插图8
粘贴过来的效果

如何导入网址

完成之后,就可以再wordpress后台安装好插件Import Export Lite,然后选择新的导出

wordpress 万能采集方法,实现任何网站都能采集!插图9
wordpress 万能采集方法,实现任何网站都能采集!插图10

导出的内容选择文章,然后点击选择字段,点击删除全部字段,清除默认的字段然后点击添加所有,这样你就可以拿到你主题的所有字段了,然后直接点击导出即可。拿到字段后文件是一个csv的表格文件,打开后参考原有内容自己分辨一下各个字段的内容,如果看不懂建议搭建一个测试网址,然后测试没有问题再导入。

然后打开下载的csv文件

,匹配一下文章的内容,标题部分,以下面的格式进行填写:

wordpress 万能采集方法,实现任何网站都能采集!插图11

然后回到wp的后台Import Export Lite插件选择新的导入,然后上传文件,上传文件后插件会自动识别字段信息,然后选择导入的类型是文章,然后点击下一步

wordpress 万能采集方法,实现任何网站都能采集!插图12
wordpress 万能采集方法,实现任何网站都能采集!插图13
wordpress 万能采集方法,实现任何网站都能采集!插图14

确定后再字段映射里面可以看到需要填写的内容,鼠标放到右侧的字段中,按住鼠标左键即可拖动字段,然后分别导入内容,主要的字段填写好后再选择自定义字段,格式如下:

wordpress 万能采集方法,实现任何网站都能采集!插图15

然后点击下一步导入,在”更新现有字段“选择更新所有内容,然后就可以下一步导入了。导入后就可以点击文字中的所有文章看到成功导入的文章内容了。

wordpress 万能采集方法,实现任何网站都能采集!插图16
wordpress 万能采集方法,实现任何网站都能采集!插图17

特别注意

在导入时请一定要在测试网站确定没有问题,否则会非常麻烦,也可以备份一下数据库然后再尝试,不建议直接再生产环境做这些东西,因为这里射击到数据库。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注