火车头采集并自动发布到wordpress | 沧水的博客

最近搞了一个采集站(使用wordpress),用到了火车头采集器,这品文章主要简述使用该工具采集并发布文章的过程,希望对看到本篇文章的朋友们带来一些帮助

QAQ我刚开始使用的时候也有点懵逼啊233

好了废话不多说开始:

1.前往火车头官网下载软件,有免费版和商业版,对于我来说免费版功能完全够用,这点我也是非常开心的

2.安装打开

3.这里以《百度百家号为例》

稍微分析了一下网页结构,我们可以看到这个网页并不是以分页加载方式加载,而是使用ajax异步加载

所以我们不能用内置的规则来抓取下一页的文章链接,怎么办呢?

别担心,chrome的开发者工具(俗称F12大法)

 

按顺序点击,点完“加载更多”后你会开发者工具中有发现如图所示栏目:

右键,点击“copy”再点“copy link address”,,复制显示的这个网址

我们可以看到这个链接,拥有时间戳和参数

https://baijia.baidu.com/listarticle?ajax=json&_limit=15&_skip=15&quality=1&_desc=top_st%2Cupdated_at
(提取的链接例子)

直接这样看并不能看出什么门道,我需要同类链接进行对比,于是我选择点击顶上的其他栏目,就选择“娱乐”板块吧,依旧是照着上面的步骤,提取“加载更多”的链接

https://baijia.baidu.com/listarticle?ajax=json&cat=2&_limit=15&_skip=15
(娱乐版块的链接例子)

可以看出有不同,再尝试科技板块:

https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=15
(科技板块链接例子)

现在规律一目了然!

这几个板块从左到右分别对应的参数是cat=1 cat=2 cat=3..............cat=5

现在我们来尝试调整参数“_limit=”和“_skip=

发现这两个参数至少在10~400之间是有数据返回的

https://baijia.baidu.com/listarticle?ajax=json&cat=#(1~5)&_limit=#(10~400)&_skip=#(10~400)

大概就是这个范围内的都有返回数据

开始添加网址采集规则

找到了链接的规律,我们就可以使用采集器了,,如图打开,填入链接

这里我只抓取“娱乐板块”,因此这条链接的变量只有两个,添加两条网址

https://baijia.baidu.com/listarticle?ajax=json&cat=2&_limit=[地址参数]&_skip=15
https://baijia.baidu.com/listarticle?ajax=json&cat=2&_limit=15&_skip=[地址参数]

确定好之后软件会把这个链接变成一个表达式,

好了,但是这里有朋友会问了,这里的这些链接打开了都是一些乱码一样的啊,别急,现在以

https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=15

为例,在浏览器中打开这个链接

如图,我们其实很容易就能找到其中包含的链接

如图,直接手动添加提取链接url规则

"url":"http:\/\/baijiahao.baidu.com\/s?id=[参数]","title"
#这一句的意思是提取“"url":"http:\/\/baijiahao.baidu.com\/s?id=”文本和“","title"”之间的文本,也就是提取这个文章id
http://baijiahao.baidu.com/s?id=[参数1]
#这一句就是把上一句获取的id拼接上去,形成了一个完整的文章链接

现在我们可以点击右下角的网站采集测试

可以看到完整的采集出了每篇文章的url链接



现在我们开始第二部分,文章内容采集

我们在上一步已经获得了文章的地址,现在我们要做的就是采集出文章的标题和内容

随便找个文章地址出来,这里以

https://baijia.baidu.com/s?id=1580961207545769510
为例

查看源码

我们可以发现可以很容易的批量获取文章的标题和内容

每篇文章的标题和内容都在这几个字符之间

因此,我们可以如下设置规则:

好了设置好了规则我们可以测试一下

可以看到采集到了标题和文章



第三部分,自动发布内容到worddpress

这个软件实际上提供了很多发布文章规则,但是很多都失效了,我找到了一个wordpress的规则文件

点击此处下载密码: 99bj

使用前请将压缩包内的post.php放置于wordpress网站根目录

 

点击 启动浏览器获取登录信息,之后就会进入你上面填好的你自己的wordpress网址,前往登录界面,登录成功自动获取登录参数,直接关闭浏览器窗口就好了

由于这个教程是针对百度百家的娱乐板块的,那么我这里也首先在wordpress上创建了一个“娱乐”分类目录

选择好文章需要发布到哪个分类,然后我们可以点击下面的测试

测试发布成功即可

记得要勾选使用这个规则!!!!!!!!

保存退出



好了,现在正式开始采集

勾选三样,然后开始任务,自动抓取,抓完之后自动发布,这时候你打开自己的wordpress文章列表就有了很多的新文章

但是这时候你会发现这些文章全都是“待发布”状态

这时候我们就需要对数据库进行操作了

点击数据表上方的SQL按钮,进入数据表代码编辑器,并在里面输入以下数据表执行命令:

UPDATE wp_posts
SET post_status =
REPLACE( post_status, 'pending', 'publish' )

!!!!!!!大功告成!!!你的网站上这个时候便拥有了几百上千的文章!!!!

我随便抓的一个垃圾站

 

这篇文章有2人发言了呢.

  1. 我想知道有没有发布图片的办法。。。。发布模块没有文件上传。。。

    天幕网

    2018/6/13

    @Ta
    #1
  2. 学到了学到了

    学到了

    2018/6/3

    @Ta
    #2

发表评论



Copyright 2017 沧水的博客. All Rights Reserved.
湘ICP备17021400号-1托管于腾讯云中国律法保护