最近搞了一个采集站(使用wordpress),用到了火车头采集器,这品文章主要简述使用该工具采集并发布文章的过程,希望对看到本篇文章的朋友们带来一些帮助
好了废话不多说开始:
1.前往火车头官网下载软件,有免费版和商业版,对于我来说免费版功能完全够用,这点我也是非常开心的
2.安装打开
3.这里以《百度百家号为例》
稍微分析了一下网页结构,我们可以看到这个网页并不是以分页加载方式加载,而是使用ajax异步加载
所以我们不能用内置的规则来抓取下一页的文章链接,怎么办呢?
别担心,chrome的开发者工具(俗称F12大法)
按顺序点击,点完“加载更多”后你会开发者工具中有发现如图所示栏目:
右键,点击“copy”再点“copy link address”,,复制显示的这个网址
我们可以看到这个链接,拥有时间戳和参数
https://baijia.baidu.com/listarticle?ajax=json&_limit=15&_skip=15&quality=1&_desc=top_st%2Cupdated_at
(提取的链接例子)
直接这样看并不能看出什么门道,我需要同类链接进行对比,于是我选择点击顶上的其他栏目,就选择“娱乐”板块吧,依旧是照着上面的步骤,提取“加载更多”的链接
https://baijia.baidu.com/listarticle?ajax=json&cat=2&_limit=15&_skip=15
(娱乐版块的链接例子)
可以看出有不同,再尝试科技板块:
https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=15
(科技板块链接例子)
现在规律一目了然!
这几个板块从左到右分别对应的参数是cat=1 cat=2 cat=3..............cat=5
现在我们来尝试调整参数“_limit=
”和“_skip=
”
发现这两个参数至少在10~400之间是有数据返回的
https://baijia.baidu.com/listarticle?ajax=json&cat=#(1~5)&_limit=#(10~400)&_skip=#(10~400)
大概就是这个范围内的都有返回数据
开始添加网址采集规则
找到了链接的规律,我们就可以使用采集器了,,如图打开,填入链接
这里我只抓取“娱乐板块”,因此这条链接的变量只有两个,添加两条网址
https://baijia.baidu.com/listarticle?ajax=json&cat=2&_limit=[地址参数]&_skip=15
https://baijia.baidu.com/listarticle?ajax=json&cat=2&_limit=15&_skip=[地址参数]
确定好之后软件会把这个链接变成一个表达式,
好了,但是这里有朋友会问了,这里的这些链接打开了都是一些乱码一样的啊,别急,现在以
https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=15
为例,在浏览器中打开这个链接
如图,我们其实很容易就能找到其中包含的链接
如图,直接手动添加提取链接url规则
"url":"http:\/\/baijiahao.baidu.com\/s?id=[参数]","title"
#这一句的意思是提取“"url":"http:\/\/baijiahao.baidu.com\/s?id=”文本和“","title"”之间的文本,也就是提取这个文章id
http://baijiahao.baidu.com/s?id=[参数1]
#这一句就是把上一句获取的id拼接上去,形成了一个完整的文章链接
现在我们可以点击右下角的网站采集测试
可以看到完整的采集出了每篇文章的url链接
现在我们开始第二部分,文章内容采集
我们在上一步已经获得了文章的地址,现在我们要做的就是采集出文章的标题和内容
随便找个文章地址出来,这里以
https://baijia.baidu.com/s?id=1580961207545769510
为例
查看源码
我们可以发现可以很容易的批量获取文章的标题和内容
每篇文章的标题和内容都在这几个字符之间
因此,我们可以如下设置规则:
好了设置好了规则我们可以测试一下
可以看到采集到了标题和文章
第三部分,自动发布内容到worddpress
这个软件实际上提供了很多发布文章规则,但是很多都失效了,我找到了一个wordpress的规则文件
点击此处下载密码: 99bj
使用前请将压缩包内的post.php放置于wordpress网站根目录
点击 启动浏览器获取登录信息,之后就会进入你上面填好的你自己的wordpress网址,前往登录界面,登录成功自动获取登录参数,直接关闭浏览器窗口就好了
由于这个教程是针对百度百家的娱乐板块的,那么我这里也首先在wordpress上创建了一个“娱乐”分类目录
选择好文章需要发布到哪个分类,然后我们可以点击下面的测试
测试发布成功即可
记得要勾选使用这个规则!!!!!!!!
保存退出
好了,现在正式开始采集
勾选三样,然后开始任务,自动抓取,抓完之后自动发布,这时候你打开自己的wordpress文章列表就有了很多的新文章
但是这时候你会发现这些文章全都是“待发布”状态
这时候我们就需要对数据库进行操作了
点击数据表上方的SQL按钮,进入数据表代码编辑器,并在里面输入以下数据表执行命令:
UPDATE wp_posts
SET post_status =
REPLACE( post_status, 'pending', 'publish' )
!!!!!!!大功告成!!!你的网站上这个时候便拥有了几百上千的文章!!!!
沧水大佬还回来吗? 大佬你的下载链接炸了
大佬这个获取不到分类id怎么搞?? wp版本5.2.2
厉害了,期待更多的采集教程!
你这个左下角的小人是插件吗
还可以用,多谢了多谢了~
怎么没法发布到wordpress啊,在线发布里没有wordpress可选
我想知道有没有发布图片的办法。。。。发布模块没有文件上传。。。
学到了学到了