php采集规则,dedecms采集规则怎么编写
织梦系统作为⼀个⽐较常⽤的⽂章系统,相对来说操作⽐较容易。在众多功能中,采集系统可能对于部分新⼿来说可能是⽐较头疼,⽐如采集区域设置不对、采集规则具体编辑不正确、采集后空⽩等问题。今天我们就从⽐较容易遇到的⼏个问题来详细讲解下。
⾸先我们先登录后台,分别点击采集--采集节点管理,进⼊采集管理设置界⾯
这⾥有两个可以选择,⼀个是修改原先的节点(主要是之前设置错误导致采集不了或者其他设置),⼀个是直接新增节点,⼤部分以新增节点为主,点击,然后下⼀步,选择“普通⽂章”确认。
织梦管理系统php版本
然后填写节点名称(建议是和栏⽬相关的名称,避免导⼊的时候出错),这个按实际填就可以了。然后第⼀个重点:⽬标页⾯编码 。这个是⼀定要填写⽬标⽹页的编码,⾮⾃⼰⽹页的。查看⽅法:打开⽬标⽹站随便⼀个页⾯,空⽩地⽅右键-查看源代码(编码⼀般在前⼏⾏)
然后是填写列表规则,⼀种是批量⽣成⽹址,⼀般适⽤于规律⽐较强的或者需要采集是从上到下的。⽐如我们是以这个栏⽬⽬标的:
另⼀种是列表规则是⼿⼯指定列表⽹址,这个就⽐较通俗了。就是把你所有需要采集的列表页填写上去。(⽐较适合只采集某⼏页或者变量⽐较多的页⾯)
和结束代码:
能够包含所有的⽂章列表,并且代码是唯⼀的
下⼀步的缩略图我们可以选择不采集,因为织梦本⾝是会把第⼀张图⽚默认为缩略图的,这个看实际情况。下⾯是对⽹址的筛选:包含的意思是:这个步骤六选择的代码区间的⽂章⽹址只有包含了这部分才会被采集(这⾥有两种情况:1。譬如上⾯演⽰的地址,它是以超链接的形式,不是完整的⽹址,所以这种情况千万不要填写包含。2.就是列表涉及到多个链接的,⽐如标签这样的,最好填写包含,填写你想要的⽹址有的,不想要的⽹址没有的部分)。然后下⼀步。这边会列出因为上⾯填写的规则所采集到的列表页中⽂章的⽹址。如果是空⽩:我们可以先删除必须包含和不能包含,点击下⼀步测试,如果能采集到连接但是很乱,那就是你这步包含相关填错了;如果这样操作还是没有采集到东西,那就是“包含⽂章⽹址区域”这步填写错了。
分页规则也主要分两种:⼀种是直接填写默认代码:{path}{file}_{p}{ext} 然后选择分页列表规则(如下图)。 另⼀种是打开⽬标⽂章页,到有上下⼏页的⽂章,右键查看源码,到这部分代码,填写⽅式和⽂章页⽹址区域的⽅法⼀样,然后右边选择:全部列出的分页列表。(第⼆种⽅法要注意,因为涉及到多页,填写⾸尾代码的时候⼀定要多翻⼏张,然后查看源代码,把你认为共同的代码在多个页⾯查下,因为可能出现你选择的代码在⾸页是可以到的,在2.3四页后⾯就没有了,那就说明这个不是公⽤代码,你填上去也会导致采集不到分页的)
世界神秘⼗⼤历史遗迹
。这个很容易就可以写出规则:
[内容]
。2.另⼀种是代码中包含了该⽂字,但是还有其他类似的⽂字混淆。如:世界神秘⼗⼤历史遗迹_有趣猎奇⽹-知天下奇事 观天下奇景 解未解之谜 -uqubu 从这⾥很明显就可以看出有⼀部分是唯⼀的,⼀部分是我们想要的,另⼀部分是通⽤的,所以简单的就能写出规则:[内容]_有趣猎奇⽹-知天
下奇事 观天下奇景 解未解之谜 -uqubu 。为什么这⾥不选择另外⼏个呢,主要是另外⼏个都是变量,这个是没办法获取的。
下⾯的内容也是⼀样的道理,这⾥要注意的是把⼴告代码或者不需要的东西屏蔽掉,这⾥就要⽤到“过滤规则”。⼀般情况下除了IMG这个,其他都可以过滤,如果你连图⽚也不要的话,全选即可。
最后点击保存,开始采集⽹页,采集完成后,我们点击采集-采集节点管理。我们进⼊后在刚才采集好的节点前⾯打钩,然后点击“导出数据”,选择你需要导⼊的栏⽬,确认即可。(最后⼀步设置最好设置下重复标题)
更多DedeCMS相关技术⽂章,请访问DedeCMS教程栏⽬进⾏学习!