帝国cms分页采集正则及过滤技巧--九模板

老实说我并不主张网站采集，不过做为站长，网页采集实在是一大利器。拿帝国CMS来说，采集功能很强大。虽然帝国CMS采集方法简单易学，但还是有朋友为采集规则而绞尽脑汁。以下是我悼念的一些帝国CMS的采集正则。

从文章的源代码中获得的

第一种：

编写的规则：

选全部列出式
区域正则：
<p align='center'><b><font color='red'>[!--smallpageallzz--]'>下一页
链接正则：
<a href='[!--pageallzz--]'>

--------------------------------------------------------------------------------

第二种

采集代码

<p align='center'><b><font color='red'>[1]</font> <a href='/lw/3/lw_31205_2.html'>[2]</a> <a href='/lw/3/lw_31205_2.html'>下一页</a> </b></p> <center>《

编写的规则：

选用上下导航式：
分页区域正则：<font color='red'>[!--smallpagezz--]下一页
分页链接正则：<a href='[!--pagezz--]'
新闻正文正则：
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script></td>
</tr>
</table>[!--newstext--]</td>
</tr>
<tr>
<td width=5></td>

过滤广告正则：
</p> <center>[!--ad--]</center>,</p><p align='center'>[!--ad--]</b>

例如：http://www.3edu.net/lw/3/lw_31205.html

--------------------------------------------------------------------------------

第三种

编写的规则：

"全部列出"式正则设置:

分页区域正则(无)
分页链接正则: <a class=page href="[!--pageallzz--]" target=_self>

--------------------------------------------------------------------------------

第四种：

选全部列出式

区域正则：
<DIV class=pageContainer> <DIV class=pager><span class="nextprev">[!--smallpageallzz--]" class="nextprev" title="后一页">

链接正则：
<a href="[!--pageallzz--]"

标签：

声明：有的资源均来自网络转载，版权归原作者所有，如有侵犯到您的权益请联系邮箱：123456@qq.com 我们将配合处理！

原文地址：帝国cms分页采集正则及过滤技巧发布于2023-03-14 17:51:15