您现在的位置是:首页 > cms教程 > DedeCMS教程DedeCMS教程
织梦dedecms采集一些过滤规则示例
孙彩武2023-09-27DedeCMS教程已有人查阅
导读如果要过滤的内容很简单,完全可以把过滤规则直接写在“{dede:trim}”和“{/dede:trim}”之间。对于比较复杂的情况,请考虑使用正则,你懂的,正则表达式,那是相当强劲的。
dedecms的过滤规则写起来不是很难,规则如下:
代码示例:
1、采集中去除内容里的超链接:
代码示例:
代码示例:
例如文章代码中包含着如下内容:
2、过滤广告
对于广告来说,过滤规则就得针对html中看到的内容使用规则了,例如某些广告仅仅是引用某个JS文件,例如
代码示例:
代码示例:
代码示例:
代码示例:
代码示例:
{dede:trim}要过滤的内容{/dede:trim}
如果要过滤的内容很简单,完全可以把过滤规则直接写在“{dede:trim}”和“{/dede:trim}”之间。对于比较复杂的情况,请考虑使用正则,你懂的,正则表达式,那是相当强劲的。以下是一些过滤规则的例子,供大家参考。1、采集中去除内容里的超链接:
代码示例:
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
假如要将所有超链接内容都去除,规则是:代码示例:
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
这两个规则的不同通过下面代码来解释例如文章代码中包含着如下内容:
<a href="#">超链接</a>
通过第一个规则,采集结果是:超链接2、过滤广告
对于广告来说,过滤规则就得针对html中看到的内容使用规则了,例如某些广告仅仅是引用某个JS文件,例如
代码示例:
<script src=’/plus/ad_js.php?aid=4′ language=’javascript’></script>
这样的规则只需代码示例:
{dede:trim}<script(.*)>{/dede:trim}
{dede:trim}</script>{/dede:trim}
如果某些广告的内容是JS代码写在<script></script>区间里的,例如GG的广告,那么过滤规则应该是:代码示例:
{dede:trim}<script>(.*)</script>{/dede:trim}
3、一些测试过的过滤规则代码示例:
{dede:trim}<!–(.*)–>{/dede:trim}
{dede:trim}<select([^>]*)>([^>]*)</select>{/dede:trim}
{dede:trim}<option([^>]*)>([^>]*)</option>{/dede:trim}
{dede:trim}<select([^>]*)>{/dede:trim}
{dede:trim}</select>{/dede:trim}
{dede:trim}<param([^>]*)>{/dede:trim}
{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
{dede:trim}<embed([^>]*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<object([^>]*)>{/dede:trim}
{dede:trim}</object>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>{/dede:trim}
{dede:trim}</OBJECT>{/dede:trim}
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
{dede:trim}<iframe([^>]*)>{/dede:trim}
//by www.ebingou.cn//
{dede:trim}</iframe>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
{dede:trim}<font([^>]*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
{dede:trim}<td([^>]*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
{dede:trim}<tr([^>]*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
{dede:trim}<tbody>{/dede:trim}
{dede:trim}</tbody>{/dede:trim} // 内容来自www.ebingou.cn;代码号,未授权请勿搬运//
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
{dede:trim}<table([^>]*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim}<span([^>]*)>{/dede:trim}
{dede:trim}</span>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<script>(.*)</script>{/dede:trim}
{dede:trim}<script(.*)>{/dede:trim}
{dede:trim}</script>{/dede:trim} // 本文
本文标签:织梦cms采集
很赞哦! ()
相关教程
图文教程
织梦dedecms统计tag个数的方法
织梦dedecms统计tag个数的方法(代码中红色部分为tag个数): {dede:tag row=30 sort=month}
dedecms织梦升级后链接Power by DedeCms的去除方法
在后台管理——系统参数当中有一个“网站版权信息”,许多朋友肯定修改过这里所显示的文字,但我们并不能找到官方的链接Power by DedeCms这样的字眼呀。
织梦dedecms百度地图sitemap.html的制作方法
为了方便百度蜘蛛更深层次的抓取网页的页面,就需要做个sitemap.html页面。下面就说下步骤:首先创建个模板,命名为baidumap.htm
dede织梦提交自定义表单加入验证码功能
织梦dedecms的自定义表单是非常实用的工具,比如制作在线留言、提交订单等,系统默认是点击提交就可以,但是有个弊端就是如何防止恶意提交呢,那么我们就需要
相关源码
-
(自适应)绿色新闻生活百科资讯文章博客类网站pbootcms模板源码本模板基于PbootCMS开发,为生活百科、资讯文章和博客类网站设计。采用清新绿色系风格,提供舒适的阅读体验,同时适配PC和移动设备。适用于生活技巧分享、健康知识传播查看源码 -
蓝色工业机械五金设备pbootcms模板源码下载(PC+WAP)为机械制造与五金设备企业设计的响应式网站模板,基于PbootCMS内核开发。采用蓝色工业风格强化行业属性,宽屏布局突出设备细节展示,支持PC与WAP端自适应查看源码 -
(PC+WAP)历史复古古典古籍文章资讯类pbootcms模板下载本模板基于PbootCMS系统开发,为古籍研究、历史文献类网站设计,特别适合展示古典书籍、历史档案等文化内容。采用复古风格设计,同时具备现代化响应式布局,确保在PC和移动设备上都能呈现优雅的阅读体验。查看源码 -
(自适应响应式)WORDwps办公资源教程资讯网站模板下载基于PbootCMS内核开发的响应式网站模板,为办公教程、WPS技巧分享、职场技能培训等场景打造。模板内置标准化文档分类体系,支持图文/视频教程混合展示,满足现代办公知识传播需求。查看源码 -
(自适应响应式)HTML5甲醛环境检测网站模板带在线留言和资料下载本模板为甲醛检测与环保科技企业开发,采用PbootCMS内核构建。首页集成空气质量数据可视化模块,服务流程采用时间轴展示设计,检测报告板块支持PDF在线预览功能查看源码 -
帝国cms7.2淘宝客导购自媒体博客网站模板源码本模板基于帝国CMS7.2内核深度开发,为淘宝客、商品导购类自媒体及博客网站设计。通过可视化后台管理,可快速搭建具备商品推荐、比价功能的内容平台,帮助用户实现流量高效转化。查看源码
| 分享笔记 (共有 篇笔记) |
