您现在的位置是:首页 > cms教程 > DedeCMS教程DedeCMS教程
织梦dedecmsV5.7采集的方法教程步骤
古驰2024-06-02DedeCMS教程已有人查阅
导读如果作者 V5.3DedeCms V5.3 采集基础教程。首先说明一下的是,第一次写这种教程,有不当的地方请大家包涵。
如果作者 V5.3DedeCms V5.3 采集基础教程。首先说明一下的是,第一次写这种教程,有不当的地方请大家包涵。
进入正文:
采集过程其实就是copy的过程,只不过,我们copy的是显示结果,而采集主要针对源码进行。
第1步,建立节点
我们以图片中的网址为例,目标页面编码一定要选对,不然采集回来的内容会乱码,如果你采集回来的内容有乱码,首先要考虑的是编码问题,这里我们选utf-8,怎么知道别人的编码是什么呢?看看源码<content="text/html; charset=utf-8" />就会明白了。
“区域匹配模式”我选择是的正则表达式,因为如果选“字符串”,将有一些广告代码过滤不掉。
第2步:文章网址匹配规则。 生活Tips欢迎您!
这个就要看采集网站的源代码了,找到一个包含所有要采集内容网址的代码(要唯一,建议多使用Ctrl F),这样我们就确定了要采集区域的网址,不放心就测试一下。
第3步:在前面2步的基础上我们已经找到了需要采集的网址,下面来看具体的采集内容。
在内容配置选项中,如果你比较懒,可以象我一样不要选那么多的选项,只选择你感兴趣的部分,如文章标题,作者及来源等,在dede cmsV5.3中已经把dede V5.1的规则进行了改造,易于初学者使用了,其基本形式是标签和内容放在一块的,V5.1要分开始标签和结束标签,其实原理都是一样的。
这里讲讲自定义作者的问题。V5.3以前的版本采集时可以用@me="作者“的形式自定义作者,而v5.3只能用替换的方法实现了,当然也有不便之处,这样我们就确定了基本的东西了。
第4步:便是我们要的内容核心了,这里会用到比较多的过滤规则,幸好dede V5.3给我们准备了一些常用的,不过,如果你想采集比较复杂的网页那还得学会一些常用的正则表达式了。这样我们就基本学会了dedecms V5.3的采集,是不是有点简单?
侠客站长站 (www. )
第5步:导出内容,这个我就不多讲了。
进入正文:
采集过程其实就是copy的过程,只不过,我们copy的是显示结果,而采集主要针对源码进行。
第1步,建立节点
我们以图片中的网址为例,目标页面编码一定要选对,不然采集回来的内容会乱码,如果你采集回来的内容有乱码,首先要考虑的是编码问题,这里我们选utf-8,怎么知道别人的编码是什么呢?看看源码<content="text/html; charset=utf-8" />就会明白了。
“区域匹配模式”我选择是的正则表达式,因为如果选“字符串”,将有一些广告代码过滤不掉。
第2步:文章网址匹配规则。 生活Tips欢迎您!
这个就要看采集网站的源代码了,找到一个包含所有要采集内容网址的代码(要唯一,建议多使用Ctrl F),这样我们就确定了要采集区域的网址,不放心就测试一下。
第3步:在前面2步的基础上我们已经找到了需要采集的网址,下面来看具体的采集内容。
在内容配置选项中,如果你比较懒,可以象我一样不要选那么多的选项,只选择你感兴趣的部分,如文章标题,作者及来源等,在dede cmsV5.3中已经把dede V5.1的规则进行了改造,易于初学者使用了,其基本形式是标签和内容放在一块的,V5.1要分开始标签和结束标签,其实原理都是一样的。
这里讲讲自定义作者的问题。V5.3以前的版本采集时可以用@me="作者“的形式自定义作者,而v5.3只能用替换的方法实现了,当然也有不便之处,这样我们就确定了基本的东西了。
第4步:便是我们要的内容核心了,这里会用到比较多的过滤规则,幸好dede V5.3给我们准备了一些常用的,不过,如果你想采集比较复杂的网页那还得学会一些常用的正则表达式了。这样我们就基本学会了dedecms V5.3的采集,是不是有点简单?
侠客站长站 (www. )
第5步:导出内容,这个我就不多讲了。
本文标签:织梦cms采集
很赞哦! ()
相关教程
图文教程
dedecms织梦鼠标选中显示全部标题的代码实例
因网页设计的原因,在某些地方我们需要截取文章的部分标题,但这样无论对SEO还是访客来说体验都非常不好。
dedecms当前文章标题加亮显示的方法
很多人在用dedecms仿站的时候,会用到在当前栏目页面,栏目标题使用指定样式(标题加亮,或者放个背景图)。这是一个很常用和实用的功能,比如在导航页面,标识当前在浏览哪个栏目。
dedecms后台登录后空白的原因及解决方法
dedecms,dedecms后台空白,dedecms登陆空白,织梦dedecms登录空白怎么办?dedecms登录后台后很慢,最终显示500错误如何解决
织梦cms/dedecms显示未审核稿件的tag标签的修改方法
不让DEDEcms显示“未审核稿件”的tag标签解决办法如下,只要添加两行代码:打开“/include/taglib/tag.lib.php文件。
相关源码
-
(PC+WAP)高端餐饮美食小吃加盟网站模板下载pbootcms本模板基于PbootCMS内核开发,为餐饮美食品牌加盟、小吃连锁企业量身打造。通过精致的美食视觉呈现与加盟业务流程展示,帮助餐饮企业建立专业线上门户,实现品牌形象与加盟业务的双重展示。查看源码 -
(自适应响应式)蓝色勘察设计院机构单位商会协会pbootcms模板下载本模板基于PbootCMS系统开发,为勘察设计院所、工程咨询单位设计,特别适合展示设计成果、技术服务和项目案例。采用响应式技术,确保设计图纸和方案以及文案在不同设备上都能清晰展示。查看源码 -
(自适应响应式)HTML5磁电机械设备蓝色营销型网站pbootcms模板本模板为磁电设备行业设计,采用蓝色营销风格,突出工业设备的专业性和技术感。模板结构清晰,能够有效展示磁电设备的技术参数、应用场景和企业实力,帮助客户快速了解产品特点和公司服务。查看源码 -
(自适应响应式)蓝色环保机械设备网站pbootcms模板HTML5源码下载基于PbootCMS的生态环境技术展示平台,通过内容调整可应用于新能源设备、污水处理、空气净化等环保相关领域。设备参数采用对比表格展示,技术原理支持图文混排;查看源码 -
(PC+WAP)安保服务保安保镖模板免费下载本模板基于PbootCMS内核开发,为安保服务企业量身打造。设计风格严谨专业,突出安保行业的安全、可靠特性,展示企业服务项目与实力。采用响应式设计,PC与移动端数据同步,管理便捷。模板布局合理查看源码 -
自适应车行汽车租赁二手车行业企业网站模板为汽车租赁与二手车交易场景深度优化,采用PbootCMS内核开发,聚焦车辆展示、租赁流程与服务介绍三大核心模块。响应式布局确保PC与移动端数据实时同步,后台一键管理车辆信息查看源码
| 分享笔记 (共有 篇笔记) |
