您现在的位置是:首页 > cms教程 > DedeCMS教程DedeCMS教程
dedecms5.3采集步骤教程
芷蕾2023-09-26DedeCMS教程已有人查阅
导读首先说明一下的是,第一次写这种教程,有不当的地方请大家包涵。采集过程其实就是copy的过程,只不过,我们copy的是显示结果,而采集主要针对源码进行。
DedeCms V5.3 采集基础教程。首先说明一下的是,第一次写这种教程,有不当的地方请大家包涵。
进入正文:
采集过程其实就是copy的过程,只不过,我们copy的是显示结果,而采集主要针对源码进行。
第1步,建立节点
我们以图片中的网址为例,目标页面编码一定要选对,不然采集回来的内容会乱码,如果你采集回来的内容有乱码,首先要考虑的是编码问题,这里我们选utf-8,怎么知道别人的编码是什么呢?看看源码
第2步:文章网址匹配规则。
这个就要看采集网站的源代码(图2)了,找到一个包含所有要采集内容网址的代码(要唯一,建议多使用Ctrl F),这样我们就确定了要采集区域的网址,不放心就测试一下。
第3步:在前面2步的基础上我们已经找到了需要采集的网址,下面来看具体的采集内容。
在内容配置选项中,如果你比较懒,可以象我一样不要选那么多的选项,只选择你感兴趣的部分,如文章标题,作者及来源等,在dede cmsV5.3中已经把dede V5.1的规则进行了改造,易于初学者使用了,其基本形式是标签和内容放在一块的,V5.1要分开始标签和结束标签,其实原理都是一样的。
这里讲讲自定义作者的问题。V5.3以前的版本采集时可以用@me="作者“的形式自定义作者,而v5.3只能用替换的方法实现了,当然也有不便之处,这样我们就确定了基本的东西了。
第4步:便是我们要的内容核心了,这里会用到比较多的过滤规则,幸好dede V5.3给我们准备了一些常用的,不过,如果你想采集比较复杂的网页那还得学会一些常用的正则表达式了。这样我们就基本学会了dedecms V5.3的采集,是不是有点简单?
第5步:导出内容,这个我就不多讲了。
进入正文:
采集过程其实就是copy的过程,只不过,我们copy的是显示结果,而采集主要针对源码进行。
第1步,建立节点
我们以图片中的网址为例,目标页面编码一定要选对,不然采集回来的内容会乱码,如果你采集回来的内容有乱码,首先要考虑的是编码问题,这里我们选utf-8,怎么知道别人的编码是什么呢?看看源码
<content="text/html; charset=utf-8" />
就会明白了。“区域匹配模式”我选择是的正则表达式,因为如果选“字符串”,将有一些广告代码过滤不掉。第2步:文章网址匹配规则。
这个就要看采集网站的源代码(图2)了,找到一个包含所有要采集内容网址的代码(要唯一,建议多使用Ctrl F),这样我们就确定了要采集区域的网址,不放心就测试一下。
第3步:在前面2步的基础上我们已经找到了需要采集的网址,下面来看具体的采集内容。
在内容配置选项中,如果你比较懒,可以象我一样不要选那么多的选项,只选择你感兴趣的部分,如文章标题,作者及来源等,在dede cmsV5.3中已经把dede V5.1的规则进行了改造,易于初学者使用了,其基本形式是标签和内容放在一块的,V5.1要分开始标签和结束标签,其实原理都是一样的。
这里讲讲自定义作者的问题。V5.3以前的版本采集时可以用@me="作者“的形式自定义作者,而v5.3只能用替换的方法实现了,当然也有不便之处,这样我们就确定了基本的东西了。
第4步:便是我们要的内容核心了,这里会用到比较多的过滤规则,幸好dede V5.3给我们准备了一些常用的,不过,如果你想采集比较复杂的网页那还得学会一些常用的正则表达式了。这样我们就基本学会了dedecms V5.3的采集,是不是有点简单?
第5步:导出内容,这个我就不多讲了。
本文标签:织梦cms采集
很赞哦! ()
图文教程
dede织梦后台文档列表无法找到404错误的原因和解决方法
前几天把自己的一个阿里云主机换了系统,重新弄了个环境,由于是使用的帝国备份对整站进行的备份还原,所以还原的事情,到是一点没有。今天想起要更新下这个网站了,
织梦cms系统被挂马了怎么办
使用织梦DedeCMS的朋友,一直有一个头疼的问题,就是织梦DedeCMS的安全性。在以前的很多文章中,都有对织梦安全的相关说明,这些织梦安全设置的文章,
织梦cms联动类型在自定义表单中不可用的修复实例代码
原因是官方模板文件中注释掉了相关选项,修改方式如下:需要修改两个文件,第一个:dede/templets/diy_field_edit.htm 124行
dedecms自由列表中不使用目录默认主页默认设置教程
后台管理文件夹dede/makehtml_freelist_action.php 第83行也就是倒数第二行,把上面的1改成0就可以了。
相关源码
-
(PC+WAP)智能机器人人工智能物联网自动化设备源码下载本模板基于PbootCMS内核开发,为智能机器人及传感器科技企业精心设计。采用现代化设计风格,突出科技感与专业性,多方位展示企业技术实力与产品优势。查看源码 -
(PC+WAP)房屋建造建筑工程房地产建材行pbootcms网站模板下载本模板基于PbootCMS内核开发,为房屋建造、建筑工程及房地产建材类企业设计。通过本模板可快速搭建具有行业特色的企业官网,只需替换文字与图片内容即可适配其他行业使用。查看源码 -
自适应营销型IT网络工作室互联网建站公司pbootcms网站模板为IT网络服务商、建站企业打造的高性能营销门户,基于PbootCMS开源内核深度开发采用HTML5自适应架构,实现PC与手机端数据实时同步交互。查看源码 -
(自适应)帝国CMS7.5模板淘宝客导购博客文章源码本模板基于帝国CMS7.5内核深度开发,为电商导购类网站设计。采用响应式布局技术,确保在手机、平板及电脑端均能获得优质浏览体验。模板内置商品推荐模块与优惠信息展示区,可快速搭建专业导购平台。查看源码 -
(自适应响应式)法律咨询律师事务所法务pbootcms源码下载为律师事务所、法律咨询机构设计,特别适合展示法律服务、律师团队和成功案例。采用响应式技术,确保在不同设备上都能提供专业的法律信息展示和咨询服务。查看源码 -
(pc+wap)pbootcms网站模板蓝色小程序网站开发公司基于PbootCMS内核开发的营销型门户模板,为小程序开发公司、电商软件企业打造。采用HTML5自适应架构,实现PC与手机端数据实时同步展示查看源码
| 分享笔记 (共有 篇笔记) |
