您现在的位置是:首页 > cms教程 > DedeCMS教程DedeCMS教程

dedecms5.3采集步骤教程

芷蕾2023-09-26DedeCMS教程已有人查阅

导读首先说明一下的是,第一次写这种教程,有不当的地方请大家包涵。采集过程其实就是copy的过程,只不过,我们copy的是显示结果,而采集主要针对源码进行。

DedeCms V5.3 采集基础教程。首先说明一下的是,第一次写这种教程,有不当的地方请大家包涵。
进入正文:
采集过程其实就是copy的过程,只不过,我们copy的是显示结果,而采集主要针对源码进行。
第1步,建立节点
我们以图片中的网址为例,目标页面编码一定要选对,不然采集回来的内容会乱码,如果你采集回来的内容有乱码,首先要考虑的是编码问题,这里我们选utf-8,怎么知道别人的编码是什么呢?看看源码
<content="text/html; charset=utf-8" />
就会明白了。“区域匹配模式”我选择是的正则表达式,因为如果选“字符串”,将有一些广告代码过滤不掉。
第2步:文章网址匹配规则。
这个就要看采集网站的源代码(图2)了,找到一个包含所有要采集内容网址的代码(要唯一,建议多使用Ctrl F),这样我们就确定了要采集区域的网址,不放心就测试一下。
第3步:在前面2步的基础上我们已经找到了需要采集的网址,下面来看具体的采集内容。
在内容配置选项中,如果你比较懒,可以象我一样不要选那么多的选项,只选择你感兴趣的部分,如文章标题,作者及来源等,在dede cmsV5.3中已经把dede V5.1的规则进行了改造,易于初学者使用了,其基本形式是标签和内容放在一块的,V5.1要分开始标签和结束标签,其实原理都是一样的。
这里讲讲自定义作者的问题。V5.3以前的版本采集时可以用@me="作者“的形式自定义作者,而v5.3只能用替换的方法实现了,当然也有不便之处,这样我们就确定了基本的东西了。
第4步:便是我们要的内容核心了,这里会用到比较多的过滤规则,幸好dede V5.3给我们准备了一些常用的,不过,如果你想采集比较复杂的网页那还得学会一些常用的正则表达式了。这样我们就基本学会了dedecms V5.3的采集,是不是有点简单?
第5步:导出内容,这个我就不多讲了。

本文标签:织梦cms采集 

很赞哦! ()

相关源码

  • (PC+WAP)智能机器人人工智能物联网自动化设备源码下载本模板基于PbootCMS内核开发,为智能机器人及传感器科技企业精心设计。采用现代化设计风格,突出科技感与专业性,多方位展示企业技术实力与产品优势。查看源码
  • (PC+WAP)房屋建造建筑工程房地产建材行pbootcms网站模板下载本模板基于PbootCMS内核开发,为房屋建造、建筑工程及房地产建材类企业设计。通过本模板可快速搭建具有行业特色的企业官网,只需替换文字与图片内容即可适配其他行业使用。查看源码
  • 自适应营销型IT网络工作室互联网建站公司pbootcms网站模板为IT网络服务商、建站企业打造的高性能营销门户,基于PbootCMS开源内核深度开发采用HTML5自适应架构,实现PC与手机端数据实时同步交互。查看源码
  • (自适应)帝国CMS7.5模板淘宝客导购博客文章源码本模板基于帝国CMS7.5内核深度开发,为电商导购类网站设计。采用响应式布局技术,确保在手机、平板及电脑端均能获得优质浏览体验。模板内置商品推荐模块与优惠信息展示区,可快速搭建专业导购平台。查看源码
  • (自适应响应式)法律咨询律师事务所法务pbootcms源码下载为律师事务所、法律咨询机构设计,特别适合展示法律服务、律师团队和成功案例。采用响应式技术,确保在不同设备上都能提供专业的法律信息展示和咨询服务。查看源码
  • (pc+wap)pbootcms网站模板蓝色小程序网站开发公司基于PbootCMS内核开发的营销型门户模板,为小程序开发公司、电商软件企业打造。采用HTML5自适应架构,实现PC与手机端数据实时同步展示查看源码
分享笔记 (共有 篇笔记)
验证码:

本栏推荐