您现在的位置是:首页 > cms教程 > DedeCMS教程DedeCMS教程
织梦dedecms采集程序支持部分采集的实现方法
千兰2024-06-13DedeCMS教程已有人查阅
导读DEDECMS自带的采集功能,虽然比不上其他专业的采集软件,但对比其他采集程序,在性能上还是非常不错。很多其他程序无法采集下来的网页,使用DEDECMS可以采集得到。
DEDECMS自带的采集功能,虽然比不上其他专业的采集软件,但对比其他采集程序,在性能上还是非常不错。很多其他程序无法采集下来的网页,使用DEDECMS可以采集得到。比如58同城首页,使用discuz的下载函数采集过来的都是一片空白或者警告内容,但是使用dedecms的下载完全可以下载下来。
DEDE采集程序原理
DEDECMS的采集原理很简单: 通过PHP程序socket模拟HTTP请求,下载整张网页的HTML。不过这里面有一个不足之处--不支持部分采集。如果我们仅仅要获得对方网页的标题,却下载了整张网页。一两张无所谓,但是大量的下载就会挤占服务器资源和带宽。比如商务大陆网35dalucom的分类信息网站大全,该频道含有600多分类信息网站,网站程序后台自动定期获取这些网站的标题,以判断这些网站是否可以正常打开,内容是否发生改变。如果使用dede的程序,直接默认下载整张网页而不是仅网页HTML头部部分,长期下去可想而知会挤占多少服务器资源。此时我们此处仅仅需要获得对方网页的标题而已。
修改文件dedehttpdown.class.php
要让DEDECMS实现部分采集的功能非常简单,只需要修改采集程序文件dedehttpdown.class.php 中的2个地方即可。使用notepad++或者dreamweaver 打开 /include/dedehttpd.class.php:
(1)第118行 $this->m_html = '';背后加入$this->dataLimit = 0;
(2)第 285行$this->m_html .= fgets($this->m_fp,256); 背后加入 if($this->dataLimit > 0 && strlen($this->m_html) > $this->dataLimit) break; 保存即可。
使用方法:
DEDE采集程序原理
DEDECMS的采集原理很简单: 通过PHP程序socket模拟HTTP请求,下载整张网页的HTML。不过这里面有一个不足之处--不支持部分采集。如果我们仅仅要获得对方网页的标题,却下载了整张网页。一两张无所谓,但是大量的下载就会挤占服务器资源和带宽。比如商务大陆网35dalucom的分类信息网站大全,该频道含有600多分类信息网站,网站程序后台自动定期获取这些网站的标题,以判断这些网站是否可以正常打开,内容是否发生改变。如果使用dede的程序,直接默认下载整张网页而不是仅网页HTML头部部分,长期下去可想而知会挤占多少服务器资源。此时我们此处仅仅需要获得对方网页的标题而已。
修改文件dedehttpdown.class.php
要让DEDECMS实现部分采集的功能非常简单,只需要修改采集程序文件dedehttpdown.class.php 中的2个地方即可。使用notepad++或者dreamweaver 打开 /include/dedehttpd.class.php:
(1)第118行 $this->m_html = '';背后加入$this->dataLimit = 0;
(2)第 285行$this->m_html .= fgets($this->m_fp,256); 背后加入 if($this->dataLimit > 0 && strlen($this->m_html) > $this->dataLimit) break; 保存即可。
使用方法:
$remoteURL = ‘http://www.ebingou.cn/info/fabu/’;
$dh = new DedeHttpDown();
$dh->OpenUrl($remoteURL);
$dh->dataLimit = 1024;
$remoteHTML = $dh->GetHtml();
我们只需要在 $dh->OpenUrl($remoteURL);背后加入 $dh->dataLimit = 1024;(你想采集的字节大小)即可。 通过这样的方法,我们可以更节约服务器资源。本文出自www.ebingou.cn商务大陆网分类信息平台,转载请保留作者链接,谢谢。
本文标签:织梦cms采集
很赞哦! ()
相关教程
图文教程
织梦cms相关文章调用整站相关文章的代码实例
首先来了解一下织梦的相关文章标签:修改成全站的相关文章的方法,修改这个文件 :\include\taglib\likearticle.lib.php
织梦dede系统GBK和UTF8版本有什么区别
dedecms分为gbk和utf8两种版本,对部分新手站长来说是一种困惑,我该装那个版本好?会在本期教程中,告诉用户区分gbk和utf8,帮助织梦用户作出选择
dedecms织梦的DIGG功能使用方法介绍
静态HTML一次以下DEDECMS V5的DIGG功能,顶完可以看到“顶”的数量是加了1,但是如果刷新页面,你会发现“顶”的数量有复原了。
Linux下织梦dedecms站点安全策略设置教程
网站安全至关重要,织梦dede因为使用的人非常多,所以安全问题也显得尤为突出。本篇将进一步来对Linux下的DedeCMS进行安全配置
相关源码
-
(PC+WAP)蓝色钢结构机械五金工程建筑基建营销型pbootcms模板下载于PbootCMS开发的钢结构与工程机械专用模板,助力企业构建专业级产品展示平台;模板内置工程案例展示、产品参数对照表等专业模块,预设项目进度、施工方案等建筑行业专属栏目查看源码 -
(响应式)轴承机械五金零件产品pbootcms落地推广单页源码下载为轴承、机械零件等工业产品打造的响应式单页模板,基于PbootCMS内核开发,助力企业快速构建专业级产品展示页面。模板采用工业风设计语言,突出产品参数与性能优势,适用于设备制造商、零部件供应商等B2B场景推广。查看源码 -
(自适应响应式)HTML5甲醛环境检测网站模板带在线留言和资料下载本模板为甲醛检测与环保科技企业开发,采用PbootCMS内核构建。首页集成空气质量数据可视化模块,服务流程采用时间轴展示设计,检测报告板块支持PDF在线预览功能查看源码 -
(自适应响应式)房产合同知识产权企业管理pbootcms模板下载本模板基于PbootCMS系统开发,为知识产权服务、法律咨询及企业合同管理等行业设计。采用严谨专业的布局风格,突出法律文书与知识产权服务行业特色,适合展示各类法律服务和知识产权相关内容。查看源码 -
(PC+WAP)绿色环保建筑设备通用行业pbootcms源码下载通过模块调整可适配园林景观、装配式建筑、绿色装修等生态建设相关领域。预制绿色建材展示、能耗模拟等专业模块,集成项目案例、环保工艺等建筑行业特色内容结构,测试数据包含LEED认证体系查看源码 -
(自适应)挖掘机大型采矿设备pbootcms网站源码下载本模板基于PbootCMS系统开发,专为重型机械设备行业设计,特别适合挖掘机、采矿设备、工程机械等工业设备展示。采用响应式布局技术,确保各类设备参数和图片在不同终端上都能清晰展示。查看源码
| 分享笔记 (共有 篇笔记) |
大家在看
织梦cms收费哪几款cms可以免费商用?本栏推荐
相关标签
大家喜欢
- 织梦使用中怎么修改织梦提示信息对话框的内容
- dede织梦系统删除文章同时删除缩略图和内容大图的实现方法
- 织梦后台提示Fatal error: Call to a member function read() on a
- dedecms织梦日期时间格式写法调用大全整理
- dedecms织梦autoindex和itemindex使用方法
- 织梦cms把数据保存到数据库附加表 `dede_addonarticle` 时出错 Duplicate entry ’3′ for
- dedecms织梦系统在列表页输出当前页码相关信息的实现方法
- 织梦dedecms怎么更改会员中心目录member
- 织梦主机设置PHP安全设置之PHP.ini安全配置方法
- dede织梦模板中怎么运行php脚本和变量在需要操作数据库字段