您现在的位置是:首页 > cms教程 > DedeCMS教程DedeCMS教程
织梦dedecms采集程序支持部分采集的实现方法
千兰2024-06-13DedeCMS教程已有人查阅
导读DEDECMS自带的采集功能,虽然比不上其他专业的采集软件,但对比其他采集程序,在性能上还是非常不错。很多其他程序无法采集下来的网页,使用DEDECMS可以采集得到。
DEDECMS自带的采集功能,虽然比不上其他专业的采集软件,但对比其他采集程序,在性能上还是非常不错。很多其他程序无法采集下来的网页,使用DEDECMS可以采集得到。比如58同城首页,使用discuz的下载函数采集过来的都是一片空白或者警告内容,但是使用dedecms的下载完全可以下载下来。
DEDE采集程序原理
DEDECMS的采集原理很简单: 通过PHP程序socket模拟HTTP请求,下载整张网页的HTML。不过这里面有一个不足之处--不支持部分采集。如果我们仅仅要获得对方网页的标题,却下载了整张网页。一两张无所谓,但是大量的下载就会挤占服务器资源和带宽。比如商务大陆网35dalucom的分类信息网站大全,该频道含有600多分类信息网站,网站程序后台自动定期获取这些网站的标题,以判断这些网站是否可以正常打开,内容是否发生改变。如果使用dede的程序,直接默认下载整张网页而不是仅网页HTML头部部分,长期下去可想而知会挤占多少服务器资源。此时我们此处仅仅需要获得对方网页的标题而已。
修改文件dedehttpdown.class.php
要让DEDECMS实现部分采集的功能非常简单,只需要修改采集程序文件dedehttpdown.class.php 中的2个地方即可。使用notepad++或者dreamweaver 打开 /include/dedehttpd.class.php:
(1)第118行 $this->m_html = '';背后加入$this->dataLimit = 0;
(2)第 285行$this->m_html .= fgets($this->m_fp,256); 背后加入 if($this->dataLimit > 0 && strlen($this->m_html) > $this->dataLimit) break; 保存即可。
使用方法:
DEDE采集程序原理
DEDECMS的采集原理很简单: 通过PHP程序socket模拟HTTP请求,下载整张网页的HTML。不过这里面有一个不足之处--不支持部分采集。如果我们仅仅要获得对方网页的标题,却下载了整张网页。一两张无所谓,但是大量的下载就会挤占服务器资源和带宽。比如商务大陆网35dalucom的分类信息网站大全,该频道含有600多分类信息网站,网站程序后台自动定期获取这些网站的标题,以判断这些网站是否可以正常打开,内容是否发生改变。如果使用dede的程序,直接默认下载整张网页而不是仅网页HTML头部部分,长期下去可想而知会挤占多少服务器资源。此时我们此处仅仅需要获得对方网页的标题而已。
修改文件dedehttpdown.class.php
要让DEDECMS实现部分采集的功能非常简单,只需要修改采集程序文件dedehttpdown.class.php 中的2个地方即可。使用notepad++或者dreamweaver 打开 /include/dedehttpd.class.php:
(1)第118行 $this->m_html = '';背后加入$this->dataLimit = 0;
(2)第 285行$this->m_html .= fgets($this->m_fp,256); 背后加入 if($this->dataLimit > 0 && strlen($this->m_html) > $this->dataLimit) break; 保存即可。
使用方法:
$remoteURL = ‘http://www.ebingou.cn/info/fabu/’;
$dh = new DedeHttpDown();
$dh->OpenUrl($remoteURL);
$dh->dataLimit = 1024;
$remoteHTML = $dh->GetHtml();
我们只需要在 $dh->OpenUrl($remoteURL);背后加入 $dh->dataLimit = 1024;(你想采集的字节大小)即可。 通过这样的方法,我们可以更节约服务器资源。本文出自www.ebingou.cn商务大陆网分类信息平台,转载请保留作者链接,谢谢。
本文标签:织梦cms采集
很赞哦! ()
相关教程
图文教程
dedecms织梦后台登录提示Call to undefined function getcururl()错误
登录后台提示Call to undefined function getcururl()错误。先从权限找了原因,之后发现是data目录路径的问题。
织梦dedecms5.6文章内容怎么自动添加关键字链接
1、后台>系统>系统基本参数>核心设置>关键字替换(是/否),这里选择“是”。2、后台>系统>系统基本参数>其他选项>文档内容同
dedecms5.5图片水印及图集手工上传无法加水印的解决方法
从本地上传的图片没有添加水印,为了解决原创问题,折腾半天结果根本就不是设置的问题,经过一番周折最终找到了解决方法,贴出来与大家分享,感兴趣的你可不要错过了哈
dedecms织梦你所选择的栏目与当前模型不相符的解决方法
今天在dedecms后台发布内容的时候提示你所选择的栏目与当前模型不相符,请选择白色的选项的错误,经过排查解决了问题,特分享给需要的朋友。
相关源码
-
(自适应)游泳馆泳池水处理器设备pbootcms网站模板免费下载专注服务于泳池水处理设备制造商、泳池系统工程商等企业用户。模板预设设备分类体系、技术参数展示模块和解决方案呈现页面,满足行业特有展示需求。查看源码 -
自适应营销型IT网络工作室互联网建站公司pbootcms网站模板为IT网络服务商、建站企业打造的高性能营销门户,基于PbootCMS开源内核深度开发采用HTML5自适应架构,实现PC与手机端数据实时同步交互。查看源码 -
(自适应响应式)HTML5电脑手机电子数码产品配件pbootcms模板下载本模板为电脑配件、手机配件及数码周边产品企业设计,基于PbootCMS内核开发。采用现代化响应式布局,适配各类移动设备,能够专业展示各类电子产品配件参数、应用场景和技术特点。模板内置多种产品展示模块,满足不同类型配件企业的展示需求。查看源码 -
自适应响应式绿色装修公司定制家居类pbootcms网站下载(自适应手机端)响应式全屋装修定制家居类网站pbootcms模板 绿色装修公司网站源码下载PbootCMS内核开发的网站模板,该模板适用于装修定制网站、装查看源码 -
(自适应响应式)蓝色勘察设计院机构单位商会协会pbootcms模板下载本模板基于PbootCMS系统开发,为勘察设计院所、工程咨询单位设计,特别适合展示设计成果、技术服务和项目案例。采用响应式技术,确保设计图纸和方案以及文案在不同设备上都能清晰展示。查看源码 -
(自适应)摄像头安防电子设备pbootcms源码下载本模板基于PbootCMS系统开发,为安防电子设备企业设计,特别适合监控摄像头、安防系统等产品的展示。采用响应式技术,确保各类设备参数和功能在不同终端上都能清晰呈现。查看源码
| 分享笔记 (共有 篇笔记) |
大家在看
织梦cms收费哪几款cms可以免费商用?本栏推荐
相关标签
大家喜欢
- 织梦模板dedecms文件名的作用和说明
- dede织梦5.6tags.php标签不能按照时间排序的解决方法
- 织梦dx tipask dedeask静态规则及二级栏目301重定向方法
- 织梦dedecms实现显示访问者ip地址的办法
- dedecms网站文章列表页更新点击次数不增加的方法
- 修改dede织梦添加栏目时“文章命名规则”默认路径的方法
- dede织梦搬家远程附件DedeTag Engine Create File False的解决方法
- 织梦dede5.7网站软件登记怎么替换成图标显示
- dedecms有短标题则显示短标题,没有则显示文章标题
- 在dedecms文章页中获取当前栏目字段如content字段