您现在的位置是:首页 > cms教程 > WordPress教程WordPress教程

Wordpress优化SEO根目录robots文件怎么写

卢帆新2025-03-17WordPress教程已有人查阅

导读robots.txt 是放置于域名根目录的一个文本文件,其作用是"声明站内规则",即告诉搜索引擎一个站点中哪些内容它可以抓取,而哪些不能。站长通过向 robots.txt 写入规则来和搜索引擎"沟通"

robots.txt 是放置于域名根目录的一个文本文件,其作用是"声明站内规则",即告诉搜索引擎一个站点中哪些内容它可以抓取,而哪些不能。站长通过向 robots.txt 写入规则来和搜索引擎"沟通",以此保证站点的内容能够按照自己的意愿出现在搜索引擎当中(百度只部分遵守)。
搜索引擎爬虫开始抓取一个网站,它们首先做的事情便是读取这个网站的 robots.txt。
根据 Wordpress 的特性,SEO 必须从 robots.txt 做起。Wordpress SEO 权重调节篇已经阐明了单篇文章的重要性,本篇 robots.txt 和 meta robots 则是我们调整 Wordpress 内部权重的重要工具。
先来看看我的 robots.txt 文件内的规则:
User-agent: *
Disallow: /index.php
Disallow: /wp-
Disallow: /*/feed
Disallow: /*/*/feed
Disallow: /*/*/trackback
Disallow: /wap
Disallow: /page
Sitemap: https://ishawn.net/sitemap.xml
我逐条分析并解释原因。
1. User-agent 即搜索引擎的爬虫,以星号(*)匹配,表明之后的规则通用于所有搜索引擎。如果需要针对单独的搜索引擎制定规则,则需要写出该搜索引擎爬虫的具体名称,例如 Baiduspider 。
2. 一定有人会奇怪为什么我要禁止爬虫抓取 index.php 。Disallow,意为不允许。当我发现搜索引擎并不那么聪明之后,我加入了这条规则。对搜索引擎来说,ishawn.net/ 是首页,而 ishawn.net/index.php 是"另一个"首页。搜索引擎一不小心发现 index.php 的存在,给抓进去了,之后的结果是:ishawn.net 有两个 meta description 页面描述完全相同的页面。首页就这么不明不白地被另一个自己分散了权重。
3. 不允许抓取 /wp- 。这是一个省略的写法,完整的意思是不允许抓取域名根目录下所有以 "wp-" 开头的文件和文件夹。名称为 "wp-" 的文件夹在我这里都是 Wordpress 的系统文件,给搜索引擎抓了去对大家都没好处。
4. 不允许抓取 /*/feed 。ishawn.net/comments/feed 和 ishawn.net/comment/feed 都是我不希望被搜索引擎抓取到的,它们对搜索引擎和我来说都没有意义。为了简化写法,我用了通配符。反正我这里除了 /tag/feed 之外没有第四个可以被匹配到的路径了。前三个我本来就不希望它们被搜索引擎抓取。
5. 不允许抓取 /*/*/feed 。ishawn.net 的长久链接结构为 /分类名称/单篇文章,这个规则匹配的便是 /分类名称/单篇文章/feed,意为不允许搜索引擎抓取单篇文章的评论 feed。
6. 不允许抓取 /*/*/trackback 。理由同上,不允许抓取单篇文章的 trackback 地址。
7. 不允许抓取 /wap 。我安装了 wp-t-wap 插件,生成的 wap 页面都包含在里面,还是出于不被分散权重的理由,禁止。
8. 不允许抓取 /page 。举例来说,ishawn.net/page/2 是首页的"第二页",它同样和首页的 meta description 相同,所以禁止理由也和第2条相同,我就不罗嗦了。需要注意的是写法,你也可以写成 Disallow: /page/* ,它们的意思都是一样的。
9. 声明 sitemap 所在地。其实这并不是一个必须的条目,不过写上可以让搜索引擎对 sitemap.xml 的读取更频繁一些。
需要注意的是,robots.txt 不通用,直接拿我的 robots.txt 内容放在你那里很可能起反作用。我看到有些博友无私地将自己的 robots.txt 分享出来让别人 copy,这种举动很愚昧。就像每个 blog 有不同的长久链接形式一样,你必须根据自己的实际情况来定制 robots.txt。之所以要逐条解释我的 robots.txt,也是出于这方面的考虑。
robots.txt 也不要写得太复杂。由于存在通配符,条目越多,交叉领域也越多,把爬虫搞糊涂对你的站点没有好处。这里有一个 Google 官方的 robots.txt 定制指南,详细解释了各种通配符的用法,有兴趣的朋友可以参考一下。
当然,要达到 "固定页面数量+单篇文章数量+首页" 的结果,仅依靠 robots.txt 是不够的。我们还需借助 meta robots 的帮助。
meta robots 是写在页面内的,具有更多可操作性的 "robots.txt" 。"ishawn.net/年份/月份" 是我这里按月存档的路径,我不想搜索引擎抓取它们,原本可以在 robots.txt 里面写 Disallow: /200* ,但这样的损失很大。要知道,写在 robots.txt 里面的内容是完全禁止搜索引擎抓取的。一旦我彻底禁止了爬虫对存档页面的爬取,那我的内链就会损失很多。
meta robots 更多可操作性的用处就在这里了。
<meta content="noindex,follow" />
当搜索引擎读取到页面上的这个标签,便不会收录该页面。但其仍然会跟踪页面内的所有链接,使内链关系继续维持。
我们没有在页面内插入任何 meta robots 属性时, 爬虫对页面会以 "index,follow" 来对待,即收录且跟踪链接。如果有需求的话,我们也可以使用 "index,nofollow" -- 收录但不跟踪页内链接。meta robots 还有一个不常用的属性,noarchive 。该属性可以控制搜索引擎是否建立网页快照。
通过 robots.txt 和 meta robots,我们完全可以控制好搜索引擎对 blog 的收录数量,发挥单篇文章的较大价值。SEO for Wordpress 的乐趣有很多,robots.txt 和 meta robots 便是其中之一。

本文标签:

很赞哦! ()

相关源码

  • (自适应)重工工业机械挖掘机机推土机网站源码下载基于PbootCMS内核开发的专业级重工机械企业网站模板,适用于挖掘机、推土机等重型工业设备展示。采用响应式设计技术,确保在各类设备上均能呈现专业视觉效果,帮助企业建立数字化展示窗口。查看源码
  • (自适应)高端集团跨国公司产业联盟机构网站模板免费下载基于PbootCMS内核开发的集团级企业网站模板,采用响应式设计架构,确保在各类移动设备上获得浏览体验。通过模块化布局与简约大气的视觉风格,帮助集团企业高效展示组织架构、发展历程和业务矩阵,建立专业的企业形象窗口。查看源码
  • (自适应)水墨风中药馆中医名医介绍pbootcms网站模板本模板基于PbootCMS内核开发,为中医馆、中医药企业量身定制,可快速搭建具有传统文化特色的官方网站。自适应手机端设计,数据实时同步,助您高效展示中医特色诊疗、中药产品、养生知识等内容,塑造专业品牌形象。查看源码
  • (PC+WAP)智能机器人人工智能物联网自动化设备源码下载本模板基于PbootCMS内核开发,为智能机器人及传感器科技企业精心设计。采用现代化设计风格,突出科技感与专业性,多方位展示企业技术实力与产品优势。查看源码
  • (自适应)个人图集图片相册画册pbootcms网站模板源码本模板基于PbootCMS系统开发,为图片展示类网站设计,特别适合个人作品集、摄影画册、艺术图集等内容展示。采用响应式布局技术,确保各类图片在不同设备上查看源码
  • (自适应响应式)HTML5中小学早教教育机构类网站pbootcms模板下载基于PbootCMS内核开发的响应式模板,为早教中心、培训学校等教育机构打造,提供从技术架构到视觉呈现的全套网站建设方案。查看源码
分享笔记 (共有 篇笔记)
验证码: