wordpress robots.txt设置-google百度seo优化差异

作者 FarLee 2010年2月17日 17:18:17   ‖浏览(22,944)

我们知道WordPress博客系统是一个全球流行的独立博客程序,Google也是一个国际搜索引擎巨人,所以WordPress博客程序虽然有着很好的搜索引擎优化(SEO)基础,但是它是针对谷歌或者Google.com来优化的,WP不会对中国本地化的百度搜索引擎作针对性的SEO工作,比如WordPress评论链接优化。这里要提到的WordPress 中的robots.txt文件,Google和百度给它的权重也完全不同。

首先以我的远方博客为例,列一些WordPress 博客针对Google 的SEO优化,百度是不支持的地方:

1. 首选域:Google 在网站管理员中允许你设置网站的首选域,允许你从www.farlee.info和farlee.info这两个带www和不带www的两个主域名中选择一个作为首选域,Google等搜索引擎认为这两个顶级域名是不一样的,通过设置首选域就不会将PR权重分散到两个域名中,同时也避免了网站重复页面问题。而百度没有这方面的设置。

2. rel=”canonical”属性:Google在官方博客文章指定您的URL范式中指出了可以使用rel=”canonical”属性指定让Google索引的网址。避免网站出现网址规范化问题。WordPress博客(2.9.1版本)在文章页面的动态网址中默认加入了rel=”canonical”属性指定Google搜索引擎去索引永久固定链接,但是百度不支持这个rel=”canonical”属性。

3. rel=’nofollow’属性:Google 支持rel=’nofollow’ (或rel=’external nofollow’) 属性,这个属性告诉Google等搜索引擎不索引哪些链接。WordPress 博客默认在评论中也对评论人的网址链接和回复链接加入了rel=’external nofollow’和rel=’nofollow’。但是百度又不支持。

另外在WordPress博客肯定还有很多属性是百度所不支持的,远方博客前断时间做过的优化工作都是针对Google的,这也可能是为什么百度只收录首页,不收录内页的原因之一。

那么我们不仅要问,百度支持哪些WordPress的seo优化?其实url重写301永久重定向设置401页面这些都是能对Google及百度优化起作用的。另外就是robots.txt文件,Google因为有了rel=’external nofollow’,也强力推荐rel=”canonical”属性,因此对robots.txt文件的依赖程度有所降低,但是百度给予robots.txt的关注是很高的。下面是我的robots.txt文件的设置:

User-agent: *
Disallow: /wp-
Allow: /wp-content/uploads/
Disallow: /?
Disallow: /feed
Disallow: /*/*/feed
Disallow: /trackback
Disallow: /*/*/trackback
Disallow: /index.php?
Disallow: /index.php/
Disallow: /*.php$
Disallow: /*.css$
Disallow: /date/
Disallow: /page/
Sitemap: http://h.farll.com/sitemap.xml

因为每个人的博客永久固定链接结构都不一致,所以上面的设置只供大家参考,切忌完全COPY,否则将导致某些正常文章页面不被Goolge和百度搜索引擎收录。为便于大家根据自己的情况作更改,下面对robots.txt文件的每条设置逐一说明,如果对什么是robots.txt文件还不熟悉,建议先看看这篇文章:robots.txt用法和seo作用

  • User-agent: * 表示对所有的搜索引擎都采用下面的规则;
  • Disallow: /wp- 不允许Google/百度spider抓取和索引wp-开头的文件及目录,如wp-login.php,wp-admin目录等均被阻止;
  • Allow: /wp-content/uploads/ 因为在上一条将wp-content目录屏蔽了,这样Google图片搜索和百度就无法访问放在/wp-content/uploads/目录下的图片,为了能使Google图片搜索收录图片等附件,将这个目录设置为Allow;
  • Disallow: /? 禁止搜索引擎spider索引以?开头的网址,如单独文章页面的动态网址http://h.farll.com/?p=1。这一条比较厉害,包括了WordPress博客的大部分动态网址,相当于:
    Disallow: /?p=              单独文章页面
    Disallow: /?cat=          文章分类页面
    Disallow: /?tag=          文章标签页面
    Disallow: /?m=            文章按月归档
    Disallow: /?r=              文章评论链接跳转地址
    Disallow: /?s=              文章站内搜索结果页面
    Disallow: /?paged=    固定页面
    Disallow: /?feed=       博客订阅feed
    Disallow: /?*                其他动态页面

    当然你也可以按照上面这样一条一条来写,如果用Disallow: /? ,又想不禁止其中的某个的时候,可以再加个Allow,如Allow: /?m=

  • Disallow: /feed 禁止Google,百度搜索引擎索引feed博客页面。博客都有一个订阅整站的feed,每个文章分类,每篇文章也分别有一个feed,feed页面和网站页面内容基本相同,如果feed页面没有被禁止访问,可想而知,这将会产生大量的重复页面。有博友反映将feed Disallow以后,从百度搜索引擎来的流量上升非常明显。这里请注意Disallow: /feed和最后加了反斜杠的Disallow: /feed/ 是完全不一样的。Disallow: /feed可以禁止的url包括:abc.com/feed,abc.com/feed.html,abc.com/feed/abc这三种形式,而Disallow: /feed/只能禁止搜索引擎访问abc.com/feed/abc这种目录形式,所以我们应该用Disallow: /feed。
  • Disallow: /*/*/feed 这条规则禁止Google/baidu等搜索引擎访问文章分类和单独文章文章页面的feed。如本文的http://h.farll.com/archives/wordpress-robots-txt-seo-google-baidu-difference.html/feed。注意这项根据每个博客固定链接结构的不同要采取不同的设置,如abc.com/1.html/feed,规则要改成Disallow: /*/feed
  • 后面两条trackback和feed一样。
  • Disallow: /index.php? 这条规则是为了防止搜索引擎收录abc.com/index.php这种url产生的动态网址
  • Disallow: /index.php/ 这条规则是为了防止搜索引擎收录abc.com/index.php这种url下的所有目录
  • Disallow: /*.php$ 这条规则是为了禁止搜索引擎访问和收录.php后缀结尾的url,包括abc.com/index.php,有效防止了首页权重被分散。
  • Disallow: /*.css$ 禁止搜索引擎访问css文件。
  • Disallow: /date/ 禁止搜索引擎访问日期存档页面
  • Disallow: /page/ 禁止搜索引擎访问博客文章翻页页面,这里设置后好处是减少了重复页面,坏处是Google和baidu的spider无法检索到老文章,因此这里要和网站地图Sitemap.xml配合使用。

“wordpress robots.txt设置-google百度seo优化差异”文章评论(45)

  1. 汗,百度spider连评论回复的链接也会去爬,再加一条:
    Disallow: /*?replytocom=

    • 这个对我非常有用,拿走了

  2. zzmax

    晕死,我的博客很多不该收录的地方也被收录了。好文,收藏

  3. zzmax

    博主你好。我的博客程序由于放在网站的blog目录下,那么我的robots.txt的写法是否是这样:
    Disallow: /blog/wp-

    在前面多加一个/blog 么

  4. 前段时间重新修改了robots.txt文件,正在验证效果!

  5. 我都不知道该怎么设置了

  6. 最近也在弄robots.txt,不知道遇到了什么情况,百度的爬虫每天都来爬,但就是不收录,google都收录了好些了。。。。。搞不清楚状况 🙁

  7. 百度收了我很多的评论相关的页面,我抄走了,谢谢博主

  8. 百度经常是该收的不收,不该收的一个劲的收

  9. 评论图像测试~~~第一次弄啊~

  10. 很好很强大,我顺手转走了

  11. 你的博客很有特色啊!

  12. 站长你好,我的网站是用wordpress程序做的,http://www.yuehongyuanyi.com这个站我上线好久了,百度就是只收录我的首页,你能帮我看看嘛?希望得到你的回复!

  13. 老大 ,请教一下 这个 Disallow: /wp- 如果说 我的文章URL中含有wp- 是不是不会被收录呢? 我使用postname的固定连接 而恰恰 WordPress我们有喜欢简称之为wp 还有 Disallow: /?r= 这个不太明白,我的评论者链接都做了重定向 是 ?to=newurl 这种形式。。。。有空希您帮我指点一下我博客的robots 我可被这东西还惨了。

    • Disallow: /wp-会阻止任何以wp开头的url:如http://farlee.info/wp-robots-txt/

    • You’ve got to be kidding me-it’s so tranpsarntely clear now!

  14. disallow: /feed 这个有体会,我的另一个博客没有设置,结果经常搜索内容,总是出现在feedsky.com里面。

  15. 至今百度收录0,google收录很好,试试博主的办法,先谢谢了!

    • Just killing some in between class time on Digg and I found your article . Not normally what I prefer to examine, nevertheless it was absolutely price my time. Thanks.

  16. dybob.com试试博主的办法,先谢谢了!

  17. 我找好几天这个文件,我看好几篇才看懂,真的不错。很多的学员会受益的。谢谢你呀

  18. 我按照你的设置更改了,希望有用!

  19. 最开始不会设置这个,网站收录正常,后从网上找了这方面的知识,就做了个robots,后来又是换主机,又是换模板的,现在收录一个没了,不知道是不是robots设置出问题了还是其它原因。看着你这个挺好的,学着设置下。

  20. 灰常好,灰常感谢,找了两天您的答案是最好的

  21. 第一次用wordpress ,特来找资料~

  22. 我上传上去后无法访问是怎么回事?

  23. 我的就收录了好多重复的网页,试试这个。

  24. Disallow: /wp-*
    有人这么写,那个星号有没有用

  25. 我只不过为了屏蔽百度才做robots.txt

  26. 很详细,很有用

Trackbacks/Pingbacks

  1. 泛域名解析设置影响seo和Google PR值 - 远方博客
  2. robots.txt和Google重复相似页面 - 远方博客
  3. Google 网站管理员工具功能和使用方法 - 远方博客
  4. robots.txt设置Google Adsense不显示公益广告 - 远方博客
  5. J2EE 在路上 » robots.txt文件笔记
  6. WordPress Google Sitemap(网站地图)自动生成插件 | 释放生活
  7. wordpress中robots.txt设置对google/百度seo优化差异 ∷『独孤小于』
  8. MathCAI » wordpress robots.txt设置-google百度seo优化差异
  9. 关于robots.txt | iounstone
  10. robots.txt用法和seo作用-Googlebot/Baiduspider | cps是什么意思
  11. WordPress评论留言链接优化-nofollow和url跳转 | 微光博客
  12. robots.txt用法和seo作用-Googlebot/Baiduspider - 让让在线
  13. WordPress Google Sitemap(xml)自动生成插件 | 小周工作室
  14. robots.txt用法和seo作用-Googlebot/Baiduspider - 资源屋
  15. WordPress 配置友好的 robots | 北街博客

来说兩句