robots.txt和Google重复相似页面

作者 FarLee 2010年3月21日 12:47:46   ‖浏览(9,607)

又碰到了robots.txt 和Google重复相似页面的问题了。

用Site:farlee.info查看Google收录数,发现收录页面数量和原来差不多,缓慢增长,也符合每天一篇文章每日一贴的速度。但是翻到Google收录的最后一页时发现有接近3页的相似页面,这个相似页面也就是以前Google 提到的网站补充材料。搜索结果页面底部显示:

为了提供最相关的结果,我们省略了与已显示的 113 个类似的条目。根据您的意愿,可将省略的结果纳入搜索范围后再重新搜索。

然后查看收录的重复页面是什么,一看大吃一惊,相似页面基本上都是文章评论的feed页面。

robots txt google similar pages

查看robots.txt文件,已经阻止搜索引擎spider访问该地址了:Disallow: /*/*/feed。进入Google 网站管理员工具后台查看抓取错误,其中“受 robots.txt 限制”的网址条目中也确实有文章评论的feed页面“网址受到 robots.txt 的限制”的记录。为何Google Spider 仍然将其收录了并作为相似页面出现在搜索结果中呢?

根据最近的博客情况,远方博客分析认为一方面可能是由于Googlebot曾经在某段时间不能从网站服务器中顺利读取 robots.txt 文件。另外一方面可能是在外部链接中出现了这些文章评论的feed网址。还有可能是robots.txt限制规则 Disallow: /*/*/feed写法有误。

同时Site:网址搜索结果页面中还有作者文章归档页面,在Google网站管理员工具中的HTML建议中也提到该页面存在“重复的元说明”和“重复的标题标记”的问题,所以这也是导致重复页面的一个因素。最后根据上面的推测,重新在robots.txt文件中添加如下两条规则:

Disallow: /*/*.html/feed  

Disallow: /archives/author/admin

修改保存,上传覆盖原来的robots.txt文件

最后为了万无一失,再给文章评论feed的超级链接增加 rel=’nofollow’ 属性标签(百度和不支持rel=”canonical”属性一样不支持rel=’nofollow’),即在单独文章模板 single.php 中将

<?php post_comments_feed_link('RSS'); ?>

用get_post_comments_feed_link()函数替换为:

<a rel='nofollow' href="<?php echo get_post_comments_feed_link( $post->ID ); ?>">RSS</a>

双保险,对于Google 搜索引擎,这样应该不会再有feed 相似重复页面的问题了吧。


“robots.txt和Google重复相似页面”文章评论(4)

  1. 重复的元标记,我的网站也有,但是都是一些以?p=23之类的URL,点击进去发现其实就是主要,但是我通过robots限制了,目前还是有两个,可能是google还没有更新吧。

  2. 最近我也在折腾这个robots.txt文件

  3. 我的英文站也有这种情况,提示收录了1300了,但点到290条左右就没有了

Trackbacks/Pingbacks

  1. robots.txt设置Google Adsense不显示公益广告 - 远方博客

来说兩句