淘宝网,百度喊你回家设置robots.txt-Baiduspider

作者 FarLee 2010年2月18日 19:05:44   ‖浏览(9,259)

08年9月,淘宝网(www.taobao.com)正式开始屏蔽百度搜索引擎。淘宝网出此对策的原因各方评论不一,有的认为是和百度C2C平台百度有啊的推出,以及阿里巴巴旗下广告联盟阿里妈妈是百度的竞争对手有关,一旦有了竞争,一场利益的博弈在所难免;

上述战略意义上的我们暂且不多分析,先看看淘宝网的robots.txt文件:

User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /

robots.txt文件是大小写敏感的,百度spider曾经用过全小写的baiduspider,所以淘宝网针对百度spider爬虫共加了两条规则。不过说实话,百度不遵守甚至有时候无视robots.txt文件却是众所周知的。

昨天查看访问统计,以为Baidu的spider又改大小写了:BaiDuSpider(截图如下),后来下载访问日志才看到还是Baiduspider,可能是管理后台设置的原因。大家可能发现了下图中机器人BaiDuSpider的文件数后面没有+,也就是说百度蜘蛛根本就没有成功读取过robots.txt,无视robots.txt的存在,至少是读取robots.txt文件不够及时。而Goolgebot等spider后面都有+,Google搜索引擎在抓取页面前都会首先看网站根目录下是否有这个文件。

百度spider:BaiDuSpider

BaiDuSpider:百度新的spider?

再看看淘宝网对屏蔽百度搜索引擎自己的解释是:通过对不同搜索引擎进行不同程度的屏蔽,可以杜绝不法商家利用竞价排名、搜索优化等手段骗取消费者信任,避免诚信商家受上述行为影响。很明显淘宝网所称的“进行不同程度的屏蔽的搜索引擎”正是百度。

在没有屏蔽的情况下,商家完全可以只利用百度竞价排名和搜索引擎优化从百度上获得大量的客户流量,导致的结果是这部分商家获益了,然后会有越来越多的商家往搜索引擎上下功夫,商家也没有心思打理淘宝网店铺,最后淘宝网就成了一个拥有广泛影响力的,提供免费网站平台的,为搜索引擎创造利润的大公无私的淘宝网。

而在屏蔽百度的情况下则完全相反,淘宝网借助自身在C2C电子商务领域的知名度,完全可以将庞大的商家和消费者群体聚合在站内,不至于将资源白白流失到搜索引擎中去。商家只能通过提高淘宝站内排名,购买增值服务和展示广告来提高人气和销售额。商家就会花心思去打理淘宝店铺,淘宝网从多年运营阿里巴巴B2B平台的经验中也知道,对会员制注册网站来说,不管是B2B,B2C或者C2C,电子商务网站的粘性和聚合力是最重要的,通俗点说就是聚合人气、留住会员。人气有了,商家对淘宝网增值服务的需求也就有了;以及淘宝网后面推出的B2C淘宝商城,都为之埋好了伏笔。

就像腾讯最初以QQ即时通讯聚合人气,后面腾讯QQ空间、QQ游戏等相关产品的推出自然一步到位。所以淘宝网专心做好电子商务即可,根本没必要趟搜索引擎这淌浑水。所以淘宝网屏蔽百度,除了正面和百度叫板稍有不利,实在是名利双收。

不过我们在百度搜索框中输入site:taobao.com,发现仍有3万多个页面被收录(截图如下),为什么屏蔽了百度,还能在百度上搜索到淘宝网的页面?是什么原因呢?原来百度收录的这3万多个页面都是淘宝网二级域名下面的页面(除了第一条),比如淘宝商城mall.taobao.com。

百度收录淘宝 site: taobao com

百度收录淘宝网页面数 site: taobao com

我们再用site:www.taobao.com搜索就会发现只有1条被收录了。这意味着什么?对淘宝网来说,没有了普通商家店铺页面在百度里的收录,却提高了没有屏蔽的二级域名的权重,比如提高了淘宝网含金量较高的B2C商城mall.taobao.com的曝光度。这又是淘宝网的一个高明之处。

淘宝商城

淘宝网 淘宝商城 在百度的排名

说到这里,可能大家都会明白这篇文章标题的意思了:淘宝网并没有完全屏蔽百度搜索引擎,只是屏蔽了免费商家被百度搜索引擎收录的大量的商品页面。

下面是今天百度spider的访问日志截图,我就不知道这个Baiduspider如此频繁地抓取首页(index.php)是为何?Sitemap?

Baiduspider 频繁抓取首页

Baiduspider 频繁抓取首页(index.php)

如此庞大的淘宝网平台,相信也是受到了Baiduspider强烈的流量攻击,不堪重负,最后也成了屏蔽百度搜索引擎的一个小小的原因之一。

所以强烈建议淘宝网既然屏蔽了百度,就屏蔽得再彻底一点。把go.taobao.com,mall.taobao.com,search.taobao.com等淘宝网二级域名都设置robots.txt文件Disallow: /,从百度中完全消失吧。

淘宝已不在百度,百度仍有淘宝的传说,那岂不更妙!

(远方博客郑重声明:本文纯属编撰,不诋毁任何一方,如有雷同,实属巧合)


“淘宝网,百度喊你回家设置robots.txt-Baiduspider”文章评论(5)

  1. 很有中国特色的网络事件

  2. hmasterwang

    博主用的查看爬虫统计的是哪个工具?

  3. 很赞~

Trackbacks/Pingbacks

  1. robots.txt设置Google Adsense不显示公益广告 - 远方博客
  2. Wordpress博客网站更换空间对SEO的影响 – 远方博客

来说兩句