Google Blog Search仍需努力

Google居然在Yahoo事先张扬了几个月之后,领先一步突然推出Blog搜索引擎,有些出乎我的意料之外。Blog圈毫无悬念地大肆讨论着,目前比较一致的评价是速度快,主要指的是出搜索结果的速度快,zheng说感觉不太明显,不过与technorati相比的话,我也感觉速度的确要快一些。

但对于blog内容被索引的速度,则个人的看法各不相同,Rubel特别作了一个测试,而且选用的是Blogger.com的服务,但结果却是Technorati胜出。我昨天也分别测试了自己的两篇blog,Technorati都在很短的时间内能够搜索到。Google的结果却很奇怪,其中的一篇很快(大约二十分钟之内)就被索引了,而另外一篇却至今(超过18小时)搜索不到,而我的blog已经是设置成ping weblogs.com的了。chedong提示说需要到Google sitemap上确认网站,我准备看看确认后是否会加快被索引的速度。

而Google Blogsearch更让人郁闷的倒是搜索结果上的奇怪表现:直接用“未完成”作关键词进行搜索,得到的相关Blog中没有我的blog,全部是Spaces上的,估计是因为Spaces的PR比我的blog高,但如果使用高级搜索中的Blog标题搜索,却能够找到我的Blog,而且除了我的Blog之外,其余四个都变成了日本的Blog。

用“未完成 – Incomplete”进行标题搜索,得到我的Blog被索引的所有内容,一共25篇,包括了通过Feedburner聚合的网摘,显然Google爬取了我的被烧制过的Feed。但感觉有点奇怪的是按照Blogsearch的帮助说明,Google应该是从一些ping中心获取数据的,Feedburner聚合的网摘应该不会ping那些中心的啊。更奇怪的是如果使用URL搜索这个Blog的URL,却只能得到11个结果,其中有一个还是keso的网摘,最新的更新只是在9月3日。

而Google Blogsearch最让人郁闷的是其中的语言选择似乎形同虚设,无论你选择简体中文还是繁体中文,无论你搜索什么内容,都是得不到任何结果。

Google Blogsearch由于是利用ping中心来收集数据,因此明显缺乏历史数据,不知道今后Google会采用什么办法来补上这块。此外,还有个在高级搜索中不能选择的语法,利用link:URL就可以搜索到反向链接的情况,比如可以搜索到我的Blog的反向链接是37个

就目前的情况而言,Google还不足以于Technorati竞争,当然以Google的能量推出这一服务,还是足以让Technorati感到巨大的竞争压力。不知道Yahoo的Blog搜索什么时候会推出呢,Blo.gs也已经被收购很长时间了,界面也泄露过了,Google也后发先至了,Yahoo还要等多久?百度会跟进吗?

另外,分别用BlogChina.com/Blogbus.com/Blogcn.com/blog.donews.com进行URL搜索,发现无论是被索引的数据总量还是最新的最新时间,都是donews>Blogchina>blogcn>blogbus。但即使是Donews,最新的被索引时间也只是9月14日,而且明显有大量的blog未被收录。看来一方面是Google自身改进自己的Blogsearch,另一方面,国内的BSP们或许也应该考虑如何优化自己的技术让Google更好地索引。

5 thoughts on “Google Blog Search仍需努力”

  1. google所做的是blog搜索,不同于RSS搜索。
    okrss 正尝试以TAG中心的RSS搜索。而且你所说的人和人之间的关系也很重要。我们近期就会尝试做人和人的关系。比如说通过相关RSS搜索,我们可以确立一个RSS订阅的关系网,十分有趣。

    http://www.okrss.com/search.html

  2. 解答你的关于搜索时间的问题。从搜索速度上来说donews是最快的。blogchina的数据库设计有lock问题。
    从crawler角度,donews是最容易索引到的,以下是我们的数据:
    donews: 13000 more (1994-now),有入口索引
    blogchina: 17000 more (有望到30000 more),无入口
    blogcn: 122000 more, 空用户较多,有入口
    blogbus: 1700 more (有望到3000),无入口

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>