Tag Archives: 8fang

中文blog搜索引擎再比较

去年7月的时候曾经写过一篇Blog中文搜索引擎简单比较,半年多过去了,Google推出了自己的blog搜索引擎,Baidu还没有这方面的动作,Technorati在不断地改进,在国内也出现了奇波、中客、博搜等新的中文blog搜索引擎。

我选取了昨天blog圈的一个热门话题“google 黑板报”再进行一次简单的搜索比较,不过从结果上看,国内的blog搜索引擎不但没有改进,反而在退步。

测试评价的标准是收录的相关文章数量以及是否收录黑板报CWR以及keso的三篇相关文章,分别判断其对blogger.com, 国内BSP以及独立域名Blog的收录能力,当然这三篇文章未必具有代表性,只是作个很简单的判断。(update:本来以为黑板报是使用独立域名的blogger.com服务,不过刚才看看可能不是)

    先看几个主要的英文搜索引擎

  • Technorati:得到503个结果,不过剔除非相关结果后,实际搜索结果约70个,三篇文章均有收录;
  • icerocket: 得到61个结果,剔出非相关结果后,实际结果50个,似乎未收录黑板报与keso的文章;
  • Feedster:仅得到3条结果,Feedster这样的搜索能力要到中国拓展市场也不是什么好事啊,呵呵;
  • Google Blogsearch:得到125个结果,实际相关结果约85个,三篇文章均有收录;
  • Yahoo Blogsearch:上次比较中使用的Yahoo RSSsearch不知何故这次出不了任何结果,是用Yahoo Blogsearch得到6条结果,其中一条重复结果,全部相关,收录了keso以及CWR的文章。
  • 上次测试中还比较过的Blogline、Blogpulse,由于搜索效果差,就不一一列出。

    再看几个中文搜索引擎服务的结果

  • 八方:这是上次测试中表现最好的国内搜索引擎,但这次却只有5条结果,而且全部为不相关结果,几乎都是spam blog;
  • Grassland:得到7条结果,全部相关,但三篇文章均未收录;
  • Feedsearch.net:得到11条结果,全部相关,但三篇文章均未收录;
  • Feedss:得到10050条结果,但其中没有任何相关结果;
  • Rsshow:无任何结果
  • Booso:出错(Service Temporarily Unavailable);(Update: Booso得到数万条结果,但没有任何相关结果)
  • 号称最大的blog搜索引擎中客网:得到7条结果,无任何相关结果;
  • OKRSS:无任何结果
  • 李安科的奇波:得到6条相关结果,全部相关,三篇文章均未收录
  • 七搜八搜:得到大约10条相关结果,三篇文章均未收录

比较的结果,很明显是Google Blogsearch和Technorati胜出,上次的赢家icerocket开始落伍了,而国内的所有服务商全线溃败,而且输得非常彻底。Blog搜索有没有独立的商业模式,我们姑且不论,但两次比较的结果至少说明要做好blog搜索引擎并不容易,甚至由于其实时性以及大量更新的特点,要比普通的网页搜索更难做好。或许我们需要等待百度的blog搜索引擎?

如果还有哪个中文blog搜索引擎我漏掉的话,欢迎大家指出,我再补充进去。

ps. 由于technorati、Google Blogsearch以及Icerocket的收录结果在不断更新,所以你们再去搜索的时候结果可能与我作测试的时候有所不同。
再ps. 大家可以玩玩这个中文搜索引擎比较的小游戏

Blog中文搜索引擎简单比较

随着Blog的普及和流行,专门针对Blog的搜索引擎就显得越来越重要,尤其是今后预计会有越来越多的企业更加重视来自Blog的个人的声音,因此他们会产生强烈的追踪Blog内容的需求。

正因为Blog搜索有着重要的应用前景,国外不断涌现出新的Blog搜索引擎,其中比较常用而且支持中文的主要包括technoratiFeedstericerocketbloglinesblogpulse,还有推出测试后就不见踪影的Yahoo RSS Search。而中文Blog搜索引擎还处于发展的初期,无论是知名度还是用户的使用率应该都比较低,主要是八方Grasslandfeedsearch.netfeedss.comRssShow

我并不想在此做个详尽的中文Blog搜索引擎的测试,我也不具备这样搜索引擎详细测试的知识背景,只是想从几个简单的方面来判断哪个搜索引擎目前能够带给我最好的中文Blog搜索结果。

1、测试关键词的选择
本来想用keso作为关键词测试,但由于有些搜索引擎在结果中会根据URL收录keso自己的blog,有些不会,会造成搜索结果较大的偏差,而且keso这个词太集中在IT blogger上。而豆瓣在中文Blog圈中成功的口耳相传,是个不错的测试关键词。而且豆瓣虽然在IT blogger中更常被提到,但由于其书评与影评的特性,非IT blogger中也常会提及。但是用豆瓣作为测试关键词会有个问题就是搜索的结果中会包括豆瓣酱、郫县豆瓣或者豆瓣鱼这样的结果,不过这样也正好可以测试这些搜索引擎是否支持高级语法搜索。

2、豆瓣测试结果
由于不少人在提到豆瓣的时候很可能会使用douban来代替,因此在搜索中如果搜索引擎支持就尽量使用OR来包含两个关键词。

英文搜索引擎:

  • technorati:搜索结果935个,但是搜索结果中包括大量的豆瓣酱,不过technorati支持用NOT来去掉不希望出现的关键词,在去掉豆瓣酱与豆瓣鱼之后,搜索结果只剩下51个,而且大部分的结果都是MSN Spaces上的blog。利用technorati的tag进行搜索,标记豆瓣或者douban作为tag的blog共有8篇
  • Feedster:搜索结果301个,但点击到后面的页面会发现是空页,实际搜索到的结果是154个,而且不支持进一步的高级语法,不能去掉不相关结果和进一步缩小搜索结果。
  • icerocket:搜索结果1388个,同样包括不少豆瓣酱的结果,去掉这些不相关的结果后,得到714个搜索结果
  • bloglines:立志要做Blog搜索引擎的bloglines的搜索结果却非常让人失望,居然只能找到两个结果,大为出乎我的意料之外。
  • Blogpulse:得到27个搜索结果,搜索结果中不包含豆瓣酱的结果,但由于Blogpulse的特点在于追踪某个词在过去一段时间内在Blog圈中被谈论的频率,因此它的搜索只能涵盖过去3个月的结果。
  • Yahoo RSS Search:Yahoo RSS Search虽然没有正式推出,但我们仍然可以在Yahoo搜索的高级选项页面选择RSS格式类型,得到595个搜索结果,去掉“豆瓣酱”等之后的搜索结果是503个
  • 中文搜索引擎:

  • 八方:得到356个搜索结果,去掉“豆瓣酱”等不相关结果后得到243项结果
  • GrassLand:搜索“豆瓣”得到61个结果,搜索“douban”得到7个结果,由于GrassLand还不支持高级语法,因此无法进一步排除,初步目测大部分结果都是豆瓣网,预计清除不相关结果后搜索到的blog应该在50余篇。
  • feedss:得到186个搜索结果,去掉不相关结果后得到161个结果
  • feedsearch:搜索豆瓣得到30个结果,douban得到3个结果,也不支持高级语法搜索。
  • rssshow:得到63个结果,去掉不相关的之后得到62个结果,不过其中包括大量重复的搜索结果。
  • 综合中英文Blog搜索引擎的搜索结果,获胜的是icerocket与Yahoo,而且搜索得到的结果与其他对手相比并不在一个数量级上。而在中文Blog搜索引擎中,八方优势明显,其次是feedss

    3、搜索结果订阅
    绝大部分的Blog搜索引擎都支持RSS结果订阅,其中technorati采用的是添加到watchlist的方式,不支持RSS订阅,feedsearch与Rssshow均未提供RSS订阅功能,feedss同时提供了将搜索结果以javescript方式订阅输出的功能。

    4、其他功能
    icerocket与blogpulse都提供了以图形化输出反映搜索结果变化趋势的工具
    icerocket、Feedster、八方与feedsearch都在搜索结果中提供了目标网站的RSS以供订阅
    Yahoo可以将搜索的结果直接添加到My Web
    GrassLand将搜索结果分为文章与评论两类,但从评论中搜索到的结果似乎未必是blog的评论,困惑中。

    以这样简单测试的结果,无疑icerocket是目前功能最强,搜索结果最齐全的blog搜索引擎,而其他的中文blog搜索引擎与它还存在不小的差距。但icerocket的高级搜索不支持仅在中文blog或其他特定语言中搜索,这方面Yahoo的功能最强,如果Yahoo的RSS搜索正式推出,是否会成为Blog搜索的王者呢?那么Google呢?百度又是否会意识到对blog搜索的需求而尽早进入这一领域呢?

    Update:看来偷懒是不行D,加了比较结果表
    æ¯?è¾?ç»?æ??