Tag Archives: Feedster

中文blog搜索引擎再比较

去年7月的时候曾经写过一篇Blog中文搜索引擎简单比较,半年多过去了,Google推出了自己的blog搜索引擎,Baidu还没有这方面的动作,Technorati在不断地改进,在国内也出现了奇波、中客、博搜等新的中文blog搜索引擎。

我选取了昨天blog圈的一个热门话题“google 黑板报”再进行一次简单的搜索比较,不过从结果上看,国内的blog搜索引擎不但没有改进,反而在退步。

测试评价的标准是收录的相关文章数量以及是否收录黑板报CWR以及keso的三篇相关文章,分别判断其对blogger.com, 国内BSP以及独立域名Blog的收录能力,当然这三篇文章未必具有代表性,只是作个很简单的判断。(update:本来以为黑板报是使用独立域名的blogger.com服务,不过刚才看看可能不是)

    先看几个主要的英文搜索引擎

  • Technorati:得到503个结果,不过剔除非相关结果后,实际搜索结果约70个,三篇文章均有收录;
  • icerocket: 得到61个结果,剔出非相关结果后,实际结果50个,似乎未收录黑板报与keso的文章;
  • Feedster:仅得到3条结果,Feedster这样的搜索能力要到中国拓展市场也不是什么好事啊,呵呵;
  • Google Blogsearch:得到125个结果,实际相关结果约85个,三篇文章均有收录;
  • Yahoo Blogsearch:上次比较中使用的Yahoo RSSsearch不知何故这次出不了任何结果,是用Yahoo Blogsearch得到6条结果,其中一条重复结果,全部相关,收录了keso以及CWR的文章。
  • 上次测试中还比较过的Blogline、Blogpulse,由于搜索效果差,就不一一列出。

    再看几个中文搜索引擎服务的结果

  • 八方:这是上次测试中表现最好的国内搜索引擎,但这次却只有5条结果,而且全部为不相关结果,几乎都是spam blog;
  • Grassland:得到7条结果,全部相关,但三篇文章均未收录;
  • Feedsearch.net:得到11条结果,全部相关,但三篇文章均未收录;
  • Feedss:得到10050条结果,但其中没有任何相关结果;
  • Rsshow:无任何结果
  • Booso:出错(Service Temporarily Unavailable);(Update: Booso得到数万条结果,但没有任何相关结果)
  • 号称最大的blog搜索引擎中客网:得到7条结果,无任何相关结果;
  • OKRSS:无任何结果
  • 李安科的奇波:得到6条相关结果,全部相关,三篇文章均未收录
  • 七搜八搜:得到大约10条相关结果,三篇文章均未收录

比较的结果,很明显是Google Blogsearch和Technorati胜出,上次的赢家icerocket开始落伍了,而国内的所有服务商全线溃败,而且输得非常彻底。Blog搜索有没有独立的商业模式,我们姑且不论,但两次比较的结果至少说明要做好blog搜索引擎并不容易,甚至由于其实时性以及大量更新的特点,要比普通的网页搜索更难做好。或许我们需要等待百度的blog搜索引擎?

如果还有哪个中文blog搜索引擎我漏掉的话,欢迎大家指出,我再补充进去。

ps. 由于technorati、Google Blogsearch以及Icerocket的收录结果在不断更新,所以你们再去搜索的时候结果可能与我作测试的时候有所不同。
再ps. 大家可以玩玩这个中文搜索引擎比较的小游戏

Blog排行是“乱”还是“百花齐放”?

我昨天认为“Blog的排名现在有点乱”的观点,Zheng不是太赞同,他觉得“我倒是认为这样的百花齐放应该更多。因为排行可以有不同的角度,反应不同的情况”。百花齐放我是赞同的,但我的感觉是现在出现的这几个Blog排行,他们基本上都是依据反向链接的数目作为排行的依据,但大家得到的排行依据(链接数目)却有很大的区别,所以才显得乱。

Zheng比较详细地说明了目前主要的几种Blog排名方式,包括Feedster/TechnoratiBlogrollingBloglinesPubsubBlogpulse。其中除了Bloglines的订阅排行外,其余的排名依据都是链接数目,只是大家的取样范围和爬虫的能力不同。

Feedster与Technorati是最为类似的,但双方的数据已经有很大的差异,看zheng昨天的文章或者是去详细比较他们的排名榜都可以清楚地了解这一点。本来想用Bloglines的citations功能比较一下这两个排行榜前几名的blog在bloglines中的结果,但bloglines的反向链接搜索功能现在用不了,不过按照以前zheng等人的比较,估计真要按照bloglins的结果来作个排行榜,结果又会有不同。Icerocket不久前也推出了反向链接搜索功能,估计在不久以后他们也会有自己的基于反向链接的Blog排行榜,会不会让局面更乱,到时候也可以看看。

Pubsub的LinkranksBloglines toplinks同样都是依据来自blog的反向链接作排名,但因为Pubsub的排名是依据域名,而Bloglines是根据某个具体的URL,因此结果差异巨大,二者之间没有直接的可比性,可以看作是两个不同的产品。但从这两个排名都可以发现,在榜上位居前列的有不少是传统的媒体网站,比如NY TimesWashingtong PostBBC等,也就是他们在取样上并不是限定于Blog中的链接,因此并不能算是个严格意义上的Blog排行榜。

我倒是比较喜欢Blogpulse的这个profile功能(可能是因为只有在这里才能够查到我的blog的排名吧^_^),一方面它只考虑最近30天的数据,但又不像Pubsub那样只取一天的数据,更可能反映出blog的动态变化,二来它区分了来自排名较高的blog的链接,而且还有变动的趋势图可以看。

Blog排名的算法当然最好能够百花齐放,既有依据反向链接的排名,也有依据订阅量的排名,还可以有每日的话题排名(就类似现在的Pubsub或者bloglines的toplinks),或者是综合排名,这样多种多样的排行榜才会更有看头,也更有意思。不过目前的情况的确有点乱,我也并不指望Feedster和Technorati的排名会基本上完全一样,毕竟不同的搜索引擎总有不同的强项,就算是Google和Yahoo的搜索结果还存在差异,只是大家现在的产品总给人一种不太成熟的感觉。但乱总是新产品在创新和发展中的必经阶段,至少“乱”总比“没有”要好得多。

Update:
刚才看到这篇Blog,的确现在的排行榜都太综合了,没有分类的排行榜的价值始终有限。

Blog排名榜有点乱

Feedster昨天推出的Top 500 blog排名榜是今天IT blog圈中讨论的热点,看来许多Blogger对于传统媒体所热衷的排名榜也仍然怀着极大的兴趣。

Ken则指出可能最早的Blog排名榜是Blogrolling的Hot 500,但最出名的无疑是Technorati 100了。但Technorati的排行榜受到很多blogger的质疑,Jason Calacanis甚至还因此悬赏5万美刀的广告资源或者是1万美刀的现金来征求更好的Blog排行榜,不知道Feedster是否可以得到这笔赏金了。

实际上除了上面的三个排行榜外,至少Blogpulse的Profile功能也具备排名功能,Pubsub也正在改进他们的链接排名功能,所以预计还会不断有新的Blog排行榜出现。几乎所有的Blog排行榜目前的算法都是基于反向链接的数量,但是现在每个搜索引擎得到的结果却有不小的差异。Ken说明了Blogrolling与Feedster差异的可能原因,zheng也比较了Feedster 500与Technorati 100之间的差别,但不同排行榜之间链接结果上的差别或许正说明这些新兴的Blog搜索引擎都还不够成熟,各有各的强项与弱项,因此在搜索结果上都有较大的局限,不知道Yahoo、MSN或者Google这三大搜索巨头介入的话是否会提供更好的Blog搜索产品。

臆想一下我心目中理想的blog排行榜应该包括哪些内容:
1、反向链接仅作为排名的因素之一,还能够综合考虑RSS订阅量(目前没有好的衡量方式)、评论数量(/.是否会排名飙升)、Blog更新频率等;
2、根据做链接的blog的排名对不同的链接给予不同的权重(是否会造成循环计算,可以采用上次的排名作为赋予权重的依据)
3、根据链接的时间给予不同的权重,最近的链接权重高,越早的链接权重越低
4、尽量避免我在反向链接搜索存在的问题这篇Blog中指出的几个问题
5、除了整体的排行榜外,还能够提供不同分类的排行榜,比如摄影类、生活类等等,也可以按照Blog的语言来分类。
6、…还没想出来

不过即使是目前的Feedster与Technorati的排行榜中都难觅中文Blog的踪影,除了Feedster这样明说只考虑英文blog的原因之外,要让中文Blog在全球排名中名列榜中的确也些为难。Sohu的博粹倒是有个排行榜,号称根据订阅数与浏览量加权计算,只是不知道它们的这个订阅数与浏览量的数据从何而来,加上一些其他的原因,权威性自然谈不上。还是希望能够早日有国内的Blog搜索引擎能够专为中文Blog提供自己的排行榜,不知道百度会不会在近期推出Blog搜索为它的股价打上一剂强心针呢?

ps.在Feedster与Technorati排行榜上都名列Top 10的Post Secret是个很有趣的blog,推荐大家去看看,不过因为它在blogspot上,被GFW了。