技术英雄会【二】:问CSDN一个信息过滤器的问题
zhengyun_ustc 20070406
刘韧的《4月6日CSDN软件英雄会》中,这句话无意中透露出了CSDN的一个野心:
“CSDN这个过滤器,将108人筛选出来,给了这108人抛头露面的机会,这108人同时也成了投资人、创业者、合作者的机会。”
过去的几年,我一直受CSDN的强力推介,我的blog常出现在CSDN首页,给我带来了很大的流量,带来了很多的朋友。所以我对CSDN的专家系统非常期待。专家系统相当于一个过滤器,为CSDN的150万注册用户,为IT企业,也为专家,提供了更直接更快速找到你所需的平台,不管你是需要传道授业解惑,还是寻找人才,或是寻找合作机会。
我们清楚地看到,面对庞大的社区,不管是CSDN、JavaEye、ITPub,还是天涯、Donews,都必须解决以下问题:
信息过载。
就像我在《创业+社区点评:信息会过载吗?》中所说的:“如果人数多了起来,不知道以现有的挖掘资源和提示资源存在方式,未来如何为创业者或者拥有资源者提供方便的遴选方式,迅速找到合适的资源?”
那么CSDN现在正致力于解决这个问题。让更多人通过这个平台凸现出来仅仅是一个小问题,让用户知道专家是哪些人、在哪里,和淘宝的诚信通是一个层面的东西。这还仅仅是解决了人们日常较少的一部分需求。更多的需求是什么?
我相信是:我看到的内容和我是相关的,并且随着我的兴趣变化而自动变化的,而且这些内容应该可以自由按照某种规律排列组合,而不仅仅是一股脑地把URL链接丢给用户。
那么,有什么可能的手段呢?
Google资讯提供了其中一种解决方案:
“Google资讯和豆瓣网的做法类似:
• Google 资讯会使用智能算法来分析您的选择,并专门针对您推荐相关报道。该算法会将您的口味与其他 Google 资讯用户组的总体口味加以比较。简而言之,Google向您推荐的资讯是阅读趣味与您类似的众多其他用户读过的报道。随着时间的推移,您登录到 Google 帐户时使用 Google 资讯的次数越多,推荐内容的效果就越好。
”
也就是说,CSDN肯定可以采用这种方式,因为CSDN已经可以有大量用户的点击行为可以分析,从而形成如下的推送模式:
点击过RoR和SOA新闻的网友们,还都点击了哪些博文,这样就可以在RoR新闻下列出,对此则新闻感兴趣的网友还对以下博客文章、论坛帖子感兴趣。
这个是利用了用户对网站的主动交互行为。
到底有多少CSDN注册用户养成了上首页看业界新闻和社区帖子的习惯呢?
如果这种比例不高,那么是否还存在其他方式来智能推送呢?
我和金山的许式伟在CSDN现场聊的时候,都提到了一个概念:
用户的写作就是一种交互行为,它(Blog、论坛帖子)和点击行为一样重要,甚至更能反映人心。
这就是另外一种解决之道。
希望CSDN的信息过滤器能考虑这个思路。
去年,曾登高也谈及哪些方式可以解决信息过载,他是这么说的:
“更多智能的方案正在浮出水面,Incomplete在RSS阅读排序与过滤的7种方式介绍了一些方向,我本人看好2个方向:
根据阅读行为进行智能排序
Findory的作者Greg Linden是Amazon的数据挖掘系统的负责人,这是他使用 Amazon Recommendations技术在信息自动推荐上非常好的尝试。如果Bloglines采用这样的技术,将信息源限制在自己的订阅范畴,就可以实现我对Keso说的自动过滤了。
根据反向链接数等因素对内容进行排序
Memeorandum是典型,也可以称作Meme Engine,郑昀在系列文章中比较详细地介绍了Meme Engine的原理(一、二、三)。Memeorandum其实就是一个信息过滤器,可以迅速发现Blog圈内的热点新闻和事件。另外像Megite推出的个性化Tracker 也是不错的尝试。
”
只不过,去年我沿着原来我写的《Meme Engine话题(一、二、三)》信息过滤器思路往下走,不像老外所采用的反向链接技术,而是文本挖掘技术。原因很简单,中国人的文章中很少嵌入链接。文本挖掘更符合国情,反向链接是死胡同。
而且这条自然语言处理的路走下去,越来越宽,已经不再仅仅是“用主题来重组互联网内容”和“发现新热点”这么简单了,更重要的就是“按人来重组互联网内容”,这要求我们“更精确地了解人”。通过什么?就是通过人们的写作,通过博文通过帖子,了解一个个虚拟ID背后的人性欲望。