郑昀@宝聚-股市风向标 20071212
wkcow早先提醒我注意这家叫Radar Networks的公司,说是语义世界中不得不重视的角儿。可角儿总是只听楼梯响不见人下来,就像啥也没见着就第一轮融资1250万美金的Powerset,打着自然语言搜索引擎的大旗N久,也只是
据这里的测评,还并不是真的输入自然的语句到搜索框,而是按照设定好的“填空式”提问,比如:who criticized (president bush)? 如:who beat/defeat ()? 。。。小i也成功地给投资人画了一张自然语言智能机器人的大饼,成功融资2000万美金。联想到不久前见的一个投资人,对我们的智能语义应用框架不置可否,但却问我们能不能做语义搜索,寒,只能说这一定是下一个投资大热门,做好了估计能比265还高价地卖给谷歌。
语义网先锋Radar终于在10月推出了重磅炸弹Twine,不过还是琵琶半遮面,我们可以在后面附录里看到一系列的截图,看上去有点美。流传最多的两篇文章:Twine推出构建网络生活的智能工具和你要的是哪个“苹果” 语义智能搜索时代来临,把这个事儿描述得天花乱坠。对于Twine语义分析用户的各种信息,为每一个文档、视频或照片创建标签,Twine所作的就是产生智能标签并将它们联系起来;这个从语义技术上就是实体识别,最多加上一个自动分类,也就是根据自动分类判断当下这个信息流属于哪一个领域,以防止那些易歧义的实体名称被误判。比这个再难一点的是,经过训练的Twine可以迅速“理解”含义模糊的词组:它可根据上下文来判断J.P.摩根是人名还是一家公司的名字;如何做到呢,这实际是语言的自动理解(Language Understanding),即从句子表层的词语符号串识别句子的句法结构,判断成分之间的语义关系,不过应该蛮消耗服务器资源的。
其实雅虎的人际关系计算就是一个典型应用,国外的daylife也用类似的技术打造了一个概念“Connections Engine”,并用一个无与伦比蔚为壮观的java applet宇宙展现,充分传达了它的实体关联引擎的强悍。至于我们怎么玩这个的,我在这里也着力介绍过,不难,在这个网易做搜索:有道?无道热点故事里,你可以在右侧看到Connections Engine的自动关联实例。
Twine并不仅仅是把无序碎片有序化并关联从而形成语义图,它还计入了Social的智慧,如果你与其他用户有共享关系,那么所有内容都与添加人联系着;当你进行搜索时,返回的结果不只是受到标签的影响,还受到最先添加内容人的影响。这个人与你的联系愈紧密,受到的影响就愈大。
是不是看到了swicki、豆瓣的一些理念和元素?寒的是,我们的努力都暂时局限在了语义的research上,而没有social的元素,比如玩聚热点 ,比如宝聚-股市风向标。
我以前喜欢打击语义搜索,总觉得自然语言搜索既没强烈需求又难研发,一两千万都容易打水漂,但是Radar却想到了这样的Twine模式避免了纯做搜索的问题,用一定级别的语义分析,再加上他们的Social概念,搞出一个逼近Web3.0的社区来。
至于语义智能搜索时代来临中夸耀的“更令人叫绝的是,给Twine一段文字,它能利用机器学习能力,在维基百科一类的词海中寻找匹配的信息,总结出这段文字的主题甚至概括中心思想”。这是自然语言处理的另一个主要核心问题:自动生成(Language Generation),即从要表达的意思出发选择词语,根据词语间的语义关系构造各个成分之间的语义结构和句法结构,最终造出符合语法和逻辑的句子。说白了就是“自动提取摘要”技术。
Radat的CEO斯皮沃克说,人们研究了几十年的“人工智能”、“自然语言处理”,而今天,人们把这些研究成果运用在语义网络上,让这张网变成智能网络,能“看明白”人类的自然语言。
这其实和我们在宝聚-股市风向标上下的功夫是异曲同工的,我们也常说要让机器象普通股民看股评或财经资讯一样去理解这些知识碎片,比如“理解”各方(股票论坛、财经博客、专家、机构)对后市走势的看法,“理解”专家和机构的短线、中线和长线的操作建议,等等,能够衍生出很多实在的应用,我们也是刚玩没几天。
TechCrunch在11号提及了网络口碑(IWOM)先行者Scout labs,从下面的评论可以看出,光是scout labs放出来的demo视频就搞得大家齐唱赞歌。光看deom的话(又是邀请制),有几个特点:
1:Sentiment Trend图,象大旗口碑榜一样,但比口碑榜多了一个时间维度,就是每天口碑是如何变化的。大旗应该也可以有同样的效果。但这就看判断正反面意见的功力了,必须真的在语义上真刀真枪,要准确判断。大旗还是习惯性地在BD上下功夫,Research上没太大长进,他们计算的对某一款产品的正面、负面和中性意见还是略显粗糙。大旗的网友经验快速分享,能迅速指出某一款产品的三个优点和三个缺点,如果是机器自动算出来的话,还是很厉害的,如果是人工,哦也,那就另当别论了。
2:提到iPhone的同时还提到哪些关键词。更有用的是,和竞争对手进行横向比较。
3:它能判断哪些言论最有影响力、最重要,值得厂家去重视和回馈;这个需要social指标,确实不是太容易量化。
国内的CIC也是做IWOM的,两天前在blog上说刚拿到战略投资。
小结:
语义这东西,有趣,好玩,起码门槛有点高,没有个三五年的积累,不容易摸着门儿。玩得好,玩到语义搜索的境界,那就玩大了,可以入谷歌百度的法眼了。在IWOM/口碑上玩,也有很多可玩的,据说,“深不可测”。在垂直应用上,也有一定的想象空间。
语义和Twine的相关链接:
· 'Semantic' website promises to organise your e-life
· The Semantic Web Goes Mainstream
· Watch the Video of the Twine demo at the Web 2.0 Summit! (Twine is the third demo after Freebase and Powerset) Quicktime version | Flash version
· Twine: The First Mainstream Semantic Web App?
· Twine: A social network built on the semantic web
· Audio Interview with Nova Spivack about Twine
· Twine: a social network with brains
· Initial Experience with Twine
· Twine: Finally, a mainstream application for the Semantic Web
· Radar's Twine: A Semantic Complement to Google
· Twine Launches a Smarter Way to Organize Your Online Life
· What I Meant to Say Was Semantic Web
· Web 3.0 and beyond: the next 20 years of the internet
我的最近文章:
12/01/2007 移动互联网人丁凋零的苦果早已种下
11/30/2007 智能语义聚合框架:像人类一样收集和理解知识
11/27/2007 话题营销在选择自由的当下只能是制造垃圾和垃圾流量