• 语义的未来【OpenSourceCamp讲稿】


       按照官方的说法,“OpenSourceCamp  是一个在开放环境中以非正式的会议方式进行知识,技术的交流活动形式。开发者,Blogger, 创业者,Geek, 等等都可以在这里 分享他们的想法,Demos, 并与每一个参与者进行互动交流。”

        但Camp更像是个Geek们的世界,和我们这种见惯了“商务人士”会谈的似乎格格不入。

        我还是把本来为了OpenSourceCamp准备的讲稿分享一下,欢迎来访。写得浅显,没有什么术语,主要是为了告诉大家语义技术并不高深,它最终可能像ajax一样是技术人员的一个辅助工具、是网站的一个功能亮点。
        本来已经传到slideshare,但那里转换模糊了,而且不知道如何加上旁白。所以就还是回归原始了:

    What is a Semantic App?
    什么是语义应用呢?


    是语义搜索吗?

    是语义网吗?
    这两个词儿说出来后,任何一个VC都要上下打量你好几眼,随时准备塞钱给你。
    我们下面给出一个大家都看得懂的定义, 

    大致的意思就是,试图理解文本和其他数据的意思,并为用户创建某种关联。

    现在基本可以分为两种做法:
    这是第一种,Bottom-Up
    自下而上的研究方法。这是传统意义上的语义研究方向,真的是引无数英雄竞折腰。
    也就是说,对现有的互联网的大量信息,进行注解,凭空在互联网之上构建一层知识体系,只不过这是给机器看的,试图让机器理解它们。这些注解以RDFOWL这种结构化的东西来保存。
    由于海量数据、人类语言的复杂性、以谁为中心、如何制定并推广标准的标准等固有的问题,所以我的基本判断是,这是一个大坑。搞语义网的兄弟们,对不起啦!
    所以,今天我们不谈Bottom-Up的语义应用。
    还有一种方法,是自上而下的。
    什么叫做Top-down
    简单地说,就是选定一个特定的垂直语义应用,然后根据已有的互联网碎片,经过语义加工之后,通过一个面向消费者的平台给出结果。
    这么说可能不容易理解。我们用最快时间稍微举几个国外的例子。
     
    Powerset.com是一个传说中的杀手级应用。很少有人看到她的真面目。凭借语义搜索这个概念,没有任何产品出来的情况下,吸引了西方那些精英博客门的很多眼球,拿到了几千万美金的一轮又一轮投资。我申请了测试,但也还没拿到邀请。有人测试过,说目前还只是填空式问题,然后搜索。
    Hakia的口号是,Search for meaing。她出来时间比较长了。测试效果也还不错。
    这些都属于语义搜索的范畴。也算是Top-down的一个方向。
    在中国,也有不少人凭借语义搜索的概念拿到了投资。譬如小i机器人的两千万美金,语义搜索的画饼功不可没。前不久,一个风险投资人也在会谈中问我,你们能改作语义搜索吗?呵呵。
    我的基本判断是,第一,暂时看不到强烈的需求,当然有人说了,不能听用户的,要帮助用户发现需求。第二,这事儿吧几千万经不起花。语义搜索也是一个大坑。
    Google最近也刚把一位顶尖高手从语义网的项目中调走,引得TechCrunch哀叹道:别指望很快看google的语义搜索了。
     
         Kango.com是我最近一直在研究的网站。这是一个旅游指导网站。国外的旅游市场是一个繁荣的市场。作为最近几个月刚冒头的新网站,而且还没有公开运营,她提供什么差异化的东西呢?
         Kango能按照个人的旅游需求或偏好,返回酒店和旅游活动的旅游搜索引擎。更重要的是,她可以帮助你安排旅游行程。
    她分析了数以百万计的博客和社区文章,从中提取语义从而分析出人们口碑中的哪些酒店适合家庭出游或允许带宠物的,哪些旅游景点是浪漫的或者刺激的。
         我先插个小话题,语义说来说去,是要靠自然语言处理研究的,那么自然语言处理都包括哪些基本技术呢?不知道这个,可能不足以理解Kango的指导意义。

     
    两个核心问题,语言的自动理解(Language Understanding)和自动生成(Language Generation
    前者从句子表层的词语符号串识别句子的句法结构,判断成分之间的语义关系,最终弄清句子表达的意思。
    后者从要表达的意思出发选择词语,根据词语间的语义关系构造各个成分之间的语义结构和句法结构,最终造出符合语法和逻辑的句子。
     
    回到Kango
    这张图是我测试以浪漫假期设定去火奴鲁鲁旅游的结果。
     
    Kango最让人期待的是它主观的处理搜索结果的技术。Kango正在开发一个基于语义的旅游垂直搜索引擎semantic search engine)。这个搜索引擎通过分析处理(parse)用户评论和旅游介绍中的文字/语言,然后产生tag把旅游目的地酒店景点分类。你不能坐等用户来加tag,你必须自己先产生一部分的tag CEO Yen Lee解释。所以,如果一个酒店在网上(例如Yahoo TravelTripAdvisor,或者Yelp)被用户用完美放松夫妻蜜月或者SPA这些词语谈论道,它就会在一个浪漫假期的搜索结果中排名较高。 如果一个酒店和厨房游泳池 或者孩子系在一起,那么它在家庭旅游的搜索结果中排名就较高。
    这样的技术是否能把用户从其他的旅游网站吸引过来,现在还是一个未知数。但是Kango的管理团队有着非常优良的血统 LeeYahoo Travel 的前任总经理,公司的搜索架构师Huanjin Chen ebaysearch architect,自然语言搜索科学家, Boris Galitsky曾经为英国政府工作;市场总监Elliott Ng, Intuit QuickBook的市场总监,以及上市公司Netcentvies的创始人之一。
     
    面对大洋彼岸越烧越旺的语义之火,国内是个什么情况呢?语义应用到了什么地步呢?
    我只说我了解的情况,大家要是知道更多请随时举手补充。
     
    中国雅虎人际网络的人际关系计算。做起来其实蛮简单的。主要是实体词的准确提取,以及表达关系的词的词性判断,可以手工收集也可以自动训练机器。
    大旗口碑榜的正面、负面经验的判断。做起来更简单。分类就搞得定。但是如果她的正面经验三条和负面经验三条,不是编辑手工作的话,那就属于语法分析的高手了。要知道截取帖子中的正面评价不是不可以,但机器截取的准确率是不高的。 
    网易有道的判断博客男女,属于分类技术。
    网易有道和搜狗对文字的判语,属于分类技术。
    CIC监控网络对大品牌的舆情。
    玩聚监控博客论坛新闻视频,自动找到热点,并把谈论此热点的博客论坛新闻视频都聚合到一个故事中。
    宝聚监控财经论坛、门户、博客等等,统计市场各方对大盘对个股对基金的多空比例以及短线中线操作意见。
    谢谢!郑昀 2007122
  • 相关阅读:
    1月5日学习记录||1月8日学习
    1.1学习记录|1.2日学习记录|1.3日
    RNA-seq数据为什么要去噪
    12.16日学习记录
    12.15学习记录
    transformer和bert简要学习
    关系抽取学习
    12.14周六学习记录
    12.5日学习记录
    12.4周三学习记录
  • 原文地址:https://www.cnblogs.com/zhengyun_ustc/p/semanticwebapps.html
Copyright © 2020-2023  润新知