• Social Information Graph


    研究内容解读

    • 面向多源、异构和跨模态复杂社会信息,研究语义融合、网络表征和动态演化的理论框架;
      • 多源:多数据源爬取,
      • 异构:不同数据结构,不同结构的结构化数据,结构化数据与文本数据
      • 跨模态:模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同,但都是描述同一事物或事件的。
      • 网络表征: 相比图片等简单的网格结构,图结构是更泛化的数据结构,比如一般的社交网络、互联网等,都是由图这种数据结构表示的,图的节点表示单个用户,图的边表示用户之间的互联关系。针对网络结构,用向量的数据形式表示网络结构、节点属性的机器学习方法就是网络表征学习。
      • 动态演化:能够根据不同的业务和数据输入的变化不断调节满足新的分析需求。
    • 提出面向多维度、多尺度社会信息网络的风险感知、智能分析和群体决策的社会计算范式,研究和构建融合全球多语种、跨模态大数据驱动的社会风险机理和分析模型与方法;
      • 社会信息网络:庞大的社会信息构成的知识网络
      • 群体决策:传统的群体决策是为充分发挥集体的智慧,由多人共同参与决策分析并制定决策的整体过程。其中,参与决策的人组成了决策群体。集体智慧学习主要指根据群体的行为、偏好、意见挖掘出新奇的观点,偏数据挖掘概念。
    • 研究信息网络的实体及关联知识联合提取方法,构建支撑风险评估与智能决策的时序知识图谱,研究复杂社会网络图表征学习框架,提出领域知识与大数据驱动的超大群体智能决策方法,支持智能决策的自主评价与推演;
      • 时序知识图谱:时序图谱可以被看作具有多个相互关系的序列;实体间的多个相互关系可能发生在同一时刻;时序邻居关系之间存在强依赖;多关系情况下,当前邻居可以帮助预测未来(实体之间的)相互关系。
    • 构建面向重大需求的风险预警、智能分析、群体决策的软硬件一体化大数据计算平台。

     

    指标分解

    • 20个语种:NLP多语言融合:争取NLP机器翻译融合
    • 10W个信息源:分布式大规模爬虫平台:pyspider
    • 千万级节点、亿级边的知识图谱
      • 图数据存储:
        • 分布式图数据库:技术查询,比如dgraph
        • 分布式存储:存储简便,伸缩简便,可以直接供分布式计算框架使用
      • 图计算:分布式图计算框架,比如SparkGraphX
    • 100种社会风险感知与智能决策模型
      • 算法维度
          • 图表征学习方法
            1. 网络嵌入:比浅层图嵌入或图自动编码器,聚焦于学习关系结构的无监督表征
            • 正则化神经网络:利用图强化神经网络的损失,为了半监督学习的正则化。
            • 图神经网络,旨在学习任意结构下离散拓扑的可微函数。
      • 应用维度
      • 两个维度的组合
    • 百亿条边的分析决策能力
      • 目前分布式图计算框架应该就能Hold
    • 千万级节点的分钟级响应能力
      • 在目前分布式计算框架上算法实现调优
    • 不少于两个应用方向验证
      • 疫情
      • 舆情

    image.png

    • 阿里云GraphCompute

    image.png

     

  • 相关阅读:
    Docker,用任何工具链和任何语言来构建任何应用
    从Docker在Linux和Windows下的区别简单理解Docker的层次结构
    Docker在Windows下的安装以及Hello World
    (译)学习如何构建自动化、跨浏览器的JavaScript单元测试
    由Python的super()函数想到的
    PS:蓝天白云的制作
    PS:缝线颜色随着鞋帮颜色的改变发生改变.files
    Windows8 64位运行Silverlight程序不能访问WCF的解决方案
    背景图片之background的用法
    12306订票助手更新
  • 原文地址:https://www.cnblogs.com/dhcn/p/13024335.html
Copyright © 2020-2023  润新知