• NLP之知识图谱


      通过NLP图数据库和深度学习技术,分析污染扩散的趋势和影响。

      针对本需求,我针对NLP与知识图谱做了一个调研。

      首先nlp是什么,知识图谱是什么,nlp怎么与知识图谱进行连接。

    一:NLP

     1.定义

      自然语言处理是数据科学领域中最热门的主题之一。公司正在将大量资金用于该领域的研究。每个人都在尝试了解自然语言处理及其应用,以围绕它开展职业。那里的每个企业都希望以某种方式将其整合到他们的企业中。

      

      自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。

     2.为什么需要nlp

      

      网络中大部分的数据都是非结构化的,例如:文章、图片、音频、视频…,想要处理这些非结构化的数据就需要利用 NLP 技术

      为了能够分析和利用这些文本信息,我们就需要利用 NLP 技术,让机器理解这些文本信息,并加以利用。

    3.nlp中的两大核心任务

      

       

      NLP 有2个核心的任务:

      自然语言理解 

        自然语言理解的5个难点:

      1. 语言的多样性
      2. 语言的歧义性
      3. 语言的鲁棒性
      4. 语言的知识依赖
      5. 语言的上下文

      自然语言生成 – NLG

        NLG 的6个步骤:

      1. 内容确定 – Content Determination
      2. 文本结构 – Text Structuring
      3. 句子聚合 – Sentence Aggregation
      4. 语法化 – Lexicalisation
      5. 参考表达式生成 – Referring Expression Generation|REG
      6. 语言实现 – Linguistic Realisation

    4.常见的NLP 任务

      分词、词嵌入、新词发现、拼写提示、词性标注、文本分类、机器翻译、自动摘要、阅读理解、情感分析、搜索引擎、QA问答、聊天机器人、知识图谱

    二:知识图谱

    1.说明

      知识图谱是由 Google 公司在 2012 年提出来的一个新的概念。

      自然语言生成 – NLG人类可以识别的信息,可以使用知识图谱进行展示。

      【所以,知识图谱也是NLP的一个典型应用

      

    2.定义

      知识图谱的两大核心要素是实体和关系,那么当然首先我们面临的任务就是从这些文献中抽取实体和关系,然后再是构建图,以及存储。

      

    3.为什么需要图

      一图胜千言

      知识图谱是人工智能很重要的一个分支, 人工智能的目标为了让机器具备像人一样理性思考及做事的能力

      

    4.抽取

      1、抽取实体Name Entity Recognition

        Name Entity:关注的实体,问题不同关注的不同,往往包含:人名地名位

      2、Relation Extraction关系抽取

        可以看做分类问题,输入一堆信息,输出一个关系

      例如:机器能读完一本哈利波特之后,懂得书中有哪些实体以及实体之间的关系。

    5.抽取处理步骤

      方式 1:传统机器学习的 NLP 流程

       

      

      方式 2:深度学习的 NLP 流程

       

      

      实体抽取是一项非常常见的 NLP 任务,实现它的方法有多种,大体而言分为两个方向:

        i)基于实体名字典进行字符匹配抽取;

        ii)用序列预测模型进行抽取。

          序列预测模型又可以选用机器学习模型,比如条件随机场(CRF);或选用神经网络,比如 CRF+LSTM,或 CRF+BERT等。

    6.构建图

      在构建类似的图谱过程当中,主要涉及以下几个方面的自然语言处理技术:

        实体命名识别(Name Entity Recognition)
        关系抽取(Relation Extraction)
        实体统一(Entity Resolution)
        指代消解(Coreference Resolution)

    7.存储

      知识图谱主要有两种存储方式:

    • 一种是基于RDF的存储;
    • 另一种是基于图数据库的存储。

      

    8.图数据库neo4j

      Neo4j系统目前仍是使用率最高的图数据库,它拥有活跃的社区,而且系统本身的查询效率高,但唯一的不足就是不支持准分布式

       

      可以参考本人写的文档:https://www.cnblogs.com/juncaoit/p/16301001.html

    三:我们的实现

    1.NLP的难点

      最典型的知识图谱,比较复杂。

      我们的业务应该不需要这么复杂。

      

    2.遇到的问题

      1.我们要做什么,业务场景是否符合

        或者说,我们的图要做成什么样子,可否有示意图。

      2.使用哪种算法,是否需要复杂的算法,算法需要一点时间选取和学习【CNN,RNN,GCN】

      3.算法得到的结果存库的难题,

        或者说如何将实体和关系拿到

    四:参考文档

    1.

      自然语言处理(NLP)之五:知识图谱:https://blog.csdn.net/xunyishuai5020/article/details/123983142

      【Python+中文NLP】知识图谱系列(1)——构建流程:https://blog.csdn.net/walk_power/article/details/109561883?spm=1001.2014.3001.5502

      【Python+中文NLP】知识图谱系列(2)——知识存储:https://blog.csdn.net/walk_power/article/details/110248210?spm=1001.2014.3001.5502

      机器学习/NLP/深度学习/知识图谱【贪心学院】:https://ke.qq.com/course/350394

      自然语言处理-Natural language processing | NLP:https://easyai.tech/ai-definition/nlp/

      什么是 NLP (自然语言处理):https://blog.csdn.net/yejuliali/article/details/115912012

       【一】NLP简介:https://blog.csdn.net/qq_42030496/article/details/119061397

      nlp-知识图谱简介:https://blog.csdn.net/qq_42240729/article/details/112393851

  • 相关阅读:
    关于putty使用详解
    ORA12505: TNS: 监听程序当前无法识别连接描述符中所给出的SID等错误解决方法
    VMware的“Bridge”、“NAT”、“Hostonly”上网方式的区别
    转贴一个很全的sql用法
    网站
    sql exsits问题!!
    petshop4.0 profile
    一些应该知道的
    继承System.Web.UI.Page的页面基类
    应用程序域(Application Domain)
  • 原文地址:https://www.cnblogs.com/juncaoit/p/16288735.html
Copyright © 2020-2023  润新知