• NLP概述


    1,词法分析

    待续

    2,文本分类

    文本表示:

    重点是贝叶斯模型:二项表示法和多项表示法。(向量维度为词库大小,一个是01,一个是频次)。模型重点在于化后验为先验。

    还有其他模型:机器学习模型,分布式模型等等。

    特征选择:重要的是TF-IDF。它的意思是一个词在单个文本中出现的次数越多,在其他文本中出现的次数较少,那么这个词的区分度就越高。

    模型检验:accuracy = (TP +TN)/TP+FP+TN+FN  precision = TP / (TP+FP)  recall = TP/(TP+FN)   F=2PR/(P+R)

    3,词性标注(句法分析预处理)

    给每个词标上它的语法属性。

    难点:兼类词的存在。如果没有兼类词,我们查表即可。

    形式化:分类问题。

    假设:有限视野,时间独立,输出独立。

    重点:HMM模型。viterbi算法(动态规划)。复杂度从($N^T$降到$N^2T$)

    welch-Baum算法。

    4,句法分析

    CFG(上下文无关文法): (T,N,S,R)。T:终结符号。N:非终结符号。S:开始符号。R:语法规则。

    自顶向下:目标驱动。自底向上:数据驱动。转换消除法。(shift-Reduce parsing)

    传统的CFG语法解析问题:语法太紧,则应用广度不够,太松,则解析精度不够。

    解决方法:给规则引入概率,结果去概率最大的解析结果。

    PCFG:(T,N,S,R,P)P(R),每条规则概率。

    P(W1n) = 所有解析树的概率和。P(t1)= 该解析树所有分支概率乘积。 解析结果去概率最大的树。

    解析结果往往有指数级别个。常用Inside Probability或Outside Probability计算。

    viterbi取最高的inside probability结果。

    概率从何而来?有树库:从树库提取。没有:EM估计。

  • 相关阅读:
    第二章 图像的显示
    c++ 使用PI
    c++函数写的都对,还是说incompatible或者not found的解决办法
    我理解的直方图均衡化
    解决360WiFi有时候手机连接不上
    c# 16进制byte转成int
    VS2010 代码突然改变字体 解决办法
    荣耀手机恢复那些“不再提示”的设置
    mfc视类中错误:IntelliSense: declaration is incompatible with。。。解决方案
    [原] Android 自定义View步骤
  • 原文地址:https://www.cnblogs.com/zqiguoshang/p/6243526.html
Copyright © 2020-2023  润新知