论文阅读： Shallow Semantic Parsing using Support Vector Machines

论文阅读： Shallow Semantic Parsing using Support Vector Machines

一、摘要

目的：用svm 做浅层 semantic parsing

贡献：加入了新feature和新分类器，泛化更好

数据集： AQUAINT corpus

二、介绍

浅层语义分析定义：分析 who dit what to whom ， when，where ， how 。。。。etc

早期：利用tagging 的思想来解释

三、 semantic annotation and corpora

数据集结果选用propbank，每个verb 被标注为ARG0 - ARG5 ，

ARG0 ： PROTO-AGENT，动作主体

ARG1 ： PROTO-PATIENT，动作受体等

训练集合 51000 句，有13万成分

测试集合 2700句，有7000成分

四、问题定义

augument identification（成分获取）：给定句法结构，确定句子中每个部分的成分（我的理解是类似于实体链指中的实体抽取，就是确定是不是argument的候选）

argument classification（成分分类）：给定成分，对成分进行分类

五、基线特征

predicate - predicate 自己用作特征

path - 句法路径，应该是当前词-predicate 的路径，组了个string

phrase type - 短语类型， NP 、 PP、 S等

position - 在 predicate 前还是后

voice - predicate 是否是主动词语

head word -

sub categorization - 联合predicate 和其父节点组成的句法泛化成分

六、训练

SVM 组多分类，

先训了一个NULL 、 NON-NULL的分类器（augument identification）

七、基线效果

八、新feature

1. 实体信息

2. head word pos

3. verb clustering ，对verb 进行归纳（分为64类）

4. partial path ，保留最低节点的path

5. verb sense info- 动词消岐

6. head word of prep phrase

7. 短语开始结尾postag

等等，不介绍了

九、模型表现

总结：没啥总结的，感觉方法都很基础，实际泛化效果会下降20+个点，主要是分析、和过拟合等问题导致的
相关阅读:
软件测试作业随笔之二：Homework 2
软件项目管理作业随笔之一：记我完成的一个项目
 C#博客随笔之十：Problem Statement+System Glossary+System Supplementary Specification FOR每美欲下
 C#博客随笔之九:EF框架的使用
 C#博客随笔之八：EntityFramework初识
 C#博客随笔之七：反射初体验
 C#博客随笔之六：数据绑定
 node.js 框架基本功能
 为什么不用第三方缓存
 微服务基础设施实现方案 -- node.js
原文地址：https://www.cnblogs.com/lavi/p/7646351.html