最近项目中处理分句
1.中文一般使用ltp
2.欧洲语系一般使用segtok
3.本文重点讲解Stanford CoreNLP
3.1 优点如下:
- 功能足够多,一站式解决所有主流需求;
- 操作足够方便,放到 Python 里基本上就是一两行代码;
- 语言支持广泛,目前支持阿拉伯语,中文,英文,法语,德语,西班牙语,做平行语料的对比非常方便
3.2 官网地址:https://stanfordnlp.github.io/CoreNLP/
3.2 安装与使用
参考:https://www.grammarly.com/blog/engineering/how-to-split-sentences/
https://zhuanlan.zhihu.com/p/137226095
https://www.cnblogs.com/maoerbao/p/13019276.html
https://titipata.github.io/2016/11/09/sentence-split.html
https://blog.csdn.net/qq_35203425/article/details/80451243