• 如何入门自然语言处理


    作者:炼己者

    本博客所有内容以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢!


    1. 入门阶段

    直接做文本分类这个项目,具体的思路很简单。把原始文本变成向量,然后调用sklearn库里的分类算法,就可以实现文本分类了!

    如何把文本转换为文本向量呢?看这篇文章即可,手把手地教你把中文文本变成向量(附代码)

    尽量地去理解代码,代码的实现思路,以后遇到类似问题能不能转换成相应的数据格式,继续用这些代码操作。


    2.发展阶段

    完整的实现文本分类这个项目之后不要骄傲,以为自己很厉害了,可以纵横NLP界了。接下来你要开始有体系地去学习

    我还是推荐视频为主,书籍为辅,毕竟我们是小白,直接看书会很容易放弃的。需要有好的e老师带我们飞!

    第一个视频教程,宗成庆教授的视频教程,建议书和视频一起来。

    书籍也是宗成庆教授的著作

    第二个视频教程,是炼数成金的教程,里面的课程目录是这样的

    两个视频教程你可以网上搜索,也可以关注公众号:ZhangyhPico

    回复关键字 自然语言处理入门 ,便可以领取资源

    经典书籍我推荐《python自然语言处理》 以及 《数学之美》这两本书

    《python自然语言处理》这本书很适合我们小白来读,作者感觉就是以我们小白的角度来写的。里面主要是处理英文数据的,你可以试着用书里的方法来操作中文数据,这样你会更好的落实和理解书中的代码。

    《数学之美》这本书我感觉就是在说自然语言处理方向的技术原理,可以拿来做科普。比如你想做什么算法了,可以先拿这本书读一读,对你要用到的算法有个初步了解


    3.成长阶段

    到了这个阶段你的理论知识基本完备,至少不那么迷茫了。接下来你可以开始做项目,读论文了。当然没事儿的时候还要多多翻阅这两本经典之作,基本做机器学习方向就不能忽略这两本书了。李航的《统计学习方法》,周志华的西瓜书《机器学习》。

    1)项目

    做项目的话你肯定要有数据,中文的数据不好找,这里有一份关于中文数据的汇总,可以参考一下。
    中文文本语料库整理

    项目有很多,比如命名实体识别,实体关系抽取,知识图谱等等。

    命名实体识别系列你可以参考这里的博客操作,中文命名实体识别总结

    知识图谱这个项目很大,要做的东西很多。你可以先把理论知识备好,再去操作
    理论知识依旧建议看视频,视频教程是小象学院的。可以关注公众号:ZhangyhPico
    ,回复关键字知识图谱,即可领取视频教程

    2)论文

    自然语言处理方向的论文资料可以看这篇博客,里面会教你怎么找论文
    初学者如何查阅自然语言处理(NLP)领域学术资料

    到了这里,入门是肯定入门了,后续发展就看你自己了。没事儿读读论文,做做比赛,悠哉游哉!!!


    欢迎扫码关注

  • 相关阅读:
    050医疗项目-模块五:权限设置-第三方系统的接入
    049医疗项目-模块五:权限设置
    047医疗项目-模块四:采购单模块—采购单审核提交(Dao,Service,Action三层)
    046医疗项目-模块四:采购单模块—采购单审核(Dao,Service,Action三层)
    Netty原理分析
    Java集群优化——使用Dubbo对单一应用服务化改造
    知乎问答:现在程序员的工资是不是被高估了?
    一文理解 Java NIO 核心组件
    深入理解 Spring 事务原理
    完美主义对程序员的影响
  • 原文地址:https://www.cnblogs.com/lookfor404/p/9800760.html
Copyright © 2020-2023  润新知