LTP是哈尔滨工业大学(HIT,窝工)出品的一个自然语言处理工具包。其功能包括中文分词(“分词效果好于jieba分词”[引用自学长])、词性标注、实体识别等。
对于macOS来说,现有的版本可能不多,但最新版依旧支持,这一点和Windows用户是一样的。
总体步骤可以参考如下博客:macOS安装pyltp
说实话,上面这篇博客写的有点繁琐,建议全都读一遍,明白各个步骤的操作目的是什么再具体动手键入命令。
下面是安装过程需要注意的几点地方:
一、明确使用pyltp的Python版本
对我来说,之前用得到的NLP功能并不多,基本分词就直接用jieba分词来做了(pip可以直接安装,镜像可以从清华镜像源获得)。自己平时用的也是Python3.7,但很遗憾,pyltp不支持Python3.7版本!目前pyltp支持的最高版本为Python3.6(我用的是Python3.6.8)。因此对于已经拥有Python3.7的Mac用户来说,你依然无法用现有的3.7版本进行安装。
由于Mac内置了Python2.7版本,所以可以直接用这个版本来安装使用pyltp(但并不建议这么做,毕竟Python3.x和Python2.x差了很多内容)。多说一句,不建议强迫症用户删除Mac内置python版本,因为很多系统内脚本都是基于这个来执行的,无脑删除易导致得不偿失。
结合自身经历来说,推荐直接去官网下载Python3.6.8版本Python,这将需要100+MB的磁盘空间。此时对于已经装过3.7的用户来说,python3命令将会被新加入的python3.6覆盖,使用命令别名即可指定python3命令链接的具体执行命令(bash下配置文件为.bash_profile,zsh下配置文件为.zshrc)。
二、明确你的macOS版本
这一点毋庸置疑,上面分享的博客也提到了,修改OS版本号为你的版本号(macOS Sierra就是10.12,macOS High Sierra就是10.13,macOS Mojave就是10.14,WWDC19已公布,macOS Catalina就是10.15)。
三、明确你的clang编译器
这一点博客里也提到了,但我觉得有些不妥。修改博客中提到的源文件(泛型那里,照着博客修改一下代码),目前命令行编译基本都是由Xcode提供的,所以对于编译器这一块,尽量直接装个Xcode就搞定了,安全且省心)。当你把这些内容都确认好了以后,再执行 $ sudo python setup.py install 命令,当然,这里的python对应着上面提到的你需要安装的python版本,如果是3.6.x,这里的python就用python3.6替代。在Mac下,python默认指向预装的python2.7。这样,你就可以耐心地享受几分钟的clang编译过程了。当编译结束之后,即可导入pyltp到你的Python环境中了。
此外,模型是需要自行导入的。需要用什么功能,就导入哪个具体模型。模型下载在上面博客里也提到了,至于具体用法,请参阅以下博客:LTP使用指南
如有问题,欢迎指正。
@编辑于2019-06-04
From Modnar.