zhparser是什么
zhparser是一个PostgreSQL中文分词的插件,通过它,可以使PostgreSQL支持中文的全文检索(Full Text Search)。
为什么需要zhparser
一般英语等语言分词比较简单,按照标点、空格切分语句即可获得有含义的词语,PostgreSQL自带的parser就是按照这个原理来分词的,比较简单。而中文就比较复杂,词语之间没有空格分割,长度也不固定,怎么分词有时还跟语句的语义有关,因此PG自带的parser不能用来做中文分词。使用zhparser这个插件,便可以使PG支持中文分词,继而可以使用PG做中文全文检索。
zhparser原理是什么
zhparser用C语言实现了PostgreSQL TEXT SEARCH PARSER需要的接口,这些接口会调用SCWS中文分词引擎进行分词。
zhparser使用手册
安装zhparser插件
1.安装SCWS
wget -q -O - http:www.xunsearch.com/scws/downscws-1.2.1.tar.bz2 | tar xjf - cd scws-1.2.1 ;./configure ; make install
2.下载zhparser源码
git clone https:github.com/amutu/zhparser.git
3.编译和安装zhparser
SCWS_HOME=usr/local make && make install
注意:如果在*BSD系统上进行编译安装,请使用gmake代替make
5.创建extension
psql dbname superuser -c 'CREATE EXTENSION zhparser'
使用zhparser进行中文分词
TODO
使用PostgreSQL进行中文全文检索
TODO
Media WiKi中文全文检索配置
TODO
zhparser高级用法
查看SCWS的用法:SCWS官网
zhparser相关链接
阿弟的文章:postgreql实现中文全文搜索的方法之---zhparser
zhparser源代码github:https:github.com/amutu
zhparser pgxn主页:http:pgxn.org/dist/zhparser