SCWS 是 Simple Chinese Words Segmentation 的缩写,即简易中文分词系统。官网:http://www.xunsearch.com/scws
这是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。词是汉语的基本语素单位,而书写的时候不像英语会在词 之间用空格分开,所以如何准确而又快速的分词一直是中文分词的攻关难点。
SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。
[推荐]首个搭载 SCWS 分词系统的中小型站内全文检索解决方案 - FTPHP!
以下为本人在win03平台下,php5.2.5+apache2.2.11平台下推荐的方法,特别的简单,用的是gbk的字库的
1.首先从http://www.ftphp.com/scws/download.php下载相关压缩包 .
php_scws.dll 是由 ben 移植用于 Windows 平台下的 PHP 动态扩展库,请根据您使用的 php 版本下载,编译环境均为:VC6 x86 Thread Safe。
[For PHP-4.4.x (20KB)] [For PHP-5.2.x (20KB)] [For PHP-5.3.x (20KB)] [详细安装说明] [PHP扩展-API 文档]
XDB 格式的词典文件,可用于 SCWS-1.x.x 和 PSCWS4,不可用于 PSCWS23。
此为通用词典文件,定制词典或其它服务请查看服务支持页面。
[简体中文 (GBK) (3.84MB, 28万词, 2010/03/19更新)]
[简体中文 (UTF-8) (3.9MB, 28万词, 2010/03/19更新)]
[繁 体中文(UTF-8) (1.21MB, 10万词)]
纯 PHP 开发的 SCWS 第二版和第三版,仅支持 GBK 字符集,速度较快,推荐在全 PHP 环境中使用,已含专用 xdb 词典一部。
[立即下载: pscws23-20081221.tar.bz2 (2.79MB)] [说明文档]
SCWS 及 PSCWS4 通用的规则集文件,用于识别人名、地名、数字年代等。内含简体GBK、繁体UTF8、简体UTF8三个文件。
一般不需要单独下载,随 scws 一起发布的源码包中已经包含这些文件。
[立即下载: scws-rules-all.zip (6.67KB)]
2.将下面下载的几个压缩文件解压,将scws_1.1.1_win32_php-5.2.x.zip包里的php_scws.dll文件放在d:/php/ext目录里,注意这个地方需要根据你自己的php的环境来存放.
3.在d:/php目录里新建 scws/etc文件夹,将规则集文件cws-rules-all.zip里的ini文件放在这里,我用的时候有三个的,再将解压后的词典件dict.xdb也放在这里.
4.修改c:/windows/php.ini文件,在配置文件的最后面添加:
[scws]
extension = php_scws.dll
scws.default.charset = gbk
scws.default.fpath = “d:/php/scws/etc”
这三行,重启apache即可.可以通过查看phpino信息,来查看是否启用了scws扩展.
以上配置基本完成了,特别的简单的吧,呵呵!
如果需要查看演示的话只需要将从网站上下载的演示包放在一个站点的根目录里就可以了.如http://www.ftphp.com/scws/demo/v4.php,我下的v4版本里的演示和官方网站上的演示有些出入的,你要以通过http://www.ftphp.com/scws/demo/v4.php?source来复制一下php代码,保存到本地文件即可了.
以下为本人的用的配置信息,点击下载scws配置,记得将最后的的_.txt去掉,实际上是一个rar的压缩包的.
======================================================
下载:SCWS-1.2.1 scws 完整源代码套件
SCWS 全部源代码,包括 libscws 核心库,命令行工具程序,php 扩展代码,规则集及文档。使用 ANSI-C 语言开发,推荐在 Unix-Like OS 的 gcc 环境编译安装(也支持 cygwin 环境)。
[立即下载:scws-1.2.1.tar.bz2 (424KB)] [详细安装说明] [C-API 文档] [PHP扩展-API 文档]
php_scws.dll (1.2.1)
php_scws.dll 是由 ben 移植用于 Windows 平台下的 PHP 动态扩展库,请根据您使用的版本下载,均为 x86 环境。其他版本的 PHP 或环境请自行根据源码目录下的 phpext/win32 构建。(NTS 表示 Non-Thread-Safety)
[PHP-4.4.x (44KB/VC6/ZTS)] [PHP-5.2.x (44KB/VC6/ZTS)] [PHP-5.3.x (40KB/VC9/ZTS)]
[PHP-5.4.x (40KB/VC9/ZTS)] [PHP-5.3.x (40KB/VC9/NTS)] [PHP-5.4.x (40KB/VC9/NTS)]
[PHP-5.3.x (44KB/VC6/ZTS)] [详细安装说明] [PHP扩展-API 文档]
XDB 词典文件
XDB 格式的词典文件,可用于 SCWS-1.x.x 和 PSCWS4,不可用于 PSCWS23。此为通用词典文件,定制词典或其它服务请查看服务支持页面。
[简体中文(GBK) (3.84MB,28万词,2013/01/08更新)]
[简体中文(UTF-8) (3.9MB,28万词,2013/01/08更新)]
[繁体中文(UTF-8) (1.21MB,10万词)]
PSCWS4
这是用纯 PHP 代码实现的 C 版 Libscws 的全部功能,即第四版的 PSCWS,速度较慢,不推荐使用。下载包不含词典,请从上面 XDB 词典中下载。
[立即下载:pscws4-20081221.tar.bz2 (18.1KB)] [说明文档]
PSCWS23
纯 PHP 开发的 SCWS 第二版和第三版,仅支持 GBK 字符集,速度较快,推荐在全 PHP 环境中使用,已含专用 xdb 词典一部。
[立即下载:pscws23-20081221.tar.bz2 (2.79MB)] [说明文档]
规则集文件
SCWS 及 PSCWS4 通用的规则集文件,用于识别人名、地名、数字年代等。内含简体GBK、繁体UTF8、简体UTF8三个文件。不需要单独下载,随 scws 一起发布的源码包中已经包含这些文件。
[立即下载:rules.tgz (内含三个文件)] (2011.4.20更新)
XDB导入导出工具
XDB文件是专为 SCWS 优化而开发的一个高效简易存储结构,不能直接编辑和查看。现特意用纯 PHP 脚本编写了2个小工具,可以直接将 xdb 文件导出成可视的纯文本文件,以及由这样的文本文件导入生成 xdb 文件。
[立即下载:phptool_for_scws_xdb.zip (9KB)]