• php分词工具scws


    分词工具   sphinx  支持php版本5.2.2~6.0因此选用scws

    文档地址

    http://www.xunsearch.com/scws/docs.php#instscws

    简单的demo(测试有效)

    $so = scws_new();
    //设置分词时所用编码
    $so->set_charset('utf-8');
    //设置分词所用词典(此处使用utf8的词典)
    $so->set_dict('/usr/local/scws/etc/dict.utf8.xdb');
    //设置分词所用规则
    $so->set_rule('/usr/local/scws/etc/rules.utf8.ini');
    //分词前去掉标点符号
    $so->set_ignore(true);
    //是否复式分割,如“中国人”返回“中国+人+中国人”三个词。
    $so->set_multi(true);
    //设定将文字自动以二字分词法聚合
    $so->set_duality(true);
    //要进行分词的语句
    $so->send_text('欢迎来到华晨宇时代IT开发');
    //获取分词结果,如果提取高频词用get_tops方法
    while ($tmp = $so->get_result())
    {
    print_r($tmp);
    }
    $so->close();

  • 相关阅读:
    嵌入式操作系统-小型任务调度的理解(转)
    数据分析-pandas基础入门(一)
    硬件电路设计——低通滤波器的应用
    Docker
    AWK总结
    DNS解析
    TCP/IP
    Mysql优化部分总结
    Nginx配置文件释义备查
    时间模块
  • 原文地址:https://www.cnblogs.com/wxtrip/p/10515881.html
Copyright © 2020-2023  润新知