结合前文的demo演示,现写一个实用的功能函数,使用方法:
header('Content-Type:text/html;charset=UTF-8');
$text = '我是一个中国人,我会C++语言,我也有很多T恤衣服,我想知道奥迪A6与第八代索纳塔哪个油耗低,谢谢花好月圆二手奥拓芽菜好吃悦翔V3怎么样卧槽日系车Q5';
$so = scws_new();
$getFCstr = scwsFenCi($so,$text,$xattr='');
echo $getFCstr;
echo '<br />--------------------<br />';
echo fenCi2Encode($getFCstr);
/** * SCWS中文分词 * @param so SCWS对象实例,如:$so = scws_new(); * @param text 待分词的中文文本 * @param xattr 过滤的词性(为空就是不过滤词性) * @return 返回分好词的字符串(多词空格间隔);失败返回false; * @author martinzhang */ function scwsFenCi($so,$text,$xattr=''){ if(!is_object($so)){return false;} //设定分词词典、规则集、欲分文本字符串的字符集(utf8 和 gbk) $so->set_charset('utf8'); //强行设定分词所用的词典 //$so->set_dict('D:/Program Files/AppServ/scws/etc/dict.utf8.xdb'); //强行设定分词所用的新词识别规则集(用于人名、地名、数字时间年代等识别) //$so->set_rule('D:/Program Files/AppServ/scws/etc/rules.utf8.ini'); $so->set_ignore('yes'); //设定分词返回结果时是否去除一些特殊的标点符号之类 $so->set_duality(false); //设定是否将闲散文字自动以二字分词法聚合 //设定分词返回结果时是否复式分割,如“中国人”返回“中国+人+中国人”三个词。 //也可用 1-15 来表示:(1)短词 (2)二元(将相邻的2个单字组合成一个词) (4)重要单字 (8)全部单字 $so->set_multi(0); //发送设定分词所要切割的文本 //执行本函数时,若未加载任何词典和规则集,则会自动试图在 ini 指定的缺省目录下查找缺省字符集的词典和规则集 $so->send_text($text); $getWords = $so->get_words($xattr); //n,nz,un,ns,i //print_r($getWords); if(is_array($getWords)){ foreach($getWords as $arrWord){ if(preg_match('/[a-zA-Z0-9]{2,}/',$arrWord['word'],$arrMatch)){ $word_fc .= $arrWord['word'].' '; }elseif(strlen($arrWord['word'])>=4){ $word_fc .= $arrWord['word'].' '; } } return trim($word_fc); }else{ return false; } } /** * 分词转码 * @param strKeywords 已经分词的字符串(词间“空格”分隔) * @return 返回分词的转码字符串 * @author martinzhang */ function fenCi2Encode($strKeywords){ $pattern = array('/%/','/+/'); $replace = array('',' '); return preg_replace($pattern,$replace,urlencode(trim($strKeywords))); } /** * 将搜索关键词 高亮 * @param keywordStr 关键词(多关键词以“空格”分隔) * @param contentStr 待替换的内容部分 * @param color 设置高亮颜色(默认:#ff0000) * @return 返回替换后的新内容 * @author martinzhang */ function highLightKeyword($keywordStr,$contentStr,$color='#ff0000'){ $arrKW = explode(' ',$keywordStr); $arrKW = array_unique($arrKW); $color == '' ? $color = '#ff0000' : $color = $color; foreach($arrKW as $val){ $contentStr = str_replace($val,"<span style='color:{$color}'>$val</span>",$contentStr); } return $contentStr; }