Assignment 1:Chinese Text Data Processing.

Assignment 1:Chinese Text Data Processing.

记录过程。

Lucene分词：http://blog.csdn.net/cyxlzzs/article/details/7999212

Lucene自定义词典：http://lilongbao.blog.163.com/blog/static/2128760512013689194583/

注意点：.dic文件要以utf-8保存

不过这里有一个疑惑：

.doc文件如果改为GBK保存，IKAnalyzer.cfg.xml文件的开头：<?xml version="1.0" encoding="UTF-8"?> 改为 <?xml version="1.0" encoding="GBK"?> 再运行，.java文件效果无效，也就自定义停止词典无效。

下面就是.txt文件的java读写实现。

java读取TXT文件的方法：http://www.cnblogs.com/manongxiaojiang/archive/2012/10/13/2722068.html

java逐行读取和写入文本文件txt：http://blog.csdn.net/softimes/article/details/7225879

已经改写，实现txt的java读入和写出。

将10个txt文件路径以String 类型读取，每个文件分词，每10个一行输出到新路径。
相关阅读:
__file__ 作用以及模块导入方法
 random 模块
 time 模块
 module模块和包
 装饰器
 python闭包
 filter map reduce函数的使用
 python文件处理
 python内置函数使用
 函数
原文地址：https://www.cnblogs.com/Deribs4/p/4979255.html