老师意见:
- 加 数据预测 也就是一个数据挖掘结果的应用场景
- 图形的钻取
- 多种图的联动
- 数据的联动 数据表格加图形
这周进度:
清洗数据,筛选出企业名称,将公告界面与后台交互
清洗记录如下:
以10429条数据为依据,初步分析
1.首先分为两大类是公告原文是一二三格式//9767,和1、2、格式的//662
2.其次中标供应商表现形式有直接冒号给出,或者是表格形式
(1)一二三格式的,中标供应商包含在中标信息中,且表现形式为冒号
首先处理的就是中标信息四五的问题。
这个时候,又出现一种情况,冒号有时候为中文有时候为英文,有时候后面会有空格,有时候没有
有的数据本身就有错误,中标公司为人名李献忠
空白不是空格
中标公司不是一个
有的中标公司后面没有跟地址
截取的后面有杂质:如下
北京拓尔思信息技术股份有限公司,联系地址:北京市海淀区知春路6号(锦秋国际大厦)14层14B04,中标金额人民币大写贰佰玖拾捌万伍仟元整(小写:2985000.00元)。
·trim()去除字符串开头结尾的空格,不会去除字符串中的空格
空格去除不了
·正则表达处理个空格也费劲。
刚遇到一个空格,用正则表达\s死活replace不掉,trim也没辙,空格那个char转成int一看,是160,特么空格不是32么。
查了一下,要用以下方式去除:
String.replaceAll("\u00A0","")
坑爹。。 另外查了一下, 貌似IE和Firefox对这个东西的处理也有差异,同志们还是用32的空格吧。。
还有,保存文件的时候要去除非法字符,用以下:
String.replaceAll("[:\\/*"?|<>']", "")
(2)表格
并不全是中标供应商名称还有入围供应商,这个记录应该去掉