• 第十周


    老师意见:

    1. 加 数据预测 也就是一个数据挖掘结果的应用场景
    2. 图形的钻取
    3. 多种图的联动
    4. 数据的联动 数据表格加图形

    这周进度:

      清洗数据,筛选出企业名称,将公告界面与后台交互

      清洗记录如下:

    以10429条数据为依据,初步分析

    1.首先分为两大类是公告原文是一二三格式//9767,和1、2、格式的//662
    2.其次中标供应商表现形式有直接冒号给出,或者是表格形式

    (1)一二三格式的,中标供应商包含在中标信息中,且表现形式为冒号
    首先处理的就是中标信息四五的问题。
    这个时候,又出现一种情况,冒号有时候为中文有时候为英文,有时候后面会有空格,有时候没有
    有的数据本身就有错误,中标公司为人名李献忠
    空白不是空格
    中标公司不是一个
    有的中标公司后面没有跟地址
    截取的后面有杂质:如下
    北京拓尔思信息技术股份有限公司,联系地址:北京市海淀区知春路6号(锦秋国际大厦)14层14B04,中标金额人民币大写贰佰玖拾捌万伍仟元整(小写:2985000.00元)。

    ·trim()去除字符串开头结尾的空格,不会去除字符串中的空格

    空格去除不了
    ·正则表达处理个空格也费劲。
     
    刚遇到一个空格,用正则表达\s死活replace不掉,trim也没辙,空格那个char转成int一看,是160,特么空格不是32么。
     
    查了一下,要用以下方式去除:
    String.replaceAll("\u00A0","")
     
     
    坑爹。。 另外查了一下, 貌似IE和Firefox对这个东西的处理也有差异,同志们还是用32的空格吧。。
     
    还有,保存文件的时候要去除非法字符,用以下:
    String.replaceAll("[:\\/*"?|<>']", "")
     

    (2)表格
    并不全是中标供应商名称还有入围供应商,这个记录应该去掉

  • 相关阅读:
    [无聊测试赛] T12 道路
    [无聊测试赛] T9 矩阵覆盖
    [无聊测试赛] T10 所驼门王的宝藏
    [无聊测试赛] T8 佳佳的魔法药水
    [无聊测试赛] T7 豪华游轮
    [无聊测试赛] T6 排行榜
    【模板】三分求函数极值
    树的重心模板
    倍增最近公共祖先(LCA)
    ccf201612题解
  • 原文地址:https://www.cnblogs.com/wf1647790534/p/10038026.html
Copyright © 2020-2023  润新知