• 10月19日


    通过hive和mysql 通过判断条件将数据整合,然后将带有结果的(即明确表明改行数据是异常的)数据放到python中来构建决策树,然后将测试数据放入进行比对。首先需要确定明确有问题的数据,增加一个字段作为标记,有问题添1。

    我的python代码

    import csv

    from sklearn.feature_extraction import DictVectorizer

    from sklearn.tree import DecisionTreeClassifier

    from sklearn import preprocessing

    from sklearn import tree

    import pandas as pd

    # film_data= open("E:qq\2021秋软件需求与分析测试数据源测试数据源\jnc1.csv","rt")

    # reader=csv.reader(film_data)

    #

    # headers=next(reader)

    # print(headers)

    train_data = pd.read_csv('E:qq\2021秋软件需求与分析测试数据源测试数据源\txjnc.csv')

    test_data = pd.read_csv('E:qq\2021秋软件需求与分析测试数据源测试数据源\xjnc.txt')

    #print(train_data.info())

    #print(test_data.info())

    features = ['id','cnum', 'profit']

    train_features = train_data[features]

    train_labels = train_data['f']

    test_features = test_data[['id','cnum','profit']]

    dvec = DictVectorizer(sparse=False)

    train_features = dvec.fit_transform(train_features.to_dict('records'))

     

    # print(train_features)

    # print(dvec.feature_names_)

     

    clf = DecisionTreeClassifier(criterion='entropy')

    # 决策树训练

    clf.fit(train_features, train_labels)

    #clf.score(train_features, train_labels)

    #决策树进行判断

     

    test_features=dvec.transform(test_features.to_dict(orient='records'))

    pre=clf.predict(test_features)

    temp = pd.DataFrame(pre)

    temp.to_csv('E:qq\2021秋软件需求与分析测试数据源测试数据源\out.txt')

    print(pre)

     

    将确认的结果集作为标准,然后放入测试数据进行判断。

    输出的结果是281

    0就是判断为没有问题

  • 相关阅读:
    [Baltic2013]ballmachine BZOJ3133
    [Jxoi2012]奇怪的道路 BZOJ3195 状压DP
    [Baltic 2011]Lamp BZOJ2346
    可并堆
    [Jsoi2016]最佳团体 BZOJ4753 01分数规划+树形背包/dfs序
    点分治
    J2EE WEB应用架构分析
    {经典}springmvc+mybatis+restful+webservice Jeesz分布式架构
    深入Spring Boot:那些注入不了的 Spring 占位符 ( ${} 表达式 )
    G1 垃圾收集器之对象分配过程
  • 原文地址:https://www.cnblogs.com/buyaoya-pingdao/p/14159267.html
Copyright © 2020-2023  润新知