• 机器学习--项目实际过程中的经验


    **pandas 在线
    《统计学方法》 李航著 《机器学习》 周志华著 清华出版社 《剑指offer》 何海涛著

    一次读取大文件可能把内存爆掉, 所以可以采取分块读取

    import pandas as pd
    
    path = './diabetes.csv'
    data = pd.read_csv(path,sep=',',engine = 'python',iterator=True)
    loop = True
    chunk_size = 1024
    chunks = []
    index = 0
    while loop:
        try:
            print(index)
            chunk = data.get_chunk(chunk_size)
            chunks.append(chunk)    
            index+=1
        except StopIteration as siterEx:
            loop = False
            print('the end...')
            
    print('start to combine...')
    data = pd.concat(chunks,ignore_index=True)
    data.head()
    
    
    numpy.random.rand(5,10)  # 5 行 10 列 随机生成
    numpy.random.randn(5,10) # 5 行 10 列 呈正态分布 随机
    numpy 对矩阵降维用 .ravel    或 .flattern()   可以 对比 spark 的 RDD 
    pandas 处理 NaN 数据 填充 用 fillna()
    
    numpy 处理 nan 数据 填充用 nan_to_num  (  auc = np.nan_to_num(metrics.auc(fpr,tpr))
    
    pandas 输出格式不友好,那么就转成 html 然后用浏览器查看表格 df.to_html()
    
    直接用 psycopg2  读取列是个问题, 建议改用 SQLAlchemy 获取他高级点的 ORM 框架
    
    
    在做模型训练的时候,尤其是在训练集上做交叉验证,通常想要将模型保存下来,然后放到独立的测试集上测试,下面介绍的是Python中训练模型的保存和再使用。
    
    scikit-learn已经有了模型持久化的操作,导入joblib即可
    
    from sklearn.externals import joblib
    1
    模型保存
    >>> os.chdir("workspace/model_save")
    >>> from sklearn import svm
    >>> X = [[0, 0], [1, 1]]
    >>> y = [0, 1]
    >>> clf = svm.SVC()
    >>> clf.fit(X, y)  
    >>> clf.fit(train_X,train_y)
    >>> joblib.dump(clf, "train_model.m")
    1
    2
    3
    4
    5
    6
    7
    8
    通过joblib的dump可以将模型保存到本地,clf是训练的分类器
    
    模型从本地调回
    >>> clf = joblib.load("train_model.m")
    1
    通过joblib的load方法,加载保存的模型。
    
    然后就可以在测试集上测试了
    
    clf.predit(test_X) #此处test_X为特征集
    
    

    如果有来生,一个人去远行,看不同的风景,感受生命的活力。。。
  • 相关阅读:
    css 修改input中placeholder提示问题颜色
    js 获取屏幕或元素宽高...
    js时间相关
    golang——gRPC学习
    golang——win10环境protobuf的使用
    golang——net/rpc/jsonrpc包学习
    golang——net/rpc包学习
    golang——log包学习
    golang——database/sql包学习
    mysql——免安装配置
  • 原文地址:https://www.cnblogs.com/Frank99/p/9528012.html
Copyright © 2020-2023  润新知