• 机器学习入门-数值特征-对数据进行log变化


    对于一些标签和特征来说,分布不一定符合正态分布,而在实际的运算过程中则需要数据能够符合正态分布

    因此我们需要对特征进行log变化,使得数据在一定程度上可以符合正态分布

    进行log变化,就是对数据使用np.log(data+1) 加上1的目的是为了防止数据等于0,而不能进行log变化

    代码:

    第一步:导入数据

    第二步:对收入特征做直方图,同时标出中位数所在的位置,即均值

    第三步:对收入特征做log变化,使用np.log(data+1) 

    第四步:对log收入特征做直方图,标出中位数线的位置,即均值

    结论:我们可以发现变化后的特征在一定程度上更加接近正态分布

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    
    # 第一步导入数据
    ffc_survey_df = pd.read_csv('datasets/fcc_2016_coder_survey_subset.csv', encoding='utf-8')
    
    # 第二步对数据的收入做直方图
    fig, ax = plt.subplots()
    ffc_survey_df['Income'].hist(color='#A9C5D3', bins=30)
    plt.axvline(ffc_survey_df['Income'].quantile(), color='r', label='Binary line')
    plt.legend(fontsize=18, loc='best')
    ax.set_xlabel('Income', fontsize=12)
    ax.set_ylabel('Frequency', fontsize=12)
    ax.set_title('Income_hist', fontsize=12)
    plt.show()

    # 第三步:对收入的数据进行log变化
    ffc_survey_df['log_income'] = np.log(ffc_survey_df['Income'].values+1)
    print(ffc_survey_df[['Income', 'log_income']].head())

             log前后的数据

    # 第四步:对log变化后的数据画出直方图
    fig, ax = plt.subplots()
    ffc_survey_df['log_income'].hist(color='#A9C5D3', bins=30)
    plt.axvline(ffc_survey_df['log_income'].quantile(), color='r', label='Binary line')
    plt.legend(fontsize=18, loc='best')
    ax.set_xlabel('log_Income', fontsize=12)
    ax.set_ylabel('Frequency', fontsize=12)
    ax.set_title('Income_hist', fontsize=12)
    plt.show()

  • 相关阅读:
    FJOI泛做
    [省选联考2022 ] 填树
    Public Round #2 C 背包
    【UER #7】天路
    [NOI2019] 机器人
    [省选联考2022] 序列变换
    ARC#139 D Priority Queue 2
    [省选联考2022]卡牌
    No Feign Client for loadBalancing defined. Did you forget to include springcloudstarterloadbalanc
    style加scoped属性的用途和原理
  • 原文地址:https://www.cnblogs.com/my-love-is-python/p/10322080.html
Copyright © 2020-2023  润新知