• Pandas —— (2)索引与切片


    @

    一、索引

    Series和Datafram索引的原理一样,我们以Dataframe的索引为例

    1.1 列索引:df['列名'] (Series不存在列索引)

    df = pd.DataFrame(np.random.rand(12).reshape(3,4)*100,
                       index = ['one','two','three'],
                       columns = ['a','b','c','d'])
    # 按照列名选择列,只选择一列输出Series,选择多列输出Dataframe
    data1 = df['a']
    data2 = df[['a','c']]
    print(data1,type(data1))
    print(data2,type(data2))
    
    

    df[]默认选择列,也可以选择行,但不推荐,行索引用.loc与.iloc

    1.2 行索引:

    • df.loc[]:按index的名字选择行
    • df.iloc[]:按照整数位置(从轴的0到length-1)选择行,类似list的索引,其顺序就是dataframe的整数位置,从0开始计
    # 按照index选择行,只选择一行输出Series,选择多行输出Dataframe
    data3 = df.loc['one']
    data4 = df.loc[['one','two']]
    print(data3,type(data3))
    print(data4,type(data4))
    

    1.3 bool型索引

    # 布尔型索引
    # 多用于索引行
    
    df = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
                       index = ['one','two','three','four'],
                       columns = ['a','b','c','d'])
    print(df)
    print('------')
    
    b1 = df < 20
    print(b1,type(b1))
    print(df[b1])  # 也可以书写为 df[df < 20]
    print('------')
    # 不做索引则会对数据每个值进行判断
    # 索引结果保留 所有数据:True返回原数据,False返回值为NaN
    
    b2 = df['a'] > 50
    print(b2,type(b2))
    print(df[b2])  # 也可以书写为 df[df['a'] > 50]
    print('------')
    # 单列做判断
    # 索引结果保留 单列判断为True的行数据,包括其他列
    
    b3 = df[['a','b']] > 50
    print(b3,type(b3))
    print(df[b3])  # 也可以书写为 df[df[['a','b']] > 50]
    print('------')
    # 多列做判断
    # 索引结果保留 所有数据:True返回原数据,False返回值为NaN
    # 注意这里报错的话,更新一下pandas → conda update pandas
    
    b4 = df.loc[['one','three']] < 50
    print(b4,type(b4))
    print(df[b4])  # 也可以书写为 df[df.loc[['one','three']] < 50]
    print('------')
    # 多行做判断
    # 索引结果保留 所有数据:True返回原数据,False返回值为NaN
    

    1.4 多重索引:比如同时索引行和列

    # 先选择列再选择行 —— 相当于对于一个数据,先筛选字段,再选择数据量
    
    df = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
                       index = ['one','two','three','four'],
                       columns = ['a','b','c','d'])
    print(df)
    print('------')
    
    print(df['a'].loc[['one','three']])   # 选择a列的one,three行
    print(df[['b','c','d']].iloc[::2])   # 选择b,c,d列的one,three行
    print(df[df['a'] < 50].iloc[:2])   # 选择满足判断索引的前两行数据
    

    二、切片

    # 行切片,注意!!!这里是包含末端的
    # 如果是iloc[0:2],则是不包含末端的
     data5 = df.loc['one':'three']
    
    # 列不能切片
    

    打赏

    码字不易,如果对您有帮助,就打赏一下吧O(∩_∩)O

  • 相关阅读:
    泛型简介
    单元测试(junit使用)
    枚举简介
    面试题:二叉树的镜像
    面试题:和为S的连续正数列
    面试题:丑数
    面试题:合并两个排序的链表
    面试题:数值的整数次方
    面试题:矩形覆盖
    面试题:数组中的逆序对
  • 原文地址:https://www.cnblogs.com/long5683/p/13158172.html
Copyright © 2020-2023  润新知