• pandas + jupyter进行数据处理


    前言

    上一篇文章已经将python所有职位的数据全部爬取并保存了下来,接下来我们要进行数据的处理,从所有的python职位中筛选出有测试、开发、运维的关键字职位来进行对比分析python在开发、测试、运维中的使用程度,具体的关键字大家可以灵活选择。此文章只提供一种处理方法或思路,并不适用任何场景。

    安装

    anaconda安装

    官网地址:https://www.anaconda.com/products/individual

    它内部已经集成pandas、jupyter等一系列数据分析的开源库

    image-20210101161855135

    数据处理

    打开jupyter,开始编码

    import pandas as pd
    work = pd.read_csv('job.csv',encoding='gbk')
    pd.read_csv('job.csv',encoding='gbk')
    

    image-20210101175145807

    wk = work.sort_index(ascending=True)	#排序
    DevOps = wk[wk['zhiwei'].str.contains('运维')]	#部分匹配关键字
    test = wk[wk['zhiwei'].str.contains('测试')]
    dev = wk[wk['zhiwei'].str.contains('开发')]
    data = wk[wk['zhiwei'].str.contains('数据')]
    data.shape[0] 	#查看列表的总行数
    DevOps.shape[0]
    dev.shape[0]
    DevOps_to = DevOps['zhiwei']	#匹配zhiwei行的数据
    test_to = test['zhiwei']
    dev_to = dev['zhiwei']
    data_to = data['zhiwei']
    DevOps_to.to_csv('devops.csv')	#保存数据到新的csv
    test_to.to_csv('test.csv')
    dev_to.to_csv('dev.csv')
    data_to.to_csv('data.csv')
    
    

    从下面的编码和结果已经看出开发、运维、测试、数据岗位使用python

    的数量。(因为进行了地区和学历以及工作年限的筛选所以总体的数据量不是很大。)数据:43,运维:47,开发:103,测试:54,虽然这些数据不能完全说明整体的情况,但依然也有部分参考的价值。

    image-20210101175449596

    当然这些数据也都保存到了csv文本里。

    image-20210101180104130

    image-20210101180526428

  • 相关阅读:
    Servlet 生命周期、工作原理(转)
    JVM的内存区域划分(转)
    Java的四个基本特性和对多态的理解
    单例模式和多例模式的区别(转)
    TCP/IP协议体系结构简介
    数据库优化性能
    存储过程的优缺点(转)
    ConurrentHashMap和Hashtable的区别
    XML和JSON优缺点
    HashMap和HashTable的区别
  • 原文地址:https://www.cnblogs.com/huny/p/14220527.html
Copyright © 2020-2023  润新知