pandas + jupyter进行数据处理

前言

上一篇文章已经将python所有职位的数据全部爬取并保存了下来，接下来我们要进行数据的处理，从所有的python职位中筛选出有测试、开发、运维的关键字职位来进行对比分析python在开发、测试、运维中的使用程度，具体的关键字大家可以灵活选择。此文章只提供一种处理方法或思路，并不适用任何场景。

安装

anaconda安装

官网地址：https://www.anaconda.com/products/individual

它内部已经集成pandas、jupyter等一系列数据分析的开源库

数据处理

打开jupyter，开始编码

import pandas as pd
work = pd.read_csv('job.csv',encoding='gbk')
pd.read_csv('job.csv',encoding='gbk')

wk = work.sort_index(ascending=True)	#排序
DevOps = wk[wk['zhiwei'].str.contains('运维')]	#部分匹配关键字
test = wk[wk['zhiwei'].str.contains('测试')]
dev = wk[wk['zhiwei'].str.contains('开发')]
data = wk[wk['zhiwei'].str.contains('数据')]
data.shape[0] 	#查看列表的总行数
DevOps.shape[0]
dev.shape[0]
DevOps_to = DevOps['zhiwei']	#匹配zhiwei行的数据
test_to = test['zhiwei']
dev_to = dev['zhiwei']
data_to = data['zhiwei']
DevOps_to.to_csv('devops.csv')	#保存数据到新的csv
test_to.to_csv('test.csv')
dev_to.to_csv('dev.csv')
data_to.to_csv('data.csv')

从下面的编码和结果已经看出开发、运维、测试、数据岗位使用python

的数量。（因为进行了地区和学历以及工作年限的筛选所以总体的数据量不是很大。）数据：43，运维：47，开发：103，测试：54，虽然这些数据不能完全说明整体的情况，但依然也有部分参考的价值。

当然这些数据也都保存到了csv文本里。

相关阅读:
Servlet 生命周期、工作原理（转）
JVM的内存区域划分（转）
Java的四个基本特性和对多态的理解
单例模式和多例模式的区别（转）
TCP/IP协议体系结构简介
数据库优化性能
存储过程的优缺点（转）
ConurrentHashMap和Hashtable的区别
XML和JSON优缺点
HashMap和HashTable的区别

原文地址：https://www.cnblogs.com/huny/p/14220527.html