机器学习三剑客之Pandas中DataFrame基本操作

机器学习三剑客之Pandas中DataFrame基本操作

Pandas 是基于Numpy 的一种工具，是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

安装命令：pip install pandas

具体操作如下：值得注意得是配置环境变量和添加项目路径要优先于导包否则系统将检测不到pandas库

#导包

import os

import sys

#将脚本所在得工程添加到环境变量绝对路径

sys.path.append('c:/Users/王建/www/mymac')

#相对路径

sys.path.append('../mymac')

#将项目路径添加到系统搜索路径

os.environ["DJANGO_SETTINGS_MODULE"] = 'mymac.settings'

#导入django模块

import django

#导入pandsa

import numpy as np

import pandas as pd

#导入sqlalchemy

from sqlalchemy import create_engine

#加载项目配置

django.setup()

#加载数据类

from myapp.models import Student

if __name__ == "__main__":

#加入数据库引擎

engine = create_engine('mysql+pymysql://root:mysql@localhost:3306/mymac')

#sql语句

sql = ' select * from student '

#建立数据框架

df = pd.read_sql_query(sql,engine)

print(df)

# 按照年龄正序加ascending=False倒序

# 类似sql语句 select * from student order by age asc 或者 desc

df = df.sort_values(["age","height"],ascending=False)

print(df)

# 取年龄最小得学生

# select * from student order by age limit 1

df = df.sort_values(["age"])

print(df)

# 求整个班级得平均年龄使用loc方法指定字段

print(df.mean())

print(df.mean(0))

print(df.mean(1))

print(df.loc[df['gender'] == 0].age.mean())

avg_age = df.loc[df['gender'] == 0].age.mean()

print(df.loc[ (df['age'] < avg_age) & (df['gender'] == 0) ])

# 取全班得平均年龄

print(df.age.mean())

# 全班年龄求个

print(df.age.sum())

# 获取男生得年龄求和

print(df.loc[df['gender']==1].age.sum())

# 取全班年龄最小

print(df.age.min())

# 或者 |

print(df.loc[(df['gender'] == 0) | (df['gender'] == 1)])

# 获取人数

print(df.id.count())

# 排除法

print(df.loc[(df['gender'] != 0) & (df['gender'] != 1)])

# 修改操作

df.loc[1,'gender'] = 1

print(df)

df.loc[0,'age'] = 10

print(df)

# 取单值

print(df.loc[5,'name'])

# 获取指定字段

print(df.loc[df['gender'] == 1 , ['id','name','age','height']])

# 将dataframe写入数据表表名，数据引擎索引是否入库

df.to_sql('student_copy',engine,index=False)

# 导出excel文件

# df.to_excel('student.xlsx')

# print(Student.objects.all())

参考数据库表：
相关阅读:
【T-SQL】分布抽取部分数据
 【Tip】如何让引用的dll随附的xml注释文档、pdb调试库等文件不出现在项目输出目录中
 【手记】F5调试报"由于缺少调试目标xxx无法开始调试xxx设置OutputPath和AssemblyName"
【手记】未能从程序集System.Net.Http.Formatting中加载类型System.Net.Http.Formatting.FormUrlEncodedMediaTypeFormatter
摄影基础知识入门
 测试开发进阶必备（附源码）---Dubbo 接口测试技术
 App自动化之dom结构和元素定位方式的详细内容（不看后悔）
接口自动化测试 | JsonPath 与 Mustache 请求传参的模板化技术
 一文搞定自动化测试框架 RESTAssured 实践(三)：对 Response 结果导出
 一文搞定 REST Assured 实践(二)：断言实现
原文地址：https://www.cnblogs.com/wjohh/p/10493441.html