【2020/2/1】寒假自学——学习进度报告8

【2020/2/1】寒假自学——学习进度报告8
　　开始尝试sparkSQL的尝试编程。

　　SparkSQL总体来说就是spark中的hive，但麻烦的一点是spark官网下载的并不自带对hive的支持，所以不能使用外部的hive。之后解决。

　　所以这次主要关注dataframe的编程。

　　首先创建了一个json文件用来创建DataFrame，内容为：

{ "id":1 , "name":" Ella" , "age":36 }

{ "id":2, "name":"Bob","age":29 }

{ "id":3 , "name":"Jack","age":29 }

{ "id":4 , "name":"Jim","age":28 }

{ "id":4 , "name":"Jim","age":28 }

{ "id":5 , "name":"Damon" }

{ "id":5 , "name":"Damon" }

　　编写程序的开头。
```
import findspark

findspark.init()

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
```
　　SparkSession是sparksql的入口。

　　然后就是可以进行操作。

　　显示所有数据：
```
df=spark.read.json("file:///usr/local/spark/mycode/exp5/employee.json")
df.show()
```
　　

　　排序：
```
df = spark.read.json("file:///usr/local/spark/mycode/exp5/employee.json")
df.sort(df.age.desc()).show()
```
　　

　　求均值：
```
df = spark.read.json("file:///usr/local/spark/mycode/exp5/employee.json")
df.groupBy().avg("age").show()
```
　　

　　值得一提，python中的dataframe可以直接调用其中的列作为迭代器，但只能作为dataframe函数的参数。看了源代码之后发现dataframe函数和groupBy之后的函数不一样，就想avg、max等函数只有在groupBy之后才能使用，但这时不能使用迭代器（也就是df.age这类），只能使用string。

　　具体函数可以参考文档。

　　在值得一提，发现一个很有用的功能。
```
df.agg({"age": "max"}).show()
```
```
from pyspark.sql import functions as F
df.agg(F.min(df.age)).show()
```
　　agg(*exprs)[source]这个函数可以免去group的麻烦（）。
相关阅读:
vue打包---放到服务器下（一个服务器多个项目需要配置路径），以及哈希模式和历史模式的不同配置方法
 承诺----异步函数---封装一个函数，使用承诺得到返回值（原本三个参数，使用前两个参数发送请求，得到第三个参数想要的结果，但是在函数外部拿不到第三个参数的值，所以改为两个参数，用承诺来获取第三个参数）
双层拖拽事件，用鼠标画矩形，拖动右下角可以再次改变矩形大小，方案一有BUG
axios 使用方法以及服务器端设置拦截发送404状态的提示语，当网络错误时候返回前端的提示，当网络正常的时候返回后端的提示
 异步async await 相关知识点总结以及代码练习
 vue+div.canvas图像标注功能实现
 Django与Ajax
项目园
 Django 路由层与视图层
 Bootstrap框架如何设置导入链接
原文地址：https://www.cnblogs.com/limitCM/p/12250518.html