|
|
|
|
|
|
|
|
|
2021年----2022年 第一学期 |
|
|
|
|
|
|
|
姓名: |
学号: |
班级: |
指导老师: |
提交时间: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
从excel导入数据源 |
|
|
|
生成数据源信息 |
自动建表 |
|
|
|
从excel导入数据,拖入导入框 |
|
|
|
导入完成 |
|
|
|
|
2 |
|
缺失记录仅___3___条,采取网上搜索,补全信息。 |
|
2.1 补全 release_date |
|
对release_date进行空值补全 |
|
进入数据清洗页面 |
|
查询release_date字段空值 |
只有一条 |
|
|
|
|
|
|
|
|
|
|
|
|
缺失记录的电影标题为《America Is Still the Place》,日期为___2014-06-01_______。 |
|
2.2 补全 runtime |
查询runtime空值 |
|
|
|
补全空值 |
|
缺失记录的电影 runtime 分别为_94__min 和 ___240__min。 |
|
3 |
|
|
|
|
|
|
|
|
|
|
|
运行结果:有__4803___个不重复的 id,可以认为没有重复数据。 |
|
|
2 |
|
|
4 |
|
将 release_date 列转换为日期类型: |
|
|
|
|
|
5 |
|
票房、预算、受欢迎程度、评分为__0_____的数据应该去除; |
|
评分人数过低的电影,评分不具有统计意义,筛选评分人数大于__50___的数据。 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
此时剩余_3272__条数据,包含__19_个字段。 |
|
6 json 数据转换 |
|
说明:genres,keywords,production_companies,production_countries,cast,crew 这 6 列都是 |
|
json 数据,需要处理为列表进行分析。 |
|
处理方法: |
|
json 本身为字符串类型,先转换为字典列表,再将字典列表转换为,以’,'分割的字符串 |
对六列进行json数据转换 |
|
|
|
分别对genres,keywords,production_companies,production_countries,cast,crew 做相同操作 |
|
|
|
|
|
|
7 |
|
|
|
|
5 |
|
5.1 why |
|
想要探索影响票房的因素,从电影市场趋势,观众喜好类型,电影导演,发行时间,评分与 |
|
关键词等维度着手,给从业者提供合适的建议。 |
|
5.2 what |
|
5.2.1 电影类型:定义一个集合,获取所有的电影类型 |
|
|
1. |
2. |
3. |
4. |
|
|
|
注意到集合中存在多余的元素:空的单引号,所以需要去除。 |
|
|
|
5.2.1.1 电影类型数量(绘制条形图) |
1. |
2. |
3. |
4. |
5. |
6. |
7. |
8. |
9. |
10. |
11. |
12. |
13. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5.2.1.2 电影类型占比(绘制饼图) |
1. |
2. |
3. |
4. |
5. |
6. |
7. |
8. |
9. |
10. |
11. |
12. |
13. |
14. |
15. |
16. |
17. |
|
|
5.2.1.3 电影类型变化趋势(绘制折线图) |
|
|
|
|
5.2.1.4 不同电影类型预算/利润(绘制组合图) |
1. |
2. |
3. |
4. |
5. |
6. |
7. |
8. |
9. |
10. |
11. |
12. |
13. |
14. |
15. |
16. |
17. |
18. |
19. |
20. |
21. |
22. |
23. |
24. |
25. |
26. |
27. |
28. |
29. |
30. |
31. |
32. |
33. |
34. |
35. |
36. |
37. |
38. |
39. |
40. |
41. |
42. |
43. |
44. |
45. |
46. |
47. |
48. |
49. |
50. |
51. |
52. |
53. |
54. |
55. |
56. |
57. |
58. |
59. |
60. |
61. |
62. |
63. |
64. |
65. |
66. |
67. |
68. |
69. |
70. |
71. |
72. |
73. |
74. |
75. |
|
|
|
|
5.2.2 电影关键词(keywords 关键词分析,绘制词云图) |
|
|
5.3 when |
|
查看 runtime 的类型,发现是 object 类型,也就是字符串,所以,先进行数据转化。 |
|
|
|
5.3.1 电影时长(绘制电影时长直方图) |
|
5.3.2 发行时间(绘制每月电影数量和单片平均票房) |
|
|
5.4 where |
|
本数据集收集的是美国地区的电影数据,对于电影的制作公司以及制作国家,在本次的故事 |
|
背景下不作分析。 |
|
5.5 who |
|
5.5.1 分析票房分布及票房 Top10 的导演 |
1. |
2. |
3. |
4. |
5. |
6. |
7. |
8. |
9. |
10. |
11. |
12. |
13. |
14. |
15. |
16. |
17. |
18. |
19. |
20. |
21. |
|
|
5.5.2 分析评分分布及评分 Top10 的导演 |
|
|
|
|
5.6 how |
|
5.6.1 原创 VS 改编占比(饼图) |
|
1. |
2. |
3. |
4. |
5. |
6. |
7. |
8. |
9. |
10. |
11. |
12. |
13. |
14. |
15. |
16. |
17. |
18. |
19. |
20. |
21. |
22. |
23. |
24. |
25. |
26. |
|
|
|
5.6.2 原创 VS 改编预算/利润率(组合图) |
1. |
2. |
3. |
4. |
5. |
6. |
7. |
8. |
9. |
10. |
11. |
12. |
13. |
14. |
15. |
16. |
17. |
18. |
19. |
20. |
21. |
22. |
23. |
24. |
25. |
26. |
27. |
28. |
|
|
|
5.7 how much |
|
5.7.1 计算相关系数(票房相关系数矩阵) |
|
1. |
2. |
3. |
4. |
5. |
6. |
7. |
8. |
9. |
10. |
11. |
12. |
13. |
14. |
|
|
5.7.2 票房影响因素散点图 |
|
1. |
2. |
3. |
4. |
5. |
6. |
7. |
8. |
9. |
10. |
11. |
12. |
13. |
14. |
15. |
16. |
17. |
18. |
19. |
20. |
21. |
22. |
23. |
24. |
25. |
26. |
27. |
28. |
|
|
|
6 对附件的 tmdb_1000_predicted.csv 的预测结果 |