• Python电影数据分析


    石家庄铁道大学信息科学与技术学院
    2021年----2022年 第一学期
    姓名:
    学号:
    班级:
    指导老师:
    提交时间:
    1
    从excel导入数据源
    生成数据源信息
    自动建表
    从excel导入数据,拖入导入框
    导入完成
    2
    缺失记录仅___3___条,采取网上搜索,补全信息。
    2.1 补全 release_date
    对release_date进行空值补全
    进入数据清洗页面
    查询release_date字段空值
    只有一条
    缺失记录的电影标题为《America Is Still the Place》,日期为___2014-06-01_______。
    2.2 补全 runtime
    查询runtime空值
    补全空值
    缺失记录的电影 runtime 分别为_94__min 和 ___240__min。
    3
    运行结果:有__4803___个不重复的 id,可以认为没有重复数据。
    2
    4
    将 release_date 列转换为日期类型:
    5
    票房、预算、受欢迎程度、评分为__0_____的数据应该去除;
    评分人数过低的电影,评分不具有统计意义,筛选评分人数大于__50___的数据。
    此时剩余_3272__条数据,包含__19_个字段。
    6 json 数据转换
    说明:genres,keywords,production_companies,production_countries,cast,crew 这 6 列都是
    json 数据,需要处理为列表进行分析。
    处理方法:
    json 本身为字符串类型,先转换为字典列表,再将字典列表转换为,以’,'分割的字符串
    对六列进行json数据转换
    分别对genres,keywords,production_companies,production_countries,cast,crew 做相同操作
    7
    5
    5.1 why
    想要探索影响票房的因素,从电影市场趋势,观众喜好类型,电影导演,发行时间,评分与
    关键词等维度着手,给从业者提供合适的建议。
    5.2 what
    5.2.1 电影类型:定义一个集合,获取所有的电影类型
    1.
    2.
    3.
    4.
    注意到集合中存在多余的元素:空的单引号,所以需要去除。
    5.2.1.1 电影类型数量(绘制条形图)
    1.
    2.
    3.
    4.
    5.
    6.
    7.
    8.
    9.
    10.
    11.
    12.
    13.
    5.2.1.2 电影类型占比(绘制饼图)
    1.
    2.
    3.
    4.
    5.
    6.
    7.
    8.
    9.
    10.
    11.
    12.
    13.
    14.
    15.
    16.
    17.
    5.2.1.3 电影类型变化趋势(绘制折线图)
    5.2.1.4 不同电影类型预算/利润(绘制组合图)
    1.
    2.
    3.
    4.
    5.
    6.
    7.
    8.
    9.
    10.
    11.
    12.
    13.
    14.
    15.
    16.
    17.
    18.
    19.
    20.
    21.
    22.
    23.
    24.
    25.
    26.
    27.
    28.
    29.
    30.
    31.
    32.
    33.
    34.
    35.
    36.
    37.
    38.
    39.
    40.
    41.
    42.
    43.
    44.
    45.
    46.
    47.
    48.
    49.
    50.
    51.
    52.
    53.
    54.
    55.
    56.
    57.
    58.
    59.
    60.
    61.
    62.
    63.
    64.
    65.
    66.
    67.
    68.
    69.
    70.
    71.
    72.
    73.
    74.
    75.
    5.2.2 电影关键词(keywords 关键词分析,绘制词云图)
    5.3 when
    查看 runtime 的类型,发现是 object 类型,也就是字符串,所以,先进行数据转化。
    5.3.1 电影时长(绘制电影时长直方图)
    5.3.2 发行时间(绘制每月电影数量和单片平均票房)
    5.4 where
    本数据集收集的是美国地区的电影数据,对于电影的制作公司以及制作国家,在本次的故事
    背景下不作分析。
    5.5 who
    5.5.1 分析票房分布及票房 Top10 的导演
    1.
    2.
    3.
    4.
    5.
    6.
    7.
    8.
    9.
    10.
    11.
    12.
    13.
    14.
    15.
    16.
    17.
    18.
    19.
    20.
    21.
    5.5.2 分析评分分布及评分 Top10 的导演
    5.6 how
    5.6.1 原创 VS 改编占比(饼图)
    1.
    2.
    3.
    4.
    5.
    6.
    7.
    8.
    9.
    10.
    11.
    12.
    13.
    14.
    15.
    16.
    17.
    18.
    19.
    20.
    21.
    22.
    23.
    24.
    25.
    26.
    5.6.2 原创 VS 改编预算/利润率(组合图)
    1.
    2.
    3.
    4.
    5.
    6.
    7.
    8.
    9.
    10.
    11.
    12.
    13.
    14.
    15.
    16.
    17.
    18.
    19.
    20.
    21.
    22.
    23.
    24.
    25.
    26.
    27.
    28.
    5.7 how much
    5.7.1 计算相关系数(票房相关系数矩阵)
    1.
    2.
    3.
    4.
    5.
    6.
    7.
    8.
    9.
    10.
    11.
    12.
    13.
    14.
    5.7.2 票房影响因素散点图
    1.
    2.
    3.
    4.
    5.
    6.
    7.
    8.
    9.
    10.
    11.
    12.
    13.
    14.
    15.
    16.
    17.
    18.
    19.
    20.
    21.
    22.
    23.
    24.
    25.
    26.
    27.
    28.
    6 对附件的 tmdb_1000_predicted.csv 的预测结果
  • 相关阅读:
    windows 安装 ELK(Elasticsearch,Logstash,kibana)
    NSSM 将程序封装成服务软件
    面试-双向链表
    mySql 事务,游标以及循环
    SQL 事务
    C# Windows 服务
    MVC 中ajax 调用Webservice 或WCF 问题
    js prototype
    计算一个数等于其它数相加的所有可能 如: 5 =1+4 ,1+3+1,2+3,2+2+1,1+1+1+1+1,1+1+1+2
    冒泡排序,选择排序,快速排序
  • 原文地址:https://www.cnblogs.com/gongyunlong-blogs/p/15700393.html
Copyright © 2020-2023  润新知