• 基于Hive的对BiliBili用户信息进行数据分析


    用户表字段信息:

    1.查出前1000位用户的用户名,关注数和粉丝数。

    2.查询关注数大于100的用户的用户名和关注数。

    3.查询粉丝数大于100的用户的用户名,粉丝数。

    4.查询id为1000的用户的用户名。

    5.查询性别为女的用户的用户名。

    select name,sex from bilibili_user where sex="'女'";

    6.查询性别为男的用户的用户名。

    select name,sex from bilibili_user where sex="'男'";

    6.查询性别为保密的用户的用户名。

    select name,sex from bilibili_user where sex="'保密'";

    7.查询等级为1的用户的用户名。

    select name from bilibili_user where level=1;

    8.查询等级为6的用户的用户名。

    select name from bilibili_user where level=6;

    9.查看文章观看量大于5000的用户名。

    select name from bilibili_user where article_view>5000;

    10.查看视频观看量大于5000的用户名。

    select name from bilibili_user where archive_view>5000;

     总结:我爬取的数据只有5w多条,所以以下分析都是基于5w多条数据进行分析的,并不是b站全部用户的分析。经过以上查询,我们可以知道1级的用户居多,而6级的用户少的可怜,6级是B站用户的最高等级。而对于文章阅读量和视频观看量来看,B站视频被用户观看量大于5000的up主的量远大于文章的,这也是由于B站是个绝大部分输出的都是视频的原因。而分析B站用户的性别时,我们则可以看出绝大部分的用户都是不希望别人知道自己的性别而设置成保密的。最后在查询关注数和粉丝数大于100的用户的时候,我们可以查看知道这两者的数据量差不多。

  • 相关阅读:
    java入门 (七) 面向对象(三)
    java入门 (七) 面向对象(二)
    java入门 (七) 面向对象(一)
    ajax异步请求,$.each遍历拼接数据
    java入门 (六) 数组(二)
    java入门 (六) 数组(一)
    java入门 (五) 方法
    微信小程序
    776C Molly's Chemicals --- 前缀和
    CF 458C Elections --- 三分|线段树
  • 原文地址:https://www.cnblogs.com/-QAQ/p/11056069.html
Copyright © 2020-2023  润新知