• [数据集]新浪微博数据集MicroblogPCU


    数据集下载地址:下载

    摘要:MicroblogPCU是从新浪微博採集到的。它能够被用于研究机器学习方法和社会关系研究。

    这个数据集被原作者用于探索微博中的spammers(发送垃圾信息的人)。他们的demo在这里


    数据集的属性信息:

    weibo_user.csv  
    -user_id: 用户ID
    -user_name: 用户昵称
    -gender:性别,male,female。other
    -class:账户级别
    -message:账户注冊位置或其它个人信息
    -post_num: 邮政编码
    -follower_num: followers的数量
    -followee_num: followee的数量
    -follow ratio: followee_num/follower_num;
    -is_spammer: manually annotated label, 1 表示 spammer,0 表示 non-spammer;


    user_post.csv 
    -post_id:微博的ID
    -post_time:公布时间
    -poster_id: 公布用户的ID
    -repost_num:转发数量
    -commnet_num: 评论数量


    followe-followee.csv 
    -follower: the nickname of follower;
    -follower_id: the user ID of follower;
    -followee: the nickname of followee;
    -followee_id: the user ID of followee;


    post.csv和user_post.csv类似, and the post in it are retrievalled by a certain key word related to a topic;


    取出当中的一部分数据做关系图

    install.packages('igraph')
    library(igraph)
    
    follower_followee<-read.csv('microblogPCU/follower_followee.csv')
    follower_followee_part<-follower_followee[1:1000,]
    
    gg<-graph.data.frame(data.frame(er=follower_followee_part$follower_id,ee=follower_followee_part$followee_id))
    plot(gg,
         vertex.label=NA,      ##不显示标签
         edge.arrow.mode='-',  ##不使用箭头
         vertex.size = 5       ##设置结点圆的大小
         )



    參考:https://archive.ics.uci.edu/ml/datasets/microblogPCU


    转载请注明出处:http://blog.csdn.net/zhyoulun/article/details/46442899

  • 相关阅读:
    POJ:2431-Expedition
    poj:3253-Fence Repair
    POJ:3617-Best Cow Line(贪心)
    IOS各种传值方式
    imageDownloader
    Android放大镜的实现
    Delphi 串口通信(1)
    UVA 10131
    Skew Join与Left Semi Join相关
    Android动画 fillAfter和fillBefore
  • 原文地址:https://www.cnblogs.com/yangykaifa/p/6886289.html
Copyright © 2020-2023  润新知