• 如何找到Twitter上最有趣的中文用户


    郑昀@玩聚锐推榜 20090222 (follow @zhengyun)

    1、我要follow谁

    twitter    作为一个各种 memeTracker 工具制造者,我(@zhengyun)一直想知道Twitter上什么样的人值得follow、对我的胃口,当然他得是中文用户,说的事儿怎么着也得跟中国有点儿关系。

        我总结了一下自己的需求:

        1:发布频率至少一周一两次(follow 哪些一年半载推特一下的名人会不必要地增加全球碳排量,so,可以无视);

        2:相对来说,和我(@zhengyun)的Twitter以往历史比较接近。不要光凭followers多就推荐给我,譬如虽然@bookhotel拥有高达1,190个followers,但显然我不可能follow这个疑似Spammer的机器人;

        3:我已经 follow 过的就不必再向我推荐了;

        4:他/她/它的 Tweet 对我来说足够有趣。“有趣”,多么含混的需求啊。

    2、Twitter 用户评价体系

        看上去我们需要一个 Twitter (中文)用户评价体系。

        followers/friends 的维度不足以作为这个 Twitter 用户是否有趣的判断依据,就像Google的PageRank不会单纯靠inbound links来判断网站是否有用一样。哪有什么依据呢?   

        譬如,你可以根据一个Twitter用户名被其他用户提及多少次来判断他的流行程度。当然,如果有一群用户拿Twitter作为群聊聊天室,那么这群人的名字(如@zhengyun)必然被常常提及,所以这个维度只能是复杂公式中的一个变量。所以这个维度要被你有多么个followers以及你推特的频率等维度呈正比地抵消。

        看上去,要估算出这么一个 Twitter 用户评价体系,比想象中的复杂哦。

        whoshouldifollow 貌似推荐的还不错,不过不知道它的技术细节,它只说是“finds interesting people to follow based on who your friends are, and who they follow.”。

        twellow 是依据你的Twitter Profile中的关键词来对你分类的;wefollow 应该也是类似原理,并且允许你在Twitter里发表格式化好的tweet来主动向 @wefollow 声明自己的标签和分类。它们俩的分类,也可以作为一个参考维度。

        Twitalyzer五项衡量指标倒是有指导意义,但毕竟我们不是为了评估某个Twitter用户的影响力,而是为了尽量准确地个性化推荐 twitter 用户。

    3、Rank可以参考的变量

        这个需求要多少个变量来计算呢?我姑且列出一些供参考的老外统计方式:

        1:Ryo Chijiiwa的 TwitterRank (ZDNetMashable都给出了正面的评价)。

        2:可以统计你有多少时间浪费在 Twitter 上的 Tweetwasters 。

        3:可以给出某一个地区Twitter用户排名的 Twitterholic (只是根据Twitter中你设置的Location字段汇总的,排名因素是你的Followers和Friends数量)。

        4:Twitalyzer 给出的一个用户的五项指标。

        5:twellowwefollow对一个用户的分类和标签,假如有的话。

    4、Rank可能涉及的变量

        据此,可以总结出一个公式,来帮你匹配到值得你follow的最有趣的中国Twitter用户。

        变量A : 仿照 Tweetwasters 给出的 your total tweets*30 seconds/per tweet ,用户消耗在Twitter上的时间。

        变量B: 用户的 TwitterRank 数值,Float类型。

        变量C : 用户的 followers 数量;

        变量D : 用户的 friends 数量;

        变量E : 用户被 retweet 的数量;

        变量F : 用户被人提及的次数;

        变量G : 用户的Location。系统应该自动映射不同的Location名字为一个地名。譬如,映射“北京”和“Beijing,china”为“Beijing”。

        变量H : 用户发言频率,即 your total tweets/timespan your account joined 。

        变量I : 用户 retweet 他人的次数。

    5、公式

        略。

    6、mashup一下

        看了上面列出的变量,你就知道,这注定是一个 mashup 应用,因为它所引用的数据都来自于其他站点,包括twitter

         

    twitter 

    #附录A:

    疑问1:

    是否必须引入自然语言处理来判别Twitter用户的软分类呢?即判断用户的发言百分之多少科技成分、多少娱乐成分等等。而不只是像 twellow 一样只根据用户Profile来计算分类。

    这么做的好处:

    可以按照分类目录寻找有趣用户;

    更容易基于某一个给定用户推荐相似分类的用户群。

    坏处是:

    一条Tweet字数太少。分类未必会准。

    疑问2:

    是针对每一个发言做分类判别,还是针对所有发言呢?

    需要测试看看。

    疑问3:

    需要对两两用户进行文本相似性计算吗?

    不用这么复杂吧?

    郑昀@玩聚锐推榜 20090222 (follow @zhengyun)

  • 相关阅读:
    五种线程池的分类与作用
    什么是死锁?
    事务隔离级别区分,未提交读,提交读,可重复读
    共享锁(读锁)和排他锁(写锁)
    java中的成员变量和全局变量的区别
    Algorithm
    6
    5
    4
    3
  • 原文地址:https://www.cnblogs.com/zhengyun_ustc/p/twitter.html
Copyright © 2020-2023  润新知