• 【读书笔记】Flickr 网站用户标签的质量控制对策


    1、一些背景

    标签技术重要意义
    标签技术如今已经被广泛应用于包括网络书签、博客、播客、视频分享等在内的多种 Web2. 0 服务
    Flickr简介
    Flickr 是一集图片存放 交友 组群 邮件等功能于一体的 Web2. 0 网站,它充分利用 tag 技术,进行网站资源的组织与标注
    Flickr优点
    Flickr 网站在以其非常低的入门门槛、即刻的反馈、异步的交流、动态更新和个性化等特点给用户标注带来极大便利

    2、Flickr标签质量问题

    2、1第一类:词汇不规范

    (1)输出不规则(大小写 单复数 简缩写、合成词)
    例如:girl-girls,autumn-Autumnusa,USA-usa-American 
    (2)同义词或者近义词
    例如:土豆-马铃薯-tomato

    导致的结果就是
    (1)用这些标签来标注的资源被分散了,不能实现资源的聚合
    (2)进而影响了系统资源组织的效率和用户检索结果,特别是检全率

    解决
    (1)Flickr 网站可以对标签字、词或短语等元素的概念进行明确定义以及对概念间关系进行揭示,在不同形式的词汇间建立起关联,最后形成一个领域的语义网络,以实现对该领域中概念及概念间关系的控制,系统通过显性化提示向用户推荐符合标准的高质量标签,并适当增加一些输入限制功能,以避免用户输出不规则 错误的 无意义的标签

    2、2第二类:错误或生僻

    (1)拼错单词或漏掉字母
    (2)过于个性化的标签

    带来的问题
    (1)内容聚合的难度增加
    (2)图文脱节的现象

    解决
    (1)检错系统可以与输入法系统结合起来
    当用户输入的标签词汇存在拼写错误时,系统可以给用户一些提醒或者给予用户一些修改建议
    (2)检错系统可以与标签系统的语义网络相结合
    在用户使用过于个性化或者非主流的标签词汇时,系统能将这些不规范的标签词与其他标签进行语义链接,推荐使用语义相近的词或者在保留个性化标签的前提下进行资源的聚类,避免那些以不规范的词汇来标注的资源石沉大海
    (3)可以引入图片识别技术 
    当用户针对图片内容进行标注时,系统要检测与图片内容是否相符,如果出现标签与图片不吻合的情况,系统应提醒用户再次查看图片,考虑更改标签

    3、Flickr标签管理的问题

    (1)在浏览热门标签的时候却看不到标签的使用频次
    (2)另外,在 Flickr 的热门标签云图中,标签都是按照单词字母的先后顺序来排列的
    (3)并未很好地对网站所有标签进行管理和利用,没有提供网站所有标签的列表 

    问题
    (1)在浏览热门标签的时候却看不到标签的使用频次,当需要了解的时候,必须一个一个点击打开才能看到
    (2)用户只能通过标签字体的大小来了解使用频次较高的标签,但是却不能很清楚地知道频次的高低排行顺序,浏览的时候会显得不太方便快捷
    (3)从用户的角度来看,就不能从宏观上来了解网站上的所有资源类型和内容,也不能通过浏览网站的所有标签的方式来发现与挖掘资源,用户只能通过检索的方式来获取所需要的图片资源

    解决
    (1)加上数字
    (2)Flickr 网站在允许用户修改 删除自己所贴标签的同时,还可以让标注者自己分类管理自己的标签,把自己属于同一类的标签再给出一个大标签,这样每个人就有可能减少同义词的使用,对同一概念选择固定表达的几率会比较大些
    (3)在对所有标签的管理上,Flickr 网站完全可以对所有标签进行统计,然后分类,虽然不是按照专业词表进行划分,但是却能从用户的角度出发,方便用户的使用

    4、其他方面控制标签质量

    4、1给用户提供一些标签使用的指导和帮助

    4、2对用户的管理

    Flickr 网站可以对用户实行分级制度,通过监控标签的有效性来设置用户级别比如可将用户分为浏览者 内容创建者 管理员 评论者等级别,不同级别的用户享有不同的权限 也可以通过用户对图片的评论和打分,来发现高质量的图片资源,减少用户标注时的错误,从而提高用户自律的意识和标签的标引质量

    4、3标签的推荐

    (1)提供其他用户对类似图片进行标注时使用的标签,或者是网站比较常用 热门的标签进行推荐,通过让用户采用系统推荐的标签来减少用户本人在标注时使用一些不规范的词汇
    (2)提供相同的资源其他用户的标引情况,并且标引词是按照热度来排序,标引界面还会向用户提示推荐标签 和Top Tags 来进一步规范 引导用户对标签的创建与使用
    (3)对于涉及国家 地理 人名 机构名等专有名词根据用户输入的字母猜测整个词语,并给出已有的 tag 提醒,引导用户使用,还有利于保证标引此类网页时 tag 使用的规范性

    4、4个性化信息服务

    提高标签的质量还有一个重要的方面就在于提高标签的利用效率,对标签的深层次挖掘 在对用户标签的分析基础之上来了解用户的喜好 兴趣,推荐本网站的个性化信息服务
    (1)Flickr 可以允许用户在浏览他人相册时将自己感兴趣的标签添加到友情链接中,并在自己的相片中集中显示,这样既方便自己的再次访问,也是一种推荐自己的发现的方法 
    (2)Flickr 的 社群功能可以更加全面和完善,使具有相同兴趣或目的的用户能够聚集形成一个交流圈,系统为群组成员提供交流发言的论坛和共享资源的公共存储空间
    (3)对标签实施进一步地挖掘,发现用户的兴趣爱好,实现信息的定向推送和个性化的推荐机制
    (4)通过喜欢这本书�这张唱片�这部电影的人也喜欢,用户可以在浏览过程中,顺藤摸瓜地发现很多同类型的合你胃口的东西和跟你有一样兴趣爱好的人

    思考:
    (1)这篇文章讲到了一些主要的标签质量问题,较为系统,写标签质量相关论文可以参考
    (2)作者提出的一些改善标签质量的很多方法可以用在以后开发更易用的系统上


  • 相关阅读:
    P2569 [SCOI2010]股票交易
    P1963 [NOI2009]变换序列
    My thoughts after NOIP 2018(2)
    洛谷 P3159(BZOJ 2668)[CQOI2012]交换棋子
    My thoughts after NOIP 2018(1)
    洛谷【P1523】旅行商的背包(算法导论 15-1) 题解
    洛谷【P2458】[SDOI2006]保安站岗 题解 树上DP
    【BLUESKY的NOIp模拟赛】解题报告
    bzoj4400
    luogu2034
  • 原文地址:https://www.cnblogs.com/james1207/p/3400108.html
Copyright © 2020-2023  润新知