• 二,论文研读总结


    二,论文研读总结

    • 论文名称:韩法旺. Web日志挖掘数据预处理过程研究[J]. 南京工业职业技术学院学报, 2012, 12(2):53-56.

    • 研究对象
      对web日志挖掘数据预处理的研究,同时结合所看专著第三章数据预处理,进行研读。

    • 研究动机
      web日志文件的格式是半结构化的,并且日志中的数据也不够完整,由此要对web文件进行预处理转化为挖掘算法易于使用的,具有良好格式的数据,

    • 文献综述
      预处理一般过程


    对web数据进行预处理过程包括数据清理,用户识别,会话识别,事务识别,路径补充,Frame页面清理。
    数据清理
    把web日志中和挖掘目的无关的数据项清除,把对挖掘目的有用的数据转换成数据挖掘需要的格式。通常删除特定的后缀名,及无用记录,减少数据量。
    用户识别
    识别每个访问网站的用户,将用户和访问网站相关联,发现访问特点,用户模式分析。参考用户识别规则。
    会话识别
    基于时间间隔,连续请求两个web页面时间差值超过T,就认为该用户开启了新的会话。还有一篇文献对此进行了改进。
    会话识别算法

    Function Distance(H,f)
    H为按照时间排序会话历史记录;f 为网页文件
    Set min=∞
    For each H i ∈H do
      If f j ∈ H i
      d i =H, size()-H i ,index(f)
      t i =H i ·t n -H i ·t j
      if(d i <min)
      assign-i
      min-d i
      else if(d i =min)
      if(t i <t assign )
      assign=i
    return assign
    end

    Distance()函数

    Heuristic Identify
    1.让H i ={f 1 ,f 2 ……f n }是一个时间序列的会话历史记录。
    2.让 1 j , f j , r j , t j 分别表示为一条日志记录实体、 referrer 和时
    间。
    3.T 表示时间间隔, 当时间间隔大于 T 时, 表示开始新的会
    话。一般 T 都用 30分钟, 而最好时间间隔为 25.5分钟。
    4.数据按照 IP 地址、 Agent 和时间排序。
    5.for each unique IP/Agent pair do
    6.  for each I j do
    7.   if[ (t j -t j-1 )<T] V r j ∈{H 0 , ……, H m }then
    8.   i++;
    9.   Add I j to H i
    10.  Else
    11.   Assign-Distance (H, r j )
    12.   Add r j to H assign

    路径补充
    针对会话识别过程中重要的请求没被记录,大多数访问路径是不完整的。路径补充的任务就是将遗漏的请求补充到用户会话中,具体有两种方法:(1)如果请求的页面不能从用户最后一个请求直接访问,就检查日志中的这个请求从哪里来,如果存在于用户最近最近访问记录,假设是由用户“后退”操作造成。(2)假定用户访问记录多于一个页面连接到这个请求页面,就按最接近它的当前页面,是新请求页面的来源。
    事务识别
    把单独的数据事件集成事务,在进行相应的数据挖掘和分析。
    Frame页面过滤
    消除frame页面对挖掘结果的影响,提高web日志挖掘结果的兴趣性。

    • 使用数据集
    • 研究结论
    • 学习心得
      该论文就整体介绍了,对web日志挖掘数据预处理的一般过程,得出预处理过程的一般模型,结合其他文献可以更深入的了解各个过程的实现细节。
  • 相关阅读:
    使用exe4j将java项目打成exe执行程序
    使用exe4j将java项目打成exe执行程序
    使用exe4j将java项目打成exe执行程序
    使用exe4j将java项目打成exe执行程序
    Java 数组 之 二维数组
    Java 数组 之 二维数组
    自定义右键菜单,禁用浏览器自带的右键菜单[右键菜单实现--Demo]
    xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
    xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
    xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
  • 原文地址:https://www.cnblogs.com/zaw-315/p/11222784.html
Copyright © 2020-2023  润新知