目前想到的模型(针对某篇文章的两个最相似文章集合):集合的重合率(两个集合重复的元素) + 重合数据的有序率 。
对于有序率的定义,{1 2 3 4 5}集合是正确有序的,但 {2 3 1 4 5}是错误顺序的,其有序率 :
对于2来说,其余四个数中有三个数的分布是对的(3,4,5分布在2的右边,正确的;但1的位置是错的,应该在2的左边),其有序率为3/4,
对于3来说是3/4 ,
对于1来说是2/4 ,
对于4来说是4/4 ,
对于5来说是4/4 ,
所以总的有序率为(3/4+3/4+2/4+1+1)/4 = 0.8