【Jaccard】文字查重率

Jaccard 通过对比后更适合用于文字的查重率

# import numpy as np
# from scipy.spatial.distance import pdist#直接调包可以计算JC值 :需要两个句子长度一样；所以暂时不用
import jieba


def Jaccrad(model, reference):  # terms_reference为源句子，terms_model为候选句子
    terms_reference = jieba.cut(reference)  # 默认精准模式
    terms_model = jieba.cut(model)

    grams_reference = set(terms_reference)  # 去重；如果不需要就改为list
    grams_model = set(terms_model)


    temp = 0
    for i in grams_reference:  # 遍历传进来的list
        print("传进来对比的值",i)
        if i in grams_model:
            temp = temp + 1

    fenmu = len(grams_model) + len(grams_reference) - temp  # 并集 计算并集数量
    jaccard_coefficient = float(temp / fenmu)  # 交集
    return jaccard_coefficient


if __name__ == '__main__':

    a = "香农在信息论中提出的信息熵定义为自信息的期望"
    b = "香农在信息论中提出的信息熵定义为自信息的期望"
    jaccard_coefficient = Jaccrad(a,b)
    print(jaccard_coefficient)

相关阅读:
#maven解决乱码问题
 #jquery隐藏和启用
 date类型时间比较大小
 xml<>编译
 Linux分区有损坏修复
 linux部署相关命令
 Java实现4位数吸血鬼数字算法
 Java冒泡算法及中位数算法
 DT梦工厂第25课 Scala中curring实战详解
 DT梦工厂第24讲 scala中sam转换实战详解
原文地址：https://www.cnblogs.com/wanghong1994/p/13098162.html

热门文章
观后感
 排球教练助手
 排球积分
 个人作业
 产品计划会议
 典型用户与场景总结
 排球得分规则
 我与计算机
 jquery相关代码
 win7 安装 memcached