DBow中，TF-IDF了解

现在我们要检测《中国的蜜蜂养殖》这篇论文里面的关键词，假设数据库里面有250亿篇论文，

| ——————————每个关键词在本文（待检测样本）中出现比例

| （词频：某单词在某个样本中比例越高，越有区分度）

|

| | ———————每个关键词在词典（数据库）中出现比例

| | （反文档频率：某单词在总数据库中比例越低，越有区分度）

| |

| | |——表征：在样本《中国的蜜蜂养殖》中，最能代表它的词源是哪一个

| | |

包含这个词 TF IDF TF-IDF
语的文档（亿）

的 250 0.02 -> 0 ->0
中国    62.3     0.02 0.603 0.0121
蜜蜂    0.484    0.02 2.713 0.0543
养殖    0.973    0.02 2.410 0.0482

再举个例子：

比如：以三个指标评价一个大学生：编程水平，动手能力，数学功底；

如果一个大学生叫：单生狗，编程水平一般，动手能力一般，数学功底牛逼；把他放到普通二本

大学里边，在人群中，他就是鹤立鸡群，你很容易区分他，很容易找到他。但是，如果把他放到

清华大学，在人群中，一眼望去，你很难找到他，因为，人群中数学功底牛逼的人太多了。

相关阅读:
工作流程在线编辑
利用IIS导出，导入快速部署 web站点
调用CRM自己的Dialogue
简单粗爆的解决同时布CRM引起的死锁问题
CRM 2013 自动发送报表
CRM 2013 中业务流程的
调试CRM JS开发
CRM ribbon按钮上引用JS库
CRM Look Up 解决方案
Windows Azure 上传 VM

原文地址：https://www.cnblogs.com/winslam/p/9046998.html