分类技术
1、概述
互联网使得信息的传播速度以及规模达到了空前的水平。“信息爆炸”已成为人们必须面对的问题。从数据海洋中迅速准确的获取所需要的信息变得非常困难。
当前的知识信息主要以文本作为载体,大部分文本信息以非结构化或半结构化的形式存在,如电子邮件,电子文档以及电子文案等,他们不易被机器理解也不可能完全依赖人工进行管理。因此采用信息化手段通过机器学习方法对这些文本信息进行了处理显得尤为重要。
文本分类技术(Text categorization,TC)作为组织和管理文本信息的有效手段,主要任务是自动分类无标签文档到预定的类别集合中。
文本可以是媒体新闻、科技、报告、电子邮件、网页、书籍或像微博一样的一段语料。由于类别事先定义好的,因此分类是有监督学习的。
2、企业中的使用场景
2.1 三大算法场景
-
NLP
nature language process,自然语言处理。
-
图像
-
语音
2.2 具体应用场景
-
推荐系统的标签
-
用户画像
-
知识图谱
-
问答系统
-
其他
垃圾过滤,新闻分类,词性标注,舆情监控,情感分析,给领导提供决策分析,重要事件的预测,医疗诊断,疾病识别等不同领域不同情况。
3、数学理论
3.1 三大概率
-
条件概率
[定义]
若Ω是全集,A、B是其中的事件(子集),P表示事件发生的概率,则:
[P(A|B) = frac{P(A,B)}{P(B)} = frac{P(A) *P(B|A)}{P(B)} ]
-
全概率公式
[定义]
设$$Omega$$为实验E的样本空间,$$B_1,B_2,..B_n$$为E的一组实验,若:
-
[B_icap B_j=empty ,其中 i,jin 1,2,3,...n ]
-
[B_1cup B_2cup B_3 cup,..cup B_n=Omega ]
则成为$$B_i , B_2 , ... B_n为样本空间$$
-
-
贝叶斯公式
[P(A,B) = P(AB) = P(B) P(A|B) = P(BA) \ P(A|B) = frac{P(AB)}{P(B)} = frac{P(B|A)P(A)}{P(B)} ]
[
]