• 基于中文人员特征的性别判定方法


    摘要:基于中文人名用字具有的较强的性别区分性,提出一种利用朴素贝叶斯分类器对中文人名性别进行判定的方法,该方法将每个中文人名中的第一个字(字1)、第二个字(字2)、第一和第二个字组合(字1字2)作为区分特征,利用朴素贝叶斯分类方法对该人名所属性别进行判定。在412775个中文人名语料上采用10重交叉验证法进行训练和测试,对比了依据不同区分特征组合进行性别判定的准确率,分别采用字1,字2,字1+字2,字1+字1字2,字2+字1字2,字1+字2+字1字2(全部区分特征)构成的特征组合进行性别判定,平均判定准确率分别为72.75%,86.92%,88.84%,87.37%,89.35%,90.06%,取得的最好平均判定准确率为90.06%。

    引言


     姓名是人类为区分个体而赋予每个人特定的名称符号。人的命名受历史、时代、社会、民族、家庭等诸多文化因素制约。中文人名有着极其丰富的文化内涵。其所蕴涵的思想理念无比深湛,凝聚了数千年华夏文化的历史积淀,蕴藏着中华民族的智慧和精神,充分显示了中华文明的浓厚底蕴。一个人的名字通常有一定的含义,可以这样说,中文人名与中国文化互为表里,渗透在国人骨子里的文化精髓,比较集中地反映在中文人名上面。中文人名通常具有较强的性别区分性,我们从一个陌生人的名字可推测其是男性或女性,且准确率十之八九,可谓“听其名,知其性”。我们可以从一个陌生人的名字推断其性别,计算机是否可以模拟人的这种智能,或者说我们是否可以设计一套程序实现中文人名性别的判定,这正是本研究的主要工作。
    该研究对深层次的中文信息处理具有重大意义。例如,可以提高中文人名识别和指代消解的准确率,进而促进中文文本的篇章理解。本研究通过对中文人名语料中男女不同性别的用字情况统计分析,提出1种基于中文人名用字特征的性别判定方法,该方法仅仅根据名字中的用字特征,利用朴素贝叶斯分类方法进行男女性别的判定,并在412775个中文人名构成的语料上进行训练和测试,实验结果表明,该方法简单可行,取得的最高平均判定准确率达到90.06%。

    朴素贝叶斯分类方法


      朴素贝叶斯分类方法是目前公认的1种简单有效的分类方法,它是1种应用基于独立性假设的贝叶斯公式的简单概率分类方法,有着广泛的应用,如模式识别、自然语言处理、规划编制等领域。在朴素贝叶斯分类方法的研究与应用中,该方法也有许多改进及优化。朴素贝叶斯分类方法形式化描述如下:

    • 在分类问题中,常常需要把一个事物划分类别。
    • 一个事物具有很多特征,把它的众多特征看作一个向量,即F=(F1,F2,F3,…,Fn),用F这个特征向量来表征这个事物。
    • 假定有m个类别,用集合C={C1,C2,C3,…,Cm}表示。
    • 朴素贝叶斯分类就是由给定的一个数据样本F,来求解F属于某个类别Ci的概率:P(Ci|F)。

    一般情况下,直接计算条件概率P(Ci|F)比较困难,而概率P(Ci),P(F|Ci)可以从训练数据集中求得。根据贝叶斯公式:

    可以将后验概率P(Ci|F)的求解转换为先验概率P(Ci)和P(F|Ci)的求解。又由于假设表征数据样本F的各特征相互独立,所以

     以上论述可知,在朴素贝叶斯分类器的结构中(如图1所示),只有一个类节点,其他节点表示分类事物的各个特征属性,每个属性节点有且只有一个父节点,即类节点,且各个属性节点之间是相互独立的。由图1所示结构,根据朴素贝叶斯分类原理,对一个未知类别的样本F,可以先分别计算出F属于每个类别Ci的概率P(Ci|F),然后选择概率最大的作为其类别。

    详细解释可参考:http://www.cnblogs.com/tgzhu/p/6671331.html

    基于中文人名用字特征的性别判定


     根据中文人名用字特征判定性别是一个典型的二分类问题,本研究利用朴素贝叶斯分类方法根据一个中文人名中的用字特征来判定该人名的性别。首先对中文人名语料中男女不同性别名字的用字特征进行统计分析,然后解析朴素贝叶斯分类方法如何实现中文人名的性别判定,以及实现过程中的两个关键问题:

    • (1)中文人名的表征———区分特征组合;
    • (2)性别判定的依据———条件概率求解。

    中文人名用字的性别区分性


     中文人名根据用字多少,可分为单字名、双字名、三字名、三字以上名。统计发现,中文人名以双字名为主,单字名次之,三字名及以上的极其少见。中文人名中传承着浓厚的文化内涵,人名用字具有较强的性别区分性,透过人名便可知其是男性或女性。在中文人名中,男性以刚健有力为美,命名注重品格、事业前途,取名时希望他们像山一样屹立(如多用山、峰等字);像金石一样经得起磨炼(如多用鑫、磊、刚等字);取“成、功、栋、伟、建”等字则希望能建功立业,成就一番事业。女性则渴望有花容月貌般的容颜,柔情似水般的性情,美玉般的肌肤等,所以,女性命名中多用“梅、桂、芳、兰、洁、雅、娟、娇、姣、珠、珍、”等字。为了从“量”上对男女人名用字有清晰的认识,本研究首先对412775个中文人名语料数据进行了统计分析,以字为单位,分别统计了人名语料中男性、女性人名用字的字种数(即不同汉字的数量)及出现频次。

    为论述方便,下面论述中记人名中的第1、第2个字分别为字1、字2,统计时,单字名认为字1为空格,字2为实际的单字名。统计结果显示,本研究实验所用到的中文人名语料中,男性人名中字1的字种共有2113个,字2的字种共有2456个,女性人名中字1的字种共有1900个,字2的字种共有2039个。表1给出了统计结果中用字频次排在前30位的字及频次。由表1可知,中文男女人名用字大不相同,男性人名和女性人名用字频次前30的字大部分不同。其中,男女字1的前30个字中有13个字相同(包括空格也计算在内),而字2的前30个字中只有2个字相同,字1字2双字名的前30个名字中没有一个相同。这些统计结果说明:中文人名中男性女性用字有较强的性别区分性,且字2较字1更有区分性。另外,从表1中字1为空格的频次可知语料中共用21212个男性单字人名和20713个女性单字人名。


    参考资料


  • 相关阅读:
    启智树提高组Day4T3 2的幂拆分
    拉格朗日插值
    #3342. 「NOI2020」制作菜品
    P6776 [NOI2020]超现实树
    P6773 [NOI2020]命运
    P5298 [PKUWC2018]Minimax
    每日总结5.20
    每日总结5.19
    每日总结5.18
    每日总结5.17
  • 原文地址:https://www.cnblogs.com/tgzhu/p/7919004.html
Copyright © 2020-2023  润新知