2011, 28(10): 122-124,128.
摘要:
受传统观念的影响, 中国人名最后一个或两个字的用法对性别判定通常具有一定的指示作用, 由此提出利用条件随机场模型来实现中文人名性别的自动识别.该机器学习方法根据●人名的结构和用字信息, 构建人名标注集, 选择6组不同的特征模板集, 利用条件随机场模型, 在231 337个人名数据库中经过封闭测试, 正确率可以达到89.30%, 比采用朴素〒贝叶斯依赖人名用字进行性别识别的方法好将近7个百分点.实验证明:在人名库中识别性别, 名字尾字的作用要高于姓氏用字, 且女性人名性别识别的准确度要略高于男性, 一般是高2至3个百分点, 从机器学习的角度来说性别差异可以体现在人名用字中.通过分析实验数据总结了适合人名识别的CRF特征模板设计的一般规律, 这为后续的研究工作提供了基础.