首页>网络技术>网络技术>Hanlp实战HMM-Viterbi角色标注中国人名识别

回复

« 返回列表

hadoop小学生

精灵王

精灵王

注册日期2018-09-13
发帖数160
QQ3234520070
火币360枚
粉丝0
关注0

加关注写私信打招呼

阅读：5099回复：0

Hanlp实战HMM-Viterbi角色标注中国人名识别

楼主^#

更多发布于：2018-10-22 15:30

hanlp 中国人名识别

[] 1


	天写完了人名识别模块，与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意，但是胜在训练语料比较新，对质量把关比较严，实测效果很满意。比如这句真实的新闻“签约仪式前，秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。”，分词结果：[签约/v, 仪式/n, 前/f, ，/w, 秦光荣/nr, 、/w, 李纪恒/nr, 、/w, 仇和/nr, 等/u, 一同/d, 会见/v, 了/ul, 参加/v, 签约/v, 的/uj, 企业家/n, 。/w]，三个人名“秦光荣”“李纪恒”“仇和”一个不漏。一些比较变态的例子也能从容应对，比如下面：图片：图1.JPG 这是hankcs将自己的分词与ansj作比较得出的结果，由于自己可以随时调整算法，所以主场占了很大便宜。但是第一句绝对没有放水，说实话能识别出“仇和”这么冷僻的名字着实让人惊喜了一下。图片：图2.jpg 开源项目本文代码已集成到hanlp中开源：https://github.com/hankcs/HanLP 原理推荐仔细阅读《基于角色标注的中国人名自动识别研究.doc》这篇论文，该论文详细地描述了算法原理和实现。从语料库的整理、标注到最后的模式匹配都讲得清清楚楚。hankcs在这篇论文的基础上做了改进，主要步骤总结如下： 1、对熟语料库自动标注，将原来的标注转化为角色标注。角色标注一共有如下几种：图片：图3.jpg hankcs在此基础上拓展了一个S，代表句子的开始。 2、统计标签的出现频次，标签的转移矩阵。 3、对粗分结果角色标注，模式匹配。 hankcs对论文中的几个模式串做了拓充，并且采用了AC模式匹配算法。体会论文中将三字名称拆分为BCD，实测在2-gram模型下，C很容易被识别为E，导致人名缺一半。人民日报2014中的人名并不能覆盖所有常用字，所以hankcs去别的地方找了个人名库，拆成BCD或BE补充了进去。人民日报2014语料库中有很多错误，比如去/vf 年老/vi 张中秋/nr 去/vf “/w 泡茶/vi ”/w ，/w 送礼/vi 遭到/v 了/ule 拒绝/v ，/w 老张/nz 担心/v 金额/n 不够/a 中秋很明显不是人名的组成部分，这个必须手工剔除。 “中秋安全”会识别出“中秋安全”来，因为2-gram词典中没有“中秋@安全”这种接续，而有“中@未##人”这种接续。初步的解决方法是手工往2-gram词典里面加一条“中秋@安全”。这反映了这种方法的局限性，另一方面也说明词典的重要性。

喜欢0 评分0

DKHadoop用着还不错！

回复

发帖回复

« 返回列表

您需要登录后才可以回帖，登录或者注册