首页>网络技术>网络技术>HanLP-最短路径分词

回复

« 返回列表

hadoop小学生

精灵王

精灵王

注册日期2018-09-13
发帖数160
QQ3234520070
火币360枚
粉丝0
关注0

加关注写私信打招呼

阅读：6533回复：0

HanLP-最短路径分词

楼主^#

更多发布于：2019-06-05 11:16

[] 1


	今天介绍的内容是最短路径分词。最近换回了thinkpad x1，原因是mac的13.3寸的屏幕看代码实在是不方便，也可能是人老了吧，^_^。等把hanlp词法分析介绍结束后，还是会换回macbook pro的。个人有强迫症，只要看或写java或C/C++代码或者用开发机的化，还是喜欢在windows下工作。看论文特别是理论的研究还是习惯用mac了。感觉开发还是windows比较顺手，理论研究还是mac比较顺手。基本思想：首先根据词典，找出字串中所有可能的词（也称全切分），然后构造词语切分有向无环图（也称作粗分词图或粗分词网）。每个词对应图中的一条有向边。若赋给相应的边长一个权值（该权值可以是常数，也可以是所构成的词的属性值），然后根据该切分图，在起点到终点的所有路径中，求出长度值（包括权值）为最短的一条路径，这条路径上包含的词就是该句子的切分结果。若每个结点处记录N个最短路径值，则该方法也称N-最短路径算法。为进一步提高切分精度，在词典中增加词的属性值，即给每个词也给权重。这样每个词在汉字串中的权重不同（即构成的有向图的边不为等长）。最简单的词的权重可以用词频表示，高频词的权重大，低频词的权重小。具体的权重值可以通过大规模语料库获得。虽然HanLP中提供了dijkstra算法的实现，但是当前HanLP中最短路径分词使用的是viterbi算法。例子：他说的确实在理图片：图1.JPG 遍历计算过程和回溯分词过程图片：图2.JPG （1） node列与to列 node列的词语为粗分词网中所有的词，to列为在node列为词word_node的情况下，后边接的所有可能的词word_to。第1个词语前边有一个“始”词，最后一个词语后边有一个“末”词。（2） begin2node_w的计算表示从“始”到node词的最短路径权值。可以从待计算值所在行的node列读取出word词，在to列中以待计算值所在行开始向上查找word，找到word所在行后（以首次遇到的词为准），begin2to_w列所对应的值就是待计算值。见图中下划线。第一个词对“始-他”的begin2node_w的值为0。（3） node2to_w的计算由node+w构成的2gram串的概率，也就是转移概率，计算公式为图片：图3.jpg 计算的HanLP代码为https://github.com/hankcs/HanLP/blob/master/src/main/java/com/hankcs/hanlp/utility/MathUtility.java calculateWeight(Vertex from, Vertex to)。“始”的频次取为MAX_FREQUENCY，“始-他”的共现频次值为“他”作为句首的频次，“理-末”的共现频次值为“理”作为句末的频次。（4） begin2to_w_n的计算表示从“始”到to词的最短路径权值。begin2to_w_n = begin2node_w + node2to_w。（5） begin2to_w_o 表示记录在to词下的，到to词的最短路径权值，它的初始值为0，之后由begin2to_w来更新。（6） from 表示词语to的前驱词。图片：图4.jpg 可以看表中(7,9),(8,10),(11,13),(12,14),(15,16),(17,18)成对行来验证该公式，其中只有(17.18)行满足了第3个式子。（6）和（7）的HanLP实现代码https://github.com/hankcs/HanLP/blob/master/src/main/java/com/hankcs/hanlp/seg/common/Vertex.java updateFrom(Vertex from) （8）回溯确定分词路径从“末”开始向前回溯，末->理->在->确实->的->说->他，可以看表中黄色单元格进行验证。经过(6)、（7）两步，可以确保粗分词网中任意词的前驱都是最短路径的。遍历计算过程和回溯过程的HanLP代码https://github.com/hankcs/HanLP/blob/master/src/main/java/com/hankcs/hanlp/seg/Viterbi/ViterbiSegment.java viterbi(WordNet wordNet) 图片：图5.JPG

喜欢0 评分0

DKHadoop用着还不错！

回复

发帖回复

« 返回列表

您需要登录后才可以回帖，登录或者注册