• 帖子:68
  • 被关注:0
hadoop小学生
hadoop小学生pyhanlp 停用词与用户自定义词典功能详解
hanlp的词典模式 之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集。 其核心词典形式如下: 自定义词典 自定义词典有多种添加模式,首先是展示的...
2018-11-16 10:29 来自版块 - 网络技术
hadoop小学生
hadoop小学生Hanlp分词实例:Java实现TFIDF算法
算法介绍 最近要做领域概念的提取,TFIDF作为一个很经典的算法可以作为其中的一步处理。 关于TFIDF算法的介绍可以参考这篇博客http://www.ruanyifeng.com/blog/2013/03/tf-idf.html。 计算公式比...
2018-11-14 10:11 来自版块 - 网络技术
hadoop小学生
hadoop小学生Spark应用HanLP对中文语料进行文本挖掘--聚类详解教程
软件:IDEA2014、Maven、HanLP、JDK; 用到的知识:HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition; 用到的数据集:http://www.threedweb.cn/threa...
2018-11-12 11:24 来自版块 - 网络技术
hadoop小学生
hadoop小学生自然语言处理之:搭建基于HanLP的开发环境
环境搭建比FNLP的简单,具体参考:https://github.com/hankcs/HanLP 各个版本的下载:https://github.com/hankcs/HanLP/releases 完毕后有一个报错: 字符类型对应表加载失败: ...
2018-11-09 10:17 来自版块 - 网络技术
hadoop小学生
hadoop小学生HanLP用户自定义词典源码分析详解
1. 官方文档及参考链接 l 关于词典问题Issue,首先参考:FAQ l 自定义词典其实是基于规则的分词,它的用法参考这个issue l 如果有些数量词、字母词需要分词,可参考:P2P和C2C这种词没有分出来,希望加到主词库 l 关于词性标...
2018-11-02 11:07 来自版块 - 网络技术
hadoop小学生
hadoop小学生Python中调用自然语言处理工具HanLP手记
HanLP方法封装类: 1. # -*- coding:utf-8 -*- 2. # Filename: main.py 3. 4.from jpype import * 5. 5.startJVM(getDefaultJVMPath(...
2018-10-31 11:06 来自版块 - 网络技术
hadoop小学生
hadoop小学生HanLP中的人名识别分析详解
在看源码之前,先看几遍论文《基于角色标注的中国人名自动识别研究》 关于命名识别的一些问题,可参考下列一些issue: ??名字识别的问题 #387 ??机构名识别错误 ??关于层叠HMM中文实体识别的过程 HanLP参考博客: 词性标注 ...
2018-10-29 11:37 来自版块 - 网络技术
hadoop小学生
hadoop小学生MapReduce实现与自定义词典文件基于hanLP的中文分词详解
前言: 文本分类任务的第1步,就是对语料进行分词。在单机模式下,可以选择python jieba分词,使用起来较方便。但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则hanLP更加胜任。 一、使用介绍 hanLP是一个用...
2018-10-15 13:52 来自版块 - 网络技术
hadoop小学生
hadoop小学生Hanlp等七种优秀的开源中文分词库推荐
中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词。 纵观整个开源领域,陆陆续续做中文分词的也有不少,不过目前仍在维护的且质量较高的并不多。下面整理了一些...
2018-10-12 11:27 来自版块 - 网络技术
hadoop小学生
hadoop小学生HanLP代码与词典分离方案与流程
之前在spark环境中一直用的是portable版本,词条数量不是很够,且有心想把jieba,swcs词典加进来, 其他像ik,ansi-seg等分词词典由于没有词性并没有加进来. 本次修改主要是采用jar包方包将词典目录 data与hanlp.pr...
2018-10-10 10:32 来自版块 - 网络技术

热门话题


返回顶部