• 帖子:99
  • 被关注:0
hadoop小学生
hadoop小学生HanLP Analysis for Elasticsearch
基于 HanLP 的 Elasticsearch 中文分词插件,核心功能: 兼容 ES 5.x-7.x; 内置词典,无需额外配置即可使用; 支持用户自定义词典; 支持远程词典热更新(待开发); 内置多种分词模式,适合不同场景; ...
2019-04-22 14:52 来自版块 - 网络技术
hadoop小学生
hadoop小学生HanLP vs LTP 分词功能测试
文章摘自github,本次测试选用 HanLP 1.6.0 , LTP 3.4.0 测试思路 使用同一份语料训练两个分词库,同一份测试数据测试两个分词库的性能。 语料库选取1998年01月的人民日报语料库。199801人民日报...
2019-04-19 11:09 来自版块 - 网络技术
hadoop小学生
hadoop小学生HanLP Android 示例
portable版 portable版零配置,仅提供中文分词、简繁拼音、同义词等功能。只需在build.gradle中加入依赖: dependencies { compile 'com.hankcs:hanlp:po...
2019-04-17 10:57 来自版块 - 网络技术
hadoop小学生
hadoop小学生pyhanlp:hanlp的python接口
HanLP的Python接口,支持自动下载与升级HanLP,兼容py2、py3。 安装 pip install pyhanlp 使用命令hanlp来验证安装,如因网络等原因自动安装失败,可参考手动配置或Windows指南。 命令...
2019-04-12 11:16 来自版块 - 网络技术
hadoop小学生
hadoop小学生Hanlp自然语言处理工具之词法分析器
本章是接前两篇《分词工具Hanlp基于感知机的中文分词框架》和《基于结构化感知机的词性标注与命名实体识别框架》的。本系统将同时进行中文分词、词性标注与命名实体识别3个任务的子系统称为“词法分析器”。 加载 对应的类为PerceptronL...
2019-04-10 11:09 来自版块 - 网络技术
hadoop小学生
hadoop小学生基于结构化感知机的词性标注与命名实体识别框架
上周就关于《结构化感知机标注框架的内容》已经分享了一篇《分词工具Hanlp基于感知机的中文分词框架》,本篇接上一篇内容,继续分享词性标注与命名实体识别框架的内容。 词性标注 训练 词性标注是分词后紧接着的一个任务,训练语料同上,接口如下...
2019-04-08 14:49 来自版块 - 网络技术
hadoop小学生
hadoop小学生分词工具Hanlp基于感知机的中文分词框架
结构化感知机标注框架是一套利用感知机做序列标注任务,并且应用到中文分词、词性标注与命名实体识别这三个问题的完整在线学习框架,该框架利用1个算法解决3个问题,时自治同意的系统,同时三个任务顺序渐进,构成流水线式的系统。本文先介绍中文分词框架部分内容。 ...
2019-04-03 11:11 来自版块 - 网络技术
hadoop小学生
hadoop小学生Android环境下hanlp汉字转拼音功能的使用介绍
由于项目需要在Android手机设备上实现汉字转拼音功能(支持多音字),于是首先想到了Pinyin4j+多音字映射对照表的实现方案,并在项目中试用了一段时间,发现数据量大时,其耗时非常严重。后来寻找其他方案,在github上找到了HanLP开源库,其...
2019-04-01 15:56 来自版块 - 网络技术
hadoop小学生
hadoop小学生汉语言处理工具pyhanlp的拼音转换与字符正则化
汉字转拼音 HanLP中的汉字转拼音功能也十分的强大。 说明: l HanLP不仅支持基础的汉字转拼音,还支持声母、韵母、音调、音标和输入法首字母首声母功能。 l HanLP能够识别多音字,也能给繁体中文注拼音。 l 最重要的是,HanLP...
2019-03-29 13:32 来自版块 - 网络技术
hadoop小学生
hadoop小学生汉语言处理工具pyhanlp的简繁转换
繁简转换 HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。 说明: ·HanLP能够识别简繁分歧词,比如打印机=印表機。许...
2019-03-29 10:34 来自版块 - 网络技术

热门话题


返回顶部