• 帖子:91
  • 被关注:0
hadoop小学生
hadoop小学生ubuntu下pycharm调用Hanlp实践分享
ubuntu下pycharm调用Hanlp实践分享 前几天看了大快的举办的大数据论坛峰会的现场直播,惊喜的是hanlp2.0版本发布。Hanlp2.0版本将会支持任意多的语种,感觉还是挺好的!不过更多关于hanlp2.0的信息,可能还需要过一段时间...
2018-12-14 10:37 来自版块 - 网络技术
hadoop小学生
hadoop小学生在Python中调用Java扩展包HanLP测试记录
最近在研究中文分词及自然语言相关的内容,关注到JAVA环境下的HanLP,HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、...
2018-12-12 16:35 来自版块 - 网络技术
hadoop小学生
hadoop小学生配置Hanlp自然语言处理进阶
中文分词 中文分词中有众多分词工具,如结巴、hanlp、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持java,分词是HanLP最基础的功能,HanLP实现了许多种分词算法,每个分词器都支持特定的配置。接下来我将介绍如何配置Hanlp来开启自...
2018-12-07 11:55 来自版块 - 网络技术
hadoop小学生
hadoop小学生HanLP中人名识别分析详解
在看源码之前,先看几遍论文《基于角色标注的中国人名自动识别研究》 关于命名识别的一些问题,可参考下列一些issue: l ·名字识别的问题 #387 l ·机构名识别错误 l ·关于层叠HMM中文实体识别的过程 HanLP参考博客: 词性...
2018-12-05 10:54 来自版块 - 网络技术
hadoop小学生
hadoop小学生HanLP二元核心词典详细解析
本文分析:HanLP版本1.5.3中二元核心词典的存储与查找。当词典文件没有被缓存时,会从文本文件CoreNatureDictionary.ngram.txt中解析出来存储到TreeMap中,然后构造start和pair数组,并基于这两个数组...
2018-12-03 10:40 来自版块 - 网络技术
hadoop小学生
hadoop小学生hanlp中文智能分词自动识别文字提取实例
需求:客户给销售员自己的个人信息,销售帮助客户下单,此过程需要销售人员手动复制粘贴收获地址,电话,姓名等等,一个智能的分词系统可以让销售人员一键识别以上各种信息 经过调研,找到了一下开源项目 1、word 分词器 2、ansj 分词器 3...
2018-11-30 13:54 来自版块 - 网络技术
hadoop小学生
hadoop小学生Hanlp在java中文分词中的使用介绍
项目结构 该项目中,.jar和data文件夹和.properties需要从官网/github下载,data文件夹下载 项目配置 修改hanlp.properties: 1 #/Test/src/hanlp.propertie...
2018-11-30 13:52 来自版块 - 网络技术
hadoop小学生
hadoop小学生自然语言处理怎么最快入门?
本文整理自知乎上的一个问答,分享给正在学习自然然语言处理的朋友们! 一、自然语言处理是什么? 自然语言处理说白了,就是让机器去帮助我们完成一些语言层面的事情,典型的比如:情感分析、文本摘要、自动问答等等。我们日常场景中比较常见到的类似Siri...
2018-11-28 10:08 来自版块 - 网络技术
hadoop小学生
hadoop小学生目前常用的自然语言处理开源项目/开发包大汇总
中文主要有:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP,东北大学NiuTrans,NLPIR...
2018-11-26 10:50 来自版块 - 网络技术
hadoop小学生
hadoop小学生pyhanlp 文本聚类详细介绍
文本聚类 文本聚类简单点的来说就是将文本视作一个样本,在其上面进行聚类操作。但是与我们机器学习中常用的聚类操作不同之处在于。 我们的聚类对象不是直接的文本本身,而是文本提取出来的特征。因此如何提取特征因而是非常重要的一步。在HanLP中一...
2018-11-23 10:04 来自版块 - 网络技术

返回顶部