master分支对于master分支,编译方法如下:git clone https://github.com/hankcs/HanLP.gitmvn install -DskipTests ·由于目前一些test不够规范,使用了硬编码路径下的资源,所以暂时跳过单元测试。·该方法... 全文

2019-03-06 13:02 来自版块 - 网络技术

关于如何在linux服务器上使用hanlp也有分享过一篇,但分享的内容与湘笑的这篇还是不同的。此处分享一下湘笑的这篇hanlp在linux服务器上使用的文章,供新手朋友学习之用。本文主要工作是在linux服务器上使用hanlp, 测试源码主要是hanlp源码中的HanLP-1.3... 全文

2019-03-04 10:23 来自版块 - 网络技术

本文是csu_zipple 分享的关于使用hanlp汉语言处理包提取关键词的过程一个简单的记录分享。想要使用hanlp提取文本关键词的新手朋友们可以参考学习一下!如何在一段文本之中提取出相应的关键词呢? 之前有想过用机器学习的方法来进行词法分析,但是在项目中测试时正确率不够。于是... 全文

2019-03-01 09:26 来自版块 - 网络技术

CRF简介CRF是序列标注场景中常用的模型,比HMM能利用更多的特征,比MEMM更能抵抗标记偏置的问题。[gerative-discriminative.png] CRF训练这类耗时的任务,还是交给了用C++实现的CRF++。关于CRF++输出的CRF模型,请参考《CRF++模型... 全文

2019-02-27 11:39 来自版块 - 网络技术

本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP这六大中文分词工具是由 水...琥珀 完成的。相关测试的文章之前也看到过一些,但本篇阐述的可以说是比较详细的了。这里就分享一下给各位朋友!安装调用jieba“结巴”... 全文

2019-02-26 14:41 来自版块 - 网络技术

分享一篇hanlp分词工具使用的小案例,即利用hanlp分词工具分析两个中文语句的相似度的案例。供大家一起学习参考! 在做考试系统需求时,后台题库系统提供录入题目的功能。在录... 全文

2019-02-23 10:05 来自版块 - 网络技术

语料库本文语料库特指文本分类语料库,对应IDataSet接口。而文本分类语料库包含两个概念:文档和类目。一个文档只属于一个类目,一个类目可能含有多个文档。比如搜狗文本分类语料库迷你版.zip,下载前请先阅读搜狗实验室数据使用许可协议。用Map描述这种关系可以用Java的Map&l... 全文

2019-02-20 15:28 来自版块 - 网络技术

看一个博主(亚当-adam)的关于hanlp关键词提取算法TextRank的文章,还是非常好的一篇实操经验分享,分享一下给各位需要的朋友一起学习一下! Tex... 全文

2019-02-20 10:52 来自版块 - 网络技术

这是另一套基于CRF的词法分析系统,类似感知机词法分析器,提供了完善的训练与分析接口。 CRF的效果比感知机稍好一些,然而训练速度较慢,也不支持在线学习。默认模型训练自OpenCorpus/p... 全文

2019-02-18 15:20 来自版块 - 网络技术

本篇分享的依然是关于hanlp的分词使用,文章内容分享自 gladosAI 的博客,本篇文章中提出了一个问题,hanlp分词影响了实验判断结果。为何会如此,不妨一起学习一下 gladosAI 的这篇文章。 学习内容在之前的实验中得到了不在词向量里的词与分词结果,结果有500多个词... 全文

2019-02-18 10:17 来自版块 - 网络技术

新词发现本“新词发现”模块基于信息熵和互信息两种算法,可以在无语料的情况下提取一段长文本中的词语,并支持过滤掉系统中已存在的“旧词”,得到新词列表。调用方法静态方法一句话静态调用接口已经封装到HanLP中: /** * 提取词语 * * @param... 全文

2019-02-15 15:27 来自版块 - 网络技术

这篇文章主要分享的是hanlp自然语言处理源码的下载,数据集的下载,以及将让源代码中的demo能够跑通。Hanlp安装包的下载以及安装其实之前就已经有过分享了。本篇文章主要还是备忘之用,同时算是给新手朋友的一些参考吧!不过在此之前先推荐两本书给想要学习中文自然语言处理的朋友,分别... 全文

2019-02-15 10:26 来自版块 - 网络技术

本文旨在介绍如何利用HanLP训练分词模型,包括语料格式、语料预处理、训练接口、输出格式等。 目前HanLP内置的训练接口是针对一阶HMM-NGram设计的,另外附带了通用的语料加载工具,可以通过少量代码导出供其他训练工具使用的特定格式(如CRF++)。语料格式输入语料格式为人民... 全文

2019-02-13 15:01 来自版块 - 网络技术

Hanlp作为一款重要的中文分词工具,在GitHub的用户量已经非常之高,应该可以看得出来大家对于hanlp这款分词工具还是很认可的。本篇继续分享一篇关于hanlp的使用实例即Python调用hanlp进行中文实体识别。想要在python中调用hanlp进行中文实体识别,Ubun... 全文

2019-02-13 10:20 来自版块 - 网络技术

大数据Hadoop应用开发技术正可谓如火如荼推进中,以为大数据已经不仅仅是局限在互联网领域,而是已经被上升到了国家战略的高度层面。大数据正在深刻影响和改变我们的日常生活和工作方式。Hadoop应用开发太过偏底层,难度之大真不是我们一般人所能够理解的。有的人会说,不都是倒腾代码吗?... 全文

2019-01-27 13:21 来自版块 - 网络技术

过程分析1.添加新词需要确定无缓存文件,否则无法使用成功,因为词典会优先加载缓存文件2.再确认缓存文件不在时,打开本地词典按照格式添加自定义词汇。3.调用分词函数重新生成缓存文件,这时会报一个找不到缓存文件的异常,不用管,因为加载词典进入内存是会优先加载缓存,缓存不在当然会报异常... 全文

2019-01-27 10:13 来自版块 - 网络技术

Dkhadoop版本的下载安装以及运行环境搭建等各个方面内容基本都已经分享过了,今天给大家就dkhadoop开发环境安装中常见的问题以及解决方法进行汇总整理,希望对一些朋友有帮助吧! 全文

2019-01-25 16:01 来自版块 - 网络技术

在前几篇的文章中分别就虚拟系统安装、LINUX系统安装以及hadoop运行服务器的设置等内容写了详细的操作教程,本篇分享的是hadoop的下载安装步骤。在此之前有必要做一个简单的说明:分享的所有内容是以个人的操作经验为基础,有的人看完可能会说跟他做过的不一样。这个可能还是跟大家所... 全文

2019-01-25 14:41 来自版块 - 网络技术

在使用Hanlp词典进行分词的时候,会出现分词不准的情况,原因是内置词典中并没有收录当前这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作呢,下面我们来看一下:一,在Hanlp词典中添加未登录词1.找到hanlp内置词典目录位于D:\hnl... 全文

2019-01-25 10:39 来自版块 - 网络技术

虚拟机以及Linux系统安装在之前的两篇分享中已经详细的介绍了方法,并且每一步的都配图了。如果有朋友还是看不懂,那我也爱莫能助了。本篇主要就hadoop服务器操作系统配置进行详细说明,hadoop安装会在下一篇文章中详细的介绍。hadoop安装包用的是大快DKHadoop发行版,... 全文

2019-01-23 15:41 来自版块 - 网络技术


返回顶部