python调用hanlp分词包手记 Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类、流水线分词等功能。关于hanlp1.7版本的新功能,后面有使用的到时候在给大家分享。本篇分享一个在python里调用... 全文

2018-12-26 13:01 来自版块 - 网络技术

大数据在政务当中的应用对于提高问题解决的效率可谓大有帮助,但政务大数据平台的应用开发远不止提高问题解决效率这么简单。当然,作为大数据平台应用的开发者来说,我们要做的是还是从底层的技术层面做好解决方案。关于政务大数据平台的解决方案此前有分享过智慧人社的和城市智慧停车的大数据平台解决... 全文

2018-12-24 13:51 来自版块 - 网络技术

在12月20日由中国电子信息产业发展研究院主办的2018中国软件大会上,大快搜索获评“2018中国大数据基础软件领域领军企业”,并成功入选中国数字化转型TOP100服务商。 全文

2018-12-24 13:51 来自版块 - 网络技术

依存句法分析器在HanLP中一共有两种句法分析器·依存句法分析(1)基于神经网络的高性能依存句法分析器(2)MaxEnt依存句法分析基于神经网络的高性能依存句法分析器HanLP中的基于神经网络的高性能依存句法分析器参考的是14年Chen&Manning的论文(A Fast... 全文

2018-12-21 11:44 来自版块 - 网络技术

这几年的大数据热潮带动了一激活了一大批hadoop学习爱好者。有自学hadoop的,有报名培训班学习的。所有接触过hadoop的人都知道,单独搭建hadoop里每个组建都需要运行环境、修改配置文件测试等过程。对于我们这些入门级新手来说简直每个都是坑。国内的发行版hadoop那么多... 全文

2018-12-19 13:58 来自版块 - 网络技术

Hanlp是由一系列模型与算法组成的javag工具包,目标是普及自然语言处理再生环境中的应用。有很多人在安装hanlp的时候会遇到安装失败的情况,下面就是某大神的分享的在python环境中安装失败的解决方法,大家可以借鉴学习以下! 全文

2018-12-19 10:51 来自版块 - 网络技术

上周分别就DKHadoop的安装准备工作以及服务器操作系统配置写了两篇分享的文章,这是个人第一次尝试写一个系统性的分享文章,必然会有很多疏漏的地方,还望见谅吧。今天分享的是DKHadoop安装以及常见问题的解决方案方法介绍。 全文

2018-12-17 15:12 来自版块 - 网络技术

pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp经过测试,HanLP比nltk在中文分词和实体识别方面都更好用. 如何向pyh... 全文

2018-12-17 13:21 来自版块 - 网络技术

ubuntu下pycharm调用Hanlp实践分享前几天看了大快的举办的大数据论坛峰会的现场直播,惊喜的是hanlp2.0版本发布。Hanlp2.0版本将会支持任意多的语种,感觉还是挺好的!不过更多关于hanlp2.0的信息,可能还需要过一段时间才能看到,只能等一下了!下面分享一... 全文

2018-12-14 10:37 来自版块 - 网络技术

最近在研究中文分词及自然语言相关的内容,关注到JAVA环境下的HanLP,HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、... 全文

2018-12-12 16:35 来自版块 - 网络技术

HanLP的一个很大的好处是离线开源工具包,换而言之,它不仅提供免费的代码免费下载,而且将辛苦收集的词典也对外公开啦,此诚乃一大无私之举.我在安装的时候,主要参照这份博客: 全文

2018-12-10 14:06 来自版块 - 网络技术

在上一篇的分享文章中我是给大家分享了运行部署hadoop的一些安装准备工作,这篇接上一篇继续为大家分享一些个人的学习经验总结。我学习用的是大快发行版DKHadoop,所以所有的经验分享都是以DKHadoop为基础,这里要先说明一下。个人觉得DKHadoop对新手还是算是很友好的了... 全文

2018-12-07 14:23 来自版块 - 网络技术

中文分词中文分词中有众多分词工具,如结巴、hanlp、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持java,分词是HanLP最基础的功能,HanLP实现了许多种分词算法,每个分词器都支持特定的配置。接下来我将介绍如何配置Hanlp来开启自然语言处理之旅,每个工具包都是一个... 全文

2018-12-07 11:55 来自版块 - 网络技术

前几天去参加了一个线下的聚会,参加聚会的基本都是从事互联网工作的。会上有人提到了区块链,从而引发了一场关于大数据方面的探讨。我也是从去年才正式接触大数据,一直在学习hadoop。相信接触过hadoop的人都知道,。单独搭建hadoop里每个组建都需要运行环境、修改配置文件、测试等... 全文

2018-12-05 14:23 来自版块 - 网络技术

在看源码之前,先看几遍论文《基于角色标注的中国人名自动识别研究》关于命名识别的一些问题,可参考下列一些issue:l ·名字识别的问题 #387l ·机构名识别错误l ·关于层叠HMM中文实体识别的过程HanLP参考博客:词性标注层叠HMM-Viterbi角色标注模型下的机构名识... 全文

2018-12-05 10:54 来自版块 - 网络技术

大数据技术的应用正在潜移默化改变着我们的日常生活习惯和工作方式,很多看起来有点“不可思议”的事情也渐渐被我们“习以为常”。大数据可能在国内的起步较晚,但我们可能却是对大数据应用最好的了代表了。前些时候有分享了一个大数据技术在智慧人社上面的应用案例,最近也一直看一些人力资源方面大数... 全文

2018-12-03 14:41 来自版块 - 网络技术

本文分析:HanLP版本1.5.3中二元核心词典的存储与查找。当词典文件没有被缓存时,会从文本文件CoreNatureDictionary.ngram.txt中解析出来存储到TreeMap中,然后构造start和pair数组,并基于这两个数组实现词共现频率的二分查找。当已经有缓存... 全文

2018-12-03 10:40 来自版块 - 网络技术

学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个三节点的学习版玩一下。在研究、学习hadoop的朋友可以去找一下看看(发行版DKhadoop,去大快的网站上应该可以下载到的。) 全文

2018-11-30 16:15 来自版块 - 网络技术

需求:客户给销售员自己的个人信息,销售帮助客户下单,此过程需要销售人员手动复制粘贴收获地址,电话,姓名等等,一个智能的分词系统可以让销售人员一键识别以上各种信息经过调研,找到了一下开源项目1、word 分词器 2、ansj 分词器 3、mmseg4j 分词器 4、ik-analy... 全文

2018-11-30 13:54 来自版块 - 网络技术

项目结构 该项目中,.jar和data文件夹和.properties需要从官网/github下载,data文件夹下载项目配置修改hanlp.properties: 1 #/Test/src/hanlp.properties: 2 #本配置文件中的路径的根... 全文

2018-11-30 13:52 来自版块 - 网络技术


返回顶部