经常会看到这样的问题:零基础学习hadoop难不难?有的人回答说:零基础学习hadoop,没有想象的那么难,也没有想象的那么容易。看到这样的答案不免觉得有些尴尬,这个问题算是白问了,因为这个回答似乎什么也没给出来。这个问题的关键在于“零基础”到底是个什么样的基础?所谓的零基础大体... 全文

2018-11-28 14:01 来自版块 - 网络技术

本文整理自知乎上的一个问答,分享给正在学习自然然语言处理的朋友们!一、自然语言处理是什么?自然语言处理说白了,就是让机器去帮助我们完成一些语言层面的事情,典型的比如:情感分析、文本摘要、自动问答等等。我们日常场景中比较常见到的类似Siri、微软小冰之类的,这些的基础都是自... 全文

2018-11-28 10:08 来自版块 - 网络技术

前几天和三个学计算机专业的学生聊天时聊到了大数据开发方面的话题,他们三个人中,有两个已经进入企业开始工作,另外一个还是大二学生,但已经开设了自己的工作室。他们都是从事程序开发方面工作的。大数据开发自然都有关注到,只是目前的大数据技能水平只能说是“小菜鸟”吧,连入门还谈不上。当然了... 全文

2018-11-26 14:54 来自版块 - 网络技术

中文主要有:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP,东北大学NiuTrans,NLPIR,;英文主要有:NLTK,Ge... 全文

2018-11-26 10:50 来自版块 - 网络技术

文本聚类文本聚类简单点的来说就是将文本视作一个样本,在其上面进行聚类操作。但是与我们机器学习中常用的聚类操作不同之处在于。我们的聚类对象不是直接的文本本身,而是文本提取出来的特征。因此如何提取特征因而是非常重要的一步。在HanLP中一共有三个文本聚类方法。前两种都基于词袋模式,第... 全文

2018-11-23 10:04 来自版块 - 网络技术

概 述HanLP 是基于 Java开发的 NLP工具包,由一系列模型与算法组成,目标是普及自然语言处理在生产环境中的应用。而且 HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点,因此十分好上手,本文就结合 Spring Boot来将 HanLP用起来! 全文

2018-11-21 11:39 来自版块 - 网络技术

大数据技术的应用与发展正在让我们的生活经历一场深刻的“变革”,而且这种变革几乎让所有人都感觉非常舒服,自然而然的就完成了这样的一个变化。最根本的原因其实是大数据技术的应用真正帮助我们解决了问题。我想也正是基于大数据技术的超强实用性吧,它才会被上升到国家战略层面的高度得以出现在政府... 全文

2018-11-16 14:14 来自版块 - 网络技术

hanlp的词典模式之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集。其核心词典形式如下: 全文

2018-11-16 10:29 来自版块 - 网络技术

大数据、区块链可以说近几年互联网非常火爆的风口了,发展真可谓是蓬勃向上。围绕大数据进行的行业变革、创新已经不仅仅是趋势,而是真实在进行中。大数据技术对各行业的重要性不言而喻,15年政府下发关于推进大数据技术发展的重要文件,紧接着又将大数据上升到了国家战略层面。所有这一系列重要举措... 全文

2018-11-15 15:23 来自版块 - 网络技术

算法介绍最近要做领域概念的提取,TFIDF作为一个很经典的算法可以作为其中的一步处理。关于TFIDF算法的介绍可以参考这篇博客http://www.ruanyifeng.co... 全文

2018-11-14 10:11 来自版块 - 网络技术

大数据经过多年的潜心发展,在当今可以说是进入到了一个快速发展期。各种围绕大数据的应用开发也迅速火热起来了。政务大数据解决方案、企业级大数据解决方案、智慧城市停车大数据解决方案等已经开始被应用。5月份一条很有意思的娱乐新闻——警方在某歌手的演唱会上抓捕了好几个被网上追逃的人。这同样... 全文

2018-11-12 15:51 来自版块 - 网络技术

软件:IDEA2014、Maven、HanLP、JDK;用到的知识:HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition;用到的数据集:http://www.threedweb.cn/t... 全文

2018-11-12 11:24 来自版块 - 网络技术

环境搭建比FNLP的简单,具体参考:https://github.com/hankcs/HanLP各个版本的下载:https://github.com/hankcs/HanLP/releases完毕后有一个报错:字符类型对应表加载失败:D:/eclipse_workspace/H... 全文

2018-11-09 10:17 来自版块 - 网络技术

早些时候(5月28号)由社科文献出版社初版的《大数据蓝皮书:中国大数据发展报告No.2》正式发布了。以“数化万物 智在融合”为主题的中国国际大数据产业博览会也京举行中。基本可以预见,在接下来的一段时期内关于大数据应用开发又将进入到一个新的阶段。现在市面上围绕大数据的应用开发如火如... 全文

2018-11-07 14:06 来自版块 - 网络技术

词图词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。需要稀疏2维矩阵模型,以一个词的起始位置作为行,终止位置作为列,可以得到一个二维矩阵。例如:“他... 全文

2018-11-07 10:58 来自版块 - 网络技术

?参考论文:《TextRank: Bringing Order into Texts》?TextRank算法提取关键词的Java实现?TextRank算法自动摘要的Java实现这篇文章中作者大概解释了一下TextRank公式1. 论文In this paper, we intro... 全文

2018-11-05 10:47 来自版块 - 网络技术

1. 官方文档及参考链接l 关于词典问题Issue,首先参考:FAQl 自定义词典其实是基于规则的分词,它的用法参考这个issuel 如果有些数量词、字母词需要分词,可参考:P2P和C2C这种词没有分出来,希望加到主词库l 关于词性标注:可参考词性标注2. 源码解析分析 com.... 全文

2018-11-02 11:07 来自版块 - 网络技术

HanLP方法封装类:1. # -*- coding:utf-8 -*-2. # Filename: main.py3.4.from jpype import *5. 5.startJVM(getDefaultJVMPath(), "-Djava.class.path=... 全文

2018-10-31 11:06 来自版块 - 网络技术

在分布式Web程序设计中,解决高并发以及内部解耦的关键技术离不开缓存和队列,而缓存角色类似计算机硬件中CPU的各级缓存。如今的业务规模稍大的互联网项目,即使在最初beta版的开发上,都会进行预留设计。但是在诸多应用场景里,也带来了某些高成本的技术问题,需要细致权衡。 全文

2018-10-29 16:44 来自版块 - 网络技术

在看源码之前,先看几遍论文《基于角色标注的中国人名自动识别研究》关于命名识别的一些问题,可参考下列一些issue:??名字识别的问题 #387??机构名识别错误??关于层叠HMM中文实体识别的过程HanLP参考博客:词性标注层叠HMM-Viterbi角色标注模型下的机构名识别分词... 全文

2018-10-29 11:37 来自版块 - 网络技术


返回顶部