数据缺失是数据科学家在处理数据时经常遇到的问题,本文作者基于不同的情境提供了相应的数据插补解决办法。没有完美的数据插补法,但总有一款更适合当下情况。我在数据清理与探索性分析中遇到的最常见问题之一就是处理缺失数据。首先我们需要明白的是,没有任何方法能够完美解决这个问题。不同问题有不... 全文

2018-10-26 15:39 来自版块 - 网络技术

众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。本文转载自明略研究院的技术经理牟小峰老师讲授的语言处理中的分词问题。如何界定分词 中文分词指的是将一... 全文

2018-10-26 13:50 来自版块 - 网络技术

从事大数据行业的朋友应该都知道大数据已经上升到了国家战略高度,2015年8月31日,国务院印发了《促进大数据发展行动纲要》。旨在通过建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制,实现基于数据的科学决策。目前,我国每年善生并被存储的数据总量超过800EB,相当于... 全文

2018-10-23 15:48 来自版块 - 网络技术

天写完了人名识别模块,与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意,但是胜在训练语料比较新,对质量把关比较严,实测效果很满意。比如这句真实的新闻“签约仪式前,秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。”,分词结果:[签约/v, 仪式/n, 前/f, ,... 全文

2018-10-22 15:30 来自版块 - 网络技术

大数据也不是近几年才出现的新东西,只是最近几年才真正意义上变得热门、火爆!而这要得益于互联网信息技术的快速发展,网络改变世界、改变生活,大数据技术的应用让这样的改变更为深刻。关注大数据或者是互联网方面新闻的人应该知道,大数据已经上升到了国家战略的高度。可以说这是时代发展的必然趋势... 全文

2018-10-19 15:05 来自版块 - 网络技术

与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于条件随机场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用 双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分... 全文

2018-10-19 11:52 来自版块 - 网络技术

大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战。Hadoop作为一个开源的分布式并行处理平台,以其高拓展、高效率、高可靠等优点越来越受到欢迎。这同时也带动了hadoop商业版的发行。这里就通过大快DKhadoop为大家详细介绍一下had... 全文

2018-10-17 15:08 来自版块 - 网络技术

生成式句法分析指的是,生成一系列依存句法树,从它们中用特定算法挑出概率最大那一棵。句法分析中,生成模型的构建主要使用三类信息:词性信息、词汇信息和结构信息。前二类很好理解,而结构信息需要特殊语法标记,不做考虑。本文主要利用了词汇+词性生成联合概率模型,使用最大生成树Prim算法搜... 全文

2018-10-17 13:16 来自版块 - 网络技术

近年,随着互联网的发展特别是移动互联网的发展,数据的增长呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序每天下载的网页超过1亿个(2000年数据,)数据的爆炸式增长直接推动了海量数据处理技术的发展。谷歌公司提出的大表、分布式文件系统和分布式计算的三大技术构架,解决了海量数据处理的问... 全文

2018-10-15 15:56 来自版块 - 网络技术

前言:文本分类任务的第1步,就是对语料进行分词。在单机模式下,可以选择python jieba分词,使用起来较方便。但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则hanLP更加胜任。一、使用介绍hanLP是一个用java语言开发的分词工具, 官网是 全文

2018-10-15 13:52 来自版块 - 网络技术

Hadoop集群环境搭建是很多学习hadoop学习者或者是使用者都必然要面对的一个问题,网上关于hadoop集群环境搭建的博文教程也蛮多的。对于玩hadoop的高手来说肯定没有什么问题,甚至可以说事“手到擒来”的事情,但对于hadoop的初学者来说,hadoop集群环境的... 全文

2018-10-12 15:45 来自版块 - 网络技术

中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词。纵观整个开源领域,陆陆续续做中文分词的也有不少,不过目前仍在维护的且质量较高的并不多。下面整理了一些个人认为比较优秀的中文分... 全文

2018-10-12 11:27 来自版块 - 网络技术

每家公司在是一个数据公司,在一定范围能够使用机器学习在云中部署智能应用程序,这归功于三个机器学习的趋势:数据飞轮,算法经济,和智能云托管。

2018-10-10 14:26 来自版块 - 网络技术

之前在spark环境中一直用的是portable版本,词条数量不是很够,且有心想把jieba,swcs词典加进来,其他像ik,ansi-seg等分词词典由于没有词性并没有加进来. 本次修改主要是采用jar包方包将词典目录data与hanlp.properties合成一个data.... 全文

2018-10-10 10:32 来自版块 - 网络技术

1、通过git下载分词器代码。连接如下:https://gitee.com/hualongdata/hanlp-exthanlp官网如下:http://hanlp.linrunsoft.com/2、下载gradle,如果本机有,就可以略过... 全文

2018-10-09 09:14 来自版块 - 网络技术

最近一段时间一直在接触关于hadoop方面的内容,从刚接触时的一片空白,到现在也能够说清楚一些问题。这中间到底经历过什么只怕也就是只有经过的人才会体会到吧。前几天看到有个人问“学hadoop需要什么基础”,这个问题好像至今还没好好细想过,可能是因为身边有大神在带着我学习hadoo... 全文

2018-09-20 15:56 来自版块 - 网络技术

Hanlp是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。Hanlp具备功能完善、性能高效、架构清洗、语料时新、可自定义的特点;提供词法分析(中文分词、磁性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。本篇将用户输入的语句根据词库进行分词、... 全文

2018-09-19 13:11 来自版块 - 网络技术

一、Hadoop是什么?首次听到hadoop这次单词,相信很多人跟我当时是一样,不免心中画上一个大大的问号——这是什么东西?Hadoop是什么?百度百科的解释是:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。换句话说就是hadoop是一个能够对大量数据进行分布... 全文

2018-09-18 11:49 来自版块 - 网络技术

“学习hadoop需要什么基础”这已经不是一个新鲜的话题了,随便上网搜索一下就能找出成百上千篇的文章在讲学习hadoop需要掌握的基础。再直接的一点的问题就是——学Hadoop难吗?用一句特别让人无语的话回答就是:难不会,会不难!趁着学校放假的时间,写了一些hadoop学习分享的... 全文

2018-09-13 11:46 来自版块 - 网络技术


返回顶部