hadoop小学生
精灵王
精灵王
  • 注册日期2018-09-13
  • 发帖数160
  • QQ3234520070
  • 火币360枚
  • 粉丝0
  • 关注0
阅读:21468回复:0

如何在java中去除中文文本的停用词

楼主#
更多 发布于:2019-04-30 09:32

1.  整体思路
第一步:先将中文文本进行分词,这里使用的hanlp-汉语言处理包进行中文文本分词。
第二步:使用停用词表,去除分好的词中的停用词。
2.  中文文本分词环境配置
使用的HanLP-汉语言处理包进行中文文本分词。
·HanLP-汉语言处理包下载,可以去github上下载
·HanLP 的环境配置有两种方式:方式一、Maven;方式二、下载jar、data、hanlp.properties。
·官方环境配置步骤也可以在github上查询到。
·环境配置好后,java使用HanLP进行中文分词文档如下:hanlp.linrunsoft.com/doc.html
3.  下载停用词表
停用词表可以去百度或者其他搜索引擎检索一份,很容易就找到!
4.  去除停用词工具类
使用这个工具类的之前,请先完成中文文本分词环境配置,并测试一下。停用词 .txt 文件路径请修改为自己的本地路径。

图片:图1.jpg

1

5.  工具类测试
5.1  测试代码
public class test {
   public static void main(String args[]) {
       try {
           System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。举头望明月,低头思故乡。"));
       } catch (IOException e) {
           e.printStackTrace();
       }
   }

5.2  测试结果

图片:图2.jpg


喜欢0 评分0
DKHadoop用着还不错!
游客

返回顶部