如何在java中去除中文文本的停用词

楼主^#

更多发布于：2019-04-30 09:32


	1. 整体思路第一步：先将中文文本进行分词，这里使用的hanlp-汉语言处理包进行中文文本分词。第二步：使用停用词表，去除分好的词中的停用词。 2. 中文文本分词环境配置使用的HanLP-汉语言处理包进行中文文本分词。 ·HanLP-汉语言处理包下载，可以去github上下载 ·HanLP 的环境配置有两种方式：方式一、Maven；方式二、下载jar、data、hanlp.properties。 ·官方环境配置步骤也可以在github上查询到。 ·环境配置好后，java使用HanLP进行中文分词文档如下：hanlp.linrunsoft.com/doc.html 3. 下载停用词表停用词表可以去百度或者其他搜索引擎检索一份，很容易就找到！ 4. 去除停用词工具类使用这个工具类的之前，请先完成中文文本分词环境配置，并测试一下。停用词 .txt 文件路径请修改为自己的本地路径。图片：图1.jpg 图1 5. 工具类测试 5.1 测试代码 public class test { public static void main(String args[]) { try { System.out.println(FormatUtil.RemovalOfStopWords("床前明月光，疑是地上霜。举头望明月，低头思故乡。")); } catch (IOException e) { e.printStackTrace(); } } 5.2 测试结果图片：图2.jpg