hadoop小学生
精灵王
精灵王
  • 注册日期2018-09-13
  • 发帖数160
  • QQ3234520070
  • 火币360枚
  • 粉丝0
  • 关注0
阅读:5527回复:0

NLP自然语言处理中英文分词工具集锦与基本使用介绍

楼主#
更多 发布于:2019-05-31 11:31
一、中文分词工具

1)Jieba

图片:图1.png


2)snowNLP分词工具

图片:图2.png


3)thulac分词工具

图片:图3.png


4)pynlpir 分词工具

图片:图4.png


5)StanfordCoreNLP分词工具
1.from stanfordcorenlp import StanfordCoreNLP
2.with StanfordCoreNLP(r'E:\Users\Eternal Sun\PycharmProjects\1\venv\Lib\stanford-corenlp-full-2018-10-05', lang='zh') as nlp:
3.    print("stanfordcorenlp分词:\n",nlp.word_tokenize(Chinese))
6)hanlp分词工具

图片:图5.png


分词结果如下:

图片:图6.png


二、英文分词工具

1. NLTK:

图片:图7.png


二者之间的区别在于,如果先分句再分词,那么将保留句子的独立性,即生成结果是一个二维列表,而对于直接分词来说,生成的是一个直接的一维列表,结果如下:

图片:图8.png


2. SpaCy:

图片:图9.png


3. StanfordCoreNLP:

图片:图10.png


分词结果

图片:图11.png


喜欢0 评分0
DKHadoop用着还不错!
游客

返回顶部