安装NLTK Data

夏天老师

发表文章数:435

热门标签

,
首页 » 安装包 » 正文

nltk库是python语言为自然语言处理提供的一个功能强大,简单易用的函数库,是学习和进行自然语言处理工作的出色工具,这里加少一下nltk模块的安装和简单使用。

由于大多数小伙伴都无法通过线上安装,所以这里主要介绍如何离线导入

NLTK离线安装

1. 获取安装包

两种获取安装包的方式
1. 直接在学习群里跟老师沟通提供安装包
2. 需要在Github上下载nltk_data-gh-pages.zip文件,并将文件夹中的packages文件夹重新命名为nltk_data

2. 放置nltk_data文件

nltk_data放置在以下任意一个路径下即可。

Win
– C:\\Users\\……\\nltk_data
– C:\\nltk_data
– D:\\nltk_data
– E:\\nltk_data
– D:\\Anaconda\\nltk_data
– D:\\Anaconda\\lib\\nltk_data
– C:\\Users\\……\\AppData\\Roaming\\nltk_data

安装NLTK Data

Mac
– /Users/guodaxiong/anaconda3/nltk_data

安装NLTK Data

3. Demo

下面就可以用nltk愉快的进行自然语言处理编程了。
1. 首先测试分词和词性标注

>>> import nltk
>>> sentence = """At eight o'clock on Thursday morning
... Arthur didn't feel very good."""
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['At', 'eight', "o'clock", 'on', 'Thursday', 'morning',
'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']
>>> tagged = nltk.pos_tag(tokens)
>>> tagged[0:6]
[('At', 'IN'), ('eight', 'CD'), ("o'clock", 'JJ'), ('on', 'IN'),
('Thursday', 'NNP'), ('morning', 'NN')]
  1. 命名实体识别
>>> entities = nltk.chunk.ne_chunk(tagged)
>>> entities
Tree('S', [('At', 'IN'), ('eight', 'CD'), ("o'clock", 'JJ'),
           ('on', 'IN'), ('Thursday', 'NNP'), ('morning', 'NN'),
       Tree('PERSON', [('Arthur', 'NNP')]),
           ('did', 'VBD'), ("n't", 'RB'), ('feel', 'VB'),
           ('very', 'RB'), ('good', 'JJ'), ('.', '.')])
  1. 语法解析树
>>> from nltk.corpus import treebank
>>> t = treebank.parsed_sents('wsj_0001.mrg')[0]
>>> t.draw()

安装NLTK Data

4. 参考链接

  1. Github:nltk/nltk_data
  2. 离线安装NLTK Data
  3. python nltk库的安装和简单使用
  4. nltk安装punkt包的MAC系统下离线安装方法

未经允许不得转载:作者:夏天老师, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《安装NLTK Data》 发布于2021-07-07

分享到:
赞(1) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录