- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据文摘作品
编译:糖竹子、吴双、钱天培
自然语言处理(NLP )是一种艺术与科学的结合,旨在从文本
数据中提取信息。在它的帮助下,我们从文本中提炼出适用于计算机算法的信息。从自动
翻译、文本分类到情绪分析,自然语言处理成为所有数据科学家的必备技能之一。
在这篇文章中,你将学习到最常见的 10 个 NLP 任务,以及相关资源和代码。
为什么要写这篇文章?
对于处理 NLP 问题,我也研究了一段时日。这期间我需要翻阅大量资料,通过研究报告,博客和同
类 NLP 问题的赛事内容学习该领域的必威体育精装版发展成果,并应对 NLP 处理时遇到的各类状况。
因此,我决定将这些资源集中起来,打造一个对 NLP 常见任务提供必威体育精装版相关资源的一站式解决方案。
下方是文章中提到的任务列表及相关资源。那就一起开始吧。
目录:
1. 词干提取
2. 词形还原
3. 词向量化
4. 词性标注
5. 命名实体消岐
6. 命名实体识别
7. 情感分析
8. 文本语义相似分析
9. 语种辨识
10. 文本总结
1. 词干提取
什么是词干提取?词干提取是将词语去除变化或衍生形式,转换为词干或原型形式的过程。词干提取
的目标是将相关词语还原为同样的词干,哪怕词干并非词典的词目。例如,英文中:
1.beautiful 和 beautifully 的词干同为 beauti
2.Good,better 和 best 的词干分别为 good,better 和 best 。
相关论文:Martin Porter 的波特词干算法原文
相关算法:在 Python 上可以使用 Porter2 词干算法
(/martin/PorterStemmer/def.txt)
程序实现:这里给出了在 pyt hon 的 stemming 库中使用
( /mchaput/stemming/src/5c242aa592a6
d4f0e9a0b2e1afdca4fd757b8e8a/stemming/porter2.py?at=d
efaultfileviewer=file-view-defau lt)
Porter2 算法做词干提取的代码:
#!pip install stemmingfrom stemming.porter2 import stemstem(casually)
2. 词形还原
什么是词形还原? 词形还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑到了
POS 问题,即词语在句中的语义,词语对相邻语句的语义等。例如,英语中:
1.beautiful 和 beautifully 被分别还原为 beautiful 和 beau tifully 。
2.good , better 和 best 被分别还原为 good , good 和 goo d
相关论文 1: 这篇文章详细讨论了词形还原的不同方法。想要了解传统词形还原的工作原理必读。
(http://www.ij /do wnlo ads/icatest2015/ICATEST - 2 015127.pdf)
相关论文 2: 这篇论文非常出色,讨论了运用深度学习对变化丰富的语种做词形还原时会遇到的问题。
(/dsh/article - abstract/doi/10.1093/llc/f q w034/266979 0/Lemmatization - fo
r - v ariation - rich - languages - u sing)
数据集: 这里是 Treebank - 3 数据集的链接,你可以使用它创建一个自己的词形还原工具。
(/ldc99t42)
程序实现 :下面给出了在 spacy 上的英语词形还原代码
#!pip install spacy
#python -m spacy download en
import spacy
nlp=spacy.load(en)
doc=good better best
for token in nlp(doc):
print(token,token.lemma_)
3. 词向量化
什么是词向量化?词向量化是用一组实数构成的向量代表自然语言的叫法。这种技术非常实用,因为
电脑无法处理自然语言。词向量化可以捕捉到自然语言和实数间的本质关系。通过词向量化,一个词
语或者一段短语可以用一个定维的向量表示,例如向量的长度可以为 100 。
例如:“Man” 这个词语可以用一个五维向量表示。
这里的每个数字代表了词语在某个特定方向上的量级。
相关博文:这篇文章详细解释了
您可能关注的文档
- haccp和李斯特菌的控制资料.ppt
- hay(合益)_-_华为组织气氛建设培训课程资料.ppt
- hil-eicc-024 保护隐私管理程序_01资料.doc
- hlw8012用户手册资料.pdf
- hp c3000刀箱hp 1-10gb-f vc-ent module模块的简单网络配置资料.pdf
- hp proliant dl380 gen9 服务器用户指 南资料.pdf
- hp战略管理资料.ppt
- hr常见问题之四、hr工作中最常遇到的50个离职风险难题资料.pdf
- hsf变更管理程序(2017版)资料.doc
- iatf 16949 2016版过程关系乌龟图-23个过程资料.pdf
- 2024精简护肤洁面趋势报告-TMIC-30正式版.doc
- 2024捕捉华夏民族珍味-咸味主食与咸味零食创新机遇报告-25正式版.doc
- 2024年秋季部编版小学道德与法治二年级上册全册课件PPT必威体育精装版.pptx
- 部编版第十一册第四单元拓展提高教学课件.ppt
- 2024年秋季新西师大版一年级上册数学全册教学课件(新版教材).pptx
- 2024年秋新人教版一年级上册数学全册教学课件(新版教材).pptx
- 2024年秋季新人教版数学一年级上册全册教学课件(新版教材).pptx
- 2024年秋季新人教版数学一年级上册全册课件(新版教材).pptx
- 2024年秋季新人教版一年级上册数学全册教学课件(新版教材).pptx
- 2024年秋季新人教版一年级上册数学全册课件(新版教材).pptx
文档评论(0)