- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
NLP入门实战必读:一文教会你最常见的10种自然语言处理技术(附代码)
大数据文摘作品
编译:糖竹子、吴双、钱天培
自然语言处理(NLP )是一种艺术与科学的结合,旨在从文本
数据中提取信息。在它的帮助下,我们从文本中提炼出适用于计算机算法的信息。从自动
翻译、文本分类到情绪分析,自然语言处理成为所有数据科学家的必备技能之一。
在这篇文章中,你将学习到最常见的 10 个 NLP 任务,以及相关资源和代码。
为什么要写这篇文章?
对于处理 NLP 问题,我也研究了一段时日。这期间我需要翻阅大量资料,通过研究报告,博客和同
类 NLP 问题的赛事内容学习该领域的必威体育精装版发展成果,并应对 NLP 处理时遇到的各类状况。
因此,我决定将这些资源集中起来,打造一个对 NLP 常见任务提供必威体育精装版相关资源的一站式解决方案。
下方是文章中提到的任务列表及相关资源。那就一起开始吧。
目录:
1. 词干提取
2. 词形还原
3. 词向量化
4. 词性标注
5. 命名实体消岐
6. 命名实体识别
7. 情感分析
8. 文本语义相似分析
9. 语种辨识
10. 文本总结
1. 词干提取
什么是词干提取?词干提取是将词语去除变化或衍生形式,转换为词干或原型形式的过程。词干提取
的目标是将相关词语还原为同样的词干,哪怕词干并非词典的词目。例如,英文中:
1.beautiful 和 beautifully 的词干同为 beauti
2.Good,better 和 best 的词干分别为 good,better 和 best 。
相关论文:Martin Porter 的波特词干算法原文
相关算法:在 Python 上可以使用 Porter2 词干算法
(/martin/PorterStemmer/def.txt)
程序实现:这里给出了在 pyt hon 的 stemming 库中使用
( /mchaput/stemming/src/5c242aa592a6
d4f0e9a0b2e1afdca4fd757b8e8a/stemming/porter2.py?at=d
efaultfileviewer=file-view-defau lt)
Porter2 算法做词干提取的代码:
#!pip install stemmingfrom stemming.porter2 import stemstem(casually)
2. 词形还原
什么是词形还原? 词形还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑到了
POS 问题,即词语在句中的语义,词语对相邻语句的语义等。例如,英语中:
1.beautiful 和 beautifully 被分别还原为 beautiful 和 beau tifully 。
2.good , better 和 best 被分别还原为 good , good 和 goo d
相关论文 1: 这篇文章详细讨论了词形还原的不同方法。想要了解传统词形还原的工作原理必读。
(http://www.ij /do wnlo ads/icatest2015/ICATEST - 2 015127.pdf)
相关论文 2: 这篇论文非常出色,讨论了运用深度学习对变化丰富的语种做词形还原时会遇到的问题。
(/dsh/article - abstract/doi/10.1093/llc/f q w034/266979 0/Lemmatization - fo
r - v ariation - rich - languages - u sing)
数据集: 这里是 Treebank - 3 数据集的链接,你可以使用它创建一个自己的词形还原工具。
(/ldc99t42)
程序实现 :下面给出了在 spacy 上的英语词形还原代码
#!pip install spacy
#python -m spacy download en
import spacy
nlp=spacy.load(en)
doc=good better best
for token in nlp(doc):
print(token,token.lemma_)
3. 词向量化
什么是词向量化?词向量化是用一组实数构成的向量代表自然语言的叫法。这种技术非常实用,因为
电脑无法处理自然语言。词向量化可以捕捉到自然语言和实数间的本质关系。通过词向量化,一个词
语或者一段短语可以用一个定维的向量表示,例如向量的长度可以为 100 。
例如:“Man” 这个词语可以用一个五维向量表示。
这里的每个数字代表了词语在某个特定方向上的量级。
相关博文:这篇文章详细解释了
您可能关注的文档
- 5.-血管损伤--张英泽.ppt
- 7-11去年的树(吴琳).ppt
- 7.蟋蟀的住宅【第2课时】.ppt
- 7.《妈妈睡了》.ppt
- 8-9章习题答案.doc
- 9.植物种质资源的离体保存(植物组织培养).doc
- 8、腾讯职级薪酬标准及标杆对比.pdf
- 9-Samba服务器配置.ppt
- 8世说新语二则(正式).pptx
- 9、夜书所见古诗意思.ppt
- 2024高考物理一轮复习规范演练7共点力的平衡含解析新人教版.doc
- 高中语文第5课苏轼词两首学案3新人教版必修4.doc
- 2024_2025学年高中英语课时分层作业9Unit3LifeinthefutureSectionⅢⅣ含解析新人教版必修5.doc
- 2024_2025学年新教材高中英语模块素养检测含解析译林版必修第一册.doc
- 2024_2025学年新教材高中英语单元综合检测5含解析外研版选择性必修第一册.doc
- 2024高考政治一轮复习第1单元生活与消费第三课多彩的消费练习含解析新人教版必修1.doc
- 2024_2025学年新教材高中英语WELCOMEUNITSectionⅡReadingandThi.doc
- 2024_2025学年高中历史专题九当今世界政治格局的多极化趋势测评含解析人民版必修1.docx
- 2024高考生物一轮复习第9单元生物与环境第29讲生态系统的结构和功能教案.docx
- 2024_2025学年新教材高中英语UNIT5LANGUAGESAROUNDTHEWORLDSect.doc
文档评论(0)