- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
文本进行预处理的相关理论和技术综述
目录
TOC\o1-2\h\u3281文本进行预处理的相关理论和技术综述 1
302211.1文本预处理 1
42761.1.1数据收集 1
170501.1.2文本分词 2
226641.1.3文本去噪 3
164621.1.4文本特征处理 4
181731.1.5文本向量化 5
22631.2基于情感词典的情感分类 7
209341.3基于机器学习的情感分类 8
232811.3.1支持向量机分类算法 8
95281.3.2朴素贝叶斯 10
81931.3.3逻辑回归 11
168911.4基于深度学习的情感分类 11
19171.4.1卷积神经网络 11
198021.4.2循环神经网络 12
本章主要介绍本文所涉及和使用的相关理论基础,包括对文本进行预处理的相关理论和技术,基于兴趣词典的情感分类方法,基于机器学习的情感分类方法以及基于深度学习的情感分类方法。在文本预处理部分主要介绍了文本特点、数据收集、文本去噪、文本特征处理以及文本向量化所涉及的关键技术。
情感分类是近年来自然语言处理领域中较为火热的研究领域,加之深度学习理论的不断发展和完善,运用深度学习的方法进行情感分类研究逐渐受到研究者的青睐。本章主要从兴趣词典方向、机器学习方向和当下深度学习背景下情感分类使用到的主要方法与相关理论,包括支持向量机、朴素贝叶斯、逻辑回归、神经网络、长短时记忆神经网络(卷积神经网络)、以及循环神经网络。
1.1文本预处理
文本预处理主要作用是去除一些会影响分类器性能的无用文本并将输入文本处理成可以识别的格式,而在目前自然语言处理领域中,这些步骤被划分为正则化、分词、去停用词、特征处理以及文本向量化。下面将分别介绍这些步骤涉及的基本理论及主要方法。
1.1.1数据收集
巧妇难为无米之炊,数据的收集工作是进行自然语言处理相关研究的首要工作,可能也会耗费相当长一段时间。获得数据集的方式无非就是两种,使用开源的数据集和自己构建数据集。在进行机器学习或深度学习任务时大概率会遇到需要自建数据集的情况。自建数据集时,通常使用爬虫的方式获取原始数据,爬虫的过程可以简述为使用技术手段获取带有目标数据的HTML原始数据,然后对HTML数据进行解析并提取出目标数据。有很多开源的爬虫工具库可供使用,如分布式爬虫框架Scrapy和解析工具BeautifulSoup库。爬取到的数据比较原始,到形成数据集还需经过多次文本处理操作。
1.1.2文本分词
文本分词即将语句切分成若干单元的过程,无论是基于哪种情感分类方法,都要先对语句进行一定的处理,将一句话转换为多个词语,是将自然语言转化到数学语言进行处理的必要步骤。按照分词的算法原理可以将分词算法划分为传统的词典匹配、基于概率统计的分词算法和基于语义理解的分词算法[8]。基于词典的分词方法简单粗暴,在覆盖度和灵活性上面欠佳。基于概率统计的分词算法目前使用的最为广泛,效果也很不错,如常用的jieba分词工具就是基于这种方法。基于语义理解的分词算法,就是训练具有语义理解功能的算法模型,基于模型对语句语义的理解,切分出构成语句的最小单元。
Jieba分词是一个国产的优秀开源分词工具,也是目前中文环境下最优秀的分词工具之一,该分词工具基于Trie树结构来快速的构建出所有可能的词组合,并使用快速的路径查找算法寻找出现频率最高的词组合。其分词的过程可以做如下描述,jieba使用相关算法将输入字符串切分出多种可能的词序列,然后进行寻找最优的词组,数学表达如下:
(1.1)
计算条件概率和,然后将概率大的值作切分方案。由贝叶斯公式可得式(1.2):
(1.2)
在求某个切分方案中,为了使最大,首先假设每个词之间的概率上下无关,则可得式(1.3):
(1.3)
对于不同的s,m的值也不同,即文本中分出的词m越多,P(S)的概率越小,当多个很小的概率相乘时,会出现向下溢出变为0的情况,因此需要取单调递增函数,即如下式:
(1.4)
其中,,因此可得式(1.5):
(1.5)
1.1.3文本去噪
文本去噪是找到数据集中对于情感分类无意义的信息并删除。由于情感分类技术是通过对于文本中的情感词进行情感分类的,而直接获取的文本中通常含有
您可能关注的文档
- 【H省第三方物流企业发展现状、问题及完善对策研究(数据图表论文)9300字】.docx
- 【S股份有限公司财务风险问题研究开题报告(含提纲)2900字】.doc
- 【S林化厂成本控制存在的问题及完善对策研究(数据图表论文)9600字】.docx
- 【S社区文化建设现状及对策研究2200字】.docx
- 【比亚迪集团应收账款管理存在的问题及完善对策研究9100字】.docx
- 【不良天气对S站调车作业安全影响及对策研究开题报告(含提纲)960字】.docx
- 【财务报表分析课程论文:三全食品财务报表分析】.docx
- 【大数据在广东万和电气企业管理会计中的应用分析8700字】.docx
- 【大学语文课程期末考查报告2200字】.docx
- 【地方企业人才引进机制问题及完善对策研究8600字】.docx
文档评论(0)