- 1、本文档共30页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
《人工智能应用基础》项目五:你的评论表达你的喜好
任务描述☆文本情感分析输入一段客户评价文字,对文字进行分析,了解客户满意度
知识目标素质目标(1)培养学生吃苦耐劳的品质(2)培养学生团队协作、互相帮助的精神(3)提高学生全面、系统考虑问题的意识。1.了解文本分析的基本流程了解分词、词向量的概念和作用理解文本分类的应用能力目标认识中文分词的过程掌握词向量的表示方法掌握使用深度学习进行文本分类的方法
5.1了解中文分词5.2理解文本表示5.3了解文本分类模型5.4应用
5.1了解中文分词为什么需要中文分词?自然语言人工语言人类社会约定俗成程序设计语言/机器语言汉语,英语等C++,Java,Python等简洁长度和规则上都会有一定的冗余含糊、歧义无二义性如果李春来到了无锡,我请他吃饭。
5.1了解中文分词分词:WordSegmentation在自然语言处理中,英文文本具有天然的空格作为区分,但是中文没有明显的分隔符,因此需要对中文进行分词。单词是语义的基本单位,句子和文档都由大量单词构成。中文分词指将中文语句切分成一个个单独的词语。即将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列。
5.1了解中文分词分词:WordSegmentation
5.1了解中文分词常用的分词工具现有的分词方法可分为三大类:基于字符串匹配的分词方法;基于理解的分词方法;基于统计的分词方法。
5.1了解中文分词常用的分词工具jieba分词:支持三种模式:(1)精确模式:试图将句子最精确地切开,适合文本分析;(2)全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;(3)有哪些信誉好的足球投注网站引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于有哪些信誉好的足球投注网站引擎分词。
5.1了解中文分词案例
5.1了解中文分词常用的分词工具SnowNLPTHULACNLPIR分词系统
5.1了解中文分词5.2理解文本表示5.3了解文本分类模型5.4应用
5.2理解文本表示机器无法直接识别人类语言,更不能对输入的非结构化文本数据直接进行处理。所以重要的一步就是将非结构化文本数据转化为计算机可以识别和处理的结构化数据,然后才能进行下一步任务,这一步称为文本表示。为什么需要文本表示?
5.2理解文本表示文本表示的两种方法1.独热表示独热表示:将文本中的词以高维向量的形式表示,从而将对文本的处理转化为向量空间中的向量运算。其中,词表中包含我们需要的所有词,以词表的长度大小作为词向量的维度,向量中该词所在的位置取1,其余位置都用0表示。
5.2理解文本表示文本表示的两种方法1.独热表示存在三个问题有序性问题语义鸿沟维度灾难
5.2理解文本表示文本表示的两种方法2.分布式表示分布式表示:也被称为词嵌入,该方法通常将文本中的单词输入到某个预训练模型中进行训练,然后将其转换为连续的稠密向量。其依据是分布式假设,即拥有相同或相似上下文语境的词具有相同或相似的含义。
5.2理解文本表示西瓜呆瓜草莓“西瓜”在语义上更像“呆瓜”还是“草莓”呢?案例
5.2理解文本表示西瓜呆瓜草莓向量化表示:相似度计算:向量化表示:0.01805,0.46956,0.50758,-0.59865,....0.1858,0.0353,0.1479,0.2210,....0.2251,0.28621,0.0347,0.04131,.....0.1150.325词向量与语义相似度(WordEmbeddingSemanticSimilarity)对词汇进行向量化表示,并据此实现词汇的语义相似度计算向量化表示词汇,并计算词汇语义相似度
车头如何放置车牌前牌照怎么装如何办理北京牌照5.2理解文本表示
向量化表示:相似度计算:向量化表示:0.844,-0.0.039,-0.789,-0.499....0.355,0.238,-0.671,-0.743,....0.197,0.619,0.-0.849,-0.652,.....0.7620.486文本语义相似度(TextSemanticSimilarity)依托全网海量数据和深度神经网络技术,实现文本间的的语义相似度计算的能力车头如何放置车牌前牌照怎么装如何办理北京牌照向量化表示文本并计算语义相似度5.2理解文本表示
5.1了解中文分词5.2理解文本表示5.3了解文本分类模型5.4项目开发文字内容的情感倾向分析
5.3了解文本分类模型
5.3了解文本分类模型
5.3了解文本分类模型
5.1了解中文分词5.2理解文本表示5.3了解文本分类模型5.4应用
5.4应用词向量利用大数据和深度学习模型,将语
您可能关注的文档
- 大学生创新创业教育:创业计划PPT教学课件.pptx
- 大学生创新创业教育:创业者与创业团队PPT教学课件.pptx
- 大学生创新创业教育:创业资源PPT教学课件.pptx
- 盾构-TBM构造原理及维护保养:盾构构造原理PPT教学课件.pptx
- 盾构-TBM构造原理及维护保养:盾构机的维护保养PPT教学课件.pptx
- 跨境电商基础与实务:电商&国际贸易PPT教学课件.pptx
- 跨境电商基础与实务:电商的发展PPT教学课件.pptx
- 跨境电商基础与实务:电商结汇PPT教学课件.pptx
- 跨境电商基础与实务:卖家如何选择跨境电商平台PPT教学课件.pptx
- 人工智能基础与应用(高职):大数据挖掘PPT教学课件.pptx
- 中国国家标准 GB/T 45154-2024老龄化社会 年龄包容性劳动力通用要求与指南.pdf
- 《GB/T 45154-2024老龄化社会 年龄包容性劳动力通用要求与指南》.pdf
- 中国国家标准 GB/T 7019-2024纤维水泥制品试验方法.pdf
- GB/T 7019-2024纤维水泥制品试验方法.pdf
- GB/T 45150-2024老龄化社会 认知症包容性社群框架.pdf
- 中国国家标准 GB/T 25320.4-2024电力系统管理及其信息交换 数据和通信安全 第4部分:包含MMS的协议集及其附件.pdf
- 中国国家标准 GB/T 45150-2024老龄化社会 认知症包容性社群框架.pdf
- 《GB/T 25320.4-2024电力系统管理及其信息交换 数据和通信安全 第4部分:包含MMS的协议集及其附件》.pdf
- 《GB/Z 44938.1-2024机械电气安全 第1部分:用于保护人员安全的传感器》.pdf
- 中国国家标准 GB/T 21551.3-2024家用和类似用途电器的抗菌、除菌、净化功能 第3部分:空气净化器的特殊要求.pdf
最近下载
- 电力现货市场运营技术规范 第8部分:多周期电力电量平衡.pdf VIP
- 2024年苏锡通科技产业园区政府购买服务岗位(第三批次)招聘5名笔试备考试题及答案解析.docx VIP
- 单位非涉密计算机安全必威体育官网网址审计报告.doc
- 饲料样品的采样.pptx
- 主持人思维训练教程.pptx VIP
- 陕西省机关事业单位请假规定.doc VIP
- 雅马哈RXV590/RV901/RXV590RDS功放原理图.pdf
- 2024年国家义务教育质量监测四年级英语模拟练习试题附答案.doc
- 《区域电网多时间尺度电力供需平衡分析技术导则》.doc VIP
- 《苏州市轨道交通安全管理现状、问题及完善对策研究》4300字.doc
文档评论(0)