- 1、本文档共39页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2.5让机器能理解会思考
;了解自然语言处理技术的基本概念
理解自然语言处理技术的基本方法
探讨自然语言处理技术的应用案例;什么是自然语言处理技术?这一技术跟前面所学的智能语音技术有什么关联?
自然语言处理(NaturalLanguageProcessing,NLP)是指利用计算机对人类特有的书面形式和口头形式的自然语言进行各种处理和加工。语音识别技术可以将语音转换为文字,让机器“听见”我们说的话。;本节学习的自然语言处理技术要解决语音识别中遇到的同音字词、词语歧义、方言、口音、噪声等问题,试图让机器“听懂”我们说话。在实际应用中,我们经常将智能语音技术和自然语言处理技术结合应用,实现人机对话、机器翻译等应用。;语言是具有特定语法结构的指令,通过它能够实现人与人之间、机器与机器之间、甚至人与机器之间的信息传递。人类日常沟通的语言是自然演化而来的,通常称之为自然语言,普通话、方言皆是自然语言。;要用自然语言与计算机交流,计算机既要理解自然语言的含义,也要用自然语言来表达意图和思想。前者称为自然语言理解技术,后者称为自然语言生成技术。;机器翻译技术就是自然语言处理技术中的一种,它能让计算机把一种语言翻译为另外一种语言。在机器翻译过程中,计算机首先需要理解输入句子的含义,然后根据含义进行翻译,并根据翻译结果生成另外一种语言的句子。如果添加语音识别和语音合成功能,就可以实现口语翻译(口译)。;如图2-5-1展示了口译过程。它首先利用语音识别技术将口语转换成句子,然后再利用机器翻译技术把句子翻译成其他语言的语句,最后再利用语音合成技术把翻译结果朗读出来。;请同学们上网查找一个机器翻译平台,将下表中的英文翻译为中文,中文翻译为英文。;我们以中文为例,讲述与自然语言理解相关的基本技术、过程和方法。在自然语言理解中,主要的任务包括自动分词、词性标注、句法分析、语义分析等任务。
自动分词是指找出句子中的单词。
词性标注是获得每个词的词性。
句法分析的目的是分析句子的语法功能。
语义分析的目的是理解句子中词的含义。;1.自动分词
词是最小的能够独立运用的语言单位,自然语言处理是以词为单位进行书面语言的处理。中文句子由词组成,一个词既可以是一个汉字,也可以是多个汉字。让计算机判断出句子中的词的过程叫自动分词,它是自然语言处理的基础。;以“少先队员应邀到北京天安门广场看升旗”为例,分词的输入是一整个句子;分词的输出则是用分界符,比如“/”或者“│”分割的一串词:少先队员/应邀/到/北京/天安门广场/看/升旗。如何让计算机自动分词呢?最简单的办法就是“查字典”。;“查字典”的方法,就是把一个句子从左向右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如“北京大学”)就找最长的词匹配,遇到不认识的字串就分割成单字词,这样就完成了简单的分词任务。;“查字典”的方法可以解决大部分简单的分词问题。但是,当遇到稍微复杂一点的问题就无能为力了。比如,对短语“发展中国家”,正确的分词是“发展/中/国家”,而采用从左向右“查字典”的办法就会错分成“发展/中国/家”。对此,研究人员运用基于统计的方法,成功地解决了类似“发展中国家”这样的自然语言中有歧义性的分词问题。;基于统计的分词方法是对中文文本进行信息标注(如当前字是词头、词中、词尾,或单字词),然后设定好分词的特征,最后对这些标注数据进行训练,得到分词模型。这种分词方法能够考虑到字词前后之间的联系,模型学习能力较强。;2.词性标注与句法分析
在自动分词的基础上,我们可以对自然语言进行进一步的处理,利用词性标注来获得每个词的词性,在此基础上,利用句法分析获得句子的成分结构。;在这里,我们给出一个例子来帮助同学们理解词性标注和句法分析。
例句:小明喜欢数学。
这个句子可以分为主语、谓语、宾语和句号四部分。对每个部分进行分析,可以得到如图2-5-2所示的句子成分结构(或称为“语法树图”)。;句法分析方法有两类:基于规则的方法和基于统计的方法。早期人们采用基于规则的方法,通过提前建立的规则分析句子结构。这种方法在处理复杂句或者不规则的句子时容易出错且计算量大。于是,科学家们又提出了基于统计的方法,能够有效地降低计算量并提高准确率。;请根据自己的理解对下面的句子进行划分,并思考划分方式是否是唯一的。
句子1:白天鹅在湖里游泳。
句子2:学生会采取行动。
句子3:乒乓球拍卖完了。;3.词义消歧
词是句子的基本单位,但是一词多义是语言中十分普遍的
您可能关注的文档
- +1.1+《认识智能机器人》课件+2024—2025学年甘教版(2022)初中信息技术八年级下册.pptx
- +1.2《建构开源机器人》课件+2024—2025学年甘教版(2022)初中信息技术八年级下册.pptx
- +1.3《让机器人动起来》课件+2024—2025学年甘教版(2022)初中信息技术八年级下册.pptx
- +1.4《机器人走迷宫》课件+2024—2025学年甘教版(2022)初中信息技术八年级下册.pptx
- +1.5《循迹机器人》课件+2024—2025学年甘教版(2022)初中信息技术八年级下册.pptx
- +1.9《无人机自动跟随》课件++2024—2025学年甘教版(2022)初中信息技术八年级下册.pptx
- +2.1《认识人工智能》课件++2024—2025学年甘教版(2022)初中信息技术八年级下册.pptx
- +2.2《让机器懂得学习》课件++2024—2025学年甘教版(2022)初中信息技术八年级下册.pptx
- +2.3《让机器能听会说》课件++2024—2025学年甘教版(2022)初中信息技术八年级下册.pptx
- +2.4《让机器能看会认》课件+2024—2025学年甘教版(2022)初中信息技术八年级下册.pptx
最近下载
- 【162高分学姐成公资料】数量关系-基础知识及技巧-10页.pdf VIP
- 海达宁产品介绍和猪场高效驱虫方案.ppt
- 2021-2024年新高考数学真题考点分布汇总 新课标全国I卷.pdf
- 二十届中纪委四次全会公报微党课课件.ppt VIP
- 部编版语文(统编人教)五年级下册第一单元完整教案 .pdf VIP
- 《二十届中纪委四次全会》微党课课件.ppt VIP
- ISO 11243-2023中文-自行车-自行车行李架 -要求和试验方法.pdf
- 中学数学教学设计:中学数学专题复习课教学设计PPT教学课件.pptx
- 夯土墙(仿古土墙)专项施工方案.docx
- 2025年节后复工开工第一课PPT(开工安全生产培训).ppt
- 课件制作、方案代写能手 + 关注
-
实名认证服务提供商
教师资格证持证人
专业写作,多年写作经验,专业代写撰写文章、演讲稿、文稿、文案、申请书、简历、协议、ppt、汇报、报告、方案、策划、征文、心得、工作总结代写代改写作服务
文档评论(0)