- 1、本文档共79页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
必威体育精装版中文信息处理复习提纲.ppt
* 现有分词歧义消解方法的不足 交集型歧义消解 基于记忆的方法简单有效,但这是一种颗粒度极细的语言知识,难以大幅度提高其覆盖度(据报道只能覆盖50%)。 基于词频的方法没有考虑单字词词频,有时会导致错误的选择。 组合型歧义消解 穷尽组合型歧义字串是一个困难的任务。 每种组合型字串的歧义消解知识都是个性化的,无法推广到其他字串。 * N元模型(Ngram) N元模型认为,状态序列中的某个状态是否出现,只与它前面的N-1个状态有关(马尔科夫假设)。 N元模型求序列W的概率时,是在概率乘法定理基础上的简化。大大减少了计算量,缓解了数据稀疏问题。 马尔科夫假设并不完全符合语言实际。这既是模型的一个缺点,但同时也是为了实用而付出的必要代价。 * Ngram举例 从词串“提高 人民 生活 水平”中,可提取: Bigrams:提高 人民,人民 生活,生活 水平 Tigrams:提高 人民 生活,人民 生活 水平 从字串“提高人民生活水平”中,可提取: Bigrams:提高,高人,人民,民生,生活, 活水,水平 Tigrams:提高人,高人民,人民生,民生活, 生活水,活水平 * N元模型可以做什么? N元模型用于解决序列构成问题。例如: 汉字识别后处理,由于每个位置上是什么汉字都可能有多种选择,因此可构成多种汉字序列。问题是,哪种汉字序列是正确的? 中文自动分词,由哪些候选词构成词序列,虽然有一些限制,但仍然有许多选择。问题是,哪种词序列是正确的? 命名实体(Named Entity) 命名实体是一种专指性词项。它有五种特性: 指称性:用来指示或称说某些事物,以便将这些事物跟其他事物区分开来。不是所有的词语都有指称性,例如形容词表示事物的性质,动词表示动作或行为。代词、名词通常都有指称性。 专门性:专门用来指示或称说某一个事物,以便将这个事物跟同类的其他事物区分开来。例如,“教授”、“年轻的教授”都是对一类人的指称,而“李教授”则是对某一个姓李的教授的指称。(注意, “李教授”绝不是对所有姓李的教授的指称)。 命名实体(续) 词汇性:命名实体属于词汇,词汇成员包括词和固定词组。组织名通常是固定词组,固定词组中一般不含虚词。凭句法手段构造的自由词组也可用来指称某个个体,例如,“这粒沙子。这些自由词组不属于词汇,当然也不是命名实体。 开放性:命名实体是词汇中最直接反映客观世界变化的部分。新事物不断产生,而且往往对我们特别有重要性,需要命名,所以命名实体的数量往往非常庞大,而且层出不穷,难以胜数。 可替换性:每一类(或每一小类)中的命名实体之间是可以替换的。替换之后语法上、语义上仍然是成立的,尽管可能不符合事实。 命名实体识别的意义 命名实体识别(Named Entity Recognition):将文本中表示命名实体的词或词序列标注出其所属类别,如人名、地名、机构名等等。 未登录词中,命名实体是重要的组成部分,并且许多命名实体是开放类,无法穷尽登录的。做好命名实体识别,有助于提高未登录词识别的正确率和召回率。 命名实体识别的评测 命名实体:人名、地名、组织机构名、商标品牌名、外族人名、地名的汉译名、日期、时间、数字,等等。 2004年863命名实体识别评测最好成绩:总F值0.82,地名0.83,人名0.86,机构名0.61,日期0.85,时间0.85,数字0.93. 由上可以看出,在各类命名实体中,数字识别最容易,机构名识别最困难(因为机构名往往是由多个词语组成)。 命名实体识别的可用特征 命名实体(例如人名)常常有连续出现的情况,如果其中某个已经被识别为命名实体,利用搭配约束可提高识别其余命名实体的效果。 一个命名实体往往在初次出现时具有较丰富的上下文特征,以后出现时则不一定总带着这些特征。利用篇章约束可以提高其后续出现的识别效果。 * 熵的计算 例:掷硬币有两种结果,假定正面朝上和反面朝上的概率都是0.5;掷骰子有6种结果,假定每种结果的概率都是1/6。掷硬币的结果与掷骰子的结果这两个随机变量的熵孰大孰小? 解:H(掷硬币)=-2(0.5log0.5)=log2=1.0 H(掷骰子)=-6((1/6)log(1/6))=log6=2.58 掷骰子的结果这个随机变量的熵较大。由此可见,随机变量的分布同样均匀时,分布越广的,熵越大。 * 熵的计算 例:据统计,“间”读阴平的概率是0.97,读去声的概率是0.03;“藏”读zang4的概率是0.56,读cang2的概率是0.44。“间”的读音和“藏”的读音这两个随机变量孰大孰小? 解:H(“间”的读音) =-0.97log0.97-0.03log0.03 = 0.19 H(“藏”的读音) =-0.56log0.56-0.44log0.44 = 0.99 “藏”的读音
您可能关注的文档
- 必威体育精装版中国金融在线(金融界)公司简介(PPT模板).ppt
- 必威体育精装版中国银行创新跨境人民币业务介绍...ppt
- 必威体育精装版中国银行高山案.ppt
- 必威体育精装版中国长寿之乡〈上〉.ppt
- 必威体育精装版中国长寿之乡〈下〉.ppt
- 必威体育精装版中国非处方药管理相关法规和技术评价发展夏东胜.ppt
- 必威体育精装版中国风室内设计答辩ppt.ppt
- 必威体育精装版中国风电讲义...ppt
- 必威体育精装版中国高血压管理3G新时代.ppt
- 必威体育精装版中国高血压防治指南的进步与发展.ppt
- 2024年非接触温度计项目资金申请报告代可行性研究报告.docx
- 工作任务自动变速器油检查及更换.pdf
- 2024年桌面云项目资金需求报告代可行性研究报告.docx
- 2024年硬面堆、药芯焊线项目资金需求报告代可行性研究报告.docx
- 2024年影视发行项目资金申请报告代可行性研究报告.docx
- 2024年羟丙甲纤维素项目资金筹措计划书代可行性研究报告.docx
- 汽车养护知识培训课件.pptx
- 2024年苄胺项目项目投资申请报告代可行性研究报告.docx
- 2025年广州华南商贸职业学院高职单招职业技能测试近5年常考版参考题库含答案解析.docx
- 2024年碳化硅陶瓷纤维项目项目投资申请报告代可行性研究报告.docx
文档评论(0)