网站大量收购独家精品文档,联系QQ:2885784924

计算机自然语言理解与处理的分析与批处理 甲兵时代原创.docVIP

计算机自然语言理解与处理的分析与批处理 甲兵时代原创.doc

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机自然语言理解与处理的分析与批处理 甲兵时代原创

计算机自然语言理解和处理的分析与批处理 甲兵时代原创 计算机自然语言理解和处理的分析与批处理(甲兵时代原创)_2010-09-16 18:46抗议百度把我的文章强行锁定私有!~!~! 计算机自然语言理解和处理分析 --给计算机一个依据,让机器人开口说话 甲兵时代原创 思考智能聊天机器人有一段时间了(现在日期,遇到的问题越来越多。有哪些信誉好的足球投注网站和下载了许多计算机与自然语言、人工智能和语言处理有关的资料,通过简略阅读,发现自己所走的每步都与当前的研究相吻合,现在总结如下: 一、如何让计算机懂得我输入的话? --专业叫做计算机自然语言理解,我最早的想法是利用批处理的截取技术提取每一个字,按规则提取两个、三个、四个和四个以上的词语,然后查字典,假如字典中存在该字词,那么就显示出来。这是基于字典存在则存在。这个字典可以使用任何TXT格式的新华字典,只要在行的开头能查到即可。但是许多字典都是十分落后的,它们无法收录更多的新词,意味着那些不在字典上的词语不能成为词语,也就无法被计算机理解了。 这是利用了批处理的截取技术,它需要一个基础,就是字典或词典。没有这个基础你是无法让计算机去理解它是一个什么词语的,再说中国汉语里面存在一个字的词、两个字的词、三个及三个以上字的词,计算机不能平白无故就能判断输入的是否一个词语。计算机只是提供一种计算过程,计算的依据只能靠人类去提供。电脑不能自己给自己制定依据,除非它已经有了制定依据的基础,而这个基础还是人给的。 将一个输入完整的句子切分成可以理解的词语,专业术语叫做现代汉语文本的词语切分技术。通过切分和查字典,批处理能够正常的识别我吃饭这种简单的句子。但遇到多个汉字组成的词语,批处理如何正确区别单个字词和多个字组成的词语呢?如: 我喜欢坐在面包车上一边吃面包一边看北京天安门门楼的门。 句子中,如何辨识面包车、面包、面和包这四个词语?通常的情况是取长舍短,也就是择优取三个字组成的面包车,而忽略后面三个词语。因为批处理读取存在顺序,前面的面包车和后面的面包可以得到辨识,而面包又可以与面和包得到辨识。因为后者(长字词)在句子中的位置与前者在句子中的位置是一致的,而前者(短字词)的位置集合包含了后者的位置集合。 如:我喜欢鸭肉它总共有五个字符,每个字符依次偏移量(指针?)为:0-1-2-3-4。通过查字典得到关键词:我、喜欢、鸭肉、鸭、肉。其中鸭肉的位置在3和4,鸭在3,肉在4。辨识鸭肉和鸭、肉的关键就在于,鸭肉的位置3和4包含了鸭和肉两个单字词的位置。 自然语言的切分技术是最基本的自然语言处理技术,它使得计算机能够理解自然语言。切分词语可以提取关键词,得到了关键词也就可以组织、有哪些信誉好的足球投注网站可供回答的内容了。 二、计算机懂得理解之后就是做出相应的反应--回答。 那么计算机如何回答问题?回答问题仍然需要一个依据,这个依据就是知识。而知识仍然是一部辞典。比如:你问计算机,李白是什么朝代的人?计算机不能平白无故的说是唐朝的,因为它脑子里压根就没有唐朝这个词,再说,计算机没有灵魂,它无法自行表达,计算机的表达需要规则。 为了回答问题,计算机需要有足够的常识,有一定的文化素养,因此,计算机需要一个知识库,包括常识和百科知识。而这个知识库必须是规范的,可方便计算机提取的数据库。 再进一步,你问计算机,你叫什么名字?这时,计算机去查知识库是查不到的,因为我们问的是计算机本身的名字,那么它首先必须知道自己的名字它才能回答你。这样,计算机需要一个它自己的信息库,以便储存一些它个人的信息,比如姓名、性别、经历、喜好等等。 但无论知识库还是个人信息库,它都只是提供了一种回答的答案,而最终如何回答,仍需计算机的代码支持。 三、计算机自己组织语言表达。 --这是最困难的技术。因为计算机没有灵魂,它无法表达自我,找不到简单的依据,让它表达复杂的思想。 我们提几个问题让计算机回答: 你叫什么名字? 我在那路边捡到一分钱。 请写一份请假条。 多么漂亮的水晶球啊!我好想买一个。 --你叫什么名字? 这种问题只有一个答案,很容易回答,直接显示名字就可以了。假如再问,你喜欢什么运动?也可以罗列关键词。专家系统最拿手这类问题了。 --我在马路边捡到一分钱 这种问题回答的方式没有统一标准,不同的人不同的情景有不同的回答。最常见的回答就是反问式和评价式的回答。前者会问捡到多少钱?,后者会说真幸运啊!。但实际上,你要计算机如何回答? 根据关键词反问是很容易的,但做评价就需要逻辑推理了,而逻辑推理需要更复杂的规则支持。比如:你如何看待钓上来一条鲸鱼de鸟岛的问题?计算机只能有哪些信誉好的足球投注网站知识库,抓取内容显示。又如:请你谈谈你对科尔伯格的道德两难的理解。一个真正的问题是,计算机无法自己组织语言回答。即使你叫计算机用自己的语言解释下太阳出来了路面干了这句话,计算机也无法

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档