中文有哪些信誉好的足球投注网站引擎分词技术.pptVIP

中文有哪些信誉好的足球投注网站引擎分词技术.ppt

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文有哪些信誉好的足球投注网站引擎分词技术.ppt

四、中文分词的应用   目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,有哪些信誉好的足球投注网站引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。  分词准确性对有哪些信誉好的足球投注网站引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于有哪些信誉好的足球投注网站引擎来说也是不可用的,因为有哪些信誉好的足球投注网站引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响有哪些信誉好的足球投注网站引擎内容更新的速度。因此对于有哪些信誉好的足球投注网站引擎来说,分词的准确性和速度,二者都需要达到很高的要求。 第四节 案例分析 中国三大有哪些信誉好的足球投注网站引擎的分词技术 让大家欣赏一下中国三大有哪些信誉好的足球投注网站引擎的分词技术。很幸运,我们的三大有哪些信誉好的足球投注网站引擎都在他们的快照里把查询语句拆分,然后用不同颜色的高亮来显示,大家可以一目了然地看到他们的分词方法。搜狗、有道这些非主流的有哪些信誉好的足球投注网站引擎都没有这种功能。腾讯搜搜采用的是谷歌的内核,快照可以直接看到,但是却没有分词高亮显示。谷歌已经去掉了“快照”功能,只有上Google去,并且需要使用代理服务器或者用一点小技巧才能看到。 分析语句:红色摇滚很搞笑 * * * * 中文有哪些信誉好的足球投注网站引擎技术 第一节 中文分词技术 分词技术简述 百度分词技术 分词中的难题与发展 第二节 拼写检查错误提示 第三节相关提示功能分析 第四节 案例分析   中国三大有哪些信誉好的足球投注网站引擎的分词技术 一.什么是中文分词 把中文的汉字序列切分成有意义的词。 二.分词技术简述 例:我/是/一个/学生 1.基于字符串匹配的分词方法 按照一定的策略将待分析的汉字串与一个机器词库中的词条进行匹配。 ?常用分词方法: 正向最大匹配法(由左到右的方向) 例:我 /有意/ 见/ 分歧 反向最大匹配法 例:我 /有/意见/分歧 统计结果表明:单纯使用正向最大匹配的错误率为1/169,单纯使用反向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。 第一节 中文分词技术 2.基于统计的分词方法 相邻的字同时出现的次数越多,就越有可能构成一个词。 用于系统自动识别新词。 3.基于理解的分词方法 在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。 小于等于3个中文字不切割 三.百度分词技术分析 1.最大分词词长: 对于大于等于4个汉字的词将被分词。 2.分词算法: 查询:“工地方向导” 正向最大匹配: 工地/方向/导 反向最大匹配: 工/地方/向导 百度采用正向最大匹配算法 查询: 邓小平安定军山 正向最大匹配: 邓小平/安定/军/山 百度分词:邓小平/安/定军山 结论:百度识别人名、影视、戏剧名等专用词,专用词库分词时优先。 查询:何润东西南北(“何润东”、“东西南北”两个词) 正向最大匹配: 何润东/西/南北 归纳: 首先用专有词典采用最大正向匹配分词,切分出部分结果; 剩余没有切分交给普通词典,同样采取正向最大匹配分词。 四.分词中的难题 1.歧义识别 「这个门把手坏了」 -「把手」是个词 ; 「请把手拿开」 -「把手」不是一个词; 「元帅任命了一名中将」 -「中将」是个词; 「产量三年中将增长两倍」 -「中将」不再是词。 ?真歧义 「乒乓球拍卖完了」 可以切分成「乒乓 球拍 卖 完 了」、 也可切分成「乒乓球 拍卖 完 了」。 2.新词识别 就是那些在字典中没收录过,但又确实能称为词的那些词。 「听说温家宝物非常多」 「吴官正在吉林考察」 收录人名本身是一项巨大的工程 过多专用人名的收录很容易出现问题 五.必威体育精装版进展 ?设计目标: 1.无长度限制 2.歧义包容:将出现歧义的 各种可能性都包含进去, 作为分词的参考。 ?方案:将关系数据库的词按 字打散,并存放到层次 数据库中。 ?特色:分词长度限制,词的 长度变成了树的高度, 每一次的匹配变成了树 的遍历。 感冒 感冒解痛散 感冒解痛颗粒 感冒解痛灵茶 等都能匹配 一.实例分析 百度维持着一个同音词词典, 多音字不区分 百度的中文纠错和拼音检索 使用的机制相同。 百度是将分词词典里面每个 词条利用拼音标注程序标注 成拼音。 查询:罗华世界有风军 词长不限,专用词全部标注 第二节 拼写检查错误提示 二.错误提示流程 利用拼音标注程序对用户输入进

文档评论(0)

wdhtm341 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档