基于统计专用字符的维、哈、柯文文种识别研究.pdf

下载文档 降价啦

10
0
约2.18万字
约 8页
2015-09-06 发布于湖北
举报
版权申诉
保障服务

基于统计专用字符的维、哈、柯文文种识别研究.pdf

1、本文档共8页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第29卷第2期中文信息学报 V01．29，No．2 Mar．，2015 2015年3月 CHINESEINFORMATIONPROCESSING JOURNALOF 文章编号：1003—0077(2015)02—0111-07 基于统计专用字符的维、哈、柯文文种识别研究买买提依明·哈斯木1’2，吾守尔·斯拉木1，维尼拉·木沙江1，努尔麦麦提·尤鲁瓦斯1 (1．新疆大学信息科学与工程学院，新疆多语种重点实验室，新疆乌鲁木齐830046； 2．和田师范专科学校，计算机科学系，新疆和田848000) 摘要：在Unicode编码方案中维、哈、柯文字符安排在阿拉伯字符区域，三种语言中共享字符比较多，跟阿拉伯字符区域混在一起，没有专用的语言ID。在信息检索和自然语言处理领域对维、哈、柯文的识别、处理带来不便。该文首先分析并总结了维、哈、柯文三种语言中的专用字符、复合字符、某些字符在某种语言中出现形势的独特性等特征，然后在此基础上设计了维、哈、柯文种识别算法。实验结果表明该文提出的文种识别算法的正确率在文本多于70词时达到96．67％以上。关键词：文种识别；专用字符；复合字符；维文；哈文；柯文；U『nicode 中图分类号：TP391 文献标识码：A CharacterBasedStatistical Identificationfor and Unique Language Uyghur，KazakKyrgyz Hasimul”，WushouerSilamul，Weinila Youliwasil Maimaitiyiming Mush@an91，Nuermaimaiti (1．SchoolofInformationScienceand Information Engineering，XinjiangUniversity，MultilingualTechnology of 830046，China； LaboratoryXinjiang，Urumqi，Xinjiang of ScienceHotanTeachers 848000，China) 2．DepartmentComputer College，Hotan，Xinjiang Abstract：InUnicode and charactersare intheArabicchar— encodingconsortium，Uyghur，KazakKyrgyz arranged actersareaandmixedwithArabiccharacters．Somecharactersinthese sharessamecodewithout languages language ininformationand ID，which retrievalnatural the char— bringsdifficulty languageprocessing．Afteranalyzingunique