一种基于编码规则的中文地址清洗方法-闽江学院学报.PDF

一种基于编码规则的中文地址清洗方法-闽江学院学报.PDF

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种基于编码规则的中文地址清洗方法-闽江学院学报

第34卷 第5期 闽江学院学报 Vol.34No.5   2013年9月 JOURNALOFMINJIANGUNIVERSITY Sep.2013 一种基于编码规则的中文地址清洗方法 郭文龙,卓 琳 (福建江夏学院电子信息科学学院,福建 福州 350108) 摘要:由于中文地址命名的不规范性和中文的书写特点,造成中文地址的清洗工作异常困难.中文地址是由地址元 素和特征字两部分构成的,在对中文地址预处理的基础上,通过制定中文地址字符编码规则,提出对中文地址字符 进行编码,在地址元素后添加特征字代码,利用编码规则对地址代码进行清洗,最后根据编码结果对代码进行译码, 达到清洗的目的.利用某常住人口地址进行验证,实验结果证明清洗效果良好. 关键词:中文地址;规则;编码;译码;清洗 中图分类号:TP391   文献标识码:A   文章编号:1009-7821(2013)05-0066-04 AcodingrulebasedcleaningapproachtoChineseaddress GUOWenlong,ZHUOLin (CollegeofElectronicsandInformationScience,FujianJiangxiaUniversity,Fuzhou,Fujian350108,China) Abstract:Becauseofthenon-standardChineseaddressandthewritingfeaturesofChinese,Chinesead dresscleaningisratherdifficult.Chineseaddressconsistsoftheaddresselementandsignaturewords. Throughaddresscharacterencodingrules,theencodingforaddresscharacterswhichisonthebasisofChi neseaddresspre-processingisproposed.Cleantheaddresscodebyusingruleinwhichsignaturewords codeisaddedafteraddresselement.Finallyaccordingtotheencodingresult,decodethecodetoachieve thepurposeofcleaning.Theexperimentwhichusesaddressesofsomeresidentprovesthatithasgood cleaningeffect. Keywords:Chineseaddress;rule;encoding;decoding;cleaning 1 概述 随着计算机的应用与普及,各行各业均开发了相应的客户信息系统,许多系统中包含了地址信息,大量 的客户地址具有很大的商业价值.然而由于中文的语法特点及人们表达方式的差异,导致大量的地址不规 范,有些甚至是错误的数据.如何利用计算机技术规范化中文地址数据,如何识别错误的中文地址,进而挖掘 出它的商业价值便成为当前研究的热点.面对中文地址隐含的商业价值,国内许多大型软件公司推出了中文 地址清洗软件,其中比较出名的有北京长地计算机公司开发的“寻址神”,北大方正开发的“Mapsearcher”等. [1-4] 目前国内学者对中文地址的清洗大部分采用分词或基于特征字(省、市、县等)识别等方法来处理 . [5] [6] [7] 常用的中文分词算法有机械分词法 、基于理解的分词法 及基于统计的分词法 .机械分词法的精确率取 决于词典的构建,基于统计的分词方法

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档