- 1、本文档共57页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要
随着科技的进步,网络技术的不断发展,地理信息系统也逐渐应
用到各个方面并渗入到人们的日常生活当中。针对各阶层用户提供一
种基于自然语言的地理信息系统查询接口具有广阔的开发前景。接口
的核心工作就是将自然语言转化成计算机可以识别的机器语言,其首
要任务就是将自然语言查询语句进行切分和词性筛选,这也是本文的
工作重点。
首先,将数据逻辑划分为通用词典、空间对象词典和空间关系词
典,对字典中的各种词性进行总结并用字符表示。在基于Tile索引树
的分词词典的数据结构中加入“判断标示,用以给后续分词算法进
行判定使用。高频前缀降低了Trie索引树的空间浪费并降低了树的深
度。其次,基于逆向最大匹配算法的“长词优先”原则,提出了根据
“最长词可能性”原则选择匹配首字的分词方法,算法过程中同样处
理长词覆盖短词的情况。该算法的时间复杂度为O(S)是线性的。最
后,通过浅层词性筛选算法,解决数据多词性和多词性描述问题。通
过该算法,获得查询语句中各词的唯一词性描述信息。链式栈结构降
低了空间复杂度,该算法的正确性约为90%。
根据上述算法实现了用于地理信息系统的自然语言查询语句切
分、词性筛选系统。实验结果表明,该系统在速度上和正确性上做到
了均衡,正确性有效地提高。
关键词: GIS,自然语言查询接口,分词词典,Trie索引树,中文分
词算法
ABSTRACT
晰ththeadvancementof andthe
technologyunceasingdevelopment
ofnetwork informationhas in
technology,geographicalsystemapplied
and into
every
aspectpenetratedpeople’Sdaily
aNatural based Interfaceof information
LanguageQuery geographical
tousersindifferentstratumhasbroad of
system prospectdevelopment.
111e workoftheInterfaceof information
is
key geographical system
translatesthenatural tomachine whichcan
beread
language language by
taskisNatural sentence
computer.So,theprimary LanguageQuery
and arethe ofthis
segmentationpart-of-speechfilter,whichemphases
article.
data isdividedintocommon
Firstly,thelogic
ects and thevarious
dictionary
ob
文档评论(0)