- 1、本文档共24页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号CN104572621A
(43)申请公布日2015.04.29
(21)申请号CN201510002515.X
(22)申请日2015.01.05
(71)申请人语联网(武汉)信息技术有限公司
地址430073湖北省武汉市东湖开发区光谷软件园一期以西、南湖南路以南、光谷软
件园六期2幢6层206号
(72)发明人江潮张芃
(74)专利代理机构北京康盛知识产权代理有限公司
代理人张宇峰
(51)Int.CI
G06F17/27
权利要求说明书说明书幅图
(54)发明名称
一种基于决策树的术语判定方法
(57)摘要
一种基于决策树的术语判定方法,
包括:对原始语料以语素为单位进行任意
长度的切分,获得若干候选术语,其中,
每个所述候选术语由至少二个语素组成;
确定影响术语判定的多个特征,计算出每
个所述候选术语的每个特征的特征值;以
每个所述候选术语的多个特征值,在用于
术语判定的决策树中,依照所述决策树的
生成顺序进行依次判定;将通过所述决策
树判定成功的所述候选术语作为新术语。
本发明减少了人工处理的工作量,确保得
到的术语可靠性和准确性较高。
法律状态
法律状态公告日法律状态信息法律状态
权利要求说明书
1.一种基于决策树的术语判定方法,其特征在于,包括:
对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其
中,每个所述候选术语由至少二个语素组成;
确定影响术语判定的多个特征,计算出每个所述候选术语的每个特征的
特征值;
以每个所述候选术语的多个特征值,在用于术语判定的决策树中,依照
所述决策树的生成顺序进行依次判定;
将通过所述决策树判定成功的所述候选术语作为新术语。
2.根据权利要求1所述的术语判定方法,其特征在于,所述确定影响
术语判定的多个特征,包括:
候选术语在原始语料中的词频、候选术语被分割为任意长度的两部分,
所述任意两部分的互信息的最小值、候选术语的左熵和右熵两者中较大值、
候选术语独立成词的概率、候选术语的每个语素在所述历史语
料库中处于词头位置、词中位置和词尾位置的出现概率、以及
候选术语的领域概率。
3.根据权利要求2所述的术语判定方法,其特征在于,在所述以每个
所述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树
的生成顺序进行依次判定之前,还包括:
从术语库中随机选取一定数量、且连续的若干个已认定的术语;
根据选取的所述术语,以及所述多个特征,利用ID3算法或C4.5算法
构建所述决策树。
4.根据权利要求3所述的术语判定方法,其特征在于,所述根据选取
的所述术语,以及所述多个特征,利用ID3算法或C4.5算法构建所述决策
树的过程中,包括:
将每个所述特征作为所述决策树上的判定结点,并且根据所述多个特征
的信息增益或信息增益比的大小关系,确定所述决策树的生成顺序;
其中,每个判定结点上具有其对应的特征的、用于形成所述决策树的枝
干的判定阈值。
5.根据权利要求4所述的术语判定方法,其特征在于,所述以每个所
述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树的
生成顺序进行依次判定,具体包括:
将所述候选术语的每个特征值,依照所述决策树的生成顺序,与决策树
的判定结点上的判定阈值进行比较;
若在所述决策树上作为叶子结点的判定结点上判定成,则将该候选术语
标记为新术语。
文档评论(0)