ICTCLAS的优化设计-PKU-北京大学.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ICTCLAS的优化设计-PKU-北京大学.doc

ICTCLAS的授权策略 ICTCLAS的授权策略 1 ICTCLAS介绍 1 ICTCLAS大事记: 1 ICTCLAS授权策略 2 ICTCLAS自由软件授权 2 ICTCLAS商用API 2 ICTCLAS商用源代码 3 ICTCLAS介绍 词是最小的能够独立活动的有意义的语言成分,但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词法分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时两年研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)。该系统的功能有:中文分词;词性标注;命名实体识别;未登录词识别。 特色在于:C/C++编写,支持多种Linux及Windows系列操作系统;ICTCLAS有GB2312和BIG5版本,可分别处理目简繁体中文;支持当前广泛承认的分词和词类标准,包括计算所词类标注集ICTPOS3.0,北大标准、滨州大学标准、国家语委标准、台湾“中研院”、香港“城市大学”;用户可以直接自定义输出的词类标准,定义输出格式;可按需要输出多个最优结果;所有功能模块均可拆卸组装。 计算所汉语词法分析系统ICTCLAS同时还提供一套完整的API接口(包括:动态连接库,静态连接库,Linux下的库函数和COM组件)和相应的概率词典,开发者可以直接在自己的系统中调用ICTCLAS,在分词和词性标注的基础上继续上层开发。 欢迎相关领域的工程技术人员、研究人员使用,并提供宝贵意见。 联系人:张华平 中国科学院计算技术研究所 zhanghp@software.ict.ac.cn 010xt. 838 刘 群 中国科学院计算技术研究所 liuqun@ict.ac.cn 010xt. 9607 ICTCLAS大事记: 2002年7月,在973项目图像、语音、自然语言理解与知识挖掘专家组的评测中,在所有参评的系统中,评测得分最高。(分词正确率高达97.58%,参赛单位包括北京大学,清华大学等) 2003年1月7日,获得国家版权局授予的软件著作权登记证书,编号为软著登字005178号) 在2003年4月22日至25日, ICTCLAS参加了第四十一届国际计算语言联合会(41st Annual Meeting of the Association for Computational Linguistics, 41th ACL )下设的汉语特别兴趣研究组(the ACL Special Interest Group on Chinese Language Processing, SIGHAN)举办的第一届国际汉语分词评测大赛,在参加的六项比赛中,获得了两项第一名、一项第二名。(参赛单位来自于6个国家和地区的12个系统,包括微软,SYSTRAN, Pennsylvania大学,Berkeley大学,北京大学 4) 作为计算所的15项免费技术成果之一,被来自于国内外的约3000人次的下载使用。作为中文自然语言处理开放平台的自由软件,受到了广泛的欢迎和关注,在《科学时报》、新浪网、人民日报海外版均有报道。 ICTCLAS授权策略 分为如下三种: 自由软件,商用API,商用源代码。 ICTCLAS自由软件授权 软件版本: Release Free Build0705(最后修订时间: 2002年7月;参加973评测版获得第一名,并在此基础上修正了程序部分BUG) 词典版本: Dictionary Free Build0705(一个月的概率词典) 成果形式 源代码,概率词典,文档,论文 效果: 973评测中获得较好成绩,可以满足个人及单位的非商业应用 技术支持: 责任自负,无技术支持 适用协议 自然语言处理开放资源许可证;自由软件授权方式 有何限制? 只做研究用途,不能用于商用,不得以任何形式随自己的软件产品发布 收费 完全免费,不提供API 源码: 完全公开 ICTCLAS商用API 软件版本: GB2312版本:ICTCLAS2.6 (最后修订日期:2004年4月30日;参加第一届国际评测获得两项第一名,一项第二名,并在此基础上修正了程序部分BUG) BIG5版本:ICTCLAS 1.2 (最后修订日期:2003年12月25日;参加第一届国际评测获得第三名) 词典版本: Lexico六个月语料库训练出来的概率词典) 成果形式 概率词典;文档;论文;一套完整的API接口(包括:动态连接库,静态连接库,Linux下的库函数和COM组件),开发者可以直接在自己的系统中

文档评论(0)

wendang_12 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档