语义理解标签注释.docx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语义理解标签注释

语言技术平台(Language Technology Platform,LTP)是哈工大社会计算与信息检索研究中心历时十年研制的一整套开放中文自然语言处理系统。 LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富、高效、高精度的中文自然语言处理模块 (包括词法、句法、语义等5项中文处理核心技术,在多次国内外技术评测中获得优异成绩, 特别是获得CoNLL 2009国际句法和语义分析联合评测的第一名),应用程序接口,可视化工具,以及能够以网络服务使用的语言技术云。 学术版LTP已共享给500多家研究机构免费使用,百度、腾讯、华为、金山等企业付费使用LTP商业版本。 2010年,LTP荣获行业最高奖--“钱伟长中文信息处理科学技术一等奖”。如果你的公司或研究需要一套高性能的中文自然语言分析工具以处理海量的文本, 或者你的研究工作建立在一系列底层中文自然语言处理任务之上,或者你想将自己的科研成果与前沿先进工作进行对比,LTP都可能是你的选择。语言技术平台架构任务简介为什么要进行语言分析假如你的公司发布了一款全新的手机产品。 新产品的发布带来了来自不同媒体的相关报道、用户反馈。 面对这些数据,你可能希望了解大家关注的是这款手机的哪些特性大家对这款手机的评价如何有哪些用户表达了购买的意愿在面对海量数据的情况下,使用人力分析这些数据显然是不切实际的。 这种场景下,语言分析就派上了用场。让机器代替人来完成这些分析工作正是语言分析要做的工作。要进行什么样的语言分析分词中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列。 因为在汉语中,词是承载语义的最基本的单元。分词是信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。例如,句子国务院总理李克强调研上海外高桥时提出,支持上海积极探索新机制。正确分词的结果是国务院/ 总理/ 李克强/ 调研/ 上海/ 外高桥/ 时/ 提出/ ,/ 支持/ 上海/ 积极/ 探索/ 新/ 机制/ 。如果分词系统给出的切分结果是国务院/ 总理/ 李克/ 强调/ 研/ 上海 …因为强调也是一个常见的词,所以很可能出现这种分词结果。 那么,如果想要有哪些信誉好的足球投注网站和李克强相关的信息时,有哪些信誉好的足球投注网站引擎就很难检索到该文档了。切分歧义是分词任务中的主要难题。 LTP的分词模块基于机器学习框架,可以很好地解决歧义问题。 同时,模型中融入了词典策略,使得LTP的分词模块可以很便捷地加入新词信息。词性标注词性标注(Part-of-speech Tagging, POS)是给句子中每个词一个词性类别的任务。 这里的词性类别可能是名词、动词、形容词或其他。 下面的句子是一个词性标注的例子。 其中,v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号。国务院/ni 总理/n 李克强/nh 调研/v 上海/ns 外高桥/ns 时/n 提出/v ,/wp 支持/v 上海/ns 积极/a 探索/v 新/a 机制/n 。/wp词性作为对词的一种泛化,在语言识别、句法分析、信息抽取等任务中有重要作用。 比方说,在抽取“歌曲”的相关属性时,我们有一系列短语:儿童歌曲欢快歌曲各种歌曲悲伤歌曲...如果进行了词性标注,我们可以发现一些能够描述歌曲属性的模板,比如[形容词]歌曲[名词]歌曲而[代词]歌曲往往不是描述歌曲属性的模板。词性标记集:LTP中采用863词性标注集,其各个词性含义如下表:TagDescriptionExampleTagDescriptionExampleaadjective美丽niorganization name保险公司bother noun-modifier大型, 西式nllocation noun城郊cconjunction和, 虽然nsgeographical name北京dadverb很nttemporal noun近日, 明代eexclamation哎nzother proper noun诺贝尔奖gmorpheme茨, 甥oonomatopoeia哗啦hprefix阿, 伪ppreposition在, 把iidiom百花齐放qquantity个jabbreviation公检法rpronoun我们ksuffix界, 率uauxiliary的, 地mnumber一, 第一vverb跑, 学习ngeneral noun苹果wppunctuation,。!nddirection noun右侧wsforeign wordsCPUnhperson name杜甫, 汤姆xnon-lexeme萄, 翱命名实体识别命名实体识别 (Named Entity Recognition, NER) 是在句子的词序列中定位并识别人名、地名、机构名等实体的任务。 如之前的例子,命名实体识

文档评论(0)

561190792 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档