- 1、本文档共45页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
人工智能技术应用核心课程系列教材;第6章 文本数据标注;文本数据标注作为最常见的数据标注类型之一,是指将文字、符号在内的文本进行标注,让计算机能够读懂并识别。从本质上来看,文本数据标注就是一个监督学习的过程,而标注问题就是更复杂结构预测问题的简单形式。标注问题的目的在于学习模型,使该模型能够对观测序列给出标记序列作为预测。这也决定了标注问题的工作流程,即输入是一个观测序列,之后输出是一个标记序列或者状态序列。需要注意的是,标记个数是有限的,但其组合所成的标记序列的个数是依照序列长度呈指数级增长的。;发展与研究现状
自然语言对话是网络大数据语义理解的主要挑战之一,被誉为人工智能皇冠上的宝石,而文本数据标注就是这一系列工作中最基础、最重要的环节。文本数据标注就是为了让机器准确识别人类的自然语言,并促使机器对人类的自然语言做出精准定位。
近二三十年的研究成果显示,自然语言对话系统历经了由基于概率决策过程的多轮对话系统到基于深度学习的生成式对话系统、再到将深度学习和符号处理相融合的神经符号对话系统的快速发展。但是,无论系统发展的如何迅速、无论系统朝着何种方向发展,自然语言对话系统的核心推动力从未改变,即更好地进行自然语言理解、知识表示和逻辑推理。;基本概念
文本数据标注类型包括:序列标注、关系标注、属性标注和类别标注。具体介绍如下:
序列标注:是一个比较简单的自然语言处理(NaturalLanguageProcessing,NLP)NLP任务,也是最基础的任务。序列标注的涵盖范围非常广泛,包括分词、实体、关键字、韵律、意图理解等;
关系标注:对复句的句法关联和语义关联做出重要标示的一种任务,是复句自动分析的形式标记。关系标注包括:指向关系、修饰关系、平行语料等等。
属性标注:对事物属性进行标签,属性标注包括:文本类别、新闻、娱乐等;
类别标注:对文章的类别进行标注,例如篇章级的阅读理解等。;流程介绍
文本项目数据标注的大致流程为,预处理、标注、线上标注、线下标注、质检、验收、数据处理和数据交付。具体到各个步骤,??作细节如下,:
预处理:根据数据的规范要求,对数据进行算法的初步处理;
标注:根据项目要求,可以将标注分为线上标注(数据+平台)和线下标注:
①线上标注:将源数据上传到“数据+平台”,通过互联网进行操作;
②线下标注:通过线下小工具或线下文本(TXT、Excel等)进行操作;
质检:根据数据合格率要求,由定义规范理解的人员对已经标注数据进行抽查;
验收:由数据质量中心对质检合格数据进行再次验证;
数据处理:利用技术处理成客户需要的格式(如:JSON、UTF-8文本或
Excel等);
数据交付:数据加密后交付客户。;交付格式
文本类标注任务的数据结果包含文本标签的位置和标签的具体内容。标注文件的输岀格式推荐使用易解析、易存储的数据格式,包括JSON、XML、TXT等。标注文件应该包含详细的标签信息。每个独立标签应包含以下信息:
标签id:每个标签的独立编号;
文件路径:待标注文本的文件链接;
原始文本:待标注文本的全部内容(文本数据标注任务仅需提供文件路径或原始文本中的一个);
置信度:为标签的置信度;
每个标签中可能包含多个对象,对于每个对象需要定义:
①对象类型:比如text_classification或者text_tag;
②对象详情:对象的具体文本位置和内容信息,或与其他对象的关系信息。;交付格式
数据交付时,标注团队需对最终提交的数据量进行说明。交付的内容应包括:
标注结果(必选);
交付和说明文档(可选);
关于标注数据的Metadata(可选),包括描述原始数据的元信息;
原始数据(可选,有时数据使用方可直接访问原始数据,则无须单独交付原始数据)。;应用场景
文本数据标注是最常见的数据标注类型之一,在现实生活中也得到了充分应用。具体来说,文本数据标注应用比较多的场景包括:新零售、客服行业、广告营销、金融行业和医疗行业等,具体介绍如下:
新零售行业:新零售需要重塑零售行业的服务模式,因此需要对客户的问题进行精准定位,既需要对客户的问题进行量身定制,又需要考虑多数客户的共性要求,这就需要借助文本数据标注的方法,将顾客的相应问题做出标记。
客服行业:随着互联网技术的兴起,电子客服越来越多的取缔了人工客服。电子客服同样也可进行文字客服、视频客服和语音客服三类,这就需要机器对客户说话方式进行识别。考虑到不同人的说话方式不同、说话习惯不同,因此,对于同一个问题提问的方式也会不同。但是对于机器而言,面对同一问题,顾客提问方式虽然不同,但做出的回答应该是完全相同的。这就要求把对同一问题的不同提问方式进行学习,从而做出回复。;应用场景
广告行业:对某产品进行广告设计时,通常会把类别相近的且销量较高的商品文案相互借鉴,把已
文档评论(0)