- 1、本文档共199页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据标注实用教程
大大大大大大大大
******
内容
1.1数据标注发展简史
1.2数据标注定义及分类
1.3数据标注的应用领域
1.4数据标注行业的运行模式
1.5数据标注行业未来发展趋势及挑战
1.1数据标注发展简史
1.1.1数据标注行业的发展
1.人工智能发展史
·人工智能的概念在上世纪五六十年代被正式提出
·图灵测试
·1956年在达特茅斯会议上首度提出“人工智能(Al)”概念,被誉为“人工智能的起点”
·从“图1-1人工智能发展简史”时间轴上可以看到人工智能的发展经历了起起伏伏,从理论到实践,从初期在现实应用环境中使用效果不佳,到通过技术的突破,实现存储能力、计算能力的大幅提升的过程
1.1数据标注发展简史
2.数据标注的起源
·2007年,斯坦福大学教授李飞飞等人开始启动ImageNet项目
·数据标注的概念:标注是对未处理的初级数据,包括语音、图片、文本、视频等进行加工处理,并转换为机器可识别信息的过程。
3.人工智能算法与数据标注之间的关系
·强人工智能vs弱人工智能
·深度学习是人工智能目前的一个重要研究领域,其主要有四种方式:监督学习、无监督学习、半监督学习、强化学习。
·监督学习是当前人工智能的研究重点
1.1数据标注发展简史
1.1.2国内数据标注行业的发展现状
数据标注行业近几年发展迅猛,要求越来越高。
1.市场端
·预计2025年市场规模将突破100亿元人民币
·对标注数据的需求量会更大,数据标注行业的发展前景是十分向好的人工智能算法与数据标注之间的关系
·目前数据标注需求量最大的五座城市分别是:北京、成都、杭州、上海、深圳
2.供应商端
·分为三大类:平台数据供应商、中小数据供应商、需求方自建团队
·从供应商的发展来看,行业内部处于“洗牌”阶段
1.2数据标注定义及分类
1.2.1什么是数据标注
数据标注(DataAnnotation)是对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等加工操作,为待标注数据增加标签,生成满足机器学习训练要求的机器可读
数据编码的工作
●标签(Label)
·标注任务(AnnotationTask)
·数据标注员(datalabeler)
·标注工具(annotationtool)
1.2数据标注定义及分类
1.2.2数据标注的工作特点
数据标注工作特点是由数据标注项目的特点决定的,而且需要根据效果不断进行需求调整。
需具备以下能力:
·可迁移学习能力
·重复标记能力
·细心专注能力
·总结提炼能力
1.2数据标注定义及分类
1.2.3数据标注的基本流程
包括4个环节:
·数据采集:首要环节,来源于提出标注需求的人工智能公司。常通过互联网获取公开的数据集与专业数据集。
·数据清洗:重要的环节,对数据进行筛检,去重,并对数据集中存在的异常值与缺失值进行查缺补漏,同时平滑噪声数据,最大限度纠正数据的不一致行和不完整性。
·数据标注:由标注员负责标注数据,可采用分类标注、标框标注、区域标注、描点标注或其他标注方法进行。
·数据质检:关键环节,常见的控制质量方法:多人验证、埋题验证、标注人员状态验证、机器验证
1.2数据标注定义及分类
1.2.4数据标注的分类
常根据待标数据类型进行分类:
·文本标注:主要是用于自然语言处理(NaturalLanguageProcessing,NLP),如:客服行业、金融行业、医疗行业等。其标注方式有:分词标注、词性标注、情感标注、意图识别、实体标注等。
·音频标注:主要用于语音识别(AutomaticSpeechRecognition,ASR)和语音合成(Text-To-Speech,TTS),ASR技术主要是将声音转成文字,而TTS技术主要是将文字转化为声音。目前较常见的应用场景有智能客服、电话机器人、苹果手机的Siri等。音频标注方式有语音转写、语音情感标注等。
1.2数据标注定义及分类
·图像标注:主要给计算机视觉相关的算法提供数据集,日常能了解到的场景如人脸识别、自动驾驶、车牌识别以及目前比较火的医疗影像的识别等都会用到图像标注。标注方式有矩形框标注、多边形拉框、打点、OCR识别、语义分割、图片审核分类等。
·视频标注:主要是通过对视频取帧后进行图片标注,然后再进行合成训练。例如:监控视频、自动驾驶、智慧交通等。其标注方法基本和图片标注一致。
这4种数据标注分类方法的概念和优缺点详见“表1-2数据标注分类比较”。
1.3数据标注的应用领域
尽量理解标注数据的应用场景,对于标注质量有重要意义
·出行领域:常见的标注方式有:点标注、线标注、框标注、3D点云
您可能关注的文档
- 三中全会PPT课件.pptx
- 数字乡村治理共同体:理论图景、实践探索与推进策略.docx
- 数字政通:2023年年度报告.docx
- 双减背景下新课标单元整体作业分层设计案例 人教版初中英语八年级下册 Unit 3 Could you please clean your room.docx
- 施工管理中的变更管理和风险应对.pptx
- 十八届三中全会及各届三中全会.pptx
- 石头碎石施工方案.docx
- 石英玻璃光谱透射比试验方法-编制说明.docx
- 石油行业的石油勘探与油气开采技术培训.pptx
- 石油装置 及油罐区山体滑坡隐患治理投资可研报告.docx
- 《中职生心理健康教育》教案 模块1 心理健康 从“心”开始(一).docx
- 《中职生校园安全》教案 专题六 网络安全危机的预防与应对.docx
- 中职《汽车传动及控制系统检修》教案 第1课 汽车传动及控制系统概述.docx
- 《婴幼儿动作发展与训练》教案 第7课 2~3岁幼儿粗大动作的发展与训练.docx
- 中职《计算机网络基础与网络安全》教案 第4课 梳理计算机网络体系结构(二).docx
- 《中职生心理健康教育》教案 模块4 优化人格 提升魅力(二).docx
- 《广告策划与文案创意》教案 项目一 走近广告策划.docx
- 《婴幼儿动作发展与训练》教案 第1课 婴幼儿的动作类型与动作发展.docx
- 中职《计算机网络基础与网络安全》教案 第1课 认识计算机网络(一).docx
- 中职《信息技术(基础模块)上册》项目1-教案 信息技术应用基础.docx
最近下载
- 4AM3U3 In the shop At Panda’s Glasses Shop ppt英语教学课件.pptx
- 2023年四川省成都市高考物理一诊试卷(含答案解析).docx
- 人教版(2024)英语七年级上册Unit 5 Fun Clubs重难点题型专练(含答案).doc VIP
- GB50174-2008电子信息系统机房设计规范.docx
- 2006-年度经教育部备案或审批同意设置的-高等学校本科专业名单.pdf
- 河南省青桐鸣大联考2024-2025学年高二上学期10月月考英语试题(含解析,含听力原文无音频).pdf VIP
- _电缆桥架安装图集.pdf VIP
- 2024入团前基础知识题库(含答案).docx
- 《小萝卜头的故事》PPT课件.pptx
- 大厦高大模板专项施工方案.doc
文档评论(0)