《具身智能语料库建设导则》.docx

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Q/LB.□XXXXX-XXXX

PAGE2

ICS

FORMTEXTxx.xxx.xx

CCS

FORMTEXTxxxxxx

FORMTEXTxxxxx

FORMTEXTxxxxxx团体标准

T/FORMTEXTxxxxxFORMTEXTxxx—FORMTEXTxxxxxx

FORMTEXT?????

FORMTEXT具身智能语料库建设导则

FORMTEXTConstructionGuidelinesforCorpusofEmbodiedIntelligence

FORMDROPDOWN

FORMTEXT(征求意见稿)

FORMDROPDOWN

FORMTEXT2024-FORMTEXTXX-FORMTEXTXX发布

FORMTEXT2024-FORMTEXTXX-FORMTEXTXX实施

FORMTEXTxxxxxxxxxx??发布

2

具身智能语料库建设导则

范围

本文件规定了建设具身智能模型训练的泛语言、多模态语料库的一般方法。

本文件适用于具身智能语料库的研究、开发、维护、应用、评估等工作。其它与具身智能语料库建设相关的工作也可参照使用。

规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其必威体育精装版版本(包括所有的修改单)适用于本文件。

GY/T353-2021网络视听节目视频格式命名及参数规范

T/SAIAS015—2024《语料库建设导则》

GB/T36073-2018数据管理能力成熟度评估模型

GB/T4894-2009信息与文献术语

GY/T360-2022广播电视和网络视听节目内容标识标签规范

GB/T35273-2020信息安全技术个人信息安全规范

YD/T4245-2023电信网和互联网数据脱敏技术要求和测试方法

GB/T22239-2019信息安全技术网络安全等级保护基本要求

术语和定义

下列术语和定义适用于本文件。

数据资源dataresources

以电子化形式记录和保存的具备原始性、可机器读取、可供社会化再利用的数据集合。

数据表征模式datarepresentationmodes

计算机中存储和表达数据的形式或结构。

语料corpus

语言材料或语言应用的样本。

语料库corpora

由依据一定抽样方法收集的自然出现的语料所构成的电子数据库。

注:是按照一定目的和方法进行选择并有序排列的数据汇集。

模态modal

机器对现实世界信息的感知模式或信息通道,包括数据表征模式(例如文本、图像、语音、视频、生物和生理信息的数据表征)、数据采集机制(将每种传感设备采集到的数据视为一种模态),以及数据特征主体(如对特定主体的局部信息进行数据化表征)。

敏感信息sensitiveinformation

如果公开或者滥用会造成潜在危害的信息。

[来源:GB/T4894-2009,.4,有修改]

脱敏de-identification

去除可确认个人或组织身份的数据与数据主体之间联系的过程。

[来源:ISO/TS25237:2008,3.18]

匿名化数据anonymizeddata

去除直接涉及数据主体的个人或组织数据。

[来源:GB/T4894-2009,.3,有修改]

主体subject

视觉作品中的中心或主要对象,具有代表性、典型性,也是制作者想要传达的主要信息或情感的载体。

单模态语料库mono-modalcorpus

收录音频、视频、图像或文字材料之一种模态语料的语料库。

多模态语料库multi-modalcorpus

收录音频、视频、图像和文字材料等语料,并采用多模态方式加工、检索和统计的语料库。

数据片段dataclip

以片段形式记录和保存的具身智能模型训练使用的数据集合,一般时长为10s,由100个数据时刻组成。

数据时刻datatick

在同一时刻中,由各相机视频帧、雷达数据、本体数据、轨迹导航数据组成的多模态的集合。

模拟仿真平台

基于计算机的系统,用于模拟现实世界或想象中的环境、条件或系统。

具身智能EmbodiedAI

具身智能系统EmbodiedAISystem

基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。

注:本标准限定的具身智能本体包括泛人形机器人、仿人机器人、智能机器人等。

点云pointcloud

以离散、不规则方式分布在三维

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8135026137000003

1亿VIP精品文档

相关文档