TCESA-2024-252《人工智能 国资央企通用大模型评测要求 第1部分:语言大模型》.pdf

TCESA-2024-252《人工智能 国资央企通用大模型评测要求 第1部分:语言大模型》.pdf

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

ICS35.240

CCSL70

团体标准

T/CESAXXXX—202X

人工智能国资央企通用大模型评测要求

1

第部分:语言大模型

ArtificialIntelligence-EvaluationrequirementsforgenerallargemodelsofChinese

centralState-ownedenterprises-Part1:largelanguagemodels

征求意见稿

在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。

已授权的专利证明材料为专利证书复印件或扉页,已公开但尚未授权的专利申请

证明材料为专利公开通知书复印件或扉页,未公开的专利申请的证明材料为专利申请

号和申请日期。

202X-XX-XX发布202X-XX-XX实施

中国电子工业标准化技术协会发布

人工智能国资央企通用大模型评测要求第1部分:语言大模型

1范围

本文件规定了语言大模型的评测框架、评测维度、评测任务、评测指标和具体评测方法。

本文件适用于指导测评机构对语言大模型的多维度能力进行评估、测试等工作,涵盖功能性、准确性、

可靠性、交互性、安全性及应用性。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其必威体育精装版版本(包括所有的修改单)适用于本文

件。

GB/T41867-2022信息技术人工智能术语

GB/T42755-2023人工智能面向机器学习的数据标注规程

GB/TXXXX.2-XXXX人工智能大模型第2部分:评测指标与方法

3术语和定义

GB/T41867-2022界定的术语和定义适用于本文件。

下列缩略语适用于本文件:

BLEU:双语评估替补(BilingualEvaluationUnderstudy)

Rouge-L:基于最长公共子序列的召回率导向评估(Recall-OrientedUnderstudyforGisting

Evaluation-LongestCommonSubsequence)

GPU:图形处理器(GraphicsProcessingUnit)

CPU:中央处理器(CentralProcessingUnit)

API:应用编程接口(ApplicationProgrammingInterface)

4评测框架

评测框架采用“2-4-6”层级架构,包含2类评测任务、4项评测要素以及6种评测维度,旨在全面、深

入的评估大语言模型实际能力,详细评测框架如下图所示:

—1—

图1评测框架

5评测维度

评测维度主要分为功能性、准确性、可靠性、安全性、交互性和应用性,每个维度根据实际评测需要,

下设二级维度。

5.1功能性评测

在评测模型功能性时,主要关注三个方面:语种支持情况、任务支持情况和任务完成情况。

5.1.1语种支持情况

模型应具备处理多种语言问答的能力。应用不同语言提问,检验模型是否能够识别并回应包括汉语、

英语、法语、西班牙语在内的常见官方语言。如果模型能够用指定的语言回答相关问题,则认定支持该语

言。

5.1.2任务支持情况

模型应具备应对问答、文本生成、文本分类、情感分析等不同类型任务的能力。应用各类型任务数据

进行测试,检验模型能否正常应答指定任务,如果模型能够以正确方式回应任意问题,则认定支持该任务。

5.1.3任务完成情况

模型在完成指定任务时应具备一定成功率。应用各类型任务数

您可能关注的文档

文档评论(0)

1243595614 + 关注
实名认证
内容提供者

文档有任何问题,请私信留言,会第一时间解决。

版权声明书
用户编号:7043023136000000

1亿VIP精品文档

相关文档