可编辑文档：2024年SuperBench大模型综合能力评测报告.pptx

下载文档

2
0
约1.88万字
约 23页
2024-07-24 发布于广西
举报
版权申诉
保障服务

可编辑文档：2024年SuperBench大模型综合能力评测报告.pptx

1、本文档共23页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

SuperBench大模型综合能力评测报告（2024年3月）

大模型能力重点迁移历程2021年-2023年2023年-2024年随着语言模型能力的增强，更具应用价值的基于指令遵从和偏好对齐的能力，大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能（AGI）的重要方向。代表工作：AutoGPT、AutoGen等。代码模型逐渐出现。研究人员发现，基于代码生成任务训练的模型在测试中展现出更强的逻辑推理能力，代码模型成为研究热点。代表工作：Codex、CodeLLaMa、CodeGeeX等。语义对齐安全代码智能体2018年-2021年2022年-2023年2023年-future早期的语言模型主要关注自然语言的理解任务(e.g.分词、词性标注、句法分析、信息抽取)，相关评测主要考察语言模型对自然语言的语义理解能力。代表工作：BERT、GPT、T5等。随着大模型在各领域的广泛应用，研究人员发现续写式的训练方式与指令式的应用方式之间存在差异，理解人类指令、对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解并响应用户的意图，为大模型的广泛应用奠定了基础。代表工作：InstructGPT、ChatGPT、GPT4、ChatGLM等。随着模型能力的提升，对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判，确保大模型的可控、可靠和可信，是未来“AI可持续发展”的关键问题。

大模型评测原则标准大模型评测的必要性开放性在整个评测过程中，都应保证公开透明，避免暗箱操作；评测数据集也应开放与封闭相结合，这样既有利于后续的模型优化，也可以防止模型刷题?大模型在2023年经历了“百模大战”，实践者们纷纷推出了自己原创的、或经开源模型微调、改进的各种通用模型、行业或领域模型，在此背景下，如何评价大模型的能力变成一个非常重大的研究和实践问题。动态性要不断丰富评测数据，避免静态考题，进行数据集的持续优化，力求更专业。如果榜单的评测数据集长时间保持不变，会有被参与评测者刷题的风险，导致榜单失真优质大模型评测的标准科学性?目前国内外均有测试大模型能力的榜单，但质量良莠不齐，在不同榜单下各模型排名差异较大，原因在于评测数据、测试方法等还不够成熟、科学，我们认为好的评测方法应该满足开放性、动态性、科学性以及权威性等。大模型的评测体系更全面，评测方法确保科学严谨，评测方式力求多元化。这不仅需要专业的数据集构建，也需要科学研究的支撑权威性评测任务具有公信力，评测结果公正严谨，社会认可度高，避免成为一家之言，同时杜绝商业利益对评测结果的干扰

SuperBench评测模型列表本次我们选择海内外具有代表性的14个模型进行评测，对于闭源模型我们选择API和网页两种调用模式中得分较高的一种进行评测。具体模型列表如下：模型所属机构调用方式说明GPT-4TurboGPT-4网页版Claude-3OpenAIOpenAIAPIgpt-4-0125-previewGPT-4官方网页网页Anthropic智谱华章百川智能月之暗面稀宇科技百度APIAPI网页网页APIAPIAPIAPIAPIAPIAPIAPIAnthropicClaude-3-opusAPIGLM-4开放平台APIGLM-4Baichuan3官方网页Baichuan3网页版KimiChat网页版Abab6KimiChat官方网页MiniMax开放平台Abab6API百度千帆平台Ernie-bot-4API通义千问qwen-max-longcontextAPI通义千问开源qwen1.5-72b-chat通义千问开源qwen1.5-14b-chat讯飞SparkDesk-v3.5API文心一言4.0阿里巴巴阿里巴巴阿里巴巴科大讯飞字节跳动零一万物通义千问2.1qwen1.5-72b-chatqwen1.5-14b-chat讯飞星火3.5火山引擎skylark2-pro-4kv1.2APIYi开源Yi-34b-chat模型云雀大模型Yi-34b-chat*注：评测过程中我们发现部分网页版模型性能高于官方API

SuperBench介绍SuperBench简介评测框架评测流程优势开放性评测数据?SuperBench由清华大学基础模型研究中心联合中关村实验室共同发布，致力于为大模型领域提供客观、科学的评测标准，促进大模型技术、应用和生态的健康发展。SuperBench评测数据集结合开源数据集与闭源数据集，后续版本将推出公开的验证集与封闭的测试集，既有助于模型优化，又防止刷题。大模型评测提问待评测模型动态性SuperBench将定期发布评测结果与报告，每个周期刷