可编辑文档:2024年SuperBench大模型综合能力评测报告.pptx

可编辑文档:2024年SuperBench大模型综合能力评测报告.pptx

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

SuperBench大模型综合能力评测报告(2024年3月)

大模型能力重点迁移历程2021年-2023年2023年-2024年随着语言模型能力的增强,更具应用价值的基于指令遵从和偏好对齐的能力,大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能(AGI)的重要方向。代表工作:AutoGPT、AutoGen等。代码模型逐渐出现。研究人员发现,基于代码生成任务训练的模型在测试中展现出更强的逻辑推理能力,代码模型成为研究热点。代表工作:Codex、CodeLLaMa、CodeGeeX等。语义对齐安全代码智能体2018年-2021年2022年-2023年2023年-future早期的语言模型主要关注自然语言的理解任务(e.g.分词、词性标注、句法分析、信息抽取),相关评测主要考察语言模型对自然语言的语义理解能力。代表工作:BERT、GPT、T5等。随着大模型在各领域的广泛应用,研究人员发现续写式的训练方式与指令式的应用方式之间存在差异,理解人类指令、对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解并响应用户的意图,为大模型的广泛应用奠定了基础。代表工作:InstructGPT、ChatGPT、GPT4、ChatGLM等。随着模型能力的提升,对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判,确保大模型的可控、可靠和可信,是未来“AI可持续发展”的关键问题。

大模型评测原则标准大模型评测的必要性开放性在整个评测过程中,都应保证公开透明,避免暗箱操作;评测数据集也应开放与封闭相结合,这样既有利于后续的模型优化,也可以防止模型刷题?大模型在2023年经历了“百模大战”,实践者们纷纷推出了自己原创的、或经开源模型微调、改进的各种通用模型、行业或领域模型,在此背景下,如何评价大模型的能力变成一个非常重大的研究和实践问题。动态性要不断丰富评测数据,避免静态考题,进行数据集的持续优化,力求更专业。如果榜单的评测数据集长时间保持不变,会有被参与评测者刷题的风险,导致榜单失真优质大模型评测的标准科学性?目前国内外均有测试大模型能力的榜单,但质量良莠不齐,在不同榜单下各模型排名差异较大,原因在于评测数据、测试方法等还不够成熟、科学,我们认为好的评测方法应该满足开放性、动态性、科学性以及权威性等。大模型的评测体系更全面,评测方法确保科学严谨,评测方式力求多元化。这不仅需要专业的数据集构建,也需要科学研究的支撑权威性评测任务具有公信力,评测结果公正严谨,社会认可度高,避免成为一家之言,同时杜绝商业利益对评测结果的干扰

SuperBench评测模型列表本次我们选择海内外具有代表性的14个模型进行评测,对于闭源模型我们选择API和网页两种调用模式中得分较高的一种进行评测。具体模型列表如下:模型所属机构调用方式说明GPT-4TurboGPT-4网页版Claude-3OpenAIOpenAIAPIgpt-4-0125-previewGPT-4官方网页网页Anthropic智谱华章百川智能月之暗面稀宇科技百度APIAPI网页网页APIAPIAPIAPIAPIAPIAPIAPIAnthropicClaude-3-opusAPIGLM-4开放平台APIGLM-4Baichuan3官方网页Baichuan3网页版KimiChat网页版Abab6KimiChat官方网页MiniMax开放平台Abab6API百度千帆平台Ernie-bot-4API通义千问qwen-max-longcontextAPI通义千问开源qwen1.5-72b-chat通义千问开源qwen1.5-14b-chat讯飞SparkDesk-v3.5API文心一言4.0阿里巴巴阿里巴巴阿里巴巴科大讯飞字节跳动零一万物通义千问2.1qwen1.5-72b-chatqwen1.5-14b-chat讯飞星火3.5火山引擎skylark2-pro-4kv1.2APIYi开源Yi-34b-chat模型云雀大模型Yi-34b-chat*注:评测过程中我们发现部分网页版模型性能高于官方API

SuperBench介绍SuperBench简介评测框架评测流程优势开放性评测数据?SuperBench由清华大学基础模型研究中心联合中关村实验室共同发布,致力于为大模型领域提供客观、科学的评测标准,促进大模型技术、应用和生态的健康发展。SuperBench评测数据集结合开源数据集与闭源数据集,后续版本将推出公开的验证集与封闭的测试集,既有助于模型优化,又防止刷题。大模型评测提问待评测模型动态性SuperBench将定期发布评测结果与报告,每个周期刷

文档评论(0)

anhuixingxing + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档