- 1、本文档共23页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
SuperBench大模型综合能力评测报告(2024年3月)
大模型能力重点迁移历程2021年-2023年2023年-2024年随着语言模型能力的增强,更具应用价值的基于指令遵从和偏好对齐的能力,大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能(AGI)的重要方向。代表工作:AutoGPT、AutoGen等。代码模型逐渐出现。研究人员发现,基于代码生成任务训练的模型在测试中展现出更强的逻辑推理能力,代码模型成为研究热点。代表工作:Codex、CodeLLaMa、CodeGeeX等。语义对齐安全代码智能体2018年-2021年2022年-2023年2023年-future早期的语言模型主要关注自然语言的理解任务(e.g.分词、词性标注、句法分析、信息抽取),相关评测主要考察语言模型对自然语言的语义理解能力。代表工作:BERT、GPT、T5等。随着大模型在各领域的广泛应用,研究人员发现续写式的训练方式与指令式的应用方式之间存在差异,理解人类指令、对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解并响应用户的意图,为大模型的广泛应用奠定了基础。代表工作:InstructGPT、ChatGPT、GPT4、ChatGLM等。随着模型能力的提升,对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判,确保大模型的可控、可靠和可信,是未来“AI可持续发展”的关键问题。
大模型评测原则标准大模型评测的必要性开放性在整个评测过程中,都应保证公开透明,避免暗箱操作;评测数据集也应开放与封闭相结合,这样既有利于后续的模型优化,也可以防止模型刷题?大模型在2023年经历了“百模大战”,实践者们纷纷推出了自己原创的、或经开源模型微调、改进的各种通用模型、行业或领域模型,在此背景下,如何评价大模型的能力变成一个非常重大的研究和实践问题。动态性要不断丰富评测数据,避免静态考题,进行数据集的持续优化,力求更专业。如果榜单的评测数据集长时间保持不变,会有被参与评测者刷题的风险,导致榜单失真优质大模型评测的标准科学性?目前国内外均有测试大模型能力的榜单,但质量良莠不齐,在不同榜单下各模型排名差异较大,原因在于评测数据、测试方法等还不够成熟、科学,我们认为好的评测方法应该满足开放性、动态性、科学性以及权威性等。大模型的评测体系更全面,评测方法确保科学严谨,评测方式力求多元化。这不仅需要专业的数据集构建,也需要科学研究的支撑权威性评测任务具有公信力,评测结果公正严谨,社会认可度高,避免成为一家之言,同时杜绝商业利益对评测结果的干扰
SuperBench评测模型列表本次我们选择海内外具有代表性的14个模型进行评测,对于闭源模型我们选择API和网页两种调用模式中得分较高的一种进行评测。具体模型列表如下:模型所属机构调用方式说明GPT-4TurboGPT-4网页版Claude-3OpenAIOpenAIAPIgpt-4-0125-previewGPT-4官方网页网页Anthropic智谱华章百川智能月之暗面稀宇科技百度APIAPI网页网页APIAPIAPIAPIAPIAPIAPIAPIAnthropicClaude-3-opusAPIGLM-4开放平台APIGLM-4Baichuan3官方网页Baichuan3网页版KimiChat网页版Abab6KimiChat官方网页MiniMax开放平台Abab6API百度千帆平台Ernie-bot-4API通义千问qwen-max-longcontextAPI通义千问开源qwen1.5-72b-chat通义千问开源qwen1.5-14b-chat讯飞SparkDesk-v3.5API文心一言4.0阿里巴巴阿里巴巴阿里巴巴科大讯飞字节跳动零一万物通义千问2.1qwen1.5-72b-chatqwen1.5-14b-chat讯飞星火3.5火山引擎skylark2-pro-4kv1.2APIYi开源Yi-34b-chat模型云雀大模型Yi-34b-chat*注:评测过程中我们发现部分网页版模型性能高于官方API
SuperBench介绍SuperBench简介评测框架评测流程优势开放性评测数据?SuperBench由清华大学基础模型研究中心联合中关村实验室共同发布,致力于为大模型领域提供客观、科学的评测标准,促进大模型技术、应用和生态的健康发展。SuperBench评测数据集结合开源数据集与闭源数据集,后续版本将推出公开的验证集与封闭的测试集,既有助于模型优化,又防止刷题。大模型评测提问待评测模型动态性SuperBench将定期发布评测结果与报告,每个周期刷
您可能关注的文档
- 可编辑文档:“北溪二号”(Nord Stream 2)分析报告-培训课件外文版2024.5,俄罗斯,乌克兰.pptx
- 可编辑文档:2023年乘用车品牌影响力评价分析报告.pptx
- 可编辑文档:2023年健康营养行业品牌渠道发展分析报告.pptx
- 可编辑文档:2023年乳业可持续发展报告-培训课件.pptx
- 可编辑文档:2023年商业护理服务行业市场前景及投资研究报告:“护理+保险”,创新主旋律.pptx
- 可编辑文档:2023年眼视光行业市场前景及投资研究报告:超高需求,国家战略,视光蓝海市场.pptx
- 可编辑文档:2024年520营销趋势洞察分析报告-tiktok.pptx
- 可编辑文档:2024年618大促产品资源方案分析报告-培训课件.pptx
- 可编辑文档:2024年B站交易生态趋势分析报告:培训课件.pptx
- 可编辑文档:2024年白酒及零食行业发展趋势分析报告.pptx
文档评论(0)