大模型评测：全方位评测神经网络模型的基础能力-北大+张铭.pdf

下载文档

0
0
约1.06万字
约 56页
2025-01-11 发布于山西
举报
版权申诉
保障服务

大模型评测：全方位评测神经网络模型的基础能力-北大+张铭.pdf

1、本文档共56页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

全方位评测神经网络

模型的基础能力

演讲人：张铭二级教授

北京大学计算机学院博士生导师

mzhang_cs@pku.edu.cn

张铭简介

•研究方向为机器学习、图神经网络、知识图谱、推荐系统、AIforScience等

•发表论文300多篇，Google学术上的论文被引19200余次，H因子48

•LINE模型@WWW2015被引6300余次，图表征学习基准模型

•获ICML2014惟一最佳论文，WWW2016最佳论文提名，ICDM2022最佳论文提名

张铭主持的在研项目

2023.11–2026.12,多层次教育知识图谱构建、检索与推理，国家重点研发计划课题

2023.1–2026.12，预训练图表示学习辅助的药物发现研究，国家自然科学基金

2023.10-2026.10，北大-安克具身智能联合实验室，安克创新

2023.8–2024.8，低信噪比时序数据的可扩展式计算表征学习（二期），正仁量化

2023.11–2025.10，指导北京市自然科学基金本科生“启研”计划

•教育部计算机教指委委员，获2021年CCF杰出教育奖

•主持北京大学《数据结构与算法》，获国家级精品课程、首批国家一流本科课程

•北京大学《科技创新与创业》校友讲座课程主持人

CONTENTS

01背景与动机02多模态STEM能力评测

03语言与社会规范评测04总结与展望

背景与动机

当前的评测指标缺少了什么？

背景与动机：多模态STEM数据集的缺乏

制造一艘火箭，需要具备哪些能力？

科学技术

（Science）（Technology）

工程数学

（Engineering）（Math）

•STEM能力是解决真实世界中许多重要问题的基础

•模型是否理解多模态STEM科目的能力至关重要

背景与动机：多模态STEM数据集的缺乏

•过去的评测数据集常常只关注专家级别的能力，涵盖的技能过于分散

•缺少针对STEM科目的多模态数据集

背景与动机：社会规范基础能力评测的缺乏

我可以把瓶子扔到草地上吗？

这么做或许并不违反法律

这么做不符合社会规范

•可信可靠的AI系统应当遵循一定的社会规范与习俗（SocialNorms）

背景与动机：社会规范基础能力评测的缺乏

HistoryPhilosoph

LanguageSocialNorms…

GeographCivics

•大语言模型对人类基础的社会规范的理解能力在它们与人类合作过程中至关重要

背景与动机：社会规范基础能力评测的缺乏

•过去的评测数据集常常只关注于高阶的人类价值观

•缺少数据集用来评测模型对于社会规范形成过程中的基础能力的掌握

解决方案

STEM数据集：评估模型的基础STEM科目的能力

发表于机器学习国际顶会ICLR2024会议

Dataset:https://huggingface.co/datasets/stemdataset/STEM

Code:/stemdat

您可能关注的文档

文档评论（0）

186****0576 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：5013000222000100

1亿VIP精品文档

更多 >

大模型评测：全方位评测神经网络模型的基础能力-北大+张铭.pdf