2023年大语言模型评测报告.pptx

下载文档

0
0
约6.93千字
约 69页
2024-11-30 发布于北京
举报
版权申诉
保障服务

2023年大语言模型评测报告.pptx

1、本文档共69页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

;;;;基础语言模型不具备指令理解能力

SFT模型和RL模型可以完成多种任务、要能够服从人类指令;;;HELM：HolisticEvaluationofLanguageModels（斯坦福，2022）提出了语言模型的整体评估，以提高语言模型的透明度“场景、任务、指标”;应用场景分类：将潜在的语言模型应用场景进行分类，包括任务和领域方面。任务可以涵盖问答、信息检索、摘要、情感分析、毒性检测、杂项文本分类等核心场景。领域则包括来源、用户和时间等因素。

评估指标分类：采用多指标方法对语言模型进行评估。评估指标包括精度（Accuracy）、校准和不确定性

（Calibrationanduncertainty）、稳健性（Robustness）、公

平性（Fairness）、偏见和刻板印象（Biasandstereotypes）、有毒性（Toxicity）以及效率（Efficiency）。这些指标用于评估语言模型在不同应用场景下的性能。;应用场景分类：将潜在的语言模型应用场景进行分类，包括任务和领域方面。任务可以涵盖问答、信息检索、摘要、情感分析、毒性检测、杂项文本分类等核心场景。领域则包括来源、用户和时间等因素。

评估指标分类：采用多指标方法对语言模型进行评估。评估指标包括精度（Accuracy）、校准和不确定性（Calibrationanduncertainty）、稳健性（Robustness）、公平性（Fairness）、偏见和刻板印象（Biasandstereotypes）、有毒性

（Toxicity）以及效率（Efficiency）。这些指标用

于评估语言模型在不同应用场景下的性能。;HELM得到了25个结论

Instruction-tuning:优势在于模型参数量小的情况下取得突出结果。

模型准确性与获取方式的关系:开源模型相对较差，随着时间推移差距可能变大或变小。

校准对模型准确性的影响:取决于场景和迁移方式，可能成正比或反比。

鲁棒性和公平性对准确性的影响:在一些扰动下的最坏情况准确度，可能需要权衡。

性能差距与人口统计层面的关系:不同人群可能存在性能差距。

生成性损伤的固定偏差和毒性:在核心场景中平均很低，但仍对社会有危害。

准确性与效率的关系:模型大小和准确度成正比，但训练和推理开销增大。

问题回答中的生成结果差异:在不同问题回答场景中观察到明显差异。

信息检索任务的???型表现:比较好但未达到SOTA水平。

摘要任务中模型生成超越官方参考摘要:需改进摘要基准和评估指标。

情感分析任务的模型表现:准确性和校准性表现好，但鲁棒性和公平性下降。

毒性检测中模型准确性和鲁棒性差异大:大多数模型不够准确。

杂项文本分类中模型表现差异:在不同子集/任务上存在显著差距。

语义理解中模型准确性和语言建模的差异:最优模型在某些任务上可能表现最差。

模型大小与获取世界知识能力的关系:模型大小对知识获取能力提升重要。

推理能力的提高对代码模型效果的影响:代码模型比文本模型表现好。

长序列的版权/证件材料记忆能力:逐字记忆和准确性成正比。

大模型在生成支持给定论点的逼真标题方面有效:但生成鼓励特定行动的文本效果有高有低。

准确性与偏见之间的关系:最准确模型存在与社会一致的偏见/歧视。

毒性生成与核心场景的关系:核心场景中毒性生成概率很低。

大模型的全面性表现:超过某些专业化模型。

提示对模型表现的影响:对提示格式和上下文示例敏感。

多选择迁移方法对模型表现的影响:迁移方式影响模型表现。

上游复杂度与下游准确度的关系:上游复杂度不能可靠预测下游准确度。

模型规模的趋势与准确性的关系:模型规模可预测准确性，但效率可能不够高效。;AGI-EVAL:AHuman-CentricBenchmarkforEvaluatingFoundationModels（微软2023.4）

专门用于评估基础模型在「以人为本」（human-centric）在标准化考试，如高考、公务员考试、法学院入学考试、数学竞赛和律师资格等考试中的表现;AGIEval数据集遵循两个设计原则

强调人脑级别的认知任务：

与现实世界场景的相关性：

AGIEVAL选择了多种标准化的高质量考试，强调人类水平的推理和现实世界的相关性

具体包括：

普通高校入学考试

法学院入学考试

律师资格考试

研究生管理入学考试（GMAT）

高中数学竞赛

国内公务员考试;评估了三个模型：GPT-4,ChatGPT和Text-Davinci-003

采用Zero-shot和Few-shot设置进行评估。在Zero-shot设置下，模型直接对问题进行评估；而在Few-shot设置下

您可能关注的文档

文档评论（0）

535600147 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6010104234000003

1亿VIP精品文档

更多 >

2023年大语言模型评测报告.pptx