- 1、本文档共20页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
金融大模型应用评测报告摘要版
(2024)
上海人工智能实验室上海财经大学
上海库帕思科技有限公司
二零二四年十二月
为进一步推动金融科技创新应用的落地,切实提升金融服务的智能化水平,降低企业数字化转型成本,并积极探索金融垂直领域大模型应用的新理念、新机制和新手段,上海人工智能实验室和上海财经大学根据上海人工智能协会和上海金融业联合会共同发布的《金融大模型应用评测指南》(T/SAIAS019—2024)团标,采用上海库帕思科技有限公司依照上述团标制定的评测数据集《库帕思金融大模型评测数据集(2024版)》,形成了《金融大模型应用评测报告(2024)》。
一、金融大模型应用评测范式
(一)评测对象范围
本次测评对象包括国内外、开闭源、通用基模与金融垂模,共计14个主流大模型机构的20个模型。评测围绕金融行业的核心业务需求及大模型在金融场景中的适配性,结合银行、证券、保险、基金等重点应用场景,形成“模型基础能力”、“金融安全与价值对齐能力”、“金融风险控制能力”、“金融专业认知能力”、“金融业务辅助拓展能力”5大测评维度。具体详情参见表1-1。
表1-1参评模型清单
机构
模型
类型
简介
OpenAI
GPT-4o基模
(多模态)
GPT-4o是OpenAI推出的高级多模态模型,能够接受包括文
本、音频、图片和视频在内的任意组合输入,生成文本、音频和图片的任意组合输出。与现有模型相比,GPT-4o在视觉和音频理解方面表现尤其出色。
Anthropic
Claude-3.5-
Sonnet基模
(多模态)
Claude-3.5-Sonnet是
Anthropic发布的升级版,在推理、编码和数学能力方面表现尤其出色。
谷歌
Gemini-1.5-pro
基模
(多模态)
Gemini-1.5-pro是GoogleDeepMind发布的强大多模态模型,可处理各种推理任务。Gemini-1.5-pro可以一次处理大量数据,包括2小时的视
频、19小时的音频、6万行代码的代码库或2,000页的文本。
阶跃星辰/财跃星辰
Step-2-16k
基模(语言)
Step-2-16k是阶跃星辰发布的新一代混合专家模型(MoE)架构大模型,
参数规模突破万亿。模型性能/体感/规划能力全面逼近国际主流大模型,
满足用户在中/英文领域各种需求,体现了ScalingLaw最前沿的成果。
FinStep
垂模
(多模态)
财跃星辰大模型FinStep拥有1300亿参数,具备多模态图文理解、128K上下文窗口和深度智能能力,在
AIGC多模态内容生成、金融垂类知识问答、图表理解、工具计算等方面表现突出。
腾讯
Hunyuan-Turbo
基模(语言)
Hunyuan-Turbo是由腾讯公司全链路自研的大模型,采用全新的混合专家模型结构,在高质量内容创作、数理逻辑、代码生成和多轮对话上性能表现卓越,处于业界领先水平。
Hunyuan-Vision
基模
(多模态)
Hunyuan-Vision是腾讯发布的多模态大模型,支持图片生文,包括图片基础识别、图片内容创作、图片多轮对话、图片知识问答、图片分析推理、图片OCR等能力。
阿里巴巴
Qwen2.5-72B-Instruct
基模(语言)
Qwen2.5-72B-Instruct是阿里巴巴开源的旗舰模型,支持高达128K的上下文长度,可生成最多8K内容。模型拥有强大的多语言能力,在指令跟
随、理解结构化数据、生成结构化输出等方面表现突出。
Qwen2-VL-72B
基模
(多模态)
Qwen2-VL-72B是阿里巴巴推出的多模态模型,72B参数量,支持不同分辨率的图像输入,能够理解20分钟以上的长视频。
字节跳动
Doubao-pro-32k
基模(语言)
Doubao-pro-32k是字节跳动研发的主力大语言模型,适合处理复杂任务,在总结摘要、创作、文本分类、角色扮演等场景都有很好的效果。
Doubao-vision-pro-32k
基模
(多模态)
Doubao-vision-pro-32k是豆包推出的多模态大模型,具备强大的图片理解与推理能力,以及精准的指令理解能力。模型在图像文本信息抽取、基于图像的推理任务上展现出强大的性
能,能够应用于更复杂、更广泛的视觉问答任务。
百度
ERNIE-4.0-Turbo-8K-
文档评论(0)