网站大量收购独家精品文档,联系QQ:2885784924

《金融大数据分析》-课件 第16章 大语言模型.pptx

《金融大数据分析》-课件 第16章 大语言模型.pptx

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大语言模型

学习目标本章学习目标为:1、了解大语言模型的技术背景2、了解大语言模型的应用场景3、熟悉使用网页以及API调用大语言模型分析金融文本

大语言模型的现状大语言在今年来取得了重大发展。以GPT为代表的大语言模型显示出解答数学,法律等问题的能力。这些大语言模型也展现了在编写程序上的能力。早期人工智能的发展过程中,大量与语言相关的工作是由循环神经网络(RNN)以及其改进方案(如长短期记忆模型,即LSTM)来处理的。这些架构在许多语言相关的工作中(例如文本翻译)都有优秀的表现。但是这些架构有很多缺点。最大的问题是训练效率不足,导致无法解析较长的文本。

大语言模型的现状在2017年,GoogleBrain团队发表了一篇重要的论文“AttentionisAllYouNeed”。这篇论文提出了Transformer神经网络结构。该架构极大的提高了语言模型的训练效率,让语言模型的复杂度提升成为现实。2018年GoogleAILanguage团队发表了重磅论文“BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding”。该论文介绍了基于Transformer架构的BERT模型并发现该模型在包括文本情绪分析等多项语言工作中能得出特别优良的表现。同年,OpenAI公司也推出了第一代GPT模型。GPT模型的全称是GenerativePre-trainedTransformer,即生成式预训练Transformer。该模型在2019年发展到了第三代,并在2022年发布了一个聊天机器人即ChatGPT(也称GPT3.5)。Chat-GPT的表现得到了广泛关注。在2023年,OpenAI公司发布了GPT4。有研究人员表示该模型具有一定“通用人工智能”的特点。

大语言模型的现状领先的大语言模型经常有几千亿,甚至上万亿的模型参数。2024年年初OpenAI推出的GPT4仍然领先。Google公司也推出了旗鼓相当的多模态大语言模型Gemini。顶尖模型的具体模型参数不是公开的信息,因为其具有极高的商业价值。同时也有许多性能上佳的开源模型可供开发者使用。其中具有代表性的就是Mistral公司的一系列模型(包括Mistral7B和Mixtral8x7B)以及Meta公司推出的Llama系列模型(包括7-65B的4个不同大小的模型)。我国大语言模型的发展也十分迅猛。其中的代表者包括京智源研究院推出了悟道模型,百度公司推出的文心一言模型。在本章中,我们也会介绍一款Chat-GLM模型的使用方法作为一个例子。

大语言模型的技术背景大语言模型属于Seq2seq(序列到序列)模型。序列到序列模型以一个序列作为输入,进行运算过后再输出一个序列。那么什么是序列呢?简单来说,序列是一系列按照顺序的标记。例如,文本可以用一个序列来进行表示。每一个词语都可以当成一个标记(token)。当然我们需要将词语用向量的方式来表示。同样,输出也是一个向量的序列。如果我们要进行将中文翻译成英文的工作,那么输入是中文的序列,而输出是代表英文单词的序列。如果我们需要完成的是个聊天机器人,那么输入是一个代表问题的序列,而输出则是代表对问题回答的序列。输入序列的长度与输出序列的长度不需要一致。具体输出长度由模型来决定。序列到序列模型:

大语言模型的技术背景Transformer模型图16.1是经典论文“AttentionisAllYouNeed”中对于Transformer模型结构的进行解释的图表。这个模型的结构中有两个重要的组成部分,编码器以及解码器。左边的结构为编码器,右边的结构为解码器图16.1:Transformer模型在Transformer模型中,注意力(attention)机制是一个关键组成部分。它用于计算序列中输入向量之间的相关性。在理解语言的应用中,我们用嵌入向量embeddingvector)来代表文本中的词汇。某些词汇可能会影响到与它们距离较远的其他词汇的含义。因此,注意力机制能有效地帮助模型捕捉这些非邻近词汇之间的关系。

大语言模型的技术背景虽然之前的机器学习模型也有一定能力处理这些词语之间的关系,但是Transformer模型对这一些问题的处理更为高效。此外,这一机制的计算过程可以通过并行运算来加速,从而使Transformer模型能够有效地处理数据中的长距离依赖关系,实现更快的训练速度,并高效处理更长的序列。在实际应用中,编码器与解码器可以分开使用。BERT模型是由多个编码器构成。而GPT系列模型则是由多个解码器

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档