- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
;通过有监督微调,大语言模型初步具备了遵循人类指令完成各类型任务的能力。然而,由于需要大量指令和标准回复,耗费了大量人力和时间成本。
有监督微调目标是调整参数使模型输出与标准答案完全相同,因此不能判断整体输出质量,不能适应自然语言多样性,不能解决微小变化敏感性问题。
强化学习则将模型输出文本作为一个整体进行考虑,其优化目标是使模型生成高质量回复。此外,强化学习方法不依赖于人工编写的高质量回复,其模型根据指令生成回复,奖励模型针对所生成的回复给出质量判断。强化学习方法更适合生成式任务,也是大模型构建中必不可少的关键步骤。;1997年“深蓝”击败国际象棋世界冠军加里·卡斯帕罗夫,仅仅20年后,阿尔法狗就超越了人类围棋冠军。阿尔法狗得益于对人类棋手过去数十万场棋局的研究以及对团队中围棋专家的知识提炼。
后继项目AlphaZero则是通过游戏规则自我学习,在围棋、国际象棋和日本将棋领域中击败了包括人类和机器在内的所有对手。与此同时,人类选手也在各种游戏中被人工智能系统击败,包括《危险边缘》、扑克以及电子游戏《刀塔2》《星际争霸11》《雷神之锤3》。这些进展显示了强化学习的巨大作用。;强化学习让智能体在环境里学习,每个行动对应于各自的奖励。智能体通过分析数据,关注不同情况下应该做怎样的事情。
比如,智能体要学着玩一个新的游戏。强化学习过程可以用一个循环来表示:
·智能体在游戏环境里获得初始状态S0(游戏的第一帧);
·在S0的基础上,智能体做出第一个行动A0(如向右走);
·环境变化,获得新的状态S1(A0发生后的某一帧);
·环境给出第一个奖励R1(没死或成功:+1)。
于是,这个回合输出的就是一个由状态、奖励和行动组成的序列,而智能体的目标就是让预期累积奖励最大化。;作为机器学习的一个分支,强化学习是一种广泛应用于创建智能系统的模式,描述和解决智能体在与环境的交互过程中,以“试错”方式通过学习策略达成回报最大化或实现特定目标问题。强化学习侧重于在线学习并试图在探索和利用之间保持平衡,其目标是使智
能体在复杂且不确定的环境中,只依
靠对环境的感知和偶尔的奖励情况下,
对某项任务变得精通,使奖励最大化。;强化学习基本框架由智能体和环境组成,两者不断交互。智能体在环境中获取某个状态后,会根据该状态输出一个动作,也称为决策。动作在环境中执行,环境根据智能体采取的动作,给出下一个状态及当前动作带来的奖励。
由于强化学习涉及的知识面广,尤其是涵盖了诸多数学知识,更需要对强化学习有系统性的梳理与认识。
强化学习讨论信息论、博弈论、自动控制等领域,解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能,可以在围棋和电子游戏中达到人类水平。;从严格意义上说,阿尔法狗程序的成功用到了人工智能、机器学习和深度强化学习,但用得更多的还是深度强化学习。
所谓深度强化学习,是在强化学习里加入深度神经网络。例如,Q学习是利用一个传统算法创建Q表,帮助智能体找到下一步要采取的行动;而DQN是利用深度神经网络来近似Q值。
强化学习和监督学习的共同点是两者都需要大量的数据进行学习训练,但两者的学习方式不相同,所需的数据类型也有差异。监督学习需要多样化的标签数据,强化学习则需要带有回报的交互数据。;与监督学习和无监督学习的最大不同是,强化学习里并没有给定的一组数据供智能体学习。强化学习中的智能体要在变化的环境里做出一系列动作的决策,结合起来就是策略。强化学习就是通过不断试错更新策略的过程。
强化学习与监督学习、无监督学习不同之处体现在以下5个方面。
(1)没有监督者,只有奖励信号。智能体不能够马上获得监督信号,只是从环境的反馈中获得奖励信号。
(2)反馈延迟。有时候需要完成一连串动作,甚至是完成整个任务后才能获得奖励。;(3)试错学习。智能体要与环境不断交互,通过试错来获得最优策略。
(4)智能体的动作会影响其后续数据。智能体选择不同动作会进入不同的状态,下一个时间步获得状态变化,环境的反馈也会随之发生变化。
(5)时间序列很重要。强化学习更加注重输入数据的序列性,下一个时间步t的输入依赖于前一个时间步t-1的状态。;强化学习在大模型上的重要作用可以概括为以下几个方面。
(1)相较于有监督学习,强化学习更有可能考虑整体影响。强化学习针对整个输出文本进行反馈,并不针对特定词元,使强化学习更适合大模型,既可以兼顾表达多样性,又可以增强对微小变化的敏感性。
自然语言十分灵活,可以用多种不同的方式表达相同的语义。强化学习可以允许模型给出不同的表达。另外,强化学习可以通过奖励函数同时兼顾多样性和微小变化敏感性两个方面。;(2)强化学习更容易解决幻觉问题。在模型并不包含或者不知道答案的情况下,有监督训练
您可能关注的文档
- Python人工智能技术与应用课件:基于深度学习的自然语言处理技术应用.pptx
- 大语言模型通识微课课件:处理大模型预训练数据.pptx
- 大语言模型通识微课课件:大模型的构建流程.pptx
- 大语言模型通识微课课件:大模型的微调.pptx
- 大语言模型通识微课课件:大模型的应用场景.pptx
- 大语言模型通识微课课件:大模型评估体系与方法.pptx
- 大语言模型通识微课课件:大模型生成原理.pptx
- 大语言模型通识微课课件:大模型形成基础.pptx
- 大语言模型通识微课课件:大模型应用技术架构.pptx
- 大语言模型通识微课课件:大模型预训练的数据来源.pptx
- 2024-2025学年初中数学九年级上册(湘教版)教学课件 1.2 反比例函数的图象与性质(第1课时 反比例函数y=k÷x(k>0)的图象和性质).pptx
- 2024-2025学年初中道德与法治八年级(上)教学课件 第一单元第二课第2框 合理利用网络.pptx
- 2024-2025学年初中道德与法治八年级(上)教学课件 第二单元第三课第1框 维护秩序.pptx
- 2024-2025学年初中道德与法治八年级(上)教学课件 第一单元第二课第1框 网络改变世界.pptx
- 2024-2025学年初中数学九年级上册(湘教版)教学课件 5.1 总体平均数与方差的估计.pptx
- 2024-2025学年初中地理八年级上册(人教版)教学课件 第二章 第三节 河流 (第1课时).pptx
- 2024-2025学年初中数学九年级上册(湘教版)教学课件 4.1正弦和余弦(第3课时余弦).pptx
- 2024-2025学年初中道德与法治八年级(上)教学课件 第四单元第九课第1框 认识总体国家安全观.pptx
- 2024-2025学年高一数学必修第一册(配湘教版)教学课件 5.3.1 第2课时 正弦函数、余弦函数的周期性、最值.pptx
- 2024-2025学年高二化学选择性必修1(配苏教版)教学课件 专题2 第2单元 第2课时 化学平衡状态.pptx
文档评论(0)