基干RL遗传算法制造车间生产调度研究.doc

基干RL遗传算法制造车间生产调度研究.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基干RL遗传算法制造车间生产调度研究

基于RL的遗传算法的制造车间生产调度研究   摘要:该文从工程应用角度给出了车间调度的问题建模和求解车间作业调度问题的标准遗传算法及优缺点,结合RL对动态的生产环境提出一种基于智能体RL的车间调度方法。该算法将遗传算法与RL相结合,根据弹性生产环境获取较优的交叉率,从而优化在线算法 关键词:遗传算法;增强学习RL;交叉率;生产调度 中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)25-0218-02 模具制造属于非重复性的离散生产过程,模具生产结构复杂、工艺制作繁琐。加工步骤及工时的不确定使得模具制造车间管理变得复杂。在制定车间作业计划时,由于没有样件的试制,有些问题会在生产过程中暴露出来。遇上突发事件如某台机器发生故障,相关的零件加工也要作相应的调整,前后相关的生产任务也要做修改,这就引发了动态的生产调度管理。要提高生产资源的利用率,对人力资源及现有生产设备如何按最优化的形式进行调配,使得对制造车间进行生产调度显得特别困难和重要 1 模型建立 模具车间调度生产问题模型可以描述为: (1)零件集:加工i个零件,需要机器j台,每零件有k道加工序列,在一个时间段一台机器只能加工一个零件的某道工序,并有零件加工顺序约束,每道工序可以占有若干台机器; (2)机器集:因生产调度时有机床约束而不会出现人员约束,所以只给出工序的机器分配,车间内可用机床台,标号组成机床集; (3)机器使用时间:每个零件使用每台机器的时间用T矩阵表示,tijk表示第i个零件在j台机器上加工第k道所消耗的时间,可以由n台机器加工第k道工序,第k道工序在n台机器上的加工时间随操作人员、设备性能的不同使加工时间有所不同,要表示加工时间值上下波动的不确定因素常采用三角数,最少时间、最大时间、最小时间 [1] 则调度目标:零件i投入生产时间为(,,),完工期为 =,当零件的在内加工完成时用户满意度为1,反之为0;要用表示,当j台机床在加工第零件的第道工序时为1,反之为0;当第i工件第k道工序设定完工时间是,实际完成时间为,则满意度为设定完工时间的所属函数与完成期的所属函数交叉面积与完成期的所属函数面积的比[1],由满意度得到调度目标函数为: 工件的加工工序在机器上完工时间: 2 遗传算法求解车间调度经验 遗传算法在求解车间作业问题时,将有哪些信誉好的足球投注网站空间中的参数转换成遗传空间中的染色体,通过一定规则进行逐步迭代产生新个体,新个体经交叉、变异和复制操作又产生新的个体,遗传算法的操作简单,全局有哪些信誉好的足球投注网站能力强,缺点是控制参数如个体规模、适应度指标、变异率、交叉率等较多,参数组合不同,有哪些信誉好的足球投注网站过程可能会出现多方面的功效,影响遗传算法行为和性能的关键因素是如何选择交叉概率和变异概率,交叉概率过小,会降低有哪些信誉好的足球投注网站过程,新个体结构产生不易;而交叉概率过大,加快产生新个体,也越有可能破坏遗传模式[1] 要求出制造车间生产调度问题中遗传算法各参数的合适值是一件难事,必须通过反复试验才能获取当前最优值,因而这些参数如果能进行自适应动态实时的变动对遗传算法在解决生产调度问题上有着积极的作用 3 智能RL模式 Muller提出的智能增强学习(Reinforcement Learning)是一种基于行为方法的半监督学习,它包括负责智能体之间信息交换的通讯层、完成指定任务的协作求解的协作层和接收命令来感知环境变化及改变环境任务的控制层[5]。增强学习RL的目的是动态调整参数从而实现信号强化,当一个动作行为作用于环境,RL将产生动作评价奖惩值合反馈环境状态给智能体,根据相关策略智能体选择下一个行为去影响环境状况,并对新环境做出调整,修改后的新环境状态所给出的信息和奖惩值重新影响智能体,RL中智能体依靠自身经历进行学习获取知识,从而改进行动方案来适应环境。基本的RL模型包括离散的状态信号反馈集合、行为集合、动作评价奖惩值和环境状态集合,如下图: 遗传算法中变异和交叉概率值的选择直接影响算法的收敛性,针对制造车间的工件加工顺序、机床调配和加工时间等生产调度问题,最佳的变异和交叉概率值得获取需要通过反复实验,当加工状况一旦变化最优概率值又要重新寻找,因而单一的遗传算法是不能满足实时动态的车间作业调度的决策过程,而且在调度规模较大时很难保证获取最优值的收敛速度[2],智能RL能根据行为和评价的环境获取知识进而改变行动方案来适应环境的能力可以有效地完成随机有哪些信誉好的足球投注网站,遗传算法如能结合RL可以提高获取最佳变异概率和交叉概率的速度 4 基于RL的遗传算法的设计 增强学习RL在一个环境下的行为产生一个奖惩值,奖惩值越大,则该行为被采用的可能性越大[3],通过不断重复的学习积累奖惩值找到一个最优的变异概率和交叉概率的行为

您可能关注的文档

文档评论(0)

linsspace + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档