车路协同条件下智能网联汽车一体化决策模型研究.docxVIP

车路协同条件下智能网联汽车一体化决策模型研究.docx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

为了探索当前有限数据条件下面临的无限交通场景问题,提出车路协同条件下基于深度强化学习智能网联汽车决策模型。利用Actor-Critic机制,以highway-env为数据来源,抽取144h交通数据作为训练数据并进行验证,分析了智能网联汽车在不同车道数条件下的驾驶行为。结果显示,本模型汽车行程时间减少20%以上,碰撞概率减少25%以上,换道轨迹可以通过动力学跟踪。

近年来,世界各国对自动驾驶格外关注,被认为是缓解交通拥堵,减少交通事故和环境污染的重要技术。目前,一些自动驾驶汽车已经进行了大规模的道路测试,比如谷歌自动驾驶汽车和苹果自动驾驶汽车。据研究,在当前已经进行了大规模的道路测试,比如谷歌自动驾驶汽车和苹果自动驾驶汽车。据研究,在当前的交通事故中,有超过30%的道路事故是不合理的换道和跟驰行为引起的。如图1所示,在一个单向两车道上,主车为SV,PV是与SV当前所在车道的前车,LV和FV分别是SV目标车道的前车与后车。其中,穿过两条车道的线是车辆SV的行驶轨迹,车辆在O点结束对前车的跟驰并开始准备换道,P点开始由跟驰行为转为换道行为,D点完成换道,设换道起点为P(0,0),那么换道终点为D)。车辆完成换道准备后开始执行换道,SV从当前车道的中心线沿着图中所示的虚线发生移动,一直移动到目标车道的中心线,在此过程中,SV的位置和速度会受到LV、PV、FV三辆车的影响,正常的过程应该是SV在这3辆车的共同影响下安全舒适且高效率地完成换道。

强化学习模型在20世纪已有研究,WATKINS第1次将动态规划和时间异步方法结合在一起,并提出了Q-Learning算法。目前,基于机器学习的方法对自动驾驶决策的研究还比较少,利用机器学习进行自动驾驶车辆换道轨迹规划的模型需要经过大量已有的换道数据训练来确定。在已有研究基础上将Deep-Qlearning应用于自动驾驶换道决策中,用于克服无限场景带来的数据不足和决策安全性问题。但是,对于微观层面的自动驾驶换道轨迹的规划多是基于规则的模型,现实场景的无限化导致该类模型存在维度爆炸等难题。由于深度学习模型没有考虑到车辆决策过程中的安全性和合理性,针对于此,结合基于深度学习的换道和跟驰方法,以及深度强化学习的决策方法,提出了车路协同条件下智能网联汽车一体化决策模型,使用深度强化学习方法对模型进行训练和尝试,最后使用自动驾驶仿真环境highway-env和动力学仿真软件CarSim对本模型输出结果进行了验证。

1算法框架

提出的模型框架如图2所示,主要包括环境信息模块、强化学习动作选择模块和深度学习动作执行模块。环境信息模块主要为强化学习动作选择模块,以及为动作执行模块搜集所需的信息,包括当前时刻周边车辆信息、当前时刻周边道路信息、下一时刻周边道路信息、下一时刻周边车辆信息和本车车辆信息,其中包含的内容有本车状态信息、周围车辆状态信息、障碍物状态信息和环境状态信息。在强化学习动作选择模块中,基于长短期记忆(LongShort-TermMemory,LSTM)神经网络使用了A2C算法,根据环境信息决策车辆下一时刻的行为(是否变化速度、是否换道),如果该行为没有碰撞或者使行程时间变短,则进行奖励,反之则进行惩罚。奖励函数包括两个方面:车辆的安全性和车辆行驶效率,并以此为衡量标准来获取车辆在环境中动作时可以获取的最大累计奖励,通过接受环境对动作的奖励(反馈)获得学习信息并更新模型参数,最后达到模型的奖励收敛,实现模型在交通环境中的应用。在动作执行模块中,同样基于LSTM神经网络对强化学习输出的动作进行执行,其原理是当强化学习模块输出的车辆动作为换道时,执行模块自动切换到换道模型,当强化学习模块输出的车辆动作为跟驰时,执行模块自动切换到跟驰模型。最后,根据highway-env中自带的控制模型进行动作执行,从而更新状态信息。

1.1环境信息模块

车路协同是使用无线通信和传感技术,实现交通参与者之间动态信息的交互和共享。车路协同环境下,汽车主要获取当前时刻周边车辆信息、当前时刻周边道路信息、上一时刻周边道路信息、上一时刻周边车辆信息和本车车辆信息。主要通过两种方式取得此类消息,一种是车-车通信,另一种是车-路通信。车辆间彼此通过安装的车载单元(OnBoardUnit,OBU)进行信息传递和交互,主要包括车辆的姿态信息、速度信息、位置信息以及CAN信号。路侧单元(RoadSideUnit,RSU)是物理位置上固定的交通状态监测设备,以及连接人-车-路的通信设备。它的主要功能是收集路侧传感单元感知的道路环境信息(如交通流量、车辆行驶状态、道路交叉口状态、信号灯控制信息等)。车路协同通信模组,如图3所示。

1.2

文档评论(0)

外卖人-小何 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档