- 1、本文档共16页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
?
?
基于Q-learning的LADRC癫痫调控研究
?
?
赵峙尧,王子金,魏 伟
(1. 北京工商大学人工智能学院,北京 100048;2. 北京邮电大学自动化学院,北京 100876)
1 引言
癫痫的特点是发作剧烈和反复发作,折磨着世界上大约 1% 的人口。内科和手术治疗的后遗症明显,神经调节成为一种安全有效的替代方法[1]。
目前,临床上,神经调控大多采用开环模式,对医生经验依赖大,无法根据实时脑电信号调节神经刺激的幅值和频率[3]。根据实时脑电信号,经过科学计算,施以不同刺激幅值和频率的闭环神经调控方式,可降低对医生经验的依赖、提高调控效果[4]。然而,临床上,直接根据人类或动物的实时脑电信号设计闭环调控方案有风险。数值模拟分析是一种可行的方法,它能够获得有效的闭环调节策略。通过分析神经群模型 (Neural mass model, NMM)[5],学者们提出了各种闭环调控策略。Wang等人采用比例微分控制抑制癫痫态高频棘波[6]。然而,比例微分控制对非线性和不确定性很敏感,需要更多的能量。Shan等人提出了一种卡尔曼滤波器的迭代学习控制,但无法获得期望的调控[7]。Liu采用模糊PID控制来调节癫痫,但模糊规则依赖于经验,会降低系统性能[8]。因此,在缺乏足够的模型信息和充满各种不确定性的情况下,一种简单有效的闭环调控算法是临床所需的。
线性自抗扰控制 (Linear active disturbance rejection control, LADRC) 能够根据实时脑电 信号提供适当的神经刺激,更易实现,更少依赖于神经群模型[9,10]。但是,给出一组合适的LADRC调控参数非常关键,需要科学合理的LADRC参数整定策略。
Q-Learning是一种强化学习算法。基于设计的奖励函数,迭代学习更新Q表,从而获得期望的动作方式[11]。结合Q-learning与梯度下降,设计一种学习型LADRC参数整定方法,找到一组合适的 LADRC参数。该方法使用赫尔维兹判据得到稳定域,在稳定域中利用Q-learning方法寻找绝对误差积分准则下的最佳参数,用于癫痫闭环调控。
2 神经群模型
癫痫由大脑神经元高度兴奋异常和同步放电引起[12]。脑电信号包括了一些自发的和节律性的脑活动信息,是临床诊断和治疗癫痫的重要依据[13]。NMM可以模拟癫痫脑电信号,其结构如图1所示[5]。
图1 神经群模型结构[5]
神经群模型由三个子群组成,分别是主群、兴奋性反馈子群和抑制性反馈子群。外部输入p(t) 是高斯白噪声,主群接收兴奋性反馈子群输出和抑制性反馈子群的输出。因此,如图1 所示的模型可以描述为一组6个常微分方程[5]。
(1)
则输出为y(t)=x2(t)-x3(t)。x1(t)是中间神经群的输出;x2(t)和x3(t)是锥体细胞兴奋性和抑制性突触后电位神经群的输出,对应于中间神经群的兴奋性和抑制性反馈;x4(t),x5(t)和x6(t)分别是x1(t),x2(t)和x3(t)的导数。
3 LADRC基本概念
考虑一个二阶系统
(2)
其中u,y为系统的输入和输出,a1,a2和b通常未知,d为外部扰动。把系统(2)重写为
(3)
其中b0为控制器增益,f为总扰动。把式(3)写为状态空间表达式
(4)
LADRC结构如图2所示。
图2 LADRC结构图
扩张状态观测器为
(5)
(6)
4 基于Q-learning 的 LADRC 参数整定
4.1 Q-learning概念及其原理
Q-learning是一种强化学习方法,从环境交互中进行目标导向学习。智能体通过和环境的交互完成学习过程,并累计该过程中环境的反馈奖励值作为下次处于相同状态时的决策依据[11]。
Q-learning基本算法如下所示。
随机初始化表格Q(s,a)
重复(每批次):
初始化状态s
重复(当前批次下每一步):
使用从Q表中按照贪婪策略从s中选择一个
采取行为a,可以看到的奖励r和之后的状态s′
更新Q表,按照公式:Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)-Q(s,a)]
把当前行为作为下一次的状态
直到达到某个状态s结束
4.2 基于Q-learning的 LADRC 参数整定
首先,确定LADRC的参数稳定域。线性扩张状态观测器如式 (5) 所示,z1,z2,z3的传递函数为
(7)
接着把z1,z2,z3的传递函数代入设计的控制律u中,得到
(8)
于是,LADRC结构图2可转化为
图3 LADRC等效结构图
其中传递函数G1(s)为
(9)
传递函数H(s)为,
(10)
闭环传递函数为
(11)
把G(s),H(s),G1(s)代入Gcl(s) 中,并令分母多项式为0,得到特征多项式。再令ωc=kωo,通过赫尔维
文档评论(0)