【研究生数学建模】基于数据挖掘的抗乳腺癌候选药物的优化模型.pdf

下载文档

284
0
约6.21万字
约 49页
2022-07-07 发布于湖南
举报
版权申诉
保障服务

【研究生数学建模】基于数据挖掘的抗乳腺癌候选药物的优化模型.pdf

1、本文档共49页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中国研究生创新实践系列大赛 “华为杯”第十八届中国研究生数学建模竞赛学校上海师范大学参赛队号 21102700119 1. 陆悦队员姓名 2. 熊斯洁 3. 施晨扬 0 中国研究生创新实践系列大赛 “华为杯”第十八届中国研究生数学建模竞赛题目基于数据挖掘的抗乳腺癌候选药物的优化模型摘要：乳腺癌是目前世界上常见的高致死率癌症之一，严重威胁了人类的生命健康。抗癌药物的筛选具有重要研究意义和价值。本文基于数据挖掘和机器学习技术，研究抗癌药物筛的优化建模问题，具有一定的现实意义。针对问题一，首先对数据进行了预处理，剔除数据中存在的缺失值、异常值、异常变量和异常样本。在变量筛选过程中，考虑了变量之间的线性和非线性关系。首先，采用 LASSO 回归、person 相关系数、随机森林和互信息4 种方法分别得到排序前40 的变量。然后，采用投票加权的方式，找到综合排序前40 的变量子集。最后，通过高相关滤波方法向后迭代去除相关性较高的变量，得到最终的20 个最优变量，保证提取的变量具有代表性和独立性。针对问题二，首先基于筛选的 20 个变量建立了基于直方图的梯度增强回归树的回归预测模型HGBRT 。在训练过程中将1973 个样本按照8:2 分为训练集和测试集，采用K-折交叉验证方法对模型在训练集进行预训练，在测试集上完成测试与验证。然后，将该模型与多种经典的回归模型如：支持向量回归 SVR 、神经网络MLP 和随机森林 RF 等方法进行对比验证，依据算法在测试集上的预测误差表明采用的HGBRT 具有最小的误差和更好回归预测效果。最后，通过网格搜所对模型的超参数寻优，确定了模型最优超参数。针对问题三，首先，采用问题一的方法分别筛选针对化合物Caco-2 、CYP3A4、hERG 、 HOB 和 MN5 个因变量相关的 20 个最优变量。然后，基于筛选的变量建立了基于直方图的梯度增强分类树的分类预测模型HGBCT 。在训练过程中，考虑到5 个化合物分类中0-1 样本分布不均衡可能对模型分类精度影响，通过增加对小样本分类错误的惩罚因子C 来解决该问题。通过在测试集上与多种分类模型对比，发现HGBCT 具有较高的分类精度，同时随机森林方法也具有近似的分类精度。最后，通过调节惩罚因子C 可以得到当惩罚因此 C 取值为3~5 之间时，HGBCT 分类准确率最高。针对问题四，首先基于问题二和问题三提取的相关变量进行投票加权选择评分较高的变量作为优化变量集。变量集中的变量对ERα生物活性和ADMET 药性具有联合的影响。然后，基于HGBRT 值和HGBCT 构建双目标优化模型，以函数取值最大为目标函数，变量的给定范围为约束，求解使得目标函数最大值时变量的取值；考虑到活性因素和药性因素占比，增加权重参数λ。模型求解采用第三代非支配排序遗传算法(NSGA-III)进行启发式寻优。最后，通过对算法的初始化参数进行调试，初步确定了NSGA-III 比较优化的初始化参数，并给出权重参数λ=0.5 时的一组最优解。经过验证，模型求解结果符合要求。同时，对权重λ 的占比进行求解发现λ 取值在0.5~0.6 之间，模型可以取得最大值，该区间可以作为参数优化的参考区间。关键词：相关性分析，HGBRT ，HGBCT ，NSGA-III ，机器学习，数据挖掘 1 目录 1. 问题重述3 1.1 问题背景3 1.2 问题解决4 2 符号说明5 3 模型假设5