- 1、本文档共49页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中国研究生创新实践系列大赛
“华为杯”第十八届中国研究生
数学建模竞赛
学 校 上海师范大学
参赛队号 21102700119
1. 陆悦
队员姓名 2. 熊斯洁
3. 施晨扬
0
中国研究生创新实践系列大赛
“华为杯”第十八届中国研究生
数学建模竞赛
题 目 基于数据挖掘的抗乳腺癌候选药物的优化模型
摘 要:
乳腺癌是目前世界上常见的高致死率癌症之一,严重威胁了人类的生命健康。抗癌药
物的筛选具有重要研究意义和价值。本文基于数据挖掘和机器学习技术,研究抗癌药物筛
的优化建模问题,具有一定的现实意义。
针对问题一,首先对数据进行了预处理,剔除数据中存在的缺失值、异常值、异常变
量和异常样本。在变量筛选过程中,考虑了变量之间的线性和非线性关系。首先,采用
LASSO 回归、person 相关系数、随机森林和互信息4 种方法分别得到排序前40 的变量。
然后,采用投票加权的方式,找到综合排序前40 的变量子集。最后,通过高相关滤波方法
向后迭代去除相关性较高的变量,得到最终的20 个最优变量,保证提取的变量具有代表性
和独立性。
针对问题二,首先基于筛选的 20 个变量建立了基于直方图的梯度增强回归树的回归
预测模型HGBRT 。在训练过程中将1973 个样本按照8:2 分为训练集和测试集,采用K-折
交叉验证方法对模型在训练集进行预训练,在测试集上完成测试与验证。然后,将该模型
与多种经典的回归模型如:支持向量回归 SVR 、神经网络MLP 和随机森林 RF 等方法进
行对比验证,依据算法在测试集上的预测误差表明采用的HGBRT 具有最小的误差和更好
回归预测效果。最后,通过网格搜所对模型的超参数寻优,确定了模型最优超参数。
针对问题三,首先,采用问题一的方法分别筛选针对化合物Caco-2 、CYP3A4、hERG 、
HOB 和 MN5 个因变量相关的 20 个最优变量。然后,基于筛选的变量建立了基于直方图
的梯度增强分类树的分类预测模型HGBCT 。在训练过程中,考虑到5 个化合物分类中0-1
样本分布不均衡可能对模型分类精度影响,通过增加对小样本分类错误的惩罚因子C 来解
决该问题。通过在测试集上与多种分类模型对比,发现HGBCT 具有较高的分类精度,同
时随机森林方法也具有近似的分类精度。最后,通过调节惩罚因子C 可以得到当惩罚因此
C 取值为3~5 之间时,HGBCT 分类准确率最高。
针对问题四,首先基于问题二和问题三提取的相关变量进行投票加权选择评分较高的
变量作为优化变量集。变量集中的变量对ERα生物活性和ADMET 药性具有联合的影响。
然后,基于HGBRT 值和HGBCT 构建双目标优化模型,以函数取值最大为目标函数,变
量的给定范围为约束,求解使得目标函数最大值时变量的取值;考虑到活性因素和药性因
素占比,增加权重参数λ。模型求解采用第三代非支配排序遗传算法(NSGA-III)进行启发式
寻优。最后,通过对算法的初始化参数进行调试,初步确定了NSGA-III 比较优化的初始化
参数,并给出权重参数λ=0.5 时的一组最优解。经过验证,模型求解结果符合要求。同时,
对权重λ 的占比进行求解发现λ 取值在0.5~0.6 之间,模型可以取得最大值,该区间可以
作为参数优化的参考区间。
关键词:相关性分析,HGBRT ,HGBCT ,NSGA-III ,机器学习,数据挖掘
1
目录
1. 问题重述3
1.1 问题背景3
1.2 问题解决4
2 符号说明5
3 模型假设5
您可能关注的文档
- 【研究生数学建模】基于 EKF 和 BP 神经网络的超宽带定位抗干扰综合研究.pdf
- 【研究生数学建模】基于 LSTM-FC 的大气污染物浓度预测模型.pdf
- 【研究生数学建模】基于多层感知机的最小二乘优化定位模型.pdf
- 【研究生数学建模】基于机器学习的 UWB 定位与分类技术研究.pdf
- 【研究生数学建模】基于机组排班问题的多目标规划模型.pdf
- 【研究生数学建模】基于神经元 Hodgkin-Huxley 模型的脑.pdf
- 【研究生数学建模】基于整数线性规划的机组航班匹配问题研究.pdf
- 【研究生数学建模】抗乳腺癌候选药物的优化建模.pdf
- 【研究生数学建模】抗乳腺癌候选药物的优化建模研究.pdf
- 2024-2025学年小学英语六年级上册冀教版(三起)(2024)教学设计合集.docx
- 第十一章 电流和电路专题特训二 实物图与电路图的互画 教学设计 2024-2025学年鲁科版物理九年级上册.docx
- 人教版七年级上册信息技术6.3加工音频素材 教学设计.docx
- 5.1自然地理环境的整体性 说课教案 (1).docx
- 4.1 夯实法治基础 教学设计-2023-2024学年统编版九年级道德与法治上册.docx
- 3.1 光的色彩 颜色 电子教案 2023-2024学年苏科版为了八年级上学期.docx
- 小学体育与健康 四年级下册健康教育 教案.docx
- 2024-2025学年初中数学九年级下册北京课改版(2024)教学设计合集.docx
- 2024-2025学年初中科学七年级下册浙教版(2024)教学设计合集.docx
- 2024-2025学年小学信息技术(信息科技)六年级下册浙摄影版(2013)教学设计合集.docx
- 2024-2025学年小学美术二年级下册人美版(常锐伦、欧京海)教学设计合集.docx
文档评论(0)