- 1、本文档共53页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中国研究生创新实践系列大赛
“华为杯”第十八届中国研究生
数学建模竞赛
学校 南京林业大学
参赛队号 21102980066
1.钱伟杰
队员姓名 2.石泽峰
3.王汉钊
中国研究生创新实践系列大赛
“华为杯”第十八届中国研究生
数学建模竞赛
题目 抗乳腺癌候选药物的优化建模
摘 要:
研究发现,雌激素受体α 亚型 (ERα )是治疗乳腺癌的重要靶标,能够拮抗ERα 活性
的化合物可能是治疗乳腺癌的候选药物。一个化合物想要成为候选药物,除了需要具备
良好的生物活性外,还需要在人体内具备良好的药代动力学性质和安全性。通常采用建
立化合物生物活性预测模型的方法来筛选潜在活性化合物。本文构建化合物生物活性的定
量预测模型和 ADMET 性质的分类预测模型,从而为同时优化 ERα 拮抗剂的生物活性和
ADMET 性质提供预测服务。
本文所做的工作可概括为以下几点:
问题一:首先通过低方差滤波去除225 个单一值特征变量,再对剩余的 504 个变量进
行灰色关联分析筛选出前 200 名的特征变量,将样本特征比提高至接近 10:1。接着使用
基于随机森林的递归特征消除算法选取前 30 名的特征变量,考虑到算法的随机性影响,
将算法试验 50 次,对每次选出的30 个变量计数,最后得到出现频数最高的 30 个变量。
因得到的30 个变量只有计数,没有得分排名,再对选出的 30 个变量做 10 次随机森林回
归,取10 次回归的平均值作为30个变量最终的相关性得分,选出排名靠前的20个变量。
同时,对得分靠前的20 个变量分别计算其与pIC50 的最大互信息系数得分,距离相关性系
数得分,皮尔森系数得分,验证变量选取的合理性。
问题二:结合问题 1 递归特征消除选出的和生物活性相关性最高的 30 个特征变量,
将变量按对生物活性相关性从高到低排序,求出变量与变量之间的距离相关系数,再通
过类似非极大值抑制的方式,对分数高的变量删去和其距离相关系数为强相关的变量(系
数0.6),从而保证所选变量的独立性,保证选出的特征子集尽可能最优。接着选用 5 种
最常用的非线性模型支持向量回归模型,随机森林回归模型,梯度提升回归树模型,
XGBoost 模型和BP 神经网络来建立生物活性预测模型。将 1974 个样本划分成 80%训练集
和 20%的测试集,用训练集训练模型,用测试集对模型进行检验,分别得到5 种模型的三
2 2
个评价指标MSE,MAE, ,通过比对这三个指标,最终确定了拟合优度 为0.8076 的梯度
提升回归树预测模型。使用模型对test 文件中的50 个化合物预测pIC50 ,并通过pIC50 与
IC50 之间的转换公式得到50 个IC50 的结果。
问题三:首先对每个 ADMET 性质分别进行最优特征子集的选取,每个性质特征子集选
取的步骤相同,以 Caco-2 为例,第一步滤去数据集中 225 个单一值特征变量,第二步使
用最大互信息系数求取与 Caco-2 相关性最高的 200 个变量,第三步使用基于随机森林的
1
递归特征消除算法选取变量,试验 50 次,每次选出40 个变量,挑选出现频数大于40 的
特征变量,第四步,按随机森林得分排序变量,第五步使用问题二中提出的类似非极大
值抑制的独立性变量剔除算法选出最优的特征子集。得到了5 个性质各自的特征子集后,
选用5 种分类预测模型,通过在测试集上的准确率比较,确定最终各ADMET 性质的分类预
测模型。一共选出三个支持向量机分类模型和两个 XGBoost 分类模型,使用模型对 test
文件中50 个化合物预测5 个性质的分类结果。
问题四:筛选样本数据,分析主要变量分布,选定需要优化的变量。为满足ADMET 中
至少有三个性质较好及各变量上下限的约束条件下,
您可能关注的文档
- 【研究生数学建模】基于 EKF 和 BP 神经网络的超宽带定位抗干扰综合研究.pdf
- 【研究生数学建模】基于 LSTM-FC 的大气污染物浓度预测模型.pdf
- 【研究生数学建模】基于多层感知机的最小二乘优化定位模型.pdf
- 【研究生数学建模】基于机器学习的 UWB 定位与分类技术研究.pdf
- 【研究生数学建模】基于机组排班问题的多目标规划模型.pdf
- 【研究生数学建模】基于神经元 Hodgkin-Huxley 模型的脑.pdf
- 【研究生数学建模】基于数据挖掘的抗乳腺癌候选药物的优化模型.pdf
- 【研究生数学建模】基于整数线性规划的机组航班匹配问题研究.pdf
- 【研究生数学建模】抗乳腺癌候选药物的优化建模.pdf
- 国际标准 IEC 60939-2-2:2004 EN_D 完整抑制无线电干扰滤波器单元-第2-2部分:空白详细规范-用于抑制电磁干扰的被动滤波器单元-仅需进行安全测试的滤波器(安全测试) Complete filter units for radio interference suppression - Part 2-2: Blank detail specification - Passive filter uits for electromagnetic interference .pdf
文档评论(0)