网站大量收购独家精品文档,联系QQ:2885784924

基于蛋白质语言模型的神经肽预测方法研究.pdf

基于蛋白质语言模型的神经肽预测方法研究.pdf

此“医疗卫生”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共66页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

神经肽是免疫系统中最普遍存在的神经递质,可调节多种生物过程。神经肽在发

现神经系统疾病的新药和靶点方面发挥着重要作用。虽然可以通过传统的湿实验方法

鉴定神经肽,但是这些方法费时且昂贵。在过去的几十年里,基于机器学习的方法得

到了发展,在一定程度上加速了对神经肽的发现。然而,现有的方法高度依赖于手工

特征工程,容易忽略潜在的特征表示,模型的性能仍有改进的空间。

在本文中,本研究提出一种高效和可解释的模型NeuroPpred-SHE,通过从手工

特征和蛋白质语言模型的嵌入中选择最优特征子集来预测神经肽。首先,利用预训练

T512;

的蛋白质语言模型和其他种编码方法分别从肽序列中提取嵌入特征和手工特征

其次,融合嵌入特征和手工建模特征以增强特征的表示能力;然后,利用随机森林(RF)、

最大相关最小冗余(mRMR)和极端梯度提升(XGBoost)方法从融合特征中选择最优特

;(GBDTXGBoostSVMMLPLightGBM)

征子集最后,采用五种机器学习方法、、、和

进行模型构建。实验结果表明,基于梯度提升决策树(GBDT)的模型取得了最好的性

能。最后,在一个独立的测试集上与其他先进的预测方法进行了比较,结果表明,我

97.8%AUROC

们的模型达到了的,高于其他所有先进的预测方法。

NeuroPpred-SHE预测精度取得了一定的提升,但仍然存在一些局限性。为此,

本研究在此基础上做出了进一步探索,提出了一种基于多模态特征和孪生网络的神经

肽预测模型,NeuroPpred-MSN,进一步增加了神经肽的特征表示。为了能够全面地

表示神经肽的信息,本研究结合了四种编码方案(令牌嵌入编码、词向量编码、蛋白

嵌入编码和手工方法编码)和两种神经肽表示(原始序列形式和二级结构形式)。此

外本研究还考虑了孪生网络的框架来构建模型。具体来说,本研究首先构造了一个基

于令牌嵌入编码和词向量编码的孪生网络。他们都使用相同的Transformer,多尺度

卷积神经网络,双向门控循环单元的架构。同时,在模型的另一个输入通道中,本研

T5

究将神经肽的原始序列和结构序列输入到预先训练的蛋白语言模型中,获得嵌入

特征,同时使用手工制作的计算方法提取神经肽的物理化信息。然后将这两个信息融

合并输入到门控循环单元中进行进一步处理。最后,本研究将三个通道的向量输入到

全连接层中,进行最终的预测。此外,本研究的模型在独立测试集上与其他最先进的

方法进行了比较,结果表明,本研究构建的模型的AUROC达到了98.3%,优于其他

最先进的模型。

综上所述,本文提出了两种基于蛋白质语言模型的预测神经肽的新方法,即

NeuroPpred-SHE和NeuroPpred-MSN。该方法具有精度高、速度快、可靠性强的特点,

II

为研究人员更好地理解神经肽的作用提供了更有效的手段。此外,本研究还还分析了

多模态特征相较于单一特征的有效性,为基于多模态特征的神经肽预测方法的发展提

供了一定的参考。

关键词:神经肽;多模态特征;蛋白语言模型;孪生网络

III

目录

第一章绪论1

1.1研究背景1

1.2神经肽介绍1

1.3神经肽研究现状3

1.4研究意义与论文结构6

1.4.1研究意义与创新点6

1.4.2论文结构7

第二章神经肽数据集构建9

2.1数据集收集与处理9

2.2神经肽数据集评估指标10

2.3K折交叉验证11

您可能关注的文档

文档评论(0)

qiutianfeng + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档