- 1、本文档共66页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
神经肽是免疫系统中最普遍存在的神经递质,可调节多种生物过程。神经肽在发
现神经系统疾病的新药和靶点方面发挥着重要作用。虽然可以通过传统的湿实验方法
鉴定神经肽,但是这些方法费时且昂贵。在过去的几十年里,基于机器学习的方法得
到了发展,在一定程度上加速了对神经肽的发现。然而,现有的方法高度依赖于手工
特征工程,容易忽略潜在的特征表示,模型的性能仍有改进的空间。
在本文中,本研究提出一种高效和可解释的模型NeuroPpred-SHE,通过从手工
特征和蛋白质语言模型的嵌入中选择最优特征子集来预测神经肽。首先,利用预训练
T512;
的蛋白质语言模型和其他种编码方法分别从肽序列中提取嵌入特征和手工特征
其次,融合嵌入特征和手工建模特征以增强特征的表示能力;然后,利用随机森林(RF)、
最大相关最小冗余(mRMR)和极端梯度提升(XGBoost)方法从融合特征中选择最优特
;(GBDTXGBoostSVMMLPLightGBM)
征子集最后,采用五种机器学习方法、、、和
进行模型构建。实验结果表明,基于梯度提升决策树(GBDT)的模型取得了最好的性
能。最后,在一个独立的测试集上与其他先进的预测方法进行了比较,结果表明,我
97.8%AUROC
们的模型达到了的,高于其他所有先进的预测方法。
NeuroPpred-SHE预测精度取得了一定的提升,但仍然存在一些局限性。为此,
本研究在此基础上做出了进一步探索,提出了一种基于多模态特征和孪生网络的神经
肽预测模型,NeuroPpred-MSN,进一步增加了神经肽的特征表示。为了能够全面地
表示神经肽的信息,本研究结合了四种编码方案(令牌嵌入编码、词向量编码、蛋白
嵌入编码和手工方法编码)和两种神经肽表示(原始序列形式和二级结构形式)。此
外本研究还考虑了孪生网络的框架来构建模型。具体来说,本研究首先构造了一个基
于令牌嵌入编码和词向量编码的孪生网络。他们都使用相同的Transformer,多尺度
卷积神经网络,双向门控循环单元的架构。同时,在模型的另一个输入通道中,本研
T5
究将神经肽的原始序列和结构序列输入到预先训练的蛋白语言模型中,获得嵌入
特征,同时使用手工制作的计算方法提取神经肽的物理化信息。然后将这两个信息融
合并输入到门控循环单元中进行进一步处理。最后,本研究将三个通道的向量输入到
全连接层中,进行最终的预测。此外,本研究的模型在独立测试集上与其他最先进的
方法进行了比较,结果表明,本研究构建的模型的AUROC达到了98.3%,优于其他
最先进的模型。
综上所述,本文提出了两种基于蛋白质语言模型的预测神经肽的新方法,即
NeuroPpred-SHE和NeuroPpred-MSN。该方法具有精度高、速度快、可靠性强的特点,
II
为研究人员更好地理解神经肽的作用提供了更有效的手段。此外,本研究还还分析了
多模态特征相较于单一特征的有效性,为基于多模态特征的神经肽预测方法的发展提
供了一定的参考。
关键词:神经肽;多模态特征;蛋白语言模型;孪生网络
III
目录
第一章绪论1
1.1研究背景1
1.2神经肽介绍1
1.3神经肽研究现状3
1.4研究意义与论文结构6
1.4.1研究意义与创新点6
1.4.2论文结构7
第二章神经肽数据集构建9
2.1数据集收集与处理9
2.2神经肽数据集评估指标10
2.3K折交叉验证11
您可能关注的文档
- Delftia+sp.+HFL-1对杀菌剂萎锈灵的降解效应与作用机制研究.pdf
- EasyWay简易通用载体系统的构建与功能验证.pdf
- L市D镇红色旅游景区发展水平提升路径研究—基于游客评价视角.pdf
- miR172c影响草莓花青素合成的功能研究.pdf
- PVA_TiO2复合薄膜多模态自供电可穿戴植物传感器及其应用研究.pdf
- SPEAKING视角下乡村语言景观调查研究——以安徽省烔炀镇为例.pdf
- trpS基因对乳源金黄色葡萄球菌环境耐受性的影响.pdf
- ZmDi19-7负调控玉米叶枯病的功能研究.pdf
- ZYMV侵染甜瓜转录组分析及其HC-Pro蛋白与甜瓜UCP1蛋白互作分子机制.pdf
- 丙硫菌唑纳米载药颗粒对F1雌性小鼠肝脏毒性的研究.pdf
- 中考语文复习专题二整本书阅读课件.ppt
- 中考语文复习积累与运用课件.ppt
- 2025年初中学业水平考试模拟试题(二)课件.ppt
- 四川省2015届理科综合试题48套第12套.pdf
- 【课件】战争与和平—美术作品反映战争+课件-2024-2025学年高中美术湘美版(2019)美术鉴赏.pptx
- 【课件】青春牢筑国家安全防线 课件 2024-2025学年高中树立总体国家安全观主题班会.pptx
- 【课件】原始人的创造+课件高中美术湘美版(2019)美术鉴赏.pptx
- 上海证券-美容护理行业周报:流量加快去中心化,强运营头部品牌影响较小 -2024-.pdf
- T_CSEIA 1005—2023_能源工业互联网平台数据治理要求.pdf
- T_CDSA 504.16-2023_急流救援技术培训与考核要求.pdf
最近下载
- 铁路工程工程量清单规范TZJ1006-2020.docx VIP
- 拼多多百亿补贴活动的财务模型与ROI分析.ppt
- 急性髓系白血病.ppt
- 2024年开封文化艺术职业学院高职单招职业技能测验历年参考题库(频考版)含答案解析.docx
- 光伏发电项目施工安全管理措施.docx
- (正式版)D-L∕T 821-2017 金属熔化焊对接接头射线检测技术和质量分级.docx VIP
- 青岛版数学四年级下册期中考试试卷附答案.pdf VIP
- 积极向上的英文演讲稿.docx VIP
- 六年级总复习语文复习课教案(非连续性文本).docx
- 2025中国农业科学院特产研究所招聘37人(吉林长春市)笔试模拟试题及答案解析.docx
文档评论(0)