可编辑培训课件-2024年预训练大模型与医疗市场前景及投资研究报告：算法研究应用.pptx

下载文档

0
0
约1.59万字
约 51页
2024-07-06 发布于广东
举报
版权申诉
保障服务

可编辑培训课件-2024年预训练大模型与医疗市场前景及投资研究报告：算法研究应用.pptx

1、本文档共51页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

CONTENTS1.预训练大模型概述2.理解大模型的内在机理3.赋予模型精准性与可解释性4.医疗领域应用5.清华探索：数基生命TsinghuaConfidential|lvhairong@CHIMA20Pag2e23

预训练：从大数据到小数据少量特定领域标注数据（成本高）①关于预训练②剖析大模型大数据（低成本无标注）③精准可解释④医疗应用⑤数基生命微调小模型（学习特性）预训练大模型（学习共性）1.模型角度：模型参数不再是随机初始化，而是通过一些任务（如语言模型）进行预训练；2.数据角度：将训练任务拆解成共性学习和特性学习两个步骤。CHIMA2023

以英文电子病历后结构化为示例英文电子病历后结构化A①关于预训练②剖析大模型不懂英文英文电子病历后结构化B懂英文③精准可解释④医疗应用⑤数基生命英文电子病历后结构化C懂英文的医生CHIMA2023

Transformer架构：预训练的基石①关于预训练②剖析大模型③精准可解释④医疗应用⑤数基生命从word2vec到Transformer从context-free到context-awareCHIMA2023

BERT和GPT?两类典型的大语言模型?BERT：BidirectionalEncoderRepresentationsfromTransformers①关于预训练②剖析大模型?双向模型，同时考虑前文和后文?采用掩码语言模型（maskedlanguagemodel）和下一句预测任务（nextsentenceprediction）进行预训练，使得模型能够学习到上下文关系和词汇语义③精准可解释④医疗应用⑤数基生命?通常用于文本分类、序列标注、问答等任务?GPT：GenerativePre-trainedTransformer?单向模型，只考虑前文，不考虑后文?采用自回归（autoregressive）的方式生成文本，即逐个生成下一个词?通常用于生成文本、对话、问答等任务CHIMA2023

BERT训练①关于预训练②剖析大模型③精准可解释④医疗应用⑤数基生命BERT主要采用掩码语言模型（maskedlanguagemodel，对应图MaskLM）和下一句预测任务（nextsentenceprediction，对应图NSP）进行预训练，使得模型能够学习到上下文关系和词汇语义。预训练好的BERT可以用于对输入文本进行编码，得到具有语义的向量表示。预训练好的BERT也可以通过微调（fine-tuning）方式适配各类NLP任务：TheStanfordQuestionAnsweringDataset问答（SQuAD）、命名实体识别（NER）、MNLI任务（大规模分类任务，目标是预测第二个句子相对于第一个句子是包含，矛盾还是中立）CHIMA2023

BERT表示能力①关于预训练②剖析大模型③精准可解释④医疗应用⑤数基生命RepresentedIntoSeCHIMA2023

BERT类模型①关于预训练②剖析大模型2019年7月FacebookAI基于BERT模型的扩展参数量1.15亿,3.4亿2018年10月GoogleAI提出BERT模型参数量1.15亿,3.4亿数据量约16GB数据量约160GB.③精准可解释④医疗应用⑤数基生命2021年10月MicrosoftAI在BERT模型上引入解码与注意力解耦参数量3.4亿2020年2月GoogleAI提出的轻量化BERT模型参数量0.2亿，0.61亿，2.4亿数据量约16GB数据量约78GB2019年8月清华大学提出知识注入BERT模型，后由BaiduAI更新迭代到3.0版本参数量1.15亿，1.25亿，100亿数据量约12GB，22.9G，4TB2020年3月GoogleAI在BERT模型引入GAN参数量3.4亿数据量约16GBCHIMA2023

GPT发展史2019年2月2022年1月OpenAI提出GPT-3.5模型参数量13亿,60亿，1750亿数据量40TB2017年6月OpenAI提出One-shotGPT-2模型参数量15亿数据量40GB①关于预训练②剖析大模型Google提出Transformer模型2020年5月2023年第一季度2017年6月Open