- 1、本文档共205页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大模型能力技术培训
让数据智能像水电样简单
语言模型发展历程
•上世纪90年代:语言模型出现,统计学方法,使用前面的词预测下一个词
•2003年:Bengio《ANeuralProbabilisticLanguageModel》,首度将深度学习思想融入语言模型
•2018年:Google提出Transformer神经网络架构,并通过大量文本训练理解语言规则和模式
大语言模型:包含百亿或更多参数的语言模型
•国外:GPT-3(175B)、GPT-4、PaLM(540B)、Galactica和LLaMA等
•国内:ChatGLM、文心一言、通义千问、讯飞星火等
•大语言模型和小语言模型(如GPT2)采用相似的架构和预训练任务,但是能力截然不同(涌现能力)
•涌现能力使得大语言模型只使用很少的样本就可以处理全新的任务
参考文献:/abs/2303.18223
对技术领域的影响
•自然语言处理:理解和生成文本,意图理解、写文章、回答问题、翻译等等
•信息检索:智能检索,改进有哪些信誉好的足球投注网站引擎
•计算机视觉:文生图、多模态交互
对商业领域的影响
•AIAgent:数字人、个人智能助理、情感分析师、口语陪练、智能运营助手,等等
•通用人工智能AGI:大语言模型是AGI的早期形式,引发了对未来人工智能发展的思考和规划
参考文献:/abs/2303.18223
涌现能力
•上下文学习的能力:GPT3首次引入,instruction+fewshotlearning,无需额外训练和参数更新
•指令遵循:可以使用指令进行微调,在同样使用指令形式化描述的未见过的任务上表现良好
•逐步推理:“思维链”推理策略,可以利用包含中间推理步骤的提示机制来解决复杂推理任务
作为基座模型支持多元应用的能力
•全新的AI范式,借助于海量无标注数据的训练,获得可以适用于大量下游任务的统一大模型
•可以缩短每个具体应用的开发周期,人力投入,也可以基于大模型的推理、常识和写作能力,获得更好的应用效果
支持对话作为统一入口的能力
•ConversationasaPlatform(陆奇,2016),以对话形态完成各种各样的任务
参考文献:/1389978604/248392718
•巨大的规模:十亿到万亿,能够捕捉更多的语言知识和复杂的语法结构
•预训练和微调:先用无标签数据在大规模文本上预训练,再用有标签数据微调特殊任务
•上下文感知:能够理解和生成依赖于前文的文本内容。在对话、文章生成和情境理解方面表现出色
•多语言支持:可以构建跨文言和跨文化的应用
•多模态支持:文本、图像、语音
•涌现能力:能用更少的数据处理更复杂的任务
•多领域应用:文本生成、自动翻译、信息检索、摘要生成、聊天机器人、虚拟助手等等
•伦理和风险问题:生成有害内容、隐私问题、认知偏差等,这是需要重点解决的问题
•幻象、资源消耗、推理速度
参考文献:/abs/2303.18223
语言模型(LanguageModel,LM)目标是建模自然语言的概率分布
词汇表V上的语言模型由函数P(w1w2...wm)表示,表示词序列w1w2...wm作为一个句子出现的可能性大小。对于任意词串w1w2...wm∈V+,则有P(w1w2...wm)=0,并且对于所有词串,函数P(w1w2...wm)满足归一化条件:
由于联合概率P(w1w2...wm)的参数量十分巨大,直接计算P(w1w2...wm)非常困难。如果把w1w2...wm看作一个变量,那么它具有|V|m种可能。
按照《现代汉语词典(第七版)》包含7万词条,句子长度按照20个词计算,模型参数量达到7.9792*1096的天文数字。
由此,w1w2...wm的生成过程可以看作单词逐个生成的过程。首先生成w1,之后根据w1生成w2,再根
据w1和w2生成w3,以此类推,根据前m−1个单词生成最后一个单词wm
为了减少P(w1w2...wm)模型参数量,可以利用句子序列通常情况下从左至右的生成过程进行分解,使用
链式法则得到:
其中,词wi出现的概率受它前面的i−1
您可能关注的文档
- 2025新一代人工智能技术发展及其应用报告-西藏大学.pdf
- Deepseek+外经贸企业创新突围讲义精华全版(252 页).pdf
- Deepseek高手写材料提示词手册_00.pdf
- DeepSeek能力赋能个人发展.pdf
- 关于人工智能大模型的几点思考PPT.pdf
- 自然语言处理:大模型理论与实践PPT(合集).pdf
- 下雨的课件背景图片必威体育精装版完整版本.pptx
- 乌兰浩特革命文化课件必威体育精装版完整版本.pptx
- 严禁打架班会课件PPT必威体育精装版完整版本.pptx
- 乌克兰形势与政策课件必威体育精装版完整版本.pptx
- (高清版)DB1301∕T 485-2023 生猪定点屠宰企业非洲猪瘟检测实验室建设规范.docx
- (高清版)DB1301∕T 487-2023 设施樱桃番茄基质栽培技术规程.docx
- (高清版)DB1301∕T 486-2023 林下蛋鸡生态养殖技术规程.docx
- (高清版)DB1301∕T 507-2024 动物诊疗机构兽药管理规范.docx
- (高清版)DB1301∕T 456-2023 青海湖裸鲤淡水人工繁育技术规程.docx
- (高清版)DB62∕T 4850-2023 马铃薯品种 应发薯1号.docx
- (高清版)DB62∕T 4813-2023 小麦品种 灵台4号.docx
- (高清版)DB62∕T 4878-2024 国家公园自然资源资产价值评估技术规程.docx
- (高清版)DB1301∕T 505-2024 新生儿洗澡操作规程.docx
- (高清版)DB62∕T 4899-2024 梨品种 早玉.docx
最近下载
- 2024年广东省中考英语试题(含听力音频和答案).docx VIP
- 公务员制度导论-孙德超-第4章 公务员分类管理制度.ppt VIP
- 五年级下册数学应用易错题.docx VIP
- 智慧税务服务综合管理系统方案.docx VIP
- 公务员制度导论-孙德超-第5章 公务员录用制度.ppt VIP
- 运营车辆停运费诉状范文范例.docx VIP
- 2024江苏省句容市《质量员之设备安装质量基础知识》资格考试必背200题完整题库(基础题).docx VIP
- 玩转手机银行APP.doc VIP
- 纳米材料与纳米技术 课件全套 第1--7章 纳米材料的结构单元---先进纳米加工技术.pptx
- 网约车停运费诉状模板范文范例.docx VIP
文档评论(0)