罗璇-RWKV,开源模型架构,不一定是Transformer.pdf

罗璇-RWKV,开源模型架构,不一定是Transformer.pdf

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

开源模型架构,

不⼀定是Transformer

演讲⼈:罗璇

元始智能/COO

罗璇,多年“AI+机器⼈”产研经验

RWKV

元始智能联创COO前C轮机器⼈公司联创前阿⾥AILab产品总监

⼤模型的现状

很热闹不赚钱

(除了英伟达)

⽬录

CONTENTS

01Transformer的崛起与挑战02回顾RNN发展

03RWKV社区04RWKV开发者的实践

01

Transformer

崛起和挑战

✨⼤模型的历史

前神经⽹络-神经⽹络-⼤模型

Transformer迅速占据优势地位

Transformer相⽐RNN的优势

解决了RNN的核⼼问题

⾃注意⼒并⾏性

Transformer不使⽤隐藏状态来捕获Transformer通过在训练期间启⽤并

数据序列的相互依赖性。相反,它们⾏性来解决RNN⾯临的梯度问题。

使⽤⾃注意⼒头来并⾏处理数据序通过同时处理所有输⼊序列,

列。这使Transformer能够使⽤⽐Transformer不受反向传播限制,因

RNN更短的时间训练和处理更⻓的为梯度可以⾃由流向所有权重。

序列。

它们还针对并⾏计算进⾏了优化,图

借助⾃注意⼒机制,Transformer可形处理单元(GPU)为⽣成式⼈⼯智

克服RNN⾯临的内存限制和序列相能开发提供了这种优化。并⾏性使转

互依赖性。Transformer可以并⾏处换器能够通过构建更⼤的模型来⼤规

理数据序列,并使⽤位置编码来记住模扩展和处理复杂的NLP任务。

每个输⼊与其他输⼊的关系。

Transformer的应⽤场景

⾃然语⾔处理推荐系统多模态⽣物信息学

⾃动摘要⽤户⾏为序列模型⽬标检测蛋⽩质⽣成

机器翻译⽤户短期兴趣模型视频追踪基因语⾔模型

⽂本分类图像语义分割

多轮对话流式语⾳识别

Transformer⾯临的挑战

算⼒需求巨⼤,Scaling-law失效

02

回顾RNN发展

RNN是什么

循环神经⽹络(RNN)是⼀种深度学习模型,

经过训练后,可以处理顺序数据输⼊,并将其转换为特定的顺序数据输出

文档评论(0)

150****8957 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档