- 1、本文档共33页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Seedream2.0:一个原生中文-英文双语图像生成基础模型
SeedVision团队,字节跳动
5
2摘要
0
2扩散模型的快速发展催⽣了图像⽣成领域的显著进展。然⽽,像Flux、SD3.5和Midjourney等
r
a主流模型仍然⾯临模型偏差、⽂本渲染能⼒有限和对中⽂⽂化细微差别理解不⾜等问题。为了解
M决这些局限性,我们提出了Seedream2.0,⼀个原⽣中⽂-英⽂双语图像⽣成基础模型,在多个
维度上表现出⾊,能够巧妙地处理中⽂和英⽂的⽂本提⽰,⽀持双语图像⽣成和⽂本渲染。我们
0
1开发了⼀个强⼤的数据系统,便于知识整合,并且开发了⼀个平衡图像描述准确性与丰富性的字
幕系统。特别地,Seedream与⾃研的双语⼤语⾔模型(LLM)集成作为⽂本编码器,使其能够
]
V直接从⼤量数据中学习本地知识。这使得它能够⽣成具有准确⽂化细微差别和美学表现的⾼保真
C图像,⽆论是⽤中⽂还是英⽂描述。此外,Glyph-AlignedByT5⽤于灵活的字符级⽂本渲染,
s.⽽ScaledROPE则很好地推⼴到未训练的分辨率。多阶段的后训练优化,包括SFT和RLHF迭代
c,进⼀步提升了整体能⼒。通过⼴泛的实验,我们展⽰了Seedream2.0在多个⽅⾯达到了⾏业领
[
先的表现,包括遵循提⽰、审美、⽂本渲染和结构准确性。
1
v
3
0
7此外,Seedream2.0经过多次RLHF迭代优化,使其输出与⼈类偏好⾼度契合,正如其卓越的E
7LO得分所展⽰的那样。此外,它可以轻松地适应基于指令的图像编辑模型,如SeedEdit[28],
0
.具有强⼤的编辑能⼒,能够平衡指令跟随与图像⼀致性。
3
0
5通信:作者名单见附录A
2官方网站:/tech/seedream
:
v
i
X
r
a
图1Seedream2.0在英文和中文的所有评估方面表现出色
1
图2Seedream2.0可视化
2
内容
1介绍4
2数据预处理5
2.1数据组成5
2.2数据清洗过程6
2.3主动学习引擎6
2.4图像字幕⽣成7
2.4.1通⽤字幕7
2.4.2专业字幕7
2.5⽂本渲染数据
文档评论(0)