网站大量收购独家精品文档,联系QQ:2885784924

豆包大模型Seedream2.0-一个原生中文-英文双语图像生成基础模型.pdf

豆包大模型Seedream2.0-一个原生中文-英文双语图像生成基础模型.pdf

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Seedream2.0:一个原生中文-英文双语图像生成基础模型

SeedVision团队,字节跳动

5

2摘要

0

2扩散模型的快速发展催⽣了图像⽣成领域的显著进展。然⽽,像Flux、SD3.5和Midjourney等

r

a主流模型仍然⾯临模型偏差、⽂本渲染能⼒有限和对中⽂⽂化细微差别理解不⾜等问题。为了解

M决这些局限性,我们提出了Seedream2.0,⼀个原⽣中⽂-英⽂双语图像⽣成基础模型,在多个

维度上表现出⾊,能够巧妙地处理中⽂和英⽂的⽂本提⽰,⽀持双语图像⽣成和⽂本渲染。我们

0

1开发了⼀个强⼤的数据系统,便于知识整合,并且开发了⼀个平衡图像描述准确性与丰富性的字

幕系统。特别地,Seedream与⾃研的双语⼤语⾔模型(LLM)集成作为⽂本编码器,使其能够

]

V直接从⼤量数据中学习本地知识。这使得它能够⽣成具有准确⽂化细微差别和美学表现的⾼保真

C图像,⽆论是⽤中⽂还是英⽂描述。此外,Glyph-AlignedByT5⽤于灵活的字符级⽂本渲染,

s.⽽ScaledROPE则很好地推⼴到未训练的分辨率。多阶段的后训练优化,包括SFT和RLHF迭代

c,进⼀步提升了整体能⼒。通过⼴泛的实验,我们展⽰了Seedream2.0在多个⽅⾯达到了⾏业领

[

先的表现,包括遵循提⽰、审美、⽂本渲染和结构准确性。

1

v

3

0

7此外,Seedream2.0经过多次RLHF迭代优化,使其输出与⼈类偏好⾼度契合,正如其卓越的E

7LO得分所展⽰的那样。此外,它可以轻松地适应基于指令的图像编辑模型,如SeedEdit[28],

0

.具有强⼤的编辑能⼒,能够平衡指令跟随与图像⼀致性。

3

0

5通信:作者名单见附录A

2官方网站:/tech/seedream

:

v

i

X

r

a

图1Seedream2.0在英文和中文的所有评估方面表现出色

1

图2Seedream2.0可视化

2

内容

1介绍4

2数据预处理5

2.1数据组成5

2.2数据清洗过程6

2.3主动学习引擎6

2.4图像字幕⽣成7

2.4.1通⽤字幕7

2.4.2专业字幕7

2.5⽂本渲染数据

文档评论(0)

如此醉 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档