浅谈面向元宇宙的技术之3D内容智能生成.pdf

浅谈面向元宇宙的技术之3D内容智能生成.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

近期,以GPT为代表的人工智能生成内容(AIGC)在业界受到广泛关注。人工

智能生成内容是指通过人工智能技术生成文字、图像、音频和视频等各种形式

的数字内容。从技术角度来说,AIGC是一种基于深度学习技术的人工智能技

术,具备强大的语言理解和生成能力,可通过文字对话完成文稿写作、表格生

成、逻辑推理、图片创作等任务。AIGC的出现被誉为AI的“iPhone时刻”,

其强大的语义理解、逻辑分析以及多模态内容生成等能力有望应用在提高工作

效率、增强智能交互、辅助生产开发等相关场景。

笔者发现,在视觉内容的智能生成方面,图像智能生成已取得较大进展。例

如,之前引发热议的AI绘制的画作在展览会艺术比赛中获奖事件,一度引发整

个艺术行业将被人工智能替代的担忧。相较于图像智能生成取得的进展,3D内

容智能生成还处于数据集与算法迭代积累阶段,而随着近两年元宇宙应用场景

的兴起,3D内容智能生成的研究应用价值将更加突出,因而有必要对其进行分

析梳理。

一、3D内容智能生成概述

内容智能生成的经典任务有文本生成、图像生成两大方向,并可拆分为智能对

话、机器翻译、图像标注、通过文字绘图等细分任务。从空间维度来看,3D比

2D的内容表示更加复杂,主要形式有深度图像、体素网格、点云、网格和神经

辐射场等,每一种形式各具优缺点,因而3D内容智能生成是内容智能生成更为

复杂的分支。根据生成方式的不同,3D内容智能生成可以简单概括为文本转

3D、单视图图像转3D、多视图图像转3D、3D生成3D等,其主流技术线路有两

种:一是三维原生路线,直接在3D数据集上进行训练,从训练到推理都基于

3D数据;二是二维升维线路,基于二维图像生成相对成熟的数据集与算法驱动

3D内容。

1.三维原生路线

针对三维原生路线的3D内容智能生成,笔者在这里主要分析两种网络模型,即

3D-GAN和GET3D。

顾名思义,3D-GAN是指生成对抗网络(GAN)的3D版本,它以体素为基本单

位,基于体积卷积网络和生成对抗网络来生成3D对象,是2016年神经信息处

理系统大会(NIPS)提出的网络模型。在3D生成对抗网络中,生成器从概率潜

空间随机采样的200维潜在向量映射到64×64×64的立方,代表3D体素空间

中的对象。

GET3D是由Nvidia提出的能生成高保真纹理细节的3D网格内容生成模型,其

生成过程分为几何分支和纹理分支两部分,前者可输出任意拓扑的表面网格,

后者产生可以在表面点查询以产生颜色的纹理场,将梯度从二维判别器传播到

两个生成器分支,并允许图像进行对抗训练。通过GET3D生成的模型可以导入

游戏引擎、3D建模器和电影渲染器中进行编辑。

相比依据文字进行图像绘画具备的创作能力,这类基于3D数据的3D内容生成

模型由于训练数据集的体量较小,比较难实现数据多样性,在模型创作上的想

象力有待加强。

2.二维升维线路

二维升维线路的3D内容智能生成模型主要有Point-E、DreamFusion、Magic3D

等。

Point-E是OpenAI发布的通过文本生成3D点云的模型,由文本对图像模型和

图像对三维模型组成,前者使用文本到图像模型对图像进行采样,后者通过采

样图像对3D对象进行采样。例如,通过Point-E生成“一只正在吃三文鱼的哈

士奇”,模型首先生成一个以文本标题为条件的综合视图,之后生成一个基于

合成视图的粗略点云,最后生成一个以低分辨率点云和合成视图为条件的精细

点云。

DreamFusion是Google提出的通过文本生成3D内容的模型方法。DreamFusion

首先使用一个预训练二维扩散模型基于文本提示生成一张二维图像,然后引入

一个基于概率密度蒸馏的损失函数,通过梯度下降法优化一个随机初始化的神

经辐射场模型。DreamFusion输出的模型可以在任意角度、任意光照条件、任

意三维环境中基于给定的文本提示生成模型,训练过程不需要3D训练数据。

Magic3D是Nvidia在2022年11月公布的通过文本生成3D内容的模型。

Magic3D从粗到精分两阶段优化,可通过文本快速生成高质量3D内容。

Magic3D首先使用低分辨率扩散先验获得粗略模型,其次使用粗神经表示初始

化的纹理网格模型,最后使用与高分辨率潜在扩散模型交互的高效可微分渲染

器进行优化。

二、3

文档评论(0)

135****5548 + 关注
官方认证
内容提供者

各类考试卷、真题卷

认证主体社旗县兴中文具店(个体工商户)
IP属地河南
统一社会信用代码/组织机构代码
92411327MAD627N96D

1亿VIP精品文档

相关文档