人工智能调研.pptx

下载文档

0
0
约9.16千字
约 29页
2024-10-25 发布于上海
举报
版权申诉
保障服务

人工智能调研.pptx

1、本文档共29页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

OpenAI-SORA产品调研ResearchAI

目录OpenAI-SORA01OpenAI简介SORA04可能性02简述原理03应用、场景、优势

OpenAI介绍PARTONE

OpenAI介绍成立于2015年的旧金山，OpenAI于2022年底正式推出了ChatGPT，这一由人工智能技术驱动的自然语言处理工具，通过学习和理解人类语言进行对话。ChatGPT标志着OpenAI迈出的关键一步，这一现象级产品让所有人都能亲身体验人工智能潜力，展现了其在理解力和逻辑能力方面超越以往人工智能的卓越成就。随后，OpenAI的研发焦点逐渐转向图像生成领域，Dall-E模型在生成图像方面取得了显著突破。同时，SORA模型在生成视频影像方面也取得了里程碑式的进展，不断完善并以加快的步伐逐渐应用于专业领域的实验和实践中。OpenAI的大模型领域时代OpenAI坚信通过对人工通用智能（AGI）的研究，构建一个安全的系统，为人们提供有益的服务并解决问题。安全地协调强大的人工智能系统是我们使命中尚未解决的最重要的问题之一。从人类反馈中学习等技术正在帮助我们更加接近，我们正在积极研究新技术来帮助我们填补空白。【乔什·阿希姆OpenAI研究员】

模型发展Dall-E是一款能够根据简单描述创造逼真清晰图像的工具，其擅长多种艺术风格，还能生成文字，制作建筑物上的标志，并为同一场景创作草图和全彩图像。其名字是由2008年动画电影《WALL-E》和20世纪西班牙加泰罗尼亚画家萨尔瓦多·达利（SalvadorDalí）的名字混合而成。2021年1月5日文生图模型Dall-E发布01Dall-E2不仅具备生成更真实和准确画像的能力，还能够综合文本描述中的概念、属性和风格等元素，创造出更具现实主义的图像和艺术作品。2022年4月Dall-E2发布02ChatGPT不仅实现了人机对话，还具备了编写代码、创作内容等技术性任务的能力。这一创新性产品在上线仅5天内就突破了100万用户，引起了全球范围内的广泛关注。2022年11月30日大语言模型ChatGPT发布03anillustrationofababydaikonradishinatutuwalkingadog穿着芭蕾舞裙遛狗的萝卜宝宝的插图“Anastronaut+ridingahorse+inaphtprealisticstyle”（一个宇航员+骑马+超现实风格）ChatGPT-人机交互沟通“写一段javascript烟花程序”

模型发展GPT-4在问题解决方面展现了更为精确的能力，而多模态的GPT-4不仅能够生成和编辑具有创意性或技术性的文章，而且在高级推理任务中的表现超越了其前代产品。将GPT-4的强大性能与多领域服务相结合，能够产出高质量的产品，为用户提供包括写作、绘画、办公和代码检测在内的多元化服务。2023年3月15日GPT-4正式面世04关于Dall-E3，它展现了更高的准确性和优越的生成效果，能够更精确地呈现用户的想法。此外，用户可以向ChatGPT提供适当的提示词，以指导Dall-E3生成更符合期望的内容。这一功能的加入提升了用户对生成图像的主动掌控能力。2023年9月21日Dall-E3正式发布05Sora继承了Dall-E3的卓越画质和指令遵循能力，能根据文本提示创建逼真视频，深度模拟物理世界，生成包含多角色和特定运动的复杂场景。Sora其名源自日文“空”（そらsora），意味着天空，象征着其无限创造潜力。2024年2月16日Sora问世06GPT-4能够根据与会者的空闲时间，确认出席会议的时间。“一只穿著太空衣服的小狗在外太空，走在月球表面開心散步，前方有一個灯管；提供給四張图片”Sora创作的一分钟短片，展示一名女子在东京街道上行走的视频。

PARTTWOSORA简述原理

SORA是什么简述Sora是一种人工智能文生成视频大型模型，它采用与GPT模型相似的Transformer架构。该模型能够深度模拟真实物理世界，理解用户的提示，并生成包含多个角色、涉及特定运动的复杂场景视频。

SORA功能简述Sora视频生成工具能根据用户需求轻松生成具有复杂场景和真实感的视频。作为基于大规模训练的文本控制视频生成模型，Sora只需简单的文本描述，即可生成高清视频。主要功能实现用户需求定向生成多样视频内容。具备生成逼真的60秒短视频的高度技术能力。覆盖多种视觉数据类型和分辨率，包括高清视频。基于大规模训练的文本控制视频生成模型，展现出卓越的高质量视频生成能力。功能简述文本生成视频精确生成不同尺寸、可实现一镜到底效果的清晰视频，以满足用户的具体需求。图片生成视频借助静态图像和提示，生成视频，使图像内容栩栩如生、生动逼真