CHATGPT使用文档(中文版)-文生视频全文翻译
2024-03-04
Sora是一个使用文本指令创建真实和富有想象力场景的AI模型。
所有当前页面的视频都是Sora直接生成的,未经修改。
我们正在教AI理解和模拟运动中的物理世界,目标是训练模型帮助人们解决需要与现实世界互动的问题。
介绍Sora,我们的文本生成视频模型。Sora能够生成长达一分钟的视频,同时保持视觉质量和对用户指令的遵循。
今天,Sora开始向红队成员提供,以评估关键领域的潜在危害或风险。我们还向一些视觉艺术家、设计师和电影制作人提供了访问权限,以获得反馈,了解如何推进模型,使其对创意专业人士最有帮助。
我们提前分享我们的研究进展,开始与OpenAI之外的人合作并获取反馈,以向公众展示AI能力的未来发展方向。
ps:red teamers(红队队员),在CHATGPT的上下文中,"red teamers"指的是专门负责模拟攻击或批判性评估的团队成员,其目的是从攻击者的角度出发,识别和评估系统、产品或服务中的潜在漏洞、风险或危害。通过这种方式,他们帮助组织发现弱点,并加以改进,以增强安全性和可靠性。在提到Sora模型时,提供给"red teamers"的目的是评估该技术可能带来的负面影响或风险,确保其开发和使用过程中能最大限度地减少潜在的危害。
Sora能够生成包含多个角色、特定类型的动作以及准确的主题和背景细节的复杂场景。这个模型不仅理解用户在提示中请求的内容,还理解这些事物在物理世界中的存在方式。
该模型对语言有深刻的理解,使其能够准确解读提示并生成表达鲜明情感的引人入胜的角色。Sora还能在单个生成的视频中创建多个镜头,准确保持角色和视觉风格的连续性。
当前模型存在弱点。它可能难以准确模拟复杂场景中的物理效应,并可能不理解特定实例的因果关系。例如,一个人可能会咬一口饼干,但之后,饼干可能不会有咬痕。
模型也可能混淆提示中的空间细节,例如,弄混左右,并且可能难以准确描述随时间发生的事件的具体描述,如遵循特定的摄像机轨迹。
安全性
在将Sora纳入OpenAI的产品之前,我们将采取几项重要的安全措施。我们正与红队成员合作——在虚假信息、仇恨内容和偏见等领域的领域专家——他们将对模型进行对抗性测试。
我们还在开发工具以帮助检测误导性内容,例如能够识别视频是否由Sora生成的检测分类器。如果我们在OpenAI产品中部署模型,我们计划未来加入C2PA元数据。
除了我们开发新技术以准备部署外,我们还利用了我们为使用DALL·E 3的产品构建的现有安全方法,这些方法也适用于Sora。
例如,一旦在OpenAI产品中,我们的文本分类器将检查并拒绝违反我们使用政策的文本输入提示,如那些请求极端暴力、性内容、仇恨图像、名人相似性或他人的知识产权的提示。我们还开发了强大的图像分类器,用于审查每个生成视频的帧,以帮助确保它遵守我们的使用政策,然后才向用户显示。
我们将与全球的政策制定者、教育工作者和艺术家接洽,以了解他们的担忧并识别这项新技术的积极用例。尽管进行了广泛的研究和测试,我们无法预测人们将以所有有益的方式使用我们的技术,也无法预测人们将如何滥用它。这就是为什么我们认为,从现实世界的使用中学习是随着时间的推移创建和发布越来越安全的AI系统的关键组成部分。
ps:C2PA元数据(Coalition for Content Provenance and Authenticity的缩写)是一种用于证明数字内容真实性的信息。简单来说,它就像是数字内容的身份证和出生证明。这种元数据记录了内容从创建到分享过程中的所有重要信息,比如谁创建了这个内容、它是怎样被编辑或改变的,以及它是什么时候和在哪里被创建的。
通过C2PA元数据,人们可以验证数字内容,比如照片、视频或文档,是否被篡改或伪造。这对于打击假新闻、深度伪造(deepfakes)以及保护版权非常有帮助,因为它提供了一种方式来确认内容的来源和真实性。简而言之,C2PA元数据帮助我们判断我们在互联网上看到的内容是否可信。
研究技术
Sora是一种扩散模型,它通过从看起来像静态噪声的视频开始,逐步通过多个步骤去除噪声来生成视频。
Sora能够一次性生成整个视频,或者扩展已生成的视频使其更长。通过给模型提供一次多帧的预见性,我们解决了确保主题即使暂时离开视线也保持不变的难题。
类似于GPT模型,Sora使用了变压器(transformer)架构,解锁了卓越的扩展性能能。
我们将视频和图像表示为称为补丁的更小的数据单元的集合,每个补丁都类似于GPT中的一个令牌。通过统一我们表示数据的方式,我们可以在比以前可能的更广泛的视觉数据上训练扩散变压器,跨越不同的持续时间、分辨率和宽高比。
Sora在DALL·E和GPT模型的先前研究基础上建立。它使用了DALL·E 3的重新标注技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此,模型能够更忠实地按照用户在生成的视频中的文本指令进行操作。
除了能够仅从文本指令生成视频外,模型还能够拿一个现有的静态图像并从中生成视频,准确地并注重小细节地动画化图像内容。模型还可以拿一个现有的视频并扩展它或填补缺失的帧。在我们的技术报告中了解更多。
Sora为能够理解和模拟现实世界的模型奠定了基础,我们认为这将是实现AGI的一个重要里程碑。
提示:一位时尚的女士在东京的街道上漫步,街道上布满了温暖的霓虹灯和动感的城市标识。她穿着一件黑色皮夹克,一条长红裙和黑色靴子,并携带一个黑色手提包。她戴着太阳镜和红色口红。她自信而随意地走着。街道潮湿且具有反光性,创造出彩色灯光的镜像效果。许多行人来来往往。
提示:几头巨大的长毛象穿过雪地草原缓缓而行,它们长长的毛发在风中轻轻飘扬,远处是覆盖着雪的树木和壮观的雪顶山峰,午后的阳光透过稀薄的云层,远处的太阳高挂,营造出一种温暖的光晕,低角度的镜头捕捉到这些大型毛茸茸的哺乳动物,摄影的深度场景令人惊叹。
提示:一部电影预告片,展示了一位30岁太空人的冒险故事,他戴着一顶红色羊毛针织的摩托车头盔,在蓝天和盐沼的背景下,电影风格,使用35毫米胶片拍摄,色彩鲜艳。
提示:无人机视角下,波浪撞击着加利福尼亚大苏尔加莱角海滩沿岸的崎岖悬崖。碰撞的蓝色海水形成了白色尖端的波浪,而落日的金色光芒照亮了岩石海岸。远处有一个带有灯塔的小岛,绿色的灌木覆盖了悬崖边缘。从道路到海滩的陡峭落差是一个戏剧性的壮举,悬崖的边缘凸出在海上。这是一个捕捉到海岸原始美丽和太平洋海岸公路崎岖景观的视角。
提示:动画场景特写一只矮小的毛茸茸怪物跪在一根融化的红色蜡烛旁边。艺术风格是3D和逼真的,重点放在光照和纹理上。画面的氛围是惊奇和好奇,怪物睁大眼睛,张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和顽皮的感觉,就好像它是第一次探索周围的世界。温暖的色彩和戏剧性的光照进一步增强了图像的舒适氛围。
提示:一个精美呈现的纸艺世界的珊瑚礁,充满了五彩缤纷的鱼类和海洋生物。
提示:这张维多利亚冠鸽的特写照片展示了它引人注目的蓝色羽毛和红色胸膛。它的冠由细腻的蕾丝状羽毛组成,而它的眼睛是鲜艳的红色。鸟的头微微倾斜到一边,给人一种威严而庄重的印象。背景被模糊处理,使人们的注意力集中在鸟的惊艳外观上。
提示:一段超现实主义的特写视频,展示了两艘海盗船在一杯咖啡中航行时相互交战。
提示:一位20多岁的年轻人坐在天空中的一片云朵上,正在读书。
提示:加利福尼亚淘金热期间的历史影像。
提示:一个装有禅园的玻璃球的近距离视图。球内有一个小矮人正在为禅园耙沙子,创造出沙中的图案。
提示:一名24岁女子在马拉喀什的魔幻时刻,眨眼的极端特写镜头,以70mm电影胶片拍摄,景深,鲜艳的颜色,电影感十足。
提示:一只卡通袋鼠在迪斯科跳舞。
提示:一段美丽的自制视频,展示了2056年尼日利亚拉各斯的人们。使用手机摄像头拍摄。
提示:一个培养皿内长着一片竹林,有小红熊猫在里面奔跑。
提示:摄像机围绕着一大堆复古电视机旋转,每台都播放着不同的节目——1950年代的科幻电影、恐怖电影、新闻、静态画面、一部1970年代的情景喜剧等,这一切都设置在一个纽约大型博物馆的画廊内。
提示:3D动画展示了一个小巧、圆润、毛茸茸的生物,它拥有一双大而富有表情的眼睛,在一个充满活力的、魔幻的森林中探险。这个生物是兔子和松鼠的奇妙混合体,拥有柔软的蓝色皮毛和一条蓬松的、有条纹的尾巴。它沿着一条闪闪发光的小溪跳跃,眼睛里充满了惊奇。森林中充满了魔法元素:发光并且能变换颜色的花朵,拥有紫色和银色叶子的树木,以及类似萤火虫的小浮光。这个生物停下来与一群围绕蘑菇圈跳舞的小精灵般的生物玩耍。它抬头敬畏地看着一棵巨大的、发光的树,那似乎是这片森林的心脏。
提示:镜头跟随着一辆带有黑色车顶架的白色复古SUV,随着它加速沿着陡峭的泥土路前进,周围是陡峭山坡上的松树,车轮激起尘土。阳光照在SUV上,随着它沿着泥土路加速行驶,为场景投下了温暖的光芒。泥土路轻轻地弯曲延伸到远处,视线中没有其他汽车或车辆。道路两旁是红木树,周围散布着绿色植被。从后方看车辆轻松地沿着弯道行驶,使它看起来仿佛是在崎岖地形中进行一次坚韧的驾驶。泥土路本身被陡峭的山丘和山脉所环绕,上方是清澈的蓝天和飘渺的云朵。
提示:在穿越东京郊区的火车窗户中的倒影。
提示:无人机摄像头环绕着位于阿马尔菲海岸岩石突出部上的一座美丽的历史教堂飞行,视角展现了历史悠久且宏伟的建筑细节以及分层的小径和露台,随着视线越过海岸水域和阿马尔菲海岸意大利的丘陵景观,可以看到波浪撞击下方的岩石。几个远处的人被看到正在露台上行走并欣赏戏剧性的海洋景观,下午阳光的温暖光芒给场景创造了一种魔幻和浪漫的感觉,通过美丽的摄影技术捕捉到的视角令人惊叹。
提示:一只大型橙色章鱼正躺在海底,与沙质和岩石的地形融为一体。它的触手四散地铺展在身体周围,眼睛闭着。章鱼没有注意到一只帝王蟹正从一块石头后面朝它爬来,蟹钳举起,准备攻击。蟹是棕色的,带有刺,有长腿和触角。这一幕从宽角度捕捉,展现了海洋的广阔和深邃。水是清澈的蓝色,阳光通过水面过滤。这个镜头清晰且鲜明,具有高动态范围。章鱼和蟹都在焦点中,而背景稍微模糊,创造出景深效果。
提示:一群纸飞机在密集的丛林中飘扬,绕过树木,就像是正在迁徙的鸟群。
提示:一只猫叫醒它正在睡觉的主人,要求喂食早餐。主人试图忽略这只猫,但猫采取了新的策略,最终主人从枕头下拿出一秘藏的零食,以便再稍微拖延一会儿猫的注意力。
提示:婆罗洲的金巴丹河野生动物。
提示:一个庆祝中国农历新年的视频,里面有中国龙。
提示:参观一个艺术画廊的游览,里面有许多不同风格的美丽艺术作品。
提示:美丽的东京城在雪中繁忙。摄像机穿过繁忙的城市街道,跟随几个人享受美丽的雪天和在附近摊位购物。美丽的樱花瓣随风飘动,与雪花一起飞舞。
提示:一个关于郊区房屋窗台上花朵生长的定格动画。
提示:一个机器人在赛博朋克背景下的生活故事。
提示:一位六十多岁、有着灰白头发和胡须的男士的极近距离特写,他在巴黎的一家咖啡馆里坐着,深深地沉思着宇宙的历史。他的目光关注着屏幕外走过的人们,而他自己几乎不动,他穿着羊毛外套和纽扣衬衫,戴着棕色贝雷帽和眼镜,看起来非常像教授。最终,他露出了一个微妙的闭嘴微笑,仿佛他找到了生命之谜的答案。光线非常电影化,金色的光线和巴黎街道及城市的背景,景深,电影35mm胶片效果。
提示:一个美丽的剪影动画展示了一只狼对着月亮嚎叫,感到孤独,直到它找到了它的狼群。
提示:纽约城像亚特兰蒂斯一样被淹没。鱼、鲸鱼、海龟和鲨鱼游过纽约的街道。
提示:一窝金毛寻回犬的小狗在雪中玩耍。它们的头从雪中探出,身上覆盖着雪。
提示:一人奔跑的逐帧印刷场景,以35mm电影胶片拍摄。
弱点:Sora有时会创造出物理上不可能的动作。
提示:五只灰狼幼崽在一条偏远的碎石路上嬉戏和追逐,周围是草地。幼崽们奔跑和跳跃,互相追逐,轻咬着彼此,玩耍。
弱点:尤其在包含许多实体的场景中,动物或人可能会突然出现。
提示:篮球穿过篮圈然后爆炸。
弱点:这是一个物理建模不准确和物体“变形”不自然的例子。
提示:考古学家在沙漠中发现了一把普通的塑料椅,他们非常小心地挖掘和清理它。
弱点:在这个例子中,Sora未能将椅子建模为一个刚性对象,导致物理互动不准确。
提示:一位整齐梳理着灰白头发的祖母站在一个木质餐厅桌子后面,桌上是一个点燃了许多蜡烛的五彩生日蛋糕,她的表情是纯粹的喜悦和幸福,眼中闪烁着快乐的光芒。她向前倾斜,轻轻地吹灭了蜡烛,蛋糕上是粉红色的糖霜和彩色糖珠,蜡烛不再闪烁,祖母穿着一件印有花朵图案的浅蓝色衬衫,可以看到几位快乐的朋友和家人坐在桌子旁庆祝,他们都是虚焦的。这一幕被美丽地捕捉下来,呈现电影感,展现了祖母和餐厅的三分之二视角。温暖的色调和柔和的光线增强了氛围。
弱点:模拟物体之间以及多个角色之间的复杂互动对模型来说经常是个挑战,有时会产生滑稽的生成结果。
提示:摄像头直面意大利布拉诺岛上五颜六色的建筑。一只可爱的斑点狗通过一楼的建筑窗户向外看。许多人在建筑物前的运河街道上行走和骑自行车。
提示:一只可爱而快乐的水獭自信地站在冲浪板上,穿着黄色救生衣,在靠近茂密热带岛屿的绿松石色热带水域上冲浪,3D数字渲染艺术风格。
提示:这张近距离拍摄的变色龙照片展示了它惊人的变色能力。背景被模糊处理,使人们的注意力集中在动物引人注目的外观上。
提示:一只柯基在热带的毛伊岛自拍视频。
提示:一只白色和橙色的虎斑猫看起来快乐地在密集的花园中穿梭,仿佛在追逐着什么。它的眼睛张得大大的,充满了快乐,它一边小跑一边向前,扫视着它经过的树枝、花朵和叶子。小路很窄,它在所有的植物间穿行。这个场景从地面角度捕捉,紧紧跟随着这只猫,给人一种低而亲密的视角。图像带有温暖的色调和颗粒感,非常有电影感。叶子和植物间散落的阳光创造了温暖的对比,突显了猫的橙色皮毛。这个镜头清晰、锐利,具有浅景深。
提示:蓝色时刻下的圣托里尼岛鸟瞰图,展示了白色基克拉迪建筑和蓝色圆顶的惊人建筑。火山口的景色令人叹为观止,而灯光营造出美丽、宁静的氛围。
提示:使用倾斜移位技术拍摄的一个施工现场,场内充满了工人、设备和重型机械。
提示:一个巨大的、高耸的云朵呈现出一个人的形状在地球上空盘旋。这个云人向地球射下闪电。
提示:一只萨摩耶犬和一只金毛寻回犬在夜晚的未来派霓虹城市中嬉戏奔跑。附近建筑物发出的霓虹灯光在它们的毛发上闪烁。
提示:格伦芬南高架桥是英国苏格兰的一座历史铁路桥梁,跨越马莱格和威廉堡之间的西高地线。当一列蒸汽火车驶离桥梁,穿越覆盖有拱顶的高架桥时,这是一个令人惊叹的景象。景观点缀着郁郁葱葱的绿色植被和岩石山脉,为火车旅行创造了一幅如画的背景。天空是蓝色的,阳光明媚,是探索这个雄伟地点的美好一天。
发表评论: