让中美差距拉大的Sora是什么？好莱坞和AI视觉创业公司会挂掉吗？

石南物流16822024-02-18 22:46:16

2月16日凌晨，OpenAI发布了自己的首个AI视频生成模型—Sora。这是一个历史性的里程碑，扩散模型结合OpenAI大获成功的transformer，在视觉领域实现了与大语言模型类似的突破。毫无疑问，视觉生成领域将有一次大的技术和商业革命。

本文将分别讨论：

Sora是什么，怎么工作的，
Sora引发的产业机会，
是不是大树之下寸草不生，这个领域的创业公司都要"挂"了。

1.Sora是什么？怎么工作的

Sora在多个方面重新定义了AI视频生成模型的标准：

a.它将视频时长从当前的5-15秒，直接提升到了1分钟，这个长度完全可以应对短视频的创作需求。从OpenAI发表的文章看，如果需要，超过1分钟毫无任何悬念。

b.它可以生成多个镜头，并且各个镜头具有角色和视觉风格的一致性。

c.不仅可以用文字prompt生成视频，还支持视频到视频的编辑，当然也可以生成高质量的图片，Sora甚至还可以拼接完全不同的视频，使之合二为一、前后连贯。

d.它是扩散模型，更是扩散+Transformer的视觉大模型，并且产生了涌现现象，对现实世界有了更深刻的理解和互动能力，具有了世界模型的雏形。

它能生成更真实，一致性更强的多镜头长视频

OpenAI官方公布了数十个示例视频，充分展示了Sora模型的强大能力。

让中美差距拉大的Sora是什么？好莱坞和AI视觉创业公司会挂掉吗？第1张

人物的瞳孔、睫毛、皮肤纹理，都逼真到看不出一丝破绽，真实性与以往的AI生成视频是史诗级的提升，AI视频与现实的差距，更难辨认。

让中美差距拉大的Sora是什么？好莱坞和AI视觉创业公司会挂掉吗？第2张

无人机视角的东京街头景色，让Sora在复杂场景展现，人物动作自然度等方面的优势展露无遗。

让中美差距拉大的Sora是什么？好莱坞和AI视觉创业公司会挂掉吗？第3张

在山道上穿梭的复古SUV，可以看到真实性很高。

让中美差距拉大的Sora是什么？好莱坞和AI视觉创业公司会挂掉吗？第4张

Sora可以在两个输入视频之间逐渐进行转场，在完全不同主题和场景构成的视频之间创建无缝过渡。

扩散模型+Transformer如何工作的

OpenAI的团队从大语言模型的大规模训练中汲取了灵感，对应大语言模型的文本数据表示tokens，它们将视觉数据分割成数据块，首先将视频压缩到较低维的隐式特征，然后分解为时空数据块，这些数据块的作用就相当于token在大语言模型中的作用，用于训练Sora。

讲中文，就是Sora式把图片/视频都token化了。

让中美差距拉大的Sora是什么？好莱坞和AI视觉创业公司会挂掉吗？第5张

Sora是一个基于扩散模型(Diffusion Model)的视频模型，但是它是一个扩散Transformer模型，Transformer已经证明了把语言、视觉和图像生成一同实现的强大能力。

它基于DALL·E和GPT模型的研究成果，采用了DALL·E 3的重标注技术，通过GPT的能力，使模型更加准确地遵循用户的文本指令生成视频。

所以，Sora是扩散模型+transformer的视觉大模型。

让中美差距拉大的Sora是什么？好莱坞和AI视觉创业公司会挂掉吗？第6张

除了能根据文本指令生成视频外，这款模型还能将现有的静态图像转化成视频，精确细致地赋予图像中内容以生动的动画。模型还能扩展现有视频或补全缺失的帧。

Sora的出现，进一步拉大了中美在AI方面的差距。

Sora仍有很大缺陷

但是，尽管Sora在技术和性能表现上有了巨大的提升，它仍有不少的局限性，在理解复杂场景的物理原理、因果关系、空间细节、时间推移上存在弱点。例如它不能很好地表现玻璃碎裂。

让中美差距拉大的Sora是什么？好莱坞和AI视觉创业公司会挂掉吗？第7张

还有在吹蜡烛之前和吹蜡烛之后，火苗没有丝毫变化。

让中美差距拉大的Sora是什么？好莱坞和AI视觉创业公司会挂掉吗？第8张

它也搞反了人在跑步机上跑步的方向。

让中美差距拉大的Sora是什么？好莱坞和AI视觉创业公司会挂掉吗？第9张

OpenAI只是提供了生成的视频展示，随着Sora的发布，同时还引发了人们对滥用视频生成技术的担忧。为此，公司并未向外正式开放Sora的使用，而是精心挑选了一批"受信任"的专业人士做测试。

2.Sora引发的产业机会

首先，这是一个里程碑式的技术进步。

其次，在视频应用的场景中，能展示不等于能实用。如果说实现商业化需要做到100分(60分技术+40分场景)，以往人工能做到90分，Sora的出现只解决了那60分，甚至到75分，还是有一段商业化的路径，需要靠人工或技术+商业创新完成。

第一，可控性。无论是商业场景还是创作场景，视频要按照人的意志或规律完成动作，这无疑是个巨大的挑战。

举个例子，有人提出物理模型，实际上目前的Sora能精美生成和炫技，但如果要能展示特定场景，比如一个皮球掉到地上反复弹起来，是要一个物理模型支撑的，目前Diffusion+transformer还无法解决。

第二，prompt(提示词)的挑战本身仍然是个技术活儿，视觉领域，一般非专业人员很难用好视觉的生成，这既需要训练，更有待技术突破，让外行变内行。

所以，创作要面向实用场景，空间依旧很大。75分之上，都是场景创新的机会。

场景创新的机会，属于懂场景、懂模型的创造者。

对于好莱坞，大家看过《繁花》就知道了。面对王家卫那样的大导演，科技创新的工具，目前最多可以提高实现指定场景的效率。宝总、玲子、爷叔短时间内是机器替代不了的。

同样的爆发，很可能会在AI视频行业重演，我们看到的可能不是AI让电影人失业，而是AI让电影人们创造更好的作品。

3.国内外一批创新公司要挂了吗？

首先，赢家未必通吃。美国的商业生态有个显著特点，就是一流公司做平台，二流公司做全线产品，三流公司搞客户。

OpenAI的Sora，是一个伟大的工程进步，有一点像工业界走在了国家拨款支持科研的前面(整个LLM的出现就是这样，搞得学者们很被动)，只是这个突破在工业界而不是学界最先实现，距离商业化还有一段路要走。

领先的公司要在关键领域确保自己的领导地位，突破技术，建立平台，也会做垂类应用，但更重视吸引广大开发者参与，而不是有点突破就摊大饼，把应用都做完。这一点，在之前的文章中就分析过(请参考：ChatGPT创业:狮子和土狼一起奔向光明｜投资人说)。

所以，60分之上，仍有很大空间。这点，看看Salesforce的上千家应用就清楚了。

其次，根据OpenAI的论文看，支持60秒视频的路径讲的很清楚，帮助很多创业公司节约了数以千万计的探索成本(向OpenAI致敬!)，但同时也给创业者提供了很大的想象空间。

如果只要15秒，如果提高视频主体的高度可控性，如果需要控制主体在视频中的路径，会不会有其它的选择?Diffusion transformer是不是有更好的用法?还是那句话，模型能力决定了一个创业团队的高度，60分之上，模型支撑的应用见分晓。会模型、懂应用的创业公司大有机会。

在美国这个市场里，跟跑的大公司喜欢选择通过兼并收购拉近差距，小团队跑得快，起跑快并进大公司价值高。

国内的兼并收购不那么活跃，大厂喜欢下场什么都做。但是OpenAI跑得这么快，这么大的赛道上机会层出不穷，大厂难免没别的想法。

还是那句话，这是一个让狮子和土狼一起奔向光明的大赛场。

Open AI

Sora

标签：Open AI Sora

喜欢（0）
不喜欢（0）

本文链接：https://www.awyerwu.com/13297.html

上一篇重磅！TikTok Shop或将开通多国小店，加速全球扩张步伐
下一篇你听说了吗：Sora来了！

让中美差距拉大的Sora是什么？好莱坞和AI视觉创业公司会挂掉吗？

猜你喜欢

对GPT-4o的英文理解能力的独立测试

如何通过gpt-4o官方测评图表，寻找最适合自己的模型

手把手教你如何使用ChatGPT进行电商内容撰写

AI（人工智能）写作的6个缺点

ChatGPT 4.0如何使用多少钱！！！

ChatGPT全教程(2024教程)：如何安装使用ChatGPT

最佳AI工具：国外最新人工智能工具一览（2024）

探索OpenAI的革命性视频创作工具：Sora文生视频模型

GPT-4时代终结者 - Claude 3账号注册保姆级教程，一定要注意这5点，否则容易封！

2023全球使用人数Top10的AI工具大盘点