Sora对国内大厂是机会还是挑战?
文生视频的胜负手,在哪里?
抛开技术路线不谈,单就实现效果而言,国内大模型企业们在生成视频方面,是否有着同样的“飞升机会”?
龙年的第一个月,正如去年的ChatGPT,OpenAI开年再出一王炸——文生视频领域的Sora。
面对这样的AI生成能力,包括几乎所有类型的从业者都感受到了不小的震动。一位IT出身的电影制片人告诉陆玖商业评论,Sora的的惊艳表现,让他周围的从业者都有了不小的危机感。电影制作成本的急剧下降,和新锐电影人的出头,将会比以往更加容易。
不过,在面对陆玖商业评论提出的“Sora是否已具备商业化条件”“文生视频对于算力的要求是否更高,以及如何解决”等问题时,这位制片人则用“发展问题,发展解决”的说法给出回复。
这显然过于乐观。毕竟更多从业者认为,从概念到成熟的工业化商用阶段,即便是Sora也有很多不成熟的地方。
也因此,抛开技术路线不谈,单就实现效果而言,国内在文生文等通用模型有相关布局的大模型厂商,是否有着同样的“飞升机会”?文生视频,到底相比过去文生文,有哪些实质性的飞跃?这是一个很有意思的话题。
Sora,革命还是泡沫?
必须承认, Sora 的出现,让通用人工智能( AGI )的实现,又近了一步。原因在于,它已经做到了模拟真实物理世界的运动,譬如物体的移动与相互作用。
不过,仅仅是这种程度的改进,也算不得“惊艳”。根据OpenAI的官方报告,Sora的“革命性”主要体现在下面几点。
首先是时长。作为通用的文生视频大模型,它能根据用户提供的文本描述生成长达60秒的视频,不仅品质上乘,且能更完整准确地还原用户输入的prompt,即提示词。
其次,是在场景的复杂度和角色生成水平的突破。到目前为止,Sora已经能够生成包括多个角色、特定运动类型以及主题精确、背景细节复杂的场景。且镜头语言也开始复杂,这使得视频本身开始具有一定的叙事功能,而这正是目前短视频领域所需要的东西。
再次,除了文本生视频,Sora还能做到从静态图像开始动画化图像,抑或是从已有视频生成新视频,实现填补缺失帧或者延展视频内容的效果。
一位资深科技媒体人对陆玖商业评论表示,Sora这类AI产品的出现,是一种“思维平权”的机会,因为一些长期跟踪行业的科技记者,经常会有一些“脑洞大开”的设想,但没有合适的工具让想法落地。但有了GPT和Sora这类AI工具之后,记者们一旦看到了机会和想法,AI就可能会帮助他实现产品,剩下的就是验证这个产品的可行性。
但陆玖商业评论在与多个行业人士交流以后发现,即便是眼下风光无限的Sora,同样有被高估的可能性。
行行AI董事长李明顺对此较为理性,在他看来,Sora的出现,很大程度上是文生文的通用模型,延展到视频领域的阶段性技术迭代。Sora能有如今的质变,很大程度上也是算力和资金不设上限投入,再加以海量训集的不断重复训练,这是“大力出奇迹”的结果。
相比技术实现上的优越,Sora在“资源禀赋”上的优越,显然跟国内一众“算力荒”厂商拉开了更大的距离。这是国内大模型相关厂商,在相当长时间里难以逾越的鸿沟。
而从投资角度而言,Sora这类垂直领域的“通用模型”也算不得热门标的。
一位一级市场从业者告诉陆玖商业评论,纯一级市场投资,通常只会投资大概念和高估值标的。原因主要在于一级市场的基金存续期是7年,投资期2年,5年退出是大概率事件。但文生视频的垂直模型在5年内能否实现工业化商用,谁都无法下定论。
此外,目前的Sora,所有已知信息只有2月15日发布的技术报告,但在3天后就传出了融资新闻。在没有开放使用、外界不知其实际水平的情况下,在风投公司Thrive Capital牵头融资中,OpenAI的估值已经逼近800亿美元。这位一级市场从业者向陆玖商业评论坦言,这次技术发布很可能是OpenAI“估值管理”的一部分。
昆仑万维的董事长周亚辉在朋友圈表示,“(硅谷)这边的Scientist和工程师根本不认除了Open Al以外的创业公司股票价值,觉得都是纸面财富。宁可要OpenAI.谷歌、FB、微软100万Package(一半股票)的Offer,也不要创业公司300万(80%股票)的Offer。”
可见,Sora之后,OpenAI进一步拉大了与其他AI大厂的差距。
国产大模型,厂商们的危与机
尽管 Meta 、 Google 以及微软都在蠢蠢欲动,但相较于 资本市场对 Sora 的疯狂,国内大模型厂商则显得冷静得多。国内大厂大多数选择的,仍是立足于自身应用的大模型开发,并非去追求所谓的原生态 AI 大模型升级。
字节即是其中之一,其对于生成式AI的保守态度,早在文生文阶段就已经体现。而从入局时间看,字节并不晚。据晚点报道,2020年6月OpenAI发布GPT-3后,字节曾训练了一个数十亿参数的生成式语言大模型。
如果按部就班开发,到2023年时,字节与OpenAI的GPT,距离不会很远。只是在ROI挂帅的业务体系下,字节这笔投资显然没有算过账来。因此,其在生成式AI的探索上,始终相较竞品慢了一些。
从发布时间来看,百度文心一言于2023年3月份发布,同年10月便迭代至4.0版,紧随其后的是阿里的通义千问、腾讯混元助手,而字节发布云雀大模型的发布时间是2023年8月。
后发导致的结果之一,是用户量不足——文心一言的月活去年就已经破亿,字节的豆包仍然在千万以下。不过,字节在选派张楠执掌剪映之后,有望在生成式AI的进度上更快一点。
如果说字节在文生视频领域暂时没有看到可立即使用的产品,那么百度和阿里则不然。早在去年的百度世界大会上,百度已经演示过文心一言的文生视频能力,主要集成在“一镜流影”插件当中。
当然,出现在世界大会现场的生成视频,只是一镜流影无数次抽卡中的成功案例。陆玖商业评论经过测试发现,一镜流影仍然存在一些局限。
其一是素材库。目前一镜流影使用的是无版权素材库,这导致无法用于特定品牌的工业化商用环节。
其二是出于可能的肖像权考虑,目前无法生成带人像的视频,但可用于生成不带商标的商品视频。
其三则是,目前生成的视频,都是30秒左右的,如果想要达到与Sora类似的效果,还需要做到两段视频素材的拼接。如果要保持内容和风格的一致,显然变成了难事。
通义千问目前用的最多,热度最大的相关技术,则是以全民舞王为代表的图生视频技术。只需一张全身照,就可以让其做出各种热门的舞蹈动作。在B站,以慈禧等历史人物跳科目三的二创视频,加起来的视频播放量,大约在千万级别。
虽然还没有做到工业化的水准,也没有与国外的Sora拉平差距,但国外的Sora同样也没有做到工业化,这也就意味着,起码在商业化进程上,二者仍然没有太大的距离。剩下的只需不断追赶就好。
行行AI董事长李明顺也持类似的观点。他告诉陆玖商业评论,目前OpenAI仍然占据行业头部的位置,但很大程度上是建立在此前的算力储备和技术积累之上。国内诸如BAT、字节等通用大模型厂商,也会不断去追赶。原因很简单,在某种程度上,通用大模型已经变成了互联网公司基础能力的一种象征。
竞赛似乎才刚刚开始。
文生视频,真正的胜负手在哪?
当然,无论是 OpenAI 的 Sora ,还是国内一众大模型厂商,其最终目的,仍然是工业化、流水线化生产高质量的视频内容。
但就目前来看,即便强如Sora,也是有诸多不成熟的因素,导致其无法应用到工业化领域。AI动态视频解决方案产品知行元(www.creatlyai.cn)的产品架构师告诉陆玖商业评论,虽然目前Sora看起来很方便,通过文字能直接生成高质量的视频,且只需要通过几个提示词来控制,对用户的心智与操作负担看起来很小。
但由于目前的sora对真实物理世界的理解还有限,在某些场景仍然会出现问题。诸如烛光方向错乱、精准数量失序,空间物体进出畸变等细节,这些细节到后期剪辑都是很难去改动的。
这并非没有解决方案。因为Sora目前已经有视频延展和视频拼接功能,用户完全可以生成数个几秒钟的视频进行后期裁剪。如果对于提示词工程的知识储备不足的人来说,多次生成+人工后期是难以避免的。
此外,在工业化的商品宣传片中,通常客户会发布一些新款商品,譬如新款羽绒服、新车、新手机等等。但用户的素材并不存在于视频模型的训练集中,导致只能生成类似商品后再二次加工,也就是影视后期。
这里同样有专业用户与非专业用户的需求差别。譬如对于一般的轻度用户,如果没有商业化需求,那么模型就是一个试玩产品,任何新生成的作品对他而言都是惊喜。但对于专业用户(譬如导演),如果一次生成的不够满意,那么还涉及到多次生成和多次后期,对于算力与人工都是不小的负担。
前述电影制片人告诉陆玖商业评论,在影视制作流程中,后期最大的成本,就是负责剪辑与特效,也就是二次加工的人工成本。如果工作流不够先进,那么很可能会在后期制作过程中拉高成本,进而影响项目的ROI。
如果目前的文生视频仍然需要大量人工去调校,且镜头和对物理世界的还原也无法做到1:1,那么用AI生成视频素材的性价比,其实是不高的。
有基于此,一位影视后期从业者告诉陆玖商业评论,在他看来,AI能直接替代的,其实是搭建和拍摄等中期工作。因为AI对物理世界的模拟还原,可以通过不断训练来接近真实水平。
以上仅仅是Sora对影视产业的部分改变推演。至于对于游戏、广告、短视频创作等细分领域,变革肯定远大于问题。AI的应用,其革命性的变化,肯定波澜壮阔。而国内大厂,在AI应用的商业化探索上,显然更愿意发力和尝试。
同样,根据周亚辉的朋友圈剧透,“Open AI很快会发布GPT4.5,而且估计会故意选择Anthropic发布Claude 3的时候发布。”最新迭代版本的Open AI除了Sora生成式视频外,还有什么令人惊艳的创新,应该是国内大厂从事大模型战略和业务部门,最关心的事情。
最后,对于文生视频而言,是立足于+AI做大模型应用,还是立足于AI+去训练升级自己的原生态大模型。显然,美国大公司与中国大公司已经分别做出了自己的选择。