OpenAI发布第一个文生视频大模型Sora,立刻引发了广泛的关注和探讨。2月19日,我受邀做客央视财经2024年的全新专栏直播节目《光华录》,与主持人周运、财经科技观察员、中国通信标准化协会互动媒体标准推进工作委员会的副主席包冉一道,围绕Sora展开一场对话,以下是这场直播的实录。
→→点此观看视频
“Sora的出现是一次产品级的成功
主持人:您觉得这一次Sora的出现,它在您漫长的互联网经历中,尤其是过去在人工智能赛道扎根了接近10年的时间,当它出现的时候,这是一个什么级别的事件和技术?
傅盛:Sora的出现肯定是个里程碑级别的事件,至少它在产品层面证明文生视频这件事已经可以达到以假乱真了。而且Sora是通过一些提示词完成的,以前我们也看过一些类似好莱坞大片的视频,它并不是靠一句话去完成,而是用了很复杂的技术,很高的成本,现在可能就是一句话,就给你来一段达到以假乱真的视频,我觉得这在产品层面是个里程碑意义的突破。大家突然意识到这件事是完全可行的,而且可以产业化了。
Sora的出现是一个产品级的成功,但是真正的大语言模型才是一次(技术上的)重大突破。虽然Sora出来时我很震惊,但是大语言模型一旦能理解,其实文生视频就会自然而然的出现,这一点可能跟大家的直觉不一样,其实语言的认知是远难于对图片和视频的认知的,视觉的认知和语言的这种抽象认知相比,语言是最难的。语言一旦被攻克了,图片和视频更多的是算力问题。
Sora背后:复刻人类的推理和直觉
主持人:请教傅总,从技术的角度,像我这样的半专业人士知道所谓建模,比如人类画师和动画师,他是脑子里边已经建立了对物理世界的认知,雪抖落应该遵从一个什么物理定律,所以他在做动画的时候能理解,但是 OpenAI的Sora,在做这个动作的时候,是基于与人类一样的认知,还是说根本不需要认知,不需要建模,是一个完全不同于以往的技术?
傅盛:第一个从技术层面上来说,目前Sora现在披露的并不多,从现在能够看到的,包括他们自己发的博客文章,以及一些业内专家的探讨,可以得出它在技术上没有什么重大突破,它是以前的技术,你可以把它理解成更好的工程化,采用了更大的算力,可以总结成一个成语叫熟能生巧。我们以前建模是为了通过一个物理引擎去模拟真实的世界,但是还有一种方式,不需要通过一个物理引擎,就算是一个普通人,天天画,就跟画鸡蛋一样,我一画就有了立体感,熟能生巧。我脑子里并没有物理方程式,但是因为我见了很多以后,我就形成直觉了。由于这次大语言模型的出现,把以前人的那种推理和直觉给复刻出来,所以这一次 Sora从技术层面来说,也是特别得益于大语言模型的出现,使得它没有去建一个纯粹的物理模型,但是能够通过直觉把物理世界展现出来。
它不是说找了一个近似的人,与提示词描述近似的人,而是一个创造出来的全新的人。但其实这在文生图领域已经有了,比如说你让它创造一个美女,这人在世上没出现过,但你看了就是符合你审美的所有特征。第二点,你看OpenAI放出的视频,它有一些也可以叫取巧的地方,也可以说是故意让我们很震惊的地方,比如水面倒影对吧?比如雪的那种感觉,可能我们认为最难的是光影。在大模型或者说图像引擎看起来都是一样的,对它来说都一样,画一个普通鸡蛋的和晚上的水面倒影对它来说没有区别,我们觉得,区别是我们受限于器材,受限于这个是重新累积的,比如说一个小孩看这个世界黑天和白夜对他来说没有区别。
我觉得相当于它又打开了一扇门,就是文成视频能做的这么好,很快很多人都会进入,我昨天还专门跟我们在美国的同事做了探讨,觉得它并不是一个独一无二的技术,未来会出现很多这样的工具。
技术的成本会不断降低
主持人:刚才傅总和包包都提到一个非常关键的词,就是算力,算力的大小是不是能够直接决定我最后生成的效果是怎么样的?
傅盛:可以做一个科普,它底层算法都一样,算力不同,产生效果就不一样。所以它不是本身算法有那么神,当然它有很神奇的地方,但是作为我们这种搞AI的人来说,它底层的逻辑都差不多,就是大力出奇迹。
主持人:说到硬件的层面,是不是背后堆砌了很多的GPU,显卡和这种计算的硬件设施,GPU。就是这些A100、A800芯片,大家可能现在对这些型号不太熟悉,但是如果以后这个技术再蓬勃发展起来的话,堆的就是这些东西的多少,耗能的多少。
傅盛:算力的成本在持续下降,就像我们最近有个比喻,就像汽车刚出现的时候,汽油是非常贵的,不像马吃点草就行了。你发现汽油的价格是直线下降,这是个必然,即便算法没有更新的情况下,算力的成本会急剧下降。你看比如说今年有个特别大的行业趋势,今年出的新CPU不是那种服务端,今年买的电脑的CPU都会专门带一个推理算力的子芯片,这个芯片现在已经开始普及了,以前是要靠CPU算,现在就这么一个小芯片,然后你就能够在自己的电脑里直接用大模型。
AI技术演进的两条路线
主持人:下面我们希望傅总追根溯源的从技术发展路径,它到底怎么慢慢生长出来这样一个不同的分叉,不同的技术路径产生不同的效果,我们通过一个科技树的进化过程,请傅总给我们讲解一下人工智能它迭代路径到底是怎么样的,我们走到哪一步了。
傅盛:所有的科技,很多时候并不是一条道走到黑,而是Think Different找到一个分支。最早的时候对语言理解这件事情,其实大部分公司都在走谷歌开创的道路,就是不太相信通过简单的预测下一个词能产生智能,所以 OpenAI在2022年底之前在硅谷都几乎是个笑话,因为大家觉得这件事不太可能发生。然后这个时候分支又开始出现了,只有OpenAI一直坚持读足够多文本后就能理解世界,通过理解这个世界,预测下一个词,一个词一个词的吐出来以后,这就是一句完整的话,就代表了我对世界的理解。
OpenAI的底层技术是构建在谷歌的创作上,但是谷歌没有走这条路,然后等到 GPT一出来以后,大家发现这条路是对的。
为什么Sora文生视频能做得这么好,也是因为OpenAI把Transformer引进到了视频的时间轴里面和各个相关的训练中,也就是它能够去真正理解更多的数据量,然后 OpenAI做好以后,又有不同人在说像Meta做的开源社区LlaMa,你用千亿参数去搞这件事儿,我是不是百亿也可以搞?然后在一些特定任务上也可以搞。
这是一个大语言模型的分支,如果你看分支是这样,你可能把它想象成最早。比如说3D建模,相当于我得把学物理的定律公式全输入进去,但公式无论怎么做它都有损失,以前算力没有很高,然后效果也不好,其实Sora不算是开创者,背后的原理是给计算机足够多的图和视频,有一天就不需要建模这个过程,就把它还原出来,所以在Sora眼里倒不倒影都是一样的,对他来说就没有定律这件事了,就是直觉。
Sora出来后大家太震惊了,很多人就在说他理解了物理世界,AGI 的出现要提前了,其实现在看起来AGI就是通用人工智能出现,和这件事并没有很大的关联。
如何成为AI原住民?
主持人:作为一个普通老百姓,当这种AI浪潮扑面而来的时候,绕不过去的一个话题就是我们都知道有这个数字难民、数字移民、数字原住民,谁能成为AI的原住民,这个焦虑活生生地摆在我们每一个人面前,所有人这段时间可能都在问,我在哪能学到这个Sora,甚至已经有一些人在开培训班了。在这种焦虑的情况下怎么解决?我们怎么成为AI的原住民?
傅盛:我觉得你刚才讲原住民这个词特别好,开工第一天,我在企业内部的演讲是《让懂AI的同事先上》,我们要用一种新的思维模式,相信这次AI带来的是底层变革,然后你所有的思路应该从这出发去思考,不要把AI看成自己一个补充。就举个例子,就像电出现以后,我们所有东西都想怎么去接根电线,然后再开工,你不能说我去找个蜡烛再去弄,所以对于成为真正的AI原住民,我还是比较乐观的,我认为AI本质上是一个平权工具,它并不是一些少数人专享,比如说文生视频,以前你要拍部电影,你得找多少人?还要专业的对吧?以后可能你连摄像机都不用扛,就可以通过提示词产生片段,最后搞出一个特别牛的电影来,所以对于普通人来说,相信它是能给自己带来权益的。
第二个就是认真的去关注和学习。在我们内部有个词叫AI思维,我们在做的首先是组织体系的变革,我们成立了一个专门的部门来推进各个部门用AI。
第三个,考核体系,这场大潮来了,谁能成为原住民,谁就能活下来,这个不是我给你的压力对吧?我们作为一家公司也有压力,所以就变成硬性的考核。今年我们考核各个岗位,尤其是部门经理岗位,50%的考核是AI能力,因为只有这样的话,一批人真正对AI足够了解,他才能创造更大的生产力。
再给你讲一件事,最近有一款游戏在去年火了,是一个日本公司做的,在 Steam上的同时在线超过了100万人,你知道比他唯一高的是什么?就是我们《和平精英》的PC版,那是一个大作,但日本的游戏是5个人的“草台班子”做的,大家认为是大量的用了AI工具去做了很多场景,有一个人是超市的售货员,他就是用AI用得很厉害,最后被招过去做了游戏的创作者,就5个类似的人做出了一款游戏,变成了一个超级大作,收入过了1亿美金。
主持人:我们能看到很多人在焦虑自己的工作会不会失去,也有看到很多草根就能创造一个大作的奇迹在发生。这两个很极端的案例可能对我们专业的媒体人,焦虑感更强。现在很多同行们,无论做短视频,还是做传统的电视或者新媒体,我可以算是一个移民,从传统电视到数字电视到现在,希望成为一个原住民,原来的那些所有专业积淀,今天所在的这些摄影师们灯光师们,背后的这些编导们,我们的专业积淀还有意义吗?还有价值吗?
包冉:你会比任何一个不具备这些专业积淀的普通用户,能够提供更加精准更加丰富的提示词,最起码你见过,你能基于你见过发挥你的想象力,所以我在第一时间视频号评论Sora的时候,我就提出不要着急,不要焦虑,也不要焦虑未来是学文还是学理工,其实现在我们看到什么样的人未来更吃香?他拥有娴熟的文字技巧,然后极强的逻辑能力,表达能力,它能够提供丰富的提示词,因为根据Sora以及ChatGPT,我们可以看到提示词越丰富,出来的效果越好。
主持人:能不能再给一个更具象的指导现实生活应用的建议,比如说央视财经频道有大量的几十年中国经济发展的视频素材,访谈的资料,包括我们今天和傅总的访谈都在资料库里,所有这些沉淀的内容,怎么把它用到新的文生视频的技术环境当中?
包冉:第一句话建立自己的私有大模型,专供你们用,甚至不专供总台用,专供央视财经用,因为央视财经也积累了海量的素材,这些素材经过私有模型的训练之后,私有模型不像公有大模型动辄需要那么大的算力,成本相对没有那么高,那么安全性上私有模型也可控,数据也不存在泄露的可能,如果数据传到公共网络上去,是不是还要传到境外去,可能有很多不可控的风险,私有大模型都可以规避。
第二,让全员用起来。因为只有在不断的使用,不断的input和output的过程中,你才能不断积累成熟的关键词,形成很多的具有更细分的对话机器人的雏形。这样的话就使得我们基于央视财经频道在过去几十年甚至更长时间的语料的积累,再结合连线联网的实时新闻的功能,根据最新的新闻事件生成最快的样片,甚至成片。
企业应用 百亿参数就够了
主持人:另外一个问题,如果傅先生您的公司能够成为我们的合作伙伴,给我们提供刚才包冉所说到的私有大模型,这条路好不好走,成本会不会很高?别人都千亿级别的参数了,我们都要往高的标准去比靠,但是一定要站到那么高的标准去用吗?
傅盛:从技术的整个大趋势来看,技术永远都是刚刚出来的时候高高在上,然后它会迅速的产生很多低成本的模式,我觉得主要还是看你的应用场景,如果说我有个例子,比如说你家电灯泡坏了,你是请爱因斯坦来给你换,还是请旁边的胡师傅。
今天也可以说是大模型两条路线,就是说OpenAI也好,一些大公司也好,他们就在造出一个爱因斯坦来,但是真正对于我们日常人的生活,很多时候并不需要爱因斯坦,可能就是需要一个能够帮你把灯泡修好,帮你把电布好,就让我生活很舒适就可以了。
我有个判断,一年之内一定会有多家这样的产品出现。另一方面,并不是每个人都需要生成所有类型的视频,比如说科幻片,我可能就在一类视频上要做得很专,这样的话也会出现私有专业大模型,它对参数量的要求并没有那么大,而且满足我的日常需要就够了。比如说今天OpenAI做出了千亿级的大模型,后来我们发现在企业应用当中,其实百亿参数在很多时候就够用了,而且成本很低。可能现实中也难免会有这种参数鄙视链,但是它对于实际的效果没关系。
还有一个问题就是OpenAI的阳谋,你把所有的数据都给他,有一天别人一问的时候,这些数据人家也可以看得到,但是我觉得以后由于大模型的出现,数据变成核心竞争力,那么核心竞争力应该保持在自己内部,今天也不是光在我们在这说,硅谷也开始这样了,在美国已经有至少两家大型的媒体集团起诉OpenAI了,说你在训练语料的时候,为什么没有征得我们的授权,把我们这么多年以来的文章报告、研究材料数据拿走训练了。
企业应用AI的三个段位
主持人:我们再提一个更高的要求,如果现在我们非常着急要用到这样最先进的技术,怎么用好它才能说是我是一个优秀的企业。
傅盛:我们也做了一个总结,今天因为AI特别火,所以其实使用它的时候是有层级的差别的。我特别赞同包总说那句话,就是今天能够有专业知识或者对专业很了解的人和AI的结合才是最有竞争力的,你们是不用太担心的,我们这种搞科技的反而是每天都在颠覆,一个新技术来了,你就没了,但是今天比如说在电视台工作的人,你对观众的理解,怎么去打动观众,这还是人的特长。
主持人:就像黄仁勋说,倒退十几年他不会学电脑,他可能会去学医。
傅盛:我觉得他说的很对,由于过去我们大量的工作都在完成日常性、技能型的工作,比如说我扛个东西,但是创造性的工作实际上没有什么空间去发挥,因为你必须依赖一个庞大的组织,做一个螺丝钉,未来可能每个人都是一个主导者,都可以让自己的工作变得非常有创造性。
主持人:企业用到大模型的时候,由浅入深,它到底能给我们做一些什么,体现到我们的企业应用上?
傅盛:我们今天觉得百亿参数可能观众不太理解,刚才讲Sora那么厉害,但今天根据它披露的资料看,它可能只有30亿参数,所以并不是参数量越大越好,在图像生成和视频生成这里,你知道最火的叫Stable Diffusion,它就有8,000万参数,但是Sora并不需要那么多参数就能把图画得很好了。参数量并不是一个衡量标志,还是看在这里它能起到什么效果。
企业的应用,你看我们把它分成了几个段位,一个叫青铜段位,今天大家都在这个段位,就是说下一个大模型用一用,要么是生文,要么生图,自发使用。
黄金段位是什么?就把一些专岗开始用人工智能去完成了。比如我们的一些行政岗位,每天都要回答员工的各种问题,还有客服岗位,法务审核岗位已经可以叫做数字员工了,比如说电视的一些脚本的编辑其实都可以用AI去完成了。
第三个叫王者段位,王者段位就是人工智能辅助决策,把所有的数据都做出来以后,人工智能可能就会告诉你明天拍个什么新闻更好,或者哪个选题根据今天收集的信息可能会是个热点。这个其实是人工智能擅长的,因为它可能不一定比你的决策力更强,但它一定比你读的数据更多。
主持人:我们的主编,我们的领导制片人们可能非常需要这样的工具。
傅盛:因为制片人一天到晚不睡觉,你能读多少文章,他可以读你十倍百倍的量,然后告诉你今天我帮你分析出的热点是什么,你做这样的选题可能会更好。
包冉:在学术上也有一个词叫AIGA, AIGC是属于创造出内容来,AIGA是属于由数据导出决策来。
主持人:提示一个重点,第一期的《光华录》给很多的企业家们CEO们做的一个记录,也许你要想成为明天的王者,你要用到这样的 AI大模型工具,帮助你做一些决策。
傅盛:事实上今天最火的人工智能企业是OpenAI,但是挖黄金的不一定最挣钱,最挣钱的是卖水的,英伟达它做到什么程度?我们去跟他访问的时候知道,所有的员工要给黄仁勋写周报,他有几千个员工,我当时就想这人这么勤奋,后来认真了解了,他是用AI去读周报。这样的话,CEO就能清楚地知道他们公司多少人在干什么,所以你看英伟达这一轮为什么能胜出?很重要的一点就是它在芯片公司里极其扁平化,它边做AI芯片,边借助AI提高效率,能够实现快速转型,像你刚刚讲A100、A800都是他砍了很多产品线、迅速的转到AI路线上才实现的。
包冉:而且他做这个东西又有强大的成本优势,本身这个都是他自己生产的,成本绝对占优势。
AI大潮下,做好应用是中国企业的机会
主持人:最后一个部分我就想问,引领我们很多的中国企业,像您这样为代表的中国企业家们,面对这样的浪潮来袭,我们的机会在哪里?您的公司应该是整整10年前上市,在美国上市以后同时做软硬件,今天我们看到软件、算法方面有很大的差距,面对这种差距的时候,您觉得哪些领域会出现机会?留给我们的时间还多不多?
傅盛:我还是比较乐观的 ,谈到AI,我们这一拨跟美国是有差距的,而且 GPT它已经开始形成正循环了。一方面大语言模型强大,这次很多分析说Sora这么强,是因为大语言模型强,怎么个强法?做个细节解释,就是视频输给他的时候,比如人去标注这段视频,一个60秒视频,一个人在街头漫步,人标注5个关键词5个标签就完了。大语言模型给这段视频再加几百个字,然后再让自己去学,学了以后它对视频的理解就比以前要深了,而且这样的话可以就算力产生。所以这次Sora的效果这么好,和大语言模型的强悍和算力的丰富是有关的。的确我们是有一点差距,但是我觉得中国有一点最好,就是说我们做应用很擅长,我一直觉得所有的创新从应用反向切入也是可以的。
主持人:所以您说自己是应用派的创业者,我们知道中国很多都是我们要底层逻辑的创新,底层知识的创新,以往是我们成功实现了很多应用类的创新,当面对大模型的时候,应用类的创新这条路您觉得还是有前景有希望,并且适合我们国情吗?
傅盛:我觉得特别适合我们国情,我再给你讲一个美国公司的例子,就是苹果最早发布iPhone的时候,没有一个部件是自己产的,天气APP都雅虎做的,但它把应用做好了,做好以后等到现在它再可以做芯片,因为它有足够多的量,一做芯片就是王者,利润很好。其实华为也是这样的,开始做手机做得很好,然后去做麒麟,只要我们有足够多、足够强大的应用端,技术是不断在变得廉价和普及,今天Sora看上去高高在上,我相信一年之内,一定会有很多甚至开源的都会出来,我们只要把应用做好,反向的再把技术根据应用去打磨好,反而能够找出自己的路径。
主持人:昨天晚上某智能手机品牌就宣布终止做传统智能手机了,智能手机已经成为一个传统行业,要全面All in AI终端,如果去年是大模型的爆发年奇迹年的话,今年会不会是中国企业机会的AI终端年,会成为我们崛起的一年吗?
傅盛:我觉得至少在应用领域,中国一定会出现很有特色的一些应用。包括昨天某手机品牌说的,我觉得也是挺有前瞻性的,就是AI实际上是一个底层变革,未来几乎所有东西都可以从AI生长出来,你从别的地方也可以生长,但是效率太低了,总有一天都是AI生长了,今天连抗生素、新材料都是AI做了。蛋白质分子学都已经是AI做了,所以它就是底层范式的变化。我觉得这件事我们不能被落下,但是说实话要完全追上,就要假以时日了,因为别人毕竟先发,这个时候我们把应用做好,然后底层跟住,等到应用足够强的时候,你看最早阿里连个做服务端的人都没有,那是十几年前,现在阿里云在亚洲也可以排得上号。所以我觉得把应用做好。
主持人:最后包包你看给我们所有的中国企业在今天第一篇记录的时候,你觉得我们今年会发生一些什么?它会给我们什么样的提示?
包冉:我觉得还是分两头,第一头还是得说宏大叙事的主题,因为算法算力和数据,中国虽然是总算力一直稳居全球第二,但是中国的算力的构成比例中,以GPU为代表的智能算力偏小,而现在人工智能的训练推理需要的主要是智能算力,因为它是并行计算,所以说在这个领域毋庸讳言,美国卡脖子高端的GPU不让进口,甚至连英伟达专为中国市场设计的阉割版,或者是改造版的 GPU也在它的禁令之内。从长期来看,我们迟早还得解决GPU设计的本地化的问题,自主可控还得做,当然罗马不是一夜之间建成的。但这条路不能停,绝不能停。因为显然人家的算力还在不断的增长,如果我们的算力无法采购的话,那么会停滞,其实就是在落后。
第二个我赞同傅总说的做应用,因为中国有一个最大的特点,我们的应用市场的人口基数特别大,可以这么说,单一文化的单一市场全世界找不到第二家,这么大的市场十几亿人几乎都能上网,你就能够接触到AI的应用,或者是被AI改造后的应用以及相关的终端,因为终端和应用是一体两面,硬件和软件,还有服务,当然在这个领域里,我觉得刚才傅总说的一个点很关键,我们可以通过应用切入,占领市场,获得收入和现金流,这并不妨碍我们要顺着应用逆向溯流而上去加强对于科技本质的认知,比如说包括OpenAI在内,现在AIGC依然有一部分是黑箱子,你不知道它中间的机理到底是怎么样子的,我们是不是可以通过小规模参数体系的应用,以及它的大量的应用数据来逆向得出,这可能是有机会的。那么如果在这个本质上我们认知了,一通百通,就像当年的AlphaGo干掉了围棋选手,一年之后Al重塑了人类对于蛋白质分子学的认知,改变了人类对于蛋白质分子结构的研究。AlphaGo不就是应用吗?下围棋的,今天我们可以通过应用建立模型,通过模型倒推机理,然后通过机理一通百通,这可能是中国AI企业的可行之路。无论是企业有一个私有的大模型,还是我们举全国之力去打造一个完善的算力的底层基础设施也好,这可能和我们每一个人都有自己的优势是一样的。
主持人:我们今天也是《光华录》的第一篇章,整整60分钟已经过了,大家如果若干年以后再看到这段视频,这段讨论也许会有价值,最后给大家分享一位我的朋友圈里,一个普通人看到Sora的一段小小的感受。
他说:Sora简单的4个字母让世界震撼了,它到底是什么?到底是改变是颠覆还是重塑世界?原本对AI很喜欢、充满期待,觉得我们这个行业最好的工具来了,但是跟着迭代更新反而开始有点害怕,怕失控,怕被坏人利用,怕自己困在一个不知道是真实还是虚幻的空间里边,但是怕是没有用的,它来了以后大胆地迎接它和拥抱它的时候,才会让我们逐渐的去改变它。很多人都说Sora来了,现实不存在了,现实永远存在,当然现实的问题也会永远存在,但是迎着这个问题去,我们就能创造,一切都来得及。
傅盛:想象力可能是人类面对AI时代最大的优势,想象力、好奇心,还有主动性。
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。