从“无到有”走向“有到优” 国产视频生成大模型渐入佳境

小微 2024年08月08日 阅读:44470

从“无到有”走向“有到优” 国产视频生成大模型渐入佳境
图片来源于网络,如有侵权,请联系删除

 

  文生视频大模型Sora诞生半年后,它的中国“挑战者”列队登场,争夺下一张AI杀手级应用的“船票”。过去一个月,4款国产视频生成模型陆续上线、走向大众。

从“无到有”走向“有到优” 国产视频生成大模型渐入佳境
图片来源于网络,如有侵权,请联系删除

  与Sora仅释放小样、未开放使用不同,中国的视频生成大模型发布即上线,便于使用者“拿来就用”。眼下,在应用端,一批内容创作者已初尝“会打字就会生视频”“生视频不求人”的乐趣;在技术侧,还有一批孵化中的视频生成模型正在路上。尽管国产工具还不具备一次性“分钟级”的生成能力、无法实现比肩实拍的“无缝”“丝滑”,但视频生成已解决了“有”的问题,逐步向“优”进化。

  想象力“动”起来

  最近,文生视频赛道挤满了强有力的中国选手。7月下旬,我国人工智能独角兽智谱AI推出视频生成模型“清影”、爱诗科技发布视频生成产品PixVerse V2、生数科技上线视频生成模型Vidu的同时,快手6月发布的“可灵AI”已积累百万用户。

  “Sora还停留在实验室的小样阶段,国产视频生成工具已密集上线,并向C端开放使用,令人振奋。”北京大学深圳研究生院信息工程学院助理教授、博导袁粒说。

  Sora的中国“挑战者”有何本领?

  清晨,大熊猫坐在湖边弹吉他、兔子在餐厅里看报纸、袋鼠和金丝猴在一旁吃早餐,然后去动物城的运动场上集合,观看一年一度的自行车大赛……这部由可灵AI生成的动画微电影,尽管时长只有62秒,却表现出了对现实世界物理规律(反射定律、重力定律等)的理解与呈现能力,以及一定的想象力与故事的实现能力。

  进入“奥运时间”,不少刷屏朋友圈的、可衔接不同场景和运镜的短片,也同样出自国产视频生成大模型之手。

  “视频生成,简言之是通过生成式AI技术,将文本、图片等多模态输入,转化为视频信号。”快手视觉生成和互动中心负责人万鹏飞说,“与过去我们常见的相机拍摄、图形渲染获得视频的方式不同,视频生成的本质是从目标分布中采样计算得到像素。这种方式能以更低的成本,达到更高的内容自由度。”

  进入Vidu的视频生成页面,记者体验了“一键生成”的自由。上传一张照片设置为“起始帧”或作为“参考的人物角色”,在对话框里输入想要生成场景的文字描绘,点击“生成”键,一条栩栩如生的短视频就自动生成了。从进入页面到下载完毕,不足1分钟。

  一名技术负责人告诉记者一个“生成秘籍”:“试试‘镜头语言+建立场景+细节描述’的提示词公式,不出5次就能获得想要的视频内容。”比如,在对话框中输入“写实风格,近距离,老虎伏在地上,身体微微起伏”的文本。1分钟后,一段视频出现在屏幕上:微风拂过的草地上,老虎的身体随呼吸起伏,它的毛发、胡须随风而动,甚至能“以假乱真”。

  视频生成技术的快速迭代,建立在对生成内容效果的精准评价之上。如何区分视频生成模型性能的优劣?“一看可控性,即生成内容与输入文本的对应程度;二看稳定性、一致性;三看合理性,即生成内容是否合乎物理规律;四看风格、审美、创意;最后一点,看生成的实时性。”香港大学计算机系教授、欧洲科学院外籍院士徐东这样归纳。

  成本降下去 速度提上来

  国外网友已经用行动表达了对中国自研视频生成模型的赞许,不少Twitter账号发布的文字已经配上了可灵AI、清影AI生成的视频。

  “坦白说,现在技术还没有到成熟的阶段,视频生成模型的技术天花板高,可以提升的空间大。但是,我们看到了影视、动画、广告、游戏行业的痛点:制作周期长、制作成本高,而这是技术可以努力解决的。”生数科技联合创始人、首席执行官唐家渝告诉记者。

  一项技术想要成为“刚需”,须在增强可用性、可控性的前提下降低成本。作为直接拉低创作与制作门槛的技术,视频生成模型的出现,让影视动画从业者看到了“小团队制作动画”“小成本内容创作”的春天。

  “创作AIGC(生成式人工智能)动画短片是一次有趣的经历。我们先是有了一个创意,把它画成故事版,然后用AI生成图像,再用Vidu把图像生成了视频。”北京电影节AIGC短片单元最佳影片得主、Ainimate Lab AI负责人陈刘芳告诉记者。

  视频生成,将让科幻、奇幻、动画不再是大厂才敢玩的“烧钱游戏”。陈刘芳说,用上Vidu之后,制作周期与制作成本的降低堪称显著。

  “拿动画短片《一路向南》来说,创作团队仅由三人构成:一名导演、一名故事版艺术家和一名AIGC技术应用专家。而传统流程需要20人,包含导演、故事版、美术、建模、材质、灯光、渲染等不同‘工种’,周期在一个月左右。这样算下来,成本降低了90%以上。”陈刘芳说,当然,目前视频生成技术的精致程度还不够,约为传统动画性能的三分之一。

  然而,更低的成本、更高的效率,已让传统的影视、动画、游戏从业者感受到技术颠覆前夜的凛冽。“‘人人成为设计师’‘人人成为导演’的时代将会到来,就像当年进入‘人人拥有麦克风’的时代。”智谱AI首席执行官张鹏说。

  “这对于动画行业而言,是挑战,也是机遇。比如一名武林高手,哪怕用最简单的武器、最普通的招式也会威力十足,核心在于他的内功强大。对于动画行业而言,‘招式’好比新技术,‘内功’则是创意、是视听表达、是对审美的品控判断。”中国传媒大学动画与数字艺术学院教授、动画系主任艾胜英说。

  技术固然带来了性价比更高的工具,但也凸显了创意的关键作用。“当影视、动画、游戏的制作环节投入占比大幅降低后,比拼的就更加是创意。”陈刘芳说。

  “炼”一个杀手级应用

  大语言模型敲开生成式AI的大门后,视频作为图像模态的再扩展,将AIGC的技术推向高潮,也让AIGC的应用离大众越来越近。

  当前,全球视频生成的技术路线主要有两种:一种是扩散模型,这其中又分为两类,一类是基于卷积神经网络的扩散模型,如Meta的Emu Video、腾讯等推出的VideoCrafter;另一类是基于Transformer架构的扩散模型,如生数科技的Vidu、OpenAI的Sora、快手的可灵AI等。第二种是自回归路线,如谷歌的VideoPoet、Phenaki等。

  “国内视频生成的主流选择是基于Transformer架构的扩散模型,这一架构能使模型在处理语言、计算机视觉、图像生成等领域表现出扩展能力,遵从‘规模定律’。”徐东说。

  这一选择也意味着,更大的算力、更高的质量与更大规模的数据,以及复杂的算法。

  “首当其冲的是算法。视频在图像的基础上增加了时间维度,算法的复杂程度会指数级增长。”徐东说,数据、算力一定的条件下,模型性能关键在于算法的能力,取决于算法人才水平的高低。

  其次,最为缺乏的是数据。“视频生成强依赖于数据。与文本数据相比,视频数据的积累难度更大。数据的质量提升,不仅包括视频的解析度、风格、分镜、组合、连续性等,还包括数据的清洗、筛选、处理。”张鹏说。

  视频生成模型更是“吞卡巨兽”。从Sora的实践来看,持续提高模型的数据量、参数规模,迄今依然是AIGC进化的核心。中信证券测算,一个60帧的视频(约6至8秒)大约需要6万个Patches(补片),如果去噪步数是20的话,相当于生成120万个Tokens(词元)。考虑到扩散模型在实际使用中需多次生成,实际计算量会远超120万个Tokens(词元)。

  “大模型参数正以每年十倍的速度增长。不论对科技企业还是研究机构而言,如何持续训练高性能的模型,依然是巨大挑战。但与此同时,C端的‘杀手级应用’让人充满期待。从创意的生成,到图片、音乐、视频的制作,AI都将有大施拳脚之地。未来,视频制作也许就像今天做PPT一样简单便捷。”北京智源人工智能研究院院长王仲远说。

【责任编辑:周靖杰】
    阅读下一篇:
              热门文章
              • 储学军:宣传制造业数字化转型成功经验,讲好数字化转型时代故事

                储学军:宣传制造业数字化转型成功经验,讲好数字化转型时代故事
                图片来源于网络,如有侵权,请联系删除图为储学军出席2024制造业数字化转型发展分享会并致辞  新华网武汉6月28日电(记者凌纪伟)2024制造业数字化转型发展分享会于6月28日在武汉市江夏区举行。分享会是2024企业家江夏行系列活动之一,会上政产学研各领域嘉宾围绕助推制造业数字化转型,培育形成以科技创新为引领的新质生产力分享真知灼见。图片来源于网络,如有侵权,请联系删除  新华网党委书记、董事长储学军出席活动并致辞。他表示,党的二十大报告把加快建设制造强国作为全面建设社会主义...
              • 辽鲁航线海域5G网络全部建成投运——茫茫大海上也能“刷视频”了

                辽鲁航线海域5G网络全部建成投运——茫茫大海上也能“刷视频”了
                图片来源于网络,如有侵权,请联系删除  6月26日,辽鲁航线海域5G网络全部建成并正式投入运行,这是我国首次实现5G网络海上规模化连续覆盖。这意味着,从当日起,乘坐辽鲁航线的旅客将告别手机没有信号或者信号断断续续的历史,在茫茫大海上也可以“刷视频”了。  根据工业和信息化部相关数据,我国已建成全球规模最大的5G网络,覆盖了全国所有地市级、县城城区。珠穆朗玛峰海拔6500米营地,已开通全球最高5G基站;新疆塔里木油田万米深井也实现5G信号全覆盖。  不过,作为我国最大的内海,渤...
              • 7月2日26只个股获券商关注,三花智控目标涨幅达41.57%

                7月2日26只个股获券商关注,三花智控目标涨幅达41.57%
                图片来源于网络,如有侵权,请联系删除每经AI快讯,7月2日,券商给予评级的个股数共有26只,获得买入评级的个股数共有18只。在公布了目标价格的4只个股中,按照最新收盘价计算,预期涨幅排名居前的个股是三花智控(002050.SZ)、瑞鹄模具(002997.SZ)、立讯精密(002475.SZ),预期涨幅分别是41.57%、29.34%、16.4%。 从券商对个股的关注程度来看,有4只个股获得多家券商关注,券商关注数量排名居前的个股是比亚迪(002594.SZ)、长城汽车(...
              • “大陆第一杰伦”全国巡演暂停!入场费最高6000元,座位当晚全部卖完,但不少周杰伦歌迷开始“抵制”他……

                “大陆第一杰伦”全国巡演暂停!入场费最高6000元,座位当晚全部卖完,但不少周杰伦歌迷开始“抵制”他……
                图片来源于网络,如有侵权,请联系删除 每经记者 杜蔚  宋美璐    每经编辑 王月龙 杨夏     “大陆第一杰伦”“不是周杰伦看不起,而是黑伦更有性价比”……靠着这些标签,以模仿周杰伦而走红的“黑伦”近期摇身一变,成了高档酒吧的座上宾,自6月起飞遍国内多市,开起了“演唱会”。图片来源于网络,如有侵权,请联系删除 《每日经济新闻》记者采访获悉,“黑伦”的全国巡演系与...
              • 6月28日十大人气股:中报行情悄然开启

                6月28日十大人气股:中报行情悄然开启
                图片来源于网络,如有侵权,请联系删除6月28日沪深两市涨跌不一,成交量有所放大。板块上消费电子、国防军工涨幅居前,证券、传媒相对较弱。人气股方面领益智造、中国西电、沃尔核材涨停,东方财富、金溢科技跌幅居前。下面是今日十大人气股排名的详细情况。 笔者将从今日人气股中,选择几个有代表性的个股进行点评,希望对投资者有所帮助。 1、东方财富:罕见急跌导致指数走弱 今日券商板块龙头股之一东方财富早盘走势波动不大,午后该股突然跳水,一度跌超8%,收盘前稍有反弹但最终仍跌近7%。...