您现在的位置是: 主页 > 头条 > 科技
继Seedance2.0后,又一中国视频生成大模型站到台前
潇湘眼杰
2026-02-28 10:07:35
阅读:2312
来源:观察者网/万肇生
提要中国的视频大模型,又发起了一场技术突围。
中国的视频大模型,又发起了一场技术突围。
2月27日,昆仑万维集团旗下Skywork AI正式发布多模态视频基础模型SkyReels V4。据称,该模型系“全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务”的视频基础模型。
为此,观察者网查询第三方AI大模型评测机构Artificial Analysis发现,SkyReels V4目前在该机构“文生视频(带音频)的所有历史模型”排行榜中,位列第四名,已超过绝大多数明星产品。
截止27日,SkyReels V4在AA榜单所有模型中排名位置。Artificial Analysis网站截图
而在实际成品方面,以官方下述参考图生成的一段15秒视频,镜头切换恰当,音画同步,整体效果已与目前短剧水平相当。

据介绍,SkyReels V4以双流多模态扩散 Transformer(MMDiT)为核心架构,实现了1080p分辨率、32 FPS 帧率、15 秒时长的音视频同步生成。同时,还可基于参考图片和参考运动的主体进行替换/动作迁移、修改属性(如服装颜色、物体形状)、更换背景,添删物体、修改局部纹理与属性等功能。
而在文本及音频生成方面,昆仑天工提到,SkyReels-V4支持包括中英日韩德法语等多个语种的文本合成,其中中文的语音合成上表现突出,多个指标也达到行业领先水平。
三大技术突破
昆仑天工表示,SkyReels-V4主要的贡献,是针对下述用户日常使用视频生成工具遇到的几个痛点,分别进行了突破。
目前,市面上视频生成工具多种多样,但普遍会出现包括声音和画面经常对不上,即口型对不准。而用户生成高清长视频又特别吃算力资源,又慢且价格昂贵。当用户希望自行将视频剪辑成复杂视频时,又需要在多个软件里来回切换。
SkyReels-V4则采用的双流 MMDiT 架构,可以实现视频和音频两条线从任务开始就并肩工作,共享同一个大脑(文本理解模型)。且通过互相参考的双向跨注意力机制,提高生成视频中角色的嘴型、动作和声音的匹配度。

SkyReels-V4还选择了"低分辨率全序列 + 高分辨率关键帧" 联合生成策略:模型先快速生成低分辨率完整视频和高分辨率关键帧,再通过专用超分辨率和帧插值模块重构高质量视频。如此可以直接用相对较少的计算资源,生成更高分辨率、更长时间的优质视频。这意味着用户制作高质量视频的门槛和成本都显著降低了。
当用户需要后续剪辑功能时,SkyReels-V4把生成、编辑、处理等整合在统一框架里,提出通道拼接(Channel-Concatenation)与时序拼接(Temporal-Concatenation)相结合的统一范式,减少用户剪辑时的多工具依赖,提升效率。
如何在创造与规则中寻求平衡?
需要注意的是,虽然SkyReels-V4展现出了强大的技术力,但与上个月字节跳动发布Seedance2.0时大环境不同的是,技术与规则的赛跑从未如此激烈,大模型竞争已不仅仅只需卷技术,数据来源的合法性与合规成本,已经成为新的壁垒。
就在半个月前,Seedance2.0因版权问题,陆续遭到美国电影协会(MPA)及六大好莱坞制片厂联合发出停止侵权函。随后许多用户发现,Seedance2.0开始出现了“降智”现象,原先那种令人惊艳的电影级打斗镜头一去不返,视频产出稳定性大幅下降,退回了纯抽卡游戏,令人痛心。演员王劲松也公开发文,控诉其形象被人用于AI生成视频,称“声音、口型完全看不出来真假”,他担忧深度伪造技术可能被用于诈骗,且“侵权者的代价可以忽略不计”。
另外,创作平权与版权保护的矛盾激化也不容忽视。许多视频生成工具都可以实现“人人当导演”,但当普通用户无意间将包含IP的素材用于生成时,所产生的侵权行为将变得更加普遍且难以追责。这些都与SkyReels-V4所解决的音画不同步难题一样,是目前视频生成工具的普遍痛点。
昆仑天工的突围值得振奋,但字节跳动的困境也提醒我们,对于中国AI企业而言,想要顺利进入并立足国际市场,所需要的远不止是算力和算法的领先。
