您现在的位置是：主页 > 头条 > 科技

继Seedance2.0后，又一中国视频生成大模型站到台前

潇湘眼杰 2026-02-28 10:07:35 阅读：2605 来源：观察者网/万肇生分享： 打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

提要中国的视频大模型，又发起了一场技术突围。

中国的视频大模型，又发起了一场技术突围。

2月27日，昆仑万维集团旗下Skywork AI正式发布多模态视频基础模型SkyReels V4。据称，该模型系“全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务”的视频基础模型。

为此，观察者网查询第三方AI大模型评测机构Artificial Analysis发现，SkyReels V4目前在该机构“文生视频（带音频）的所有历史模型”排行榜中，位列第四名，已超过绝大多数明星产品。

截止27日，SkyReels V4在AA榜单所有模型中排名位置。Artificial Analysis网站截图

而在实际成品方面，以官方下述参考图生成的一段15秒视频，镜头切换恰当，音画同步，整体效果已与目前短剧水平相当。

据介绍，SkyReels V4以双流多模态扩散 Transformer（MMDiT）为核心架构，实现了1080p分辨率、32 FPS 帧率、15 秒时长的音视频同步生成。同时，还可基于参考图片和参考运动的主体进行替换/动作迁移、修改属性（如服装颜色、物体形状）、更换背景，添删物体、修改局部纹理与属性等功能。

而在文本及音频生成方面，昆仑天工提到，SkyReels-V4支持包括中英日韩德法语等多个语种的文本合成，其中中文的语音合成上表现突出，多个指标也达到行业领先水平。

三大技术突破

昆仑天工表示，SkyReels-V4主要的贡献，是针对下述用户日常使用视频生成工具遇到的几个痛点，分别进行了突破。

目前，市面上视频生成工具多种多样，但普遍会出现包括声音和画面经常对不上，即口型对不准。而用户生成高清长视频又特别吃算力资源，又慢且价格昂贵。当用户希望自行将视频剪辑成复杂视频时，又需要在多个软件里来回切换。

SkyReels-V4则采用的双流 MMDiT 架构，可以实现视频和音频两条线从任务开始就并肩工作，共享同一个大脑（文本理解模型）。且通过互相参考的双向跨注意力机制，提高生成视频中角色的嘴型、动作和声音的匹配度。

SkyReels-V4还选择了"低分辨率全序列 + 高分辨率关键帧" 联合生成策略：模型先快速生成低分辨率完整视频和高分辨率关键帧，再通过专用超分辨率和帧插值模块重构高质量视频。如此可以直接用相对较少的计算资源，生成更高分辨率、更长时间的优质视频。这意味着用户制作高质量视频的门槛和成本都显著降低了。

当用户需要后续剪辑功能时，SkyReels-V4把生成、编辑、处理等整合在统一框架里，提出通道拼接（Channel-Concatenation）与时序拼接（Temporal-Concatenation）相结合的统一范式，减少用户剪辑时的多工具依赖，提升效率。

如何在创造与规则中寻求平衡？

需要注意的是，虽然SkyReels-V4展现出了强大的技术力，但与上个月字节跳动发布Seedance2.0时大环境不同的是，技术与规则的赛跑从未如此激烈，大模型竞争已不仅仅只需卷技术，数据来源的合法性与合规成本，已经成为新的壁垒。

就在半个月前，Seedance2.0因版权问题，陆续遭到美国电影协会（MPA）及六大好莱坞制片厂联合发出停止侵权函。随后许多用户发现，Seedance2.0开始出现了“降智”现象，原先那种令人惊艳的电影级打斗镜头一去不返，视频产出稳定性大幅下降，退回了纯抽卡游戏，令人痛心。演员王劲松也公开发文，控诉其形象被人用于AI生成视频，称“声音、口型完全看不出来真假”，他担忧深度伪造技术可能被用于诈骗，且“侵权者的代价可以忽略不计”。

另外，创作平权与版权保护的矛盾激化也不容忽视。许多视频生成工具都可以实现“人人当导演”，但当普通用户无意间将包含IP的素材用于生成时，所产生的侵权行为将变得更加普遍且难以追责。这些都与SkyReels-V4所解决的音画不同步难题一样，是目前视频生成工具的普遍痛点。

昆仑天工的突围值得振奋，但字节跳动的困境也提醒我们，对于中国AI企业而言，想要顺利进入并立足国际市场，所需要的远不止是算力和算法的领先。

Tags： Seedance 中国视频大模型