
【新智元导读】当Seedance 2.0刷屏全网时,一匹中国黑马已悄然冲上各人AI视频榜第二。昆仑天工SkyReels-V4强势杀入顶级牌桌,多模态输入、音画同步直出影院级大片,实力惊艳轶群!
最近,各人AI圈风头最盛的模子当属Seedance 2.0了。
模子一出,蓦的引爆全网。
就当扫数东谈主的眼神都聚焦在Seedance 2.0的狂欢与争议上时,一匹黑马已悄然杀入了各人AI榜单的顶级牌桌。
就在刚刚,Artificial Analysis更新了文本到视频(含音频)各人榜单。
在这份由OpenAI、Google、Anthropic等头部AI公司共同认同的泰斗名次榜上,一个来自中国的名字闯入了最前哨:
昆仑天工SkyReels-V4,各人现役模子排名第2,历史扫数模子排名第4!


Artificial Analysis 榜单: https://artificialanalysis.ai/video/leaderboard/text-to-video?audio-output=true
在这个汇聚了Veo 3.1、Sora 2、Kling 3.0、Wan 2.6等各人顶尖选手的竞技场上,SkyReels-V4以实打实的本领硬实力,一举稀奇了绝大多数明星家具。
这不是一次随机的惊艳亮相,而是昆仑天工在 AI 视频大模子规模动须相应的一次集合爆发。

先行为果
SkyReels-V4 到底能作念什么?
泛论数据,不如径直看智力。
SkyReels-V4的筹划远不啻于「生成一段顺眼的视频」。
它想要作念的,是成为各人首个同期支握多模态输入、汇注音视频生成、谐和生成/拓荒/裁剪任务的视频基础模子。
举几个直不雅的例子。
比如目前最火的短剧。只需要两个变装图片,以及变装的台词即可。

输入SkyReels-V4后,它径直就生成了一段1080p、32FPS、15秒的影院级视频。
这个成果,还是基本上没啥AI味了。
歪果仁也没问题。

不得不说,真实很丢脸出是AI生成的。
同期给多个参考图像和音频输入,三个变装远离是一只黑猫、一只澳大利亚牧牛犬和一只棕熊。

仔细看,画面和声息完全对得上,节拍卡得基准,嘴型都严丝合缝,挑不出纰谬。
SkyReels-V4最让东谈主咫尺一亮的智力,即是让你领有多模态参考的创作解放。
假定你手头有两张变装遐想图、一段跳摆动作的参考视频,你不错把这三者同期丢给SkyReels-V4,它会赤诚地用两张图像的变装外不雅,实行视频中的跳摆动作,配合音频的节拍律动,生成一段全新的、高质地的视频作品。
这种跨模态的精确和会适度智力,在现时的视频大模子中实在是唯一份。
比如这段经典电影中男女演员随音乐起舞的视频,质感极其惊艳。

跳舞演员换成边牧和英短,成果亦然相通当然。
不错说,SkyReels-V4真确作念到了变装一致性、高质地动作生成、精确音画同步、电影级的视觉呈现,实在不错径直用于生意级展示。
首帧参考功能,不错让它的多模态适度更为生动。
输入以下首帧,咱们就远离得回了喝咖啡的戎马俑、拉小提琴的陶俑和打排球的labubu。




通顺参考功能,不错把跳舞的舞者一键换成动漫变装,动作十足一致。


另外,SkyReels-V4的一站式全历程拓荒裁剪功能,亦然好用到爆。
若是视频中有个碍眼的水印,不错径直去掉。
一句prompt,就能去掉短剧中的特定东谈主物,比如底下镜头中穿旗袍和穿红裙的女演员。
变装的穿着不惬意?径直一键修改。比如这位举杠铃的老东谈主,白背心一键被造成了蓝色T恤,画面当然得看不出转变足迹。


以致,你不错把扫数这个词视频的格调从写实一键切换到乐高积木风。
古装剧这种写实、自如的影像格调,都能蓦的造成充满童趣和创意的视觉抒发,而况动作、镜头出动和剧情节拍依然保留,格调迁徙完成度惊东谈主。
也即是说,从此创作家再也不会被单一好意思术格调绑定,统一段内容,不错把柄生意需求快速切换视觉谈话,在史诗、卡通动画、积木玩物风之间走动切换。
这就大开了IP二次创作和品牌联名的空间,让内容的生意假想力空间暴涨。


SkyReels-V4还能帮咱们把静态的镜头,造成电影级的推拉摇移。
本来仅仅一个男东谈主坐在原地抛着橘子,画面像监控一样静止、莫得升沉。
但加入镜头谈话后,本来静态的纪录画面,一下子就有了呼吸感,被弯曲为极有叙事张力和节拍遐想的电影级运镜。


更概况的是,以前你需要在Premiere、AE、各式AI器具之间反复切换才能完成的使命。
目前,SkyReels-V4一个模子就能全部惩处了。

三大转变突破行业天花板
SkyReels-V4 的强悍进展背后,是三项关节本领突破。

第一,双流 MMDiT 架构——让音视频真确「合为一体」。
现时主流的视频生成模子在处理音频时,无边接纳「先生成视频,再后贴音频」的浅层和会决策,这种作念法导致的罢了即是音画不同步、唇形对不上、音效跟画面割裂。
SkyReels-V4 透顶换了一种想路。
它接纳对称双流架构遐想:视频和音频各有一条自在的处理分支,但两条分支分享统一个文本编码器,并通过双向跨防护力机制在扫数这个词辘集的扫数层级上结束深度交互。

概况来说,视频在生成的每一步都在「听」音频在作念什么,音频在生成的每一步都在「看」视频在作念什么——它们不是各干各的、终末拼在全部,而是从一运转就在相互指令、协同滋长。
为了解决音频和视频在时期规范上的自然不匹配问题(视频是一帧一帧的,音频是通达波形的),团队还转变性地使用了RoPE频率缩放本领,将音频的位置编码频率精确地休养为与视频帧率相匹配的比例,结束了毫秒级的时期对皆精度。
这即是为什么SkyReels-V4的唇形同步能作念到如斯的准确率——因为音视频从生成机制的底层即是绑定的。
第二,谐和拼接框架——一个模子,包揽扫数视频操作。
传统的视频AI器具链是碎屑化的:文生视频用一个模子,图生视频用另一个,视频拓荒用第三个,格调迁徙用第四个……每切换一个器具,都意味着险峻文信息的丢成仇创作历程的断裂。
SkyReels-V4建议了一个小巧的「通谈拼接+时序拼接」双维谐和范式。
它的中枢想想是:不管你想作念什么任务——翰墨生成视频、图片生成视频、视频延展、区域拓荒、格调迁徙、物体移除——执行上都不错被弯曲为「给定某些已知条款,生成未知区域」的拓荒问题。
通过一组生动的输入组件,模子只需要休养掩码成立就能在不同任务间无缝切换。
比如文生视频时掩码全为0(完全从零生成),米兰体彩下载图生视频时唯独首帧掩码为1(锁定参考图,续写后续画面),视频裁剪时保留区域掩码为1、裁剪区域掩码为0(只改你想改的部分)。
这种遐想的优雅之处在于:用户不需要关怀底层在调用哪个功能模块,只需要告诉模子「我想要什么」,模子我方就能融会并实行。
它让专科级视频创作从「器具链操作」造成了「意图抒发」。
第三,高效生成计谋——在质地和速率之间找到最优解。
1080p分辨率、32FPS帧率、15秒时长——这个规格参数放在一年前,光是诡计量就足以劝退大多数盘问团队。
SkyReels-V4的工程团队遐想了一套巧妙的「低分辨率全序列 + 高分辨率关节帧」汇注生成计谋:模子先快速生成低分辨率的完整视频和高分辨率的关节帧,再通过特别的超分辨率和帧插值模块重构最终的高质地视频。
配合自研的视频疏淡防护力(VSA)机制,防护力诡计资本裁汰了约3倍,让影院级规格的视频生成真确具备了实用价值。

此外,模子还接纳了多阶段渐进式查验计谋——从256px的文本到图像预查验起步,渐渐彭胀到480p、720p、1080p的多分辨率查验,终末通过大限度多模态数据和精选高质地数据的微调进行精打细磨。
这种「由粗到精」的查验旅途,确保了模子在每个分辨率等第上都有塌实的基础智力。

视频+音乐
异日阛阓爆发的金矿
SkyReels-V4 并不是一个孤独的家具——它是昆仑天工「全模态 AI 创作生态」拼图中的关节一块。
昆仑天工旗下还有一个相通在各人阛阓打出声量的家具:AI 音乐创作平台 Mureka。
Mureka O1 是各人首个引入 CoT(想维链)本领的音乐推理大模子,在音乐创作质地上全面稀奇了 Suno 等竞品,登顶 SOTA。
最新的 Mureka V8 在音色、演奏技法、情感抒发上握续突破,用户遍布各人 100 多个国度和地区。
当咱们把 SkyReels-V4 的视频生成智力和 Mureka 的音乐创作智力放在全部看,一个雄壮的假想空间大开了:一家公司同期领有各人顶尖的视频大模子和音乐大模子,从画面到声息、从配乐到东谈主声、从殊效到情感抒发,全链路买通。
这意味着一个品牌方不错用一句话刻画我方想要的告白创意,从画面、配乐、旁白到音效,一站式生成完整的视频告白。
一个自在音乐东谈主不错把我方创作的歌瑕瑜接造成高质地MV,不需要再破耗数万元请拍摄团队。
一个耕作机构不错把课程内容自动弯曲为配有老师语音、布景音乐和动态画面的教育视频。
在现时的 AI 阛阓上,同期在视频和音乐两个赛谈都达到各人越过水平的玩家,历历。
不错说,视频+音乐的异日阛阓,是一座亟待爆发的金矿。
国外大厂还是纷纷下手,比如谷歌推出的Veo 3与Flow器具链,能同期生成视觉内容与音乐轨谈,以致整段视频和声息都能按需生成,径直就能一站式创作短片。

Adobe在Firefly中新增了AI Soundtrack与AI Voice-over生成器,不错把柄视频格调自动生成布景音乐,由此,告白视频不错自动配乐,影视预报片不错快速作念出Demo。

好意思国AI语音/音乐公司ElevenLabs发布了与知名音乐东谈主相助的AI生成模样,同期筹画诱导视频和音乐创作。
执行上,这条门路亦然视频+音乐创意协同生成的异日标的。

ElevenLabs的最新模样:Liza Minnelli和Art Garfunkel
目前,这些大厂尝试的旅途,昆仑万维还是好意思满复现!

SkyReels-V4的出现,恰逢那时
昆仑天工的本领呈报还是明确展示,SkyReels-V4和Mureka之间的本领协同还是在执行家具中落地——此前发布的全网首支AI音乐东谈主MV,音乐由Mureka生成,视频由SkyReels本领复古,即是这种全模态智力的一次预演。
正好的是,AI视频生成阛阓正处于一个奥妙的弯曲点。
Seedance 2.0的横空出世毫无疑问搅拌了扫数这个词行业,冯骥称其「Kill the game」,影视飓风的Tim连呼六次「恐怖」,国外酬酢平台上一码难求。
但硬币的另一面是:Seedance 2.0在爆红的同期速即碰到了风控收紧,无数被Seedance 2.0惊艳成果招引、但因风控收紧的创作家,正在积极寻找替代决策。
SkyReels-V4恰好在这个时期窗口,交出了一份裕如硬核的得益单。
更迫切的是,SkyReels-V4 的「全模态参考」智力——支握文本、图像、视频、掩码、音频等多种输入组合——在功能掩饰度上以致比Seedance 2.0更为全面。
关于那些需要倡导、专科、全历程视频创作智力的用户来说,SkyReels-V4 提供了一个值得谨防磋商的聘请。
虽然,AI视频生成是一个百花皆放的赛谈,每个模子都有我方的上风和适用场景。
但SkyReels-V4用此次榜单得益讲解注解了一件事:在这场各人竞技中,中国AI 视频本领不惟唯一个选项。

握续迭代的永久办法
总结昆仑天工在视频大模子规模的发展轨迹,你会发现SkyReels-V4的崛起绝非随机。
2025年2月,开源SkyReels-V1——中国首个面向AI短剧创作的视频生成模子,基于千万级级影视数据查验,支握 33 种微色谐和 400 多种动作组合。
2025年4月,发布SkyReels-V2——各人首个使用扩散将就(Diffusion Forcing)框架的无穷时长电影生成模子,在VBench1.0评测中拿下开源最高分。
2026年1月,开源SkyReels-V3——新一代多模态视频生成系统,支握1-4 张参考图像输入,结束多主体视频生成、音频驱动和视频到视频生成。
2026年2月,SkyReels-V4发布——各人首个同期支握多模态输入、汇注音视频生成、谐和全场景任务的视频基础模子,Artificial Analysis各人榜 TOP2。
从 V1 到 V4,每一代的迭代都不是概况的参数堆叠,而是架构层面的转变突破。
V1 解决了影视级质感的问题,V2 攻克了无穷时永生成的远程,V3 引入了多模态参考智力,V4 则结束了音视频汇注生成和全场景谐和框架的终极整合。
这种握续转变迭代的节拍,配合 Mureka 在 AI 音乐规模的越过地位、Skywork 系列在大谈话模子和多模态推理上的突破、以及 DramaWave 短剧平台的生意化落地,昆仑天工正在构建一个掩饰「算力—模子—期骗」的完整 AI 生态闭环。

AI 视频创作的
「大一统」时刻正在到来
站在2026年头回望,AI视频生陈规模在以前一年资历了六合永久的变化。
从Sora掀翻的第一波波澜,到Veo、Kling、Seedance等模子的知无不言,再到SkyReels-V4以「全模态参考+音视频汇注生成+谐和任务框架」的三位一体智力冲上各人榜单前哨——咱们正在见证一个新时期的开启。
在这个时期里,视频创作不再是专科团队的专属特权,而是每一个有创意的东谈主都能涉及的抒发形势。
而SkyReels-V4所代表的本领标的——用一个模子、一次操作,完成从翰墨构料到音视频制品的全历程创作——恰是通往阿谁异日的最显著旅途。
昆仑天工在本领呈报中显露了异日三大标的:彭胀更永劫长(30 秒+)的视频生成智力、增强及时交互裁剪功能、绽开模子API接口与更多创作器具生态集成。
这些标的中的每一个,都将进一步拉近AI视频创作与专科影视制作之间的距离。
AI 视频的竞赛远未末端,但SkyReels-V4还是用各人TOP2的得益讲解注解:在这条赛谈上,来自中国昆仑天工的声息,值得全寰宇倾听。






备案号: