阿里发布Wan2.6-R2V:国内首个参考生成视频模型

文章摘要
2025年12月16日,阿里巴巴正式发布Wan2.6系列视觉生成模型,其中Wan2.6-R2V是国内首个参考生成视频模型,支持角色与音色高保真复刻、智能多镜头叙事,已集成于千问APP,开启"人人导演"新时代。

2025年12月16日,阿里巴巴正式发布全新视觉生成模型 Wan2.6系列,其中最引人注目的是国内首个"参考生成视频"模型Wan2.6-R2V。

该模型允许用户上传包含人物外貌与声音的简短参考视频,即可生成由同一角色"主演"的全新场景视频。


01 技术突破:国内首个R2V模型实现角色与音色高保真复刻

Wan2.6系列的核心突破在于其全新推出的 Wan2.6-R2V(Reference-to-Video)模型,这是中国首个实现"参考视频生成视频"的模型。

该技术的运作方式直观而强大:用户只需提供一段2-5秒的视频作为参考,模型就能学习并复刻其中主体的外貌、动作特征乃至声音

在实测中,前大厂算法工程师卡尔用自己的面部视频进行测试,生成的角色"人脸一致性极强",眼神中甚至能传达出情感,有效避免了此前AI生成真人视频常见的"恐怖谷效应"。

这项技术不仅限于人类,对卡通形象、宠物甚至日常物体同样适用。更值得关注的是,模型支持多主体同框生成,例如可以同时调用用户和小猫两个角色,创造出自然的互动场景。


02 叙事升级:智能多镜头系统重塑视频创作流程

Wan2.6系列通过引入智能多镜头叙事能力,从根本上改变了AI视频生成的最小单位------从单一的镜头升级为一组有逻辑的镜头序列。

实际测试显示,用户现在只需一条包含分镜描述的提示语,就能生成包含多个景别切换的连贯视频。

例如,指令"镜头一,中景描绘@卡尔背对镜头,站在巴黎公寓的落地窗前俯瞰夜晚的埃菲尔铁塔;镜头二,转为手部特写,拿起一把吉他;镜头三,人物表情特写,抱着吉他做出深情表情",模型能够准确理解并生成对应画面,且人物、环境在不同镜头间保持高度一致。

模型支持生成最长15秒的视频,为更完整的微叙事提供了空间。这一能力使AI视频生成从"能出片"阶段迈向"能交付"阶段,大幅缩短了从创意到成片的链路。


03 应用落地:千问APP集成与"人人导演"生态构建

万相Wan2.6模型的实用价值通过阿里旗下千问APP的深度集成得以快速普及。千问APP已同步上线该模型,并向所有用户免费开放。

基于Wan2.6的核心能力,千问APP推出了国内首创的 "AI小剧场"玩法,首次实现了"角色合拍"功能。

用户可以创建自己的数字分身,与朋友的数字形象或平台提供的名人、经典角色共同出演AI生成的短片。这一功能还支持便捷的二次创作,用户可"一键替换"视频中的角色,用自己的数字分身出演各种预设剧情。

功能特性技术实现用户价值与应用场景
参考生成视频(R2V)通过2-5秒参考视频学习主体特征个人数字分身创建、定制化广告、虚拟偶像
多镜头叙事单提示语驱动多景别镜头组生成短视频剧情、产品演示、微电影创作
音画同步生成音频与口型、动作的自动匹配虚拟直播、多语言内容本地化、有声故事
角色合拍支持多角色同框互动与对话社交娱乐内容、教育场景角色扮演、品牌联动营销

从获取途径看,用户目前可通过阿里云Model Studio百炼平台万相官方网站使用这些模型。这种"专业平台+大众应用"的双轨部署策略,既满足了专业创作者和企业的需求,也使普通用户能够零门槛体验最新AI视频技术。

在Wan2.6的官方直播活动中,研发团队将展示全球合作伙伴如何在实际场景中应用这项技术。如今,一位自媒体创作者在拿到内测权限两天后,已经生成了自己与小猫的多个日常互动视频,甚至开始计划制作完整的品牌广告。

随着Wan2.6在画面一致性、指令遵循能力和多镜头叙事方面的显著提升,专业影视工作者与普通用户之间的技术壁垒正在迅速消融。当创作高质量视频不再需要昂贵的设备和专业的知识,每个人讲述自己故事的方式正在被重新定义。

AI内容生成说明

本文由扶摇AI根据指定的权威信源自动生成,旨在提供结构清晰、事实准确的信息整合。 生成过程遵循严格的信源引用与事实核查标准。

更多推荐