阿里巴巴的Wan2.6-R2V模型是什么？

阿里巴巴的Wan2.6-R2V是国内首个“参考生成视频”模型。用户只需提供一段2-5秒的参考视频，该模型即可学习并高保真复刻其中人物或角色的外貌、动作乃至声音，生成由该角色“主演”的全新场景视频，有效避免了“恐怖谷效应”。

Wan2.6系列的多镜头叙事功能如何改变视频创作？

Wan2.6系列通过智能多镜头叙事功能，将AI视频生成的最小单位从单一镜头升级为一组逻辑镜头序列。用户只需输入一条包含分镜描述的提示语，即可直接生成包含多景别切换、角色与环境保持高度一致的连贯视频，最长达15秒，大幅缩短从创意到成片的链路。

普通用户可以通过阿里旗下千问APP免费使用集成的Wan2.6模型。该APP基于此推出了“AI小剧场”玩法，支持用户创建个人数字分身，与朋友或预设角色进行“角色合拍”，共同出演AI生成的短片，并可便捷地进行“一键替换”等二次创作。

2025年12月17日

扶摇AI 扶摇AI系统生成，已通过事实核查

文章摘要

2025年12月16日，阿里巴巴正式发布Wan2.6系列视觉生成模型，其中Wan2.6-R2V是国内首个参考生成视频模型，支持角色与音色高保真复刻、智能多镜头叙事，已集成于千问APP，开启"人人导演"新时代。

2025年12月16日，阿里巴巴正式发布全新视觉生成模型 Wan2.6系列，其中最引人注目的是国内首个"参考生成视频"模型Wan2.6-R2V。

该模型允许用户上传包含人物外貌与声音的简短参考视频，即可生成由同一角色"主演"的全新场景视频。

Wan2.6系列的核心突破在于其全新推出的 Wan2.6-R2V（Reference-to-Video）模型，这是中国首个实现"参考视频生成视频"的模型。

该技术的运作方式直观而强大：用户只需提供一段2-5秒的视频作为参考，模型就能学习并复刻其中主体的外貌、动作特征乃至声音。

在实测中，前大厂算法工程师卡尔用自己的面部视频进行测试，生成的角色"人脸一致性极强"，眼神中甚至能传达出情感，有效避免了此前AI生成真人视频常见的"恐怖谷效应"。

这项技术不仅限于人类，对卡通形象、宠物甚至日常物体同样适用。更值得关注的是，模型支持多主体同框生成，例如可以同时调用用户和小猫两个角色，创造出自然的互动场景。

Wan2.6系列通过引入智能多镜头叙事能力，从根本上改变了AI视频生成的最小单位------从单一的镜头升级为一组有逻辑的镜头序列。

实际测试显示，用户现在只需一条包含分镜描述的提示语，就能生成包含多个景别切换的连贯视频。

例如，指令"镜头一，中景描绘@卡尔背对镜头，站在巴黎公寓的落地窗前俯瞰夜晚的埃菲尔铁塔；镜头二，转为手部特写，拿起一把吉他；镜头三，人物表情特写，抱着吉他做出深情表情"，模型能够准确理解并生成对应画面，且人物、环境在不同镜头间保持高度一致。

模型支持生成最长15秒的视频，为更完整的微叙事提供了空间。这一能力使AI视频生成从"能出片"阶段迈向"能交付"阶段，大幅缩短了从创意到成片的链路。

万相Wan2.6模型的实用价值通过阿里旗下千问APP的深度集成得以快速普及。千问APP已同步上线该模型，并向所有用户免费开放。

基于Wan2.6的核心能力，千问APP推出了国内首创的 "AI小剧场"玩法，首次实现了"角色合拍"功能。

用户可以创建自己的数字分身，与朋友的数字形象或平台提供的名人、经典角色共同出演AI生成的短片。这一功能还支持便捷的二次创作，用户可"一键替换"视频中的角色，用自己的数字分身出演各种预设剧情。

从获取途径看，用户目前可通过阿里云Model Studio百炼平台和万相官方网站使用这些模型。这种"专业平台+大众应用"的双轨部署策略，既满足了专业创作者和企业的需求，也使普通用户能够零门槛体验最新AI视频技术。

在Wan2.6的官方直播活动中，研发团队将展示全球合作伙伴如何在实际场景中应用这项技术。如今，一位自媒体创作者在拿到内测权限两天后，已经生成了自己与小猫的多个日常互动视频，甚至开始计划制作完整的品牌广告。

随着Wan2.6在画面一致性、指令遵循能力和多镜头叙事方面的显著提升，专业影视工作者与普通用户之间的技术壁垒正在迅速消融。当创作高质量视频不再需要昂贵的设备和专业的知识，每个人讲述自己故事的方式正在被重新定义。