AI又封神了！华人新作直出憨豆+《猫和老鼠》，平行宇宙对上戏了

憨豆先生坐在《猫和老鼠》的客厅里，汤姆在一旁跌进油漆桶，杰瑞躲在沙发后偷笑。这一幕，不是梦，也不是恶搞，而是 AI 真实生成的画面。在最新一篇论文中，研究者让从未共存的角色相遇，并解决了「风格错乱」的世纪难题。也许，我们正在迎接一个虚构与真实彻底混合的时代。

　　还记得童年的那些角色吗？汤姆永远追不上杰瑞，憨豆永远在出糗，熊三兄弟永远在惹麻烦。

他们活在各自的世界，互不干扰——卡通的夸张、真人的笨拙，像是平行宇宙。

　　直到 AI 闯了进来。最近，一段 AI 生成的视频在研究圈炸开了锅：

憨豆先生出现在《猫和老鼠》的场景中，身旁的杰瑞正偷偷啃他的三明治。画面真实得惊人——没有剪辑痕迹，也没有违和感。

　　这不是恶搞视频，而是一篇来自阿联酋 MBZUAI 的最新论文：

他们首次让 AI 完成了看似不可能的任务——让从未共存的角色，自然地同框表演。

　　这不只是视觉奇观，更是一种边界的松动。当虚构与现实开始混流，我们也许正在目睹一个新的创作纪元：

　　当 AI 可以让憨豆和汤姆共享同一个舞台，我们对「世界」的定义，是否也要被改写？

　　AI 重写童年动画

　　憨豆×汤姆的奇遇开始了

　　如果有一天，憨豆先生能和汤姆·杰瑞坐在同一张沙发上，那将是动画史上的奇迹。现在，这个「奇迹」已经被 AI 写进现实。

在 MBZUAI 团队的新实验中，AI 真的让来自不同宇宙的角色同框：憨豆坐在沙发上，手里攥着三明治；杰瑞在旁边偷偷比鬼脸，汤姆在后头滑稽地摔倒。

　　AI 首次让卡通与真人角色自然同框互动

　　整个画面连贯自然，没有一丝拼贴痕迹。

可要做到这一点，几乎违背了所有生成式视频的常识。因为——这些角色从未共存。

　　它们没有共享的训练素材、没有交互的语义逻辑、甚至不属于同一种视觉世界。

在过去，AI 一旦试图混合不同风格，就会出现「风格错乱」：憨豆会被渲染成卡通，冰熊会被渲染得像真人，整个场景变得荒谬又滑稽。

　　当 AI 强行混合不同风格，憨豆变成卡通、冰熊变成真人——这就是研究者要解决的「风格错乱」

而这次，研究者用一种全新的方式破解了困局。他们没有靠暴力堆数据，也不是靠视觉拼接，而是让 AI 重新学习角色的「身份逻辑」。

　　论文称之为——Cross-Character Embedding（CCE）。

CCE 会让模型真正理解「谁是憨豆、谁是汤姆」：憨豆的表情与动作规律，汤姆的追逐节奏、杰瑞的狡黠逃脱，都被拆解成可学习的「行为嵌入」。

　　当这些嵌入重新组合，AI 就能在全新的场景下，让他们像原作一样自然互动。

结果是，憨豆依旧笨拙、汤姆依旧冲动、杰瑞依旧聪明——而这一切，不再属于任何一部剧集，而是属于 AI 构建的「第三个世界」。

　　更多论文生成示例：从憨豆×Tom 到 Panda×Sheldon，AI 正在让不同世界的角色共享一幕舞台。

　　从卡通到真人，AI 如何缝合两个世界？

　　要让憨豆与汤姆自然地同框，难点不在生成，而在理解。

　　AI 不仅要知道他们长什么样，更要知道他们是谁、怎么动、为什么动。

　　在这篇论文中，研究团队提出了两个核心机制：跨角色嵌入（Cross-Character Embedding, CCE）和跨角色增强（Cross-Character Augmentation, CCA）。

　　简单来说，就是让 AI 同时掌握谁在演戏，以及这个世界长什么样。

　　CCE——让 AI 学会「理解角色灵魂」

　　传统的视频生成模型，只会照着参考图像去还原外形。

　　可对憨豆先生来说，真正的灵魂不在脸，而在动作：笨拙地摔倒、拘谨地皱眉、僵硬地鞠躬。

为此，研究者从《猫和老鼠》《熊出没》《憨豆先生》《小谢尔顿》等节目中整理出超过 81 小时、5.2 万段视频，并用 GPT-4o 自动生成结构化字幕，把每个片段都标成「谁做了什么」的格式：

[Character: Mr. Bean], trips over a chair. [Character: Jerry], laughs and hides behind the wall.

这样训练后，模型不只是「看到」视频，而是开始「读懂」人物之间的关系。

　　CCE 就是在这一过程中诞生的——它让模型为每个角色学习一组独立的身份与行为向量，从而在新的场景里，也能准确复现他们的性格逻辑与动作节奏。

CCE 通过结构化字幕训练，让模型在生成时能分离角色身份与行为，实现多角色自然共演。

　　不同字幕标注策略效果对比：加入 [角色] 与 [场景风格] 标签后，模型能更精准理解谁在做什么、在哪个世界行动。

　　CCA——让 AI 修复「风格错乱」的世界

然而，角色懂了动作，画面还得保住风格。

　　当卡通与真人角色同时出现时，AI 极易陷入「风格错乱」——憨豆被渲染成动画，冰熊反而长成人形。

　　为了避免这种「混血灾难」，研究团队又提出了跨角色增强。

他们用分割模型 SAM2 把角色从原视频里抠出来，再放入不同风格的背景中。

　　比如，把真人憨豆放进《猫和老鼠》的厨房，或把熊兄弟放进《小谢尔顿》的教室。

　　这些「跨风格合成视频」只占总训练数据约 10%，却显著提升了模型的风格稳定性。

展示「风格错乱」现象——憨豆变卡通、冰熊变真人；下图为 CCA 的跨风格数据增强流程，让角色在混合场景中仍能保持原始风格

最终结果是——AI 第一次能在两个世界之间保持平衡：憨豆依然笨拙，Jerry 依然灵巧，场景依然卡通。

　　他们在同一帧画面中，既不彼此污染，又能自然互动。

　　这一刻，AI 重建了世界的秩序。

　　「平行宇宙」对上戏

　　AI 让虚构世界开始有化学反应

当 CCE 让 AI 记住每个角色的灵魂，CCA 让世界风格重新归位——憨豆先生、汤姆与熊兄弟终于可以在同一块画布上「共存」了。

在实验中，研究团队选取了 10 位角色：卡通阵营的 Tom、Jerry、Grizzly、Panda、Ice Bear，以及真人阵营的 Mr. Bean、Sheldon、Mary、George、Penny。

　　AI 被要求根据文字提示生成两到三名角色互动的视频。结果出乎所有人预料：

在这条生成视频中，汤姆依然毛躁、冰熊依然冷静，两种风格不仅没有冲突，反而出现了奇妙的节奏平衡。

　　上行为 SkyReel-A2 的生成结果，下行为该研究的输出——角色风格、表情与动作均更自然统一。

　　研究团队还为此建立了首个多角色生成评测基准，用包括Identity-P（身份保持）、Motion-P（动作一致）、Style-P（风格一致）和Interaction-P（交互自然度）在内的指标对比主流模型。

结果显示：在多角色任务上，他们的模型在这四项指标上全面领先。

　　论文实验结果：在身份保持、风格一致与互动自然度上，新模型均显著超越 SkyReel-A2、Wan2.1 等主流系统。

更直观的差距，也出现在人类主观评估中：评审者普遍认为，该模型生成的多角色画面「像真的在演」，而非「贴在一张图上」。

　　正如论文所说：

　　我们的模型不再仅仅生成视频，而是在模拟角色之间的化学反应。

这些结果意味着，AI 的视频生成正在进入一个新阶段：它不只是生成「内容」，而是在创造「关系」。

　　从角色混合到世界混合

　　AI 正在重写「故事的边界」

　　当憨豆能和汤姆自然地对戏，AI 不只是生成了一段视频，而是创造了一种新的叙事方式。

论文训练集中 10 位核心角色：从动画到真人，AI 要学会的，是他们的灵魂而非外形。

　　在这项研究里，「跨角色混合」只是开始。它真正的意义在于——AI 第一次让不同世界的逻辑共存。

　　卡通的物理规则、真人的表演细节、情节的时间线，都被折叠进同一个可计算的空间。

这意味着，未来的生成模型不再只是「造图」，而是在编排一场多维世界的演出。

　　试想一下：

　　影视制作不再受版权与拍摄限制，观众可以点名让任何角色「跨界出演」；

　　游戏中的 NPC 拥有自己的记忆与行为逻辑，能与玩家共同进化；

甚至文学创作，也可能因为 AI 能理解「人物行为嵌入」，而进入动态叙事时代。

　　这不仅改变创作，也重新定义「世界构建」这件事。

更多生成示例：从憨豆×Tom 到 Panda×Sheldon，AI 正在让不同世界的角色共享同一幕舞台

　　过去，我们以作品为界，称之为「宇宙」；现在，AI 正在模糊宇宙的边界，把所有故事的角色都放进同一个概率空间。

当 AI 能理解角色的灵魂、维持风格的秩序、创造自然的互动，「虚构」与「真实」之间的那道门，就不再需要被打开——因为它已经被重写在算法之中。

　　这一研究的发布，也许只是一次视频生成的技术升级。但它真正改变的，是我们理解「虚构」的方式。

过去，AI 在学习人类；现在，AI 开始学习「人物」。

　　当模型能区分每一个角色的性格、节奏与灵魂，它生成的，就不再是画面，而是行为与关系。

　　故事不再需要「编写」，而是可以被生成；人物不再受限于作品，而是可以跨越宇宙同行。

当憨豆能和汤姆对戏，当熊兄弟闯进谢尔顿的课堂，我们所熟悉的世界，正在被悄悄重组。

　　而 AI，也许正在成为下一个「导演」——一个能重写虚构边界的导演。

　　参考资料：

　　https://x.com/tingtin36139994/status/1975861549051888067

　　https://arxiv.org/pdf/2510.05093

AI又封神了！华人新作直出憨豆+《猫和老鼠》，平行宇宙对上戏了

相关文章

推荐标签