清华大佬整活：马斯克穿上东北大花袄、李白穿上背带裤

2024-11-15 13:08:16 6阅读

粉色连衣裙、黑色大波浪的美女，惊恐转身后，露出了一神似张宋小宝的娇俏面庞。微张的嘴唇，欲语还休。

美国的三好青年马斯克，身着东北大花袄，站在微风阵阵的白宫前边。小手一揣，略带局促地露出一抹拘谨、正派的微笑。

而另一边，魔卡少女小樱也正拉着隔壁的蕾姆，在三里屯商场里逛街。当然了，世超知道见识过各种 P 图软件和 AI 技术的你。估计看到这些效果，也是轻轻一笑说：

早半年前，哥就见过这种效果了。哥不仅能让马斯克换装，就是让他跳段舞，也是手拿把掐了。

但且慢，上面这些视频的生成方法，可能跟你以前见过的都不一样。这个用的是生数科技联合清华团队推出的视频模型 Vidu 1.5 ，这个模型有一个新的能力：多主体一致性。

用大白话来说，就是我们可以上传多张图片来生成视频。并且保证这些复杂的元素不会变形。比如上传角色、物体和地点的图，它可以用你指定的这些元素，做出一条视频来。

这样我们在生成的时候，就可以自己设定人物、物体还有场景。像马斯克这条视频，就是用了一张马斯克的大头照，一件花袄，还有一张白宫的图片，生成出来的。

丢一句简单的提示词， Vidu 就可以复刻出一条以假乱真的视频。让马斯克，穿上你给的大花袄，在白宫前秀一段。

这么整的好处显而易见，我们可以手动控制AI生成的素材，让视频更合我们心意。以前我们只能扔一句话，或者扔一张照片，让 AI 自由发挥。最后结果很容易就脱离我们的预期。

比如你直接说让马斯克穿着大花袄，它就会真的在马褂上，画几朵大花。

如果 AI 的词库里，就没有大花袄这个东西。不论我们怎么调整提示词，最后都没法生成出来。

可现在，你不用使劲憋提示词了，只需要闭眼甩一张图。之前还没有视频模型可以做到这样，很多时候能把一张上传的图片处理明白，就已经相当得劲了。所以， Vidu 这个模型一发布。外网的各种网友们，立马就惊呼，然后开机上手了。

大家也可以直接打开 Vidu 的官方，上手试试看。不过，现在只有三次的免费机会，后面每次试用就会需要消耗 4 个积分。为了给大家整个明白，世超试用了一天。大伙可以往下滑，看看我的效果，再决定要不要玩。按照编辑部的约定俗成，咱们的吉祥物一般都是我第一个试的。

这回，我整了两张火锅戴头盔的照片，又上传了一张抹茶绿的雅迪电动车。输入提示词：金毛犬在骑雅迪电动车。

大概几十秒之后，带着黑色防风镜的火锅，就这么丝滑地骑上了小电驴。连胸前蓝色的挂饰，还有雅迪的橙色车标，都完整的保留了下来。这个一致性效果还是挺惊艳的。

还贴心地加上了吐舌头和摇尾巴的小细节。

?虽然火锅这个滑滑板一样的骑车动作，是肯定没法上路的。不过，因为狗本来就不会骑电驴，咱们也不能强求。后面，世超换了张乔布斯的大头照，这个效果就很可以了。而且，我还特地上了点难度。让乔布斯也和马斯克一样，穿上了咱们特色服饰军大衣。

硬朗五官配上笔挺大衣，效果还是非常板正的。乔布斯应该也没想到，自己有一天会坐上雅迪的橘色雅座吧。虽然只有正脸照，但是镜头转到侧方的时候，人物的特征（比如小秃头）还是还原得挺精准。

不过，上面这些都还是单一的人物主体，外加一个场景或者物品。抓取起来还是比较简单。

一般来说，我们加入的主体越多，大模型就可能抓取错误。于是我试了一下上传一张唐伯虎点秋香里经典图，然后要求把脸部替换成我给的另一张图。

它从一堆人的背影里，精准地找到秋香。让她把脸缓缓转过来，微微露出侧脸。虽然没有全脸示人，但眉眼就足够一眼丁真。

后面，我又加上了难度。不仅要替换服装，还要加上动作。让语文课本上的李白和蔡徐坤来个对换：李白穿着背带裤在打篮球。

这次， Vidu 给的效果就相当抽象了。它直接给坤换了个画风，整出了一个动画版。虽说保留的格子裤花纹小细节，足以体现用心。

但这个李白 260°水调大转头，画面实在过于诡异了。也没有完成我输入的【打篮球】的指令。

在后面测试中，世超发现 Vidu 虽然能抠主体。但是，如果动作比较大，或者画面变化比较多，就容易出现上面突然转头的小 bug 。比如，让它把胖虎的玩具人偶放在冰雪女王的手上。

它确实能处理多个主体，让塑胶胖虎凭空变出来，而且，冰雪女王的动作和场景连贯性，基本可以以假乱真。但是，换进去的胖虎的动作，就明显有点小崩。在五秒里，连续抽搐变形了数次。

在一下午的测试里， Vidu 的生成效果总是时好时坏。世超一直在上一秒惊艳，下一秒惊吓的反复中来来回回。比如让雷军坐到问界的车里挥手。雷军就这么水灵灵地掉到了车外面，而且，脸也早已经崩坏了。

但是，同时它又能完美地让乐高国王，在城堡上举起长剑，激昂演讲。保持场景和人物，都连贯一致。

崩多了之后，我甚至摸出了一些门道。如果你看完文章后，打算去试试，那么在给主体照片的时候，最好找背景比较干净的图片。主体越好抠出来，生成的准确率就越高。

同时，给一个主体上传多个角度的照片，也能让他动起来更自然。因为模型可以构建出一个更完整的人物。

虽然根据 Vidu 官方的说法，他们这次放弃了业界主流的 LoRA 微调的方法。因为那种方法，很容易出现过拟合，就是在理解主体的过程中，会遗忘大量原先的知识。所以，主体的动作和肢体很容易崩坏，难以控制。画面里东西越多，变化越多，就越容易失控。而 Vidu 的新模型是用类似于大语言模型的技术，把所有输入都处理成视觉数据，并和大语言模型一样能“上下文记忆”地处理这些输入数据。这确实让 Vidu 在多主体的处理上，迈出了一大步。

但与此同时，经过简单测试后，世超觉得 Vidu 的这个技术还有很长一段路需要走。其实， Vidu 暴露的问题跟早期的文成视频很像。就是意思都到了，但是细节还不够，效果不稳定，时不时抽一下风。像这个电动车和公路场景，再怎么切换镜头都没有变形。就是运动的时候，人物出现了影分身。

指定图片：初音未来、雅迪电动车和公路