极客前沿

还记得去年谷歌那个用AI让毛绒玩具度假的广告吗？当时我为了验证真假，亲手给儿子的玩具鹿制作了一组AI旅行视频。如今谷歌推出了更强大的Omni模型，号称能实现‘万物生成万物’——输入文字、图片、视频，输出任何形式的内容。但当我再次把那只叫Buddy的玩具鹿请出来实测时，结果只能用‘魔幻’来形容。

Omni到底有多‘野’？

Omni是谷歌最新发布的生成式AI模型家族，目前首发的是Omni Flash版本，集成在谷歌的AI视频平台Flow中。相比上一代Veo模型，Omni最大的提升在于：支持视频+文字的双重输入，并且声称能更好地理解现实世界知识，保持角色一致性。简单说，你上传一段自己拍的视频，再写一段提示词，AI就能在此基础上生成新的视频内容。

但实测下来，Omni的表现就像一盒巧克力——你永远不知道下一颗是什么味道。

好的方面：进步肉眼可见

相比五个月前测试Veo时的惨淡体验，Omni确实有了质的飞跃。最明显的是视频与提示词的匹配度更高。比如我让Buddy‘打包行李去热带度假’，它真的让Buddy往箱子里塞了一罐蜂蜜，并且在后续镜头中，Buddy在游轮上晒‘蜂蜜防晒霜’——这个创意连贯性让我眼前一亮。

此外，文本编辑视频的功能终于能用了。以前用Veo时，想修改视频几乎等于重新生成；现在Omni至少会‘听劝’：我让它强调Buddy的面部表情，它确实给了几个特写镜头（虽然看起来有点诡异）。

翻车现场：AI的‘恐怖谷’依然存在

但Omni也继承了AI视频生成的老毛病——一致性灾难。在同一个视频里，Buddy的蜂蜜瓶从玻璃罐变成透明塑料瓶，再变回挤压瓶；跳伞时它的身体突然旋转180度；更离谱的是，它时不时会长出鹿角（Buddy明明是个宝宝鹿！）。当我要求删除某个场景中的鹿角时，Omni照做了——然后给其他所有场景都加上了鹿角。

这种‘按下葫芦浮起瓢’的bug，本质上是模型对长序列的时空连贯性理解不足。虽然谷歌宣称Omni融入了更多现实世界知识，但AI显然还没学会‘物体恒存’这个人类三岁小孩就懂的道理。

行业启示：AI视频生成离‘可用’还有多远？

Omni的进步和缺陷，恰好反映了当前AI视频生成技术的瓶颈。单帧质量已经足够惊艳，但跨帧的物体跟踪、场景逻辑、物理规律模拟仍是硬伤。对于专业创作者来说，这些‘跳吓’（jump scare）足以毁掉整个作品；但对于普通用户玩票，Omni已经能产出不少‘朋友圈爆款’。

谷歌选择将Omni首先落地在Flow平台，而非直接集成到搜索引擎或YouTube，说明他们很清楚：这仍是一个需要‘人工筛选’的半成品。就像我测试时那样，10个视频里可能有1个能用，但剩下的9个会让人笑到肚子疼——这或许也是AI的魅力所在吧。

最后，请记住：不要把AI生成的玩具鹿视频给四岁以下儿童看——他们可能会追问为什么鹿有角又没角，而你解释不清。