谷歌Omni模型实测:让玩具熊去漂流,结果翻车了
还记得去年谷歌那个用AI让毛绒玩具度假的广告吗?当时我为了验证真假,亲手给儿子的玩具鹿制作了一组AI旅行视频。如今谷歌推出了更强大的Omni模型,号称能实现‘万物生成万物’——输入文字、图片、视频,输出任何形式的内容。但当我再次把那只叫Buddy的玩具鹿请出来实测时,结果只能用‘魔幻’来形容。
Omni到底有多‘野’?
Omni是谷歌最新发布的生成式AI模型家族,目前首发的是Omni Flash版本,集成在谷歌的AI视频平台Flow中。相比上一代Veo模型,Omni最大的提升在于:支持视频+文字的双重输入,并且声称能更好地理解现实世界知识,保持角色一致性。简单说,你上传一段自己拍的视频,再写一段提示词,AI就能在此基础上生成新的视频内容。
但实测下来,Omni的表现就像一盒巧克力——你永远不知道下一颗是什么味道。
好的方面:进步肉眼可见
相比五个月前测试Veo时的惨淡体验,Omni确实有了质的飞跃。最明显的是视频与提示词的匹配度更高。比如我让Buddy‘打包行李去热带度假’,它真的让Buddy往箱子里塞了一罐蜂蜜,并且在后续镜头中,Buddy在游轮上晒‘蜂蜜防晒霜’——这个创意连贯性让我眼前一亮。
此外,文本编辑视频的功能终于能用了。以前用Veo时,想修改视频几乎等于重新生成;现在Omni至少会‘听劝’:我让它强调Buddy的面部表情,它确实给了几个特写镜头(虽然看起来有点诡异)。
翻车现场:AI的‘恐怖谷’依然存在
但Omni也继承了AI视频生成的老毛病——一致性灾难。在同一个视频里,Buddy的蜂蜜瓶从玻璃罐变成透明塑料瓶,再变回挤压瓶;跳伞时它的身体突然旋转180度;更离谱的是,它时不时会长出鹿角(Buddy明明是个宝宝鹿!)。当我要求删除某个场景中的鹿角时,Omni照做了——然后给其他所有场景都加上了鹿角。
这种‘按下葫芦浮起瓢’的bug,本质上是模型对长序列的时空连贯性理解不足。虽然谷歌宣称Omni融入了更多现实世界知识,但AI显然还没学会‘物体恒存’这个人类三岁小孩就懂的道理。
行业启示:AI视频生成离‘可用’还有多远?
Omni的进步和缺陷,恰好反映了当前AI视频生成技术的瓶颈。单帧质量已经足够惊艳,但跨帧的物体跟踪、场景逻辑、物理规律模拟仍是硬伤。对于专业创作者来说,这些‘跳吓’(jump scare)足以毁掉整个作品;但对于普通用户玩票,Omni已经能产出不少‘朋友圈爆款’。
谷歌选择将Omni首先落地在Flow平台,而非直接集成到搜索引擎或YouTube,说明他们很清楚:这仍是一个需要‘人工筛选’的半成品。就像我测试时那样,10个视频里可能有1个能用,但剩下的9个会让人笑到肚子疼——这或许也是AI的魅力所在吧。
最后,请记住:不要把AI生成的玩具鹿视频给四岁以下儿童看——他们可能会追问为什么鹿有角又没角,而你解释不清。