此前,Google 凭借图像生成模型 Nano Banana 已经赚足了眼球,该模型至今已生成了超过 500 亿张图像。今年,Google 再次升级,推出了全新的 Gemini Omni 模型。这家搜索巨头宣称,该模型“可以从任何输入中创造任何内容 —— 首先从视频开始”。
换句话说,这个新模型允许你结合图像、音频、视频和文本作为输入,来生成高质量的视频,并通过对话式的提示词对视频进行编辑。Gemini Omni Flash 是该系列中的第一个模型,未来 Google 还将增加对其他输出形式(如图像和音频)的支持。
在 Google I/O 2026 的主题演讲中,Google 介绍了你可以用这个新模型实现的几项功能。在编辑视频时,视频中的人物、场景顺序和其他方面都能保持一致,你可以使用自然语言提示词来添加或移除物体、选择不同的摄像机角度,甚至进行彻底的修改。
你可以将拍摄的真实生活视频输入到 Omni 中,并要求它添加新的人物或物体,或者加入一些 CGI 特效。Google 解释道:“你可以改变环境、角度、风格甚至具体细节,而绝不会丢失原始场景的连贯性。滑动浏览轮播图,看看各项编辑是如何层层递进的。”
这家搜索巨头指出,Omni 拥有“对物理学的直观理解”,并且其创作内容基于 Gemini 关于历史、科学和文化背景的知识,以提升照片级的真实感和叙事能力。该 AI 模型可以根据简短的提示词生成带有 AI 配音的解说视频。
你可以使用人物、场景或绘画的图像作为输入。虽然它支持多种输入格式,但 Google 表示,该模型最初仅支持语音作为音频参考,其他类型的音频将在稍后加入。
需要注意的是,所有使用 Omni 创建的视频都会带有 SynthID 水印,你可以通过 Gemini 应用、Chrome 浏览器和 Google 搜索来验证。你还可以创建一个自己的虚拟化身或数字版本,让它出现在 Omni 生成的视频中,看起来和听起来都和你一模一样。
目前,Gemini Omni Flash 正在向拥有 Google AI Plus/Pro/Ultra 订阅的 Gemini 应用和 Google Flow 用户推送。同时,对于想要混剪 YouTube Shorts 的用户以及 YouTube Create 应用的用户,该功能也将免费推送。
Omni 的推出伴随着全新的 Gemini 3.5 Flash 模型,这是 Google 迄今为止“最强大”的代码模型。你可以查看更多关于 Google I/O 2026 的相关报道。