今日,谷歌面向开发者与消费者推出了两款全新的生成式媒体模型:Nano Banana 2 Lite 和 Gemini Omni Flash。
回顾过去,谷歌在图像生成领域动作频频。去年,谷歌推出了 Nano Banana(即 Gemini 2.5 Flash Image)图像生成与编辑模型,在当时多项关键 AI 图像生成基准测试中表现顶尖。随后在去年 12 月,谷歌发布了能力更强劲的 Gemini 3 Pro Image(内部代号 Nano Banana Pro)。
今年 2 月,谷歌又推出了 Nano Banana 2(即 Gemini 3.1 Flash Image),这款前沿图像模型在保持 Nano Banana 极速生成体验的同时,能够输出媲美 Nano Banana Pro 级别的高质量图像。
今天,谷歌正式发布了 Nano Banana 2 Lite。这是一款专为追求极速、低成本和高并发工作流而设计的最新图像生成模型。据谷歌介绍,该模型仅需约 4 秒即可生成文生图结果,且单张 1K 分辨率图像的生成成本仅为 0.034 美元。
开发者现已可通过 Google AI Studio、Gemini API 以及 Gemini 企业级智能体平台调用该模型。新模型的 API 标识为 gemini-3.1-flash-lite-image,可直接作为初代 Nano Banana 模型(gemini-2.5-flash-image)的平替升级。对于普通消费者而言,则可以通过搜索引擎的 AI 模式(AI Mode)、Gemini App、NotebookLM、Google Photos、Stitch、Google Flow 以及 Google Ads 等渠道体验这一新模型。
在行业竞争方面,微软 AI 团队今年 5 月发布了最新的文生图模型 MAI-Image-2.5,目前在 Arena 最新文生图排行榜上位列第四,而 OpenAI 的 gpt-image-2 仍以 1388 分领跑。此次新推出的 Nano Banana 2 Lite 模型目前在该榜单上排名第五。
除了 Nano Banana 2 Lite,谷歌还首次向开发者开放了 Gemini Omni Flash 模型。该模型(API 标识为 gemini-omni-flash-preview)支持通过文本、图像和视频输入,实现视频生成及对话式视频编辑功能。目前,该模型已在 Google AI Studio、Gemini API 和 Gemini 企业级智能体平台开启公开预览,普通消费者也可通过 Gemini App 和 Google Flow 进行体验。
在定价方面,Gemini Omni Flash 的视频输出成本为每秒 0.10 美元,与 Veo 3.1 Fast 保持一致。谷歌表示,该模型能够处理自然语言视频编辑、多模态参考、现实世界知识,以及实现与画面动作同步的文本或图形渲染。
不过,谷歌也指出了这款全新 Omni 模型目前存在的一些局限性:Gemini Omni Flash 当前仅支持生成 10 秒以内的视频,更长时长的支持将在后续推出;同时,Gemini API 暂不支持音频参考和场景延展功能。此外,尽管 API 接口允许传入最长 3 秒的视频作为参考素材,但模型目前尚无法对其进行正确处理。