谷歌公司推出了一款基于 Flash 架构的新模型 Nano Banana 2(Gemini 3.1 Flash Image),用于生成细节丰富的图像和进行快速编辑。这款新产品能够批量创建高质量的视觉内容,并提供最佳的性价比。
Nano Banana 2 模型利用 Gemini 庞大的知识库,结合网络搜索数据来生成高质量图像。这一功能有助于开发者基于真实物体和地点生成精确的插图。
开发者创建了一个名为“Window Seat”的应用程序来演示该算法的工作原理。该程序利用 Nano Banana 2 的知识库和网络图片搜索功能,根据全球地标信息和实时天气报告,生成逼真的窗外景色。
创建动态界面生成器和图形工具需要清晰地显示字体。Nano Banana 2 超越了之前的 Flash 模型版本,提供了可靠且正确的文本渲染。
现在,无论生成比例如何,文字的显示细节都与图形元素相同。该模型支持直接在图像上进行本地化,允许将文字翻译成不同语言并直接嵌入图像中。
作为示例,谷歌开发了一款名为“Global Ad Localizer”的应用程序,用于为国际市场翻译广告海报。该工具不仅能在保留字体的情况下更改文本,还能使视觉元素适应所选区域的文化特征。
Nano Banana 2 以运行速度快著称,提供自然的光照、丰富的纹理和高清晰度的细节。创作者获得了更多精确控制结果的工具:
原生宽高比:该模型支持所有现有的比例,并新增了 4:1、1:4、8:1 和 1:8 格式。
新分辨率 512px:除了现有的 1K、2K 和 4K 选项外,新增了一种格式,可降低延迟以实现快速迭代。
改进的指令遵循:算法能更准确地处理复杂的多层请求。
可定制的推理级别:用户现在可以控制逻辑。在最小和高级别之间切换,可以让神经网络在渲染前思考复杂的提示词,从而显著提高结果质量。
演示应用程序“Pet Passport”只需一张宠物照片,即可将宠物置于世界著名地标的背景中。该神经网络在不同地点保持了动物的外观。工程师们添加了各种创意控制参数,以便对结果进行个性化设置。
该公司的合作伙伴正积极将 Nano Banana 2 整合到工作流程中,以扩展视觉功能,并指出该解决方案运行稳定且功能强大。
今天即可开始使用该模型。该工具通过 Google AI Studio 中的 Gemini API 运行,支持在 Vertex AI 中进行企业级使用,同时也适用于 Google Antigravity 和 Firebase 服务。用户可以在开发者文档、Google AI Studio 应用画廊和相关指南中找到详细信息。