GPT Image 1.5 版本的发布实现了更高的图像细节表现力,并能精准渲染图像中的文字。该系统支持多模态工作流,现已面向付费用户及通过 API 开放使用。
本次更新以集成化的新系统取代了原有的图像生成工具,不仅显著提升了图像细节质量,还能更严格地遵循复杂的文本提示。该功能已深度融入文本工作流之中。
新功能将首先向付费订阅用户开放,随后逐步向免费用户推出。第三方软件开发者也可通过 Images API 调用这些新算法。
该系统允许用户根据文本描述生成图像,并在对话模式中进一步优化结果。其中一项关键特性是无需离开聊天界面即可直接进行编辑,具体工具包括:
重绘图像局部区域
背景替换
单个对象的替换或删除
此次发布的重要亮点还包括图像理解能力。用户可上传照片或截图,ChatGPT 随即能够分析内容、生成描述,甚至对原始文件进行转换。OpenAI 表示,这一创新标志着向“将图像作为多模态工作流中的一等输入/输出数据”迈出的关键一步,摒弃了以往将图像仅视为聊天附加功能的理念。
模型内部架构经过优化,确保在连续生成图像时保持高度一致性。开发团队大幅改进了图像内文字的渲染效果,并增强了对画面风格与构图的控制可靠性。
此次更新解决了多项长期存在的技术难题,包括字体扭曲和迭代过程中出现的视觉偏移等问题。该模型专为与 GPT 文本模型无缝协同而设计,使用户能在单次会话中完成从创意构思到视觉原型的完整流程。OpenAI 明确指出,该工具的主要目标用户包括内容创作者、营销人员、教育工作者以及需要快速进行视觉原型设计的产品团队。
OpenAI 将 GPT Image 1.5 的发布视为其构建多模态系统整体战略的重要组成部分 —— 旨在通过统一界面整合文本、图像及其他媒体形式。公司强调,新模型不仅保留了早期工具中的安全机制,还进一步强化了内容过滤和使用政策。该技术将通过 ChatGPT 订阅服务和 API 同步推广,以促进其在消费级和专业场景中的广泛应用。