谷歌推出了其全新的文本到图像模型Imagen 3,为生成式人工智能领域忙碌的一周锦上添花。此版本建立在2023年12月推出的Imagen 2的成功之上,Imagen 2已经可以与Dall-E 3和MidJourney v5等行业重量级产品相媲美。
Imagen 3最初于5月发布,与前代产品相比,它在理解和执行复杂提示、生成细节改进的图像以及更好的提示遵守方面具有更强的能力。它非常通用,可以产生从照片真实感到艺术和3D构图的良好效果。
谷歌在其官方声明中表示:“Imagen 3是我们质量最高的文本到图像模型,能够生成比我们之前的模型具有更好细节、更丰富照明和更少干扰伪影的图像。”。
Imagen 3的快速改进使用户能够用自然语言描述所需的图像,而无需复杂的提示工程。该模型的训练还包含了更丰富的图像标题,使其能够捕捉到细微的细节,如特定的相机角度或构图,以及需要时的长文本提示。
这家科技巨头特别强调Imagen 3增强的文本渲染功能。虽然有了明显的改进,但我们的初步测试表明,它的功能与Dall-E 3、Auraflow或Flux等其他型号不太一样。
谷歌还强调了其在Imagen 3的开发和部署中对安全和责任的承诺。该公司实施了所谓的“广泛过滤和数据标记”流程,以尽量减少模型训练数据集中的有害内容。此外,谷歌表示,它进行了彻底的评估,包括红队演习,以识别和修复潜在的漏洞。
同样重要的是要注意,Imagen 3集成了谷歌的水印工具SynthID。SynthID将数字签名直接嵌入生成图像的像素中。这种水印人眼无法察觉,但可以通过专门的软件检测到,提供了一种识别人工智能生成内容的方法。
目前,Imagen 3可通过谷歌的ImageFX平台和Vertex AI获得。展望未来,谷歌计划在未来几个月内将Imagen 2的流行编辑功能,如修复(编辑图像中的元素)和外绘(扩展),引入Imagen 3。该公司还宣布打算在其更广泛的产品生态系统中扩展Imagen 3的可用性,包括集成到Gemini应用程序、谷歌工作区和谷歌广告中。
此次发布是谷歌更广泛战略的一部分,该战略旨在将Gemini和人工智能技术基本纳入其所有服务和硬件中。本周,该公司推出了新的Pixel 9系列,其设计以人工智能功能为核心。新的Pixel手机可以在本地处理某些生成性AI任务,包括基于文本的任务和小图像生成。
Imagen 3的发布正值人工智能图像生成领域的一系列活动。埃隆·马斯克的xAI最近推出了Grok 2,其特色是Flux.1图像生成器,该生成器因其能够生成高度逼真、未经审查的图像以及强大的文本生成功能而受到关注。
与此同时,该领域的另一个关键参与者MidJourney宣布即将对其型号进行v6.2更新。该公司还透露了计划在未来几个月发布的MidJourney v7的开发情况。Ideogram是人工智能图像生成领域的另一个竞争者,也暗示其模型即将更新。最后。开放模型倡议选择Flux.1作为开发其最先进的开源图像生成模型的基础。
由Ryan Ozawa编辑。
声明:本文所述观点并非数字焦点的立场,不构成任何投资活动的邀约或建议。本文仅供参考。投资存在风险,请自行评估。转载需注明来源,违者必究!文章投稿请联系miqianbao@gmail.com