带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Tutoriels pratiques sur l'IAMise à jour il y a 3 mois Sharenet.ai
456 0
Trae
带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

在 去年 12 月,Gemini 2.0 Flash 首次向部分测试人员展示了其原生图像输出功能。目前,开发者可以在 Google AI Studio 支持的所有区域 体验这项新功能。开发者可以通过 Google AI Studio (gemini-2.0-flash-exp 的实验版本) 和 Gemini API 来测试这项新功能。

Gemini 2.0 Flash 利用多模态输入、增强的推理能力和自然语言理解能力来生成图像。这项技术融合了多种先进能力,使得 Gemini 2.0 Flash 在图像生成领域表现出独特的优势。

体验地址:https://aistudio.google.com/prompts/new_chat(选择:Gemini 2.0 Flash Experimental)

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

以下是 Gemini 2.0 Flash 多模态输出的一些亮点示例:

 

1. 文图结合:故事叙述与视觉呈现的统一

Gemini 2.0 Flash 能够根据文本故事生成相应的图像,并在整个故事叙述过程中保持角色和场景的一致性。更进一步,用户可以提供反馈,模型能够根据反馈调整故事内容或图像风格,实现故事和插图的同步演进。

提示词:生成小蝌蚪找妈妈的故事,故事分为3个画面进行讲述,先单独生成三个画面的图片,然后生成所有图片对应的故事文本。

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

就算不指定画面风格,也会保持统一。

 

2. 对话式图像编辑:自然语言驱动的迭代优化

Gemini 2.0 Flash 支持通过多轮自然语言对话进行图像编辑。这为用户迭代优化图像,或共同探索不同创意方向提供了便利。模型能够在对话过程中保持上下文理解,根据用户的指令逐步调整图像,直至达到理想效果。

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

纯文字提示编辑图像,除了颜色其他细节没有改变,这次真的做到了言出法随!

 

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

3. 世界知识融入:创造更精准的图像

与其他图像生成模型不同,Gemini 2.0 Flash 利用其强大的世界知识和推理能力来生成更准确的图像。这使得它在创建需要高度写实性的图像时表现出色,例如,用于说明菜谱的图像。尽管 Gemini 2.0 Flash 力求准确,但与所有语言模型一样,它的知识是广泛而通用的,并非绝对完整。这意味着,在特定领域的专业知识方面,模型可能存在局限性。

提示词:帮我生成一份墨西哥餐厅菜谱,文字+配图形式

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

4. 文本渲染能力:长文本准确呈现

大多数图像生成模型在准确渲染长文本序列时会遇到困难,经常出现格式错乱、字符难以辨认或拼写错误等问题。内部评测显示,Gemini 2.0 Flash 在文本渲染方面优于其他领先模型。这使得它非常适合创建广告、社交媒体帖子,甚至是邀请函等需要包含大量文字的图像内容。

提示词:一张旧报纸,上面书写大标题“今日热点新闻”,下面是新闻的具体内容。

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

中文略差,输出长英文文本效果较好。

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

英文效果满分?

 

更多让人惊喜的图像编辑示例

人像图片换脸

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

开个玩笑...

 

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

面部表情布局微调

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

多张照片元素合成

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

上传两张人物照片,第一张选用的是马斯克半身像,第二章选择的是美女全身像,进行合成。这个玩法想象空间很大。

 

修复老照片

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

一次修复不好,可以多试几次,同时照片细节也放大。

 

图片上色

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

当然也支持老照片上色

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

从LOGO风格转换到印刷物成品展示

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

立即体验 Gemini 图像生成

开发者可以通过 Gemini API 开始使用 Gemini 2.0 Flash。更多关于图像生成的信息,请参考文档.

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)

无论是构建 AI 代理,开发具有精美视觉效果的应用(如互动故事),还是在对话中进行视觉创意构思,Gemini 2.0 Flash 都能够帮助开发者通过单一模型同时实现文本和图像的生成。 Google 期待看到开发者利用原生图像输出功能创造出更多应用,并希望开发者提供反馈,以帮助 Gemini 团队尽快完成生产就绪版本的开发。

© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

aucun
Pas de commentaires...