首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Google AI总监私教课之"图像生成指南"(内附最新感悟)

Google AI总监私教课之"图像生成指南"(内附最新感悟)

作者头像
用户12057812
发布2026-07-01 21:16:08
发布2026-07-01 21:16:08
110
举报

近日Google AI Labs的产品总监Jaclyn Konzelmann在博客中分享了她打算内部分享的Nano Banana的使用技巧和可实现的效果。

看完整篇分享,我的一些思考:

  • 美图秀秀的含金量继续上升:大部分人像效果在照片修饰类APP中都能实现,简单好用
  • 审美和创意能力将会越来越重要,你需要知道你想要什么,落地的难度会越来越低,提示词已经不是难点了:如果图片生成效果不满意,带着生成的差图和你的提示词找AI,告诉他哪里不好,AI会优化提示词
  • 大模型背后已经形成了“世界模型”的概念,对地区、天气、3D空间等都有了全面的理解和认知:模型能识别到图中为北方地区,修改为冬天时配上了雪景,当识别为南方地区时,冬天不会有雪

一、分享的19个效果

重点高亮:高亮图中景点,并在旁边生成有趣的描述

图形用户界面, 网站AI 生成的内容可能不正确。
图形用户界面, 网站AI 生成的内容可能不正确。

海报生成:和P图滤镜差不多

图形用户界面, 网站AI 生成的内容可能不正确。
图形用户界面, 网站AI 生成的内容可能不正确。

视角转换:箭头标识目标视角,让照片从箭头处视角看向原点。

图形用户界面, 应用程序AI 生成的内容可能不正确。
图形用户界面, 应用程序AI 生成的内容可能不正确。

草图理解:基于手绘草图生成配色带效果版图片

图形用户界面, 应用程序AI 生成的内容可能不正确。
图形用户界面, 应用程序AI 生成的内容可能不正确。

天气修改:认识地理位置,添加该地理位置下适当的天气效果

图形用户界面AI 生成的内容可能不正确。
图形用户界面AI 生成的内容可能不正确。

3M模型建立:通过一张照片还原多视角的3D模型

图形用户界面, 网站AI 生成的内容可能不正确。
图形用户界面, 网站AI 生成的内容可能不正确。

微型世界:想象一个知名景点,建立一个微型模型

图片包含 日程表AI 生成的内容可能不正确。
图片包含 日程表AI 生成的内容可能不正确。

日夜变换:转换图中的白天和黑夜场景效果

男人的照片上写着字AI 生成的内容可能不正确。
男人的照片上写着字AI 生成的内容可能不正确。

广告图制作:一张人像和一个产品图,直接生成真人广告图

屏幕上有女人AI 生成的内容可能不正确。
屏幕上有女人AI 生成的内容可能不正确。

季节转换:认知图中场景,更换其季节效果。

图形用户界面, 网站AI 生成的内容可能不正确。
图形用户界面, 网站AI 生成的内容可能不正确。

时空转换:把爸妈的老照片变成新照片的模样。

图形用户界面, 网站AI 生成的内容可能不正确。
图形用户界面, 网站AI 生成的内容可能不正确。

Pose切换:你是导演,确定人物,并把他们所处位置和姿势在新场景中标明,可以获得全新的人物照片。

图形用户界面, 网站AI 生成的内容可能不正确。
图形用户界面, 网站AI 生成的内容可能不正确。

菜品调优:对菜品加高级滤镜

人手里拿着食物AI 生成的内容可能不正确。
人手里拿着食物AI 生成的内容可能不正确。

魔法棒:对图中的小东西施加魔法的想象力

卡通人物AI 生成的内容可能不正确。
卡通人物AI 生成的内容可能不正确。

瞬间转移:为图中的主要角色切换场景

图形用户界面, 网站AI 生成的内容可能不正确。
图形用户界面, 网站AI 生成的内容可能不正确。

画面建立:为保证图片的一致性,以多次小步的方式添加和修改内容

图形用户界面, 网站AI 生成的内容可能不正确。
图形用户界面, 网站AI 生成的内容可能不正确。

创意绘制:复杂的构思通过多步骤以生成最终图片

一些文字和图片的手机截图AI 生成的内容可能不正确。
一些文字和图片的手机截图AI 生成的内容可能不正确。

材料替换:替换图中物品的材料和效果。

图形用户界面, 应用程序AI 生成的内容可能不正确。
图形用户界面, 应用程序AI 生成的内容可能不正确。

相册集:以一个小故事的方式生成一个对象一系列的场景图片。

图形用户界面, 网站AI 生成的内容可能不正确。
图形用户界面, 网站AI 生成的内容可能不正确。

二、大模型对比

最后对比一下我最近试过的几款图像生成大模型,为大家做个简单对比

模型

开放性

主要优势

典型场景

Nano Banana (Gemini 2.5)

半开放(集成于 Google 系生态)

编辑与一致性极强,理解复杂语境

智能文档、内容生成、营销图像

DALL·E 3

商业闭源(OpenAI)

语言理解精准、创意构图强

广告创意、社交内容、品牌视觉

Stable Diffusion 3

全开源(可私有化部署)

定制化强、插件生态丰富

企业私有部署、素材自动生成

Midjourney V6

闭源(社区驱动)

画面风格独特、美术质量极高

视觉设计、封面、概念艺术

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 威威诺诺 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档