切换到宽版
  • 13阅读
  • 2回复

[智能应用]图像生成AI新王诞生?一根香蕉如何改变世界  [38P] [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
153098
金币
351321
道行
20030
原创
764
奖券
233
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 18155(小时)
注册时间: 2012-06-21
最后登录: 2025-09-01
只看楼主 倒序阅读 使用道具 楼主  发表于: 昨天 13:50
P图这门学问,不存在了,AI这次是真的要干掉Photoshop。
前几天,一个名叫Nano Banana的神秘新模型,出现在了国外平台LMArena上,LMArena就是业内有名的AI大模型竞技场,用户在这里输入提示词,会有数个不同的模型生成结果,让你评价谁好、谁垃圾,评完之后LMArena才会告诉你,答案分别属于哪个大模型。


结果是,短短几天之内,用户们就在盲选评价中,给Nano Banana打出了1360的高分,位列图像编辑AI的第一名,力压GPT、千问等知名大模型,用户们的心情,大概是这样的。


所以,Nano Banana到底有多猛?我们普通人又能拿它做什么?
01 Nano Banana 一致性的王
用这个大模型执行图像编辑任务时,用户最直观的感受就是,一致性无敌。
AI的一个常见任务,以图生图,给大模型们喂同样的参考,输入一样的提示词,让它们更换图中的背景,或者人物动作、服装。目前常用的几个老牌选手,在生成时都有很大的问题,新图明显无法与参考图中的人物保持一致,要么变了脸型,要么变了肤色或者胖瘦,姿势和动作也有细微变化。因为这种一致性问题,你很难做到控制变量,想变动一点,其余的部分全变了,根本没法用。
就比方说,用自然语言描述,要求AI给下面这张图替换背景,“换到室外的泳池边,整体构图和人物姿势动作形象都保持不变,图片的风格维持现状。”


GPT生成的结果是这样的,照片的风格大变,人物样貌有很大变化,手里夹的烟也消失了,甚至还多长了根手指,基本上可以判定为一眼AI。


这个则是豆包的生成结果,看得出来,它在努力保持人物的一致性,尽量做到PS抠图的效果,但豆包生成的背景有点太糊了,人物像站在一面油画前。


再看我们的主角Nano Banana,不仅把人物原样照搬了下来,细节无一丢失,背景的色彩和清晰度也比较合适,可以说是非常接近老师傅手抠的结果了,而且它非常聪明地添加了,连原图都没有的烟雾效果,显然Nano Banana是觉得,四个烟民站在这,空气不可能清新,烟雾缭绕才合理。


一个实战例子可能说明不了什么,咱们再来看几个。这是一位国外网友用Nano Banana编辑的照片,他给出的指令是,“把眼镜替换成黑色太阳镜,然后拿一杯健康饮料”,Nano Banana给出了右边的图,不仅把脸型、表情、肤色都保留了下来,墙壁上小鼓包也还在,它还认真还原了墨镜的半透明效果,以及镜片上的反光,非常自然。


作为对比,完全一样的参考和Prompt输入GPT,结果是这样的,莫名其妙给人物加了一层柔光滤镜 ,还疯狂磨皮,有种美颜拉到最大的感觉,而且人像的边缘有条显眼的黑线,像是抠出来放到墙壁前的样子。


豆包的结果好一些,人物是还原了,但眼镜有点假,很明显没有跟原来的场景、风格保持一致,融合度差点意思。


换句话说,Nano Banana 就可以做到,只在你想改的地方精准下刀,新生成的图像中,人物还能保持原来的相貌体型,其它物品保持不变,并且整体画质和风格跟原图同步,就好像找了PS高手帮你。
这么复杂的操作,用户却只需要用简单的自然语言下令,等于学会了打字P图,想给照片换个背景,抹掉什么闲杂人等,或者把某个人加进来,就一句话的事情而已,完全用不着费力学什么蒙版、套索。
于是,一大群人跑去LMArena上疯玩Nano Banana,开启了用嘴P图的生涯,这位网友要求Nano Banana,把自己以前在莫斯科拍的新年纪念照,背景换成纽约,年份换成2025,成品效果几乎完美。


也有人叫Nano Banana给自己换装,从沙滩裤换到西装,生成结果很还原现实中的体型,衣服上的光影也得到了保留,还生成了很多褶皱,足以以假乱真。


给照片换头也是毫无压力,尺寸和神情恰到好处,跟整体风格融得也比较好。


用Nano Banana,你甚至可以看看你家猫咪脱光衣服之后的样子。


接触AI比较多的朋友一定知道,生成一致性算是老大难问题了,模型看参考图跟我们人不一样,它要同时关注角色、背景、风格等多个元素,很容易在这个过程中遗失关键特征,它也难以区分角色的身份特征和图像的风格,再加上AI每次生成都是独立的,每次都存在随机,很难做到一致。对于高手来说,可以通过输入极其复杂的Prompt,来部分解决一致性问题,但这种魔法咒语的学习难度,可能并不比学习PS要低,对普通人来说还是有门槛的。
如果同样输入普通人能掌握的大白话,Nano Banana的表现明显比其它主流大模型高了几个段位,显然是在这些技术难题上取得了突破,至于具体采用什么逻辑,就不清楚了。
现在已经知道的是,Nano Banana的身世。刚开始的时候Nano Banana神秘兮兮的,也不知道是谁家搞出来的,后面用户反响不错,谷歌就跳出来认领了,承认了它是测试中的Gemini-2.5的绘图大模型。


现在谷歌已经开始全面推送,可以直接在官网上使用,不必再跑到LMArena上疯狂摇号,这进一步推高了Nano Banana的热度。
02 有常识的AI
随着更多用户能够稳定地调用Nano Banana,大家很快发现,这玩意的恐怖之处不仅仅在一致性,它在保持一致的同时还有强大的想象力。
比如说,变表情,你让AI改变某张照片中的人物的表情,大多数AI没有办法正确脑补这张脸的变化,会直接把整个脸都扭曲,Nano Banana就可以分析你的面部特征,生成更加自然的结果,跟真人照片放在一起,都难以分辨到底谁才是AI。
来做个测试,请看下图中的王の笑容,找出哪个是Nano Banana修改后的假王。


公布答案,1号和4号为编辑表情后的结果,有多少朋友猜对?
更牛的是,Nano Banana还有凭借合理想象多角度生成图像的能力,你给它喂一张正脸图,要求它把人物的脸转过来,Nano Banana可以在没有其它参考的情况下,凭借轮廓合理想象侧脸的模样,并且看上去符合常识。


当然,也可以反过来,用侧脸去生成正脸,也是丝毫没有突兀感。


Nano Banana还能根据固定角度的参考,想象变换机位之后的新角度。比如给它一张平视图,要求它以此为基础生成俯视图、仰视图,Nano Banana不仅可以识别人物和物体特征,用靠谱的空间想象力,脑补出俯视的样子,对于一些平视图中没有完全露出的物件,它也可以用常识进行补全,比如我们前面说的聚众抽烟图,参考图里只露出一盆花,它知道在俯视想象中给花下面补个茶几,以让花盆达到正确的高度,它甚至还分析了人物在干嘛,在添加物件的时候搁了几个烟灰缸。




非要挑的话,在不起眼的角落里,Nano Banana还是犯了个经典的边界不清错误,证明自己依然是个AI,不然大家都要害怕智械觉醒了。


按照谷歌的说法,Nano Banana在这方面强,是因为它并非一个单纯的图像编辑模型,而是融合了Gemini 的世界知识,所以它有常识和强大的逻辑推理能力,能够理解文本、图像所代表的含义, 也懂得现实的状况和规则,得到的结果自然更符合用户的预期。
这种基于现实逻辑的想象,是传统修图软件无论如何都做不到的,也是很多AI的弱点。
再加上超强的一致性,最终得到的结果就是,开局一张图,之后随心所欲输出自己想要的画面,想保留什么元素,想改变什么,全由你来决定。


用老外的话来说,Google just killed Photoshop.
03 全民创作,启动!
当网友们见识到了Nano Banana的实力,就开始疯玩了。
首先整活党得到了极大的加强,各种以假乱真的Nano Banana 恶搞图满天飞。现在X上面人均傍大腕,跟将军亲切拥抱的,跟登子握手合影的,还有夜访普京的,个个背景过硬。


作为爱恨两极分化的总统,川普自然也逃不过恶搞的大手,已经被Nano Banana送去主演《芭比》了,你别说,粉粉嫩嫩的还挺合适他。


各个科技巨头的头头们,也集体被搞抽象,让奥特曼去表演体操,让马斯克戴金链子、穿一身西海岸该溜子装,让桑德尔这位印裔CEO,把谷歌办公室搬到破旧的印度农村房。


明星们现在应该也在瑟瑟发抖,毕竟霉霉刚发的订婚照,已经被Nano Banana给P成了瑟曦同款短发。


跟巴萨和可乐斗了半辈子的C罗,也在Nano Banana和网友的帮助下,实现了世纪大和解。


还有好奇心爆表的车手,尝试利用Nano Banana脱掉HKdoll姐姐的口罩,看完生成结果之后,应该是心满意足地去拿卫生纸了。




好玩是一方面,那些想把AI当成生产力的人,也发现了新大陆。
Nano Banana可以把你提供的素材图,按照要求跟人物搭配成图,穿什么衣服,拿什么手机,坐什么汽车,摆什么姿势,都随你定,它熔炼素材还熔得特好,身材不走样,比例不失真,并且能搞出高级感。


过去也有一些大模型推出类似的AI换装、AI穿搭功能,但Nano Banana能够使用的素材数量要多得多,在官方演示中就有13个不同的素材被安排进去,X上还有用户反馈,如果你在一张图里放几个素材,可以塞更多元素,他最高用了18个。


而且,对于一些语言难以仔细描述的动作、姿势,你也可以通过上传示意图来跟Nano Banana解释,画成火柴人那么抽象,它都照样能理解。


这不仅省去了修图的功夫,还省掉了找道具拍摄的成本,对于做电商、搞广告设计来说堪称神器,花小钱买点Token,十几秒就能做完一天的工作。
另一个用法是突破次元壁,你可以把各种手稿、动漫乃至真人喂给Nano Banana,让它帮你做成手办的样子。


既有栩栩如生的动态和表情,又还原了塑料和漆面特殊的光泽、质感,确实看起来像手办。


这个用法已经成了小红书的流量密码,会引来一堆人在评论区求帮忙做同款,轻松起号。


对于搞室内设计或者想装修的人,还有卖家具的人,Nano Banana也是绝对的神器,谷歌基于这个大模型定制了一个官方小工具,让Nano Banana拿毛坯照片生成装修效果图,拿空房生成放满家具的样子。
你甚至都不用描述,小工具允许你直接把家具素材图,拖到指定位置,就可以生成对应的效果,省下了想提示词的功夫。


不仅如此,高手们还捣鼓出了无数的邪修玩法,比如说你可以给一张背景虚化掉的照片中,随便画一圈,把圈里面模糊的人或者物提取出来,要求Nano Banana进行合理想象,生成这个人物的高清大图,感觉刑警队会很爱用。


你还可以利用Nano Banana的世界知识,把卫星图转换为风景图,用户只需要画个箭头号,告诉它这是摄影师的视角,Nano Banana就会开始推理这是哪,你在什么位置,然后生成这里所能看到的画面,一些平时需要付费购买的城市风景照,就可以免费获取了。再搭配上其它的图生视频AI模型,让画面动起来,那些高价的空镜素材,没花一分钱就到手了。


04 真假难辨
可以说,Nano Banana的诞生,代表着图像编辑AI达到了一个新的高度,已经可以有效解决人类“手跟不上脑”的问题,你想象,然后说出来,就可以获得图像。
对于普通人来说,修图做图,不再是一门高深的技术,人人都可以低成本展示自己的灵感,可能在今后的时代,创意才是最贵的。
当然,硬币也有另外一面,但AI生成的水平,逐渐逼近“以假乱真”,它被用来作恶的能力也越强。
在Nano Banana尚未出现的时候,各种AI图就已经能够骗到识别能力不强的人,骗过一些检测系统。有人拿AI做出物品损坏的样子骗商家赔款,天天薅羊毛,有人用AI生成门头来掩盖幽灵外卖店,假装自己很正规。


更不要说,每天还有各种各样的AI假新闻图在网上到处飞,疯狂制造谣言……


这种低水平的AI造假,目前我们都无法完全拦截,也不是所有人都能识破,当Nano Banana等新一代AI普及,恐怕情况会变得更加严重。
搞传销的,再也犯不着去4S蹭玛莎拉蒂,或者砸钱请奥巴马来合影,他们坐在电脑前就可以随便伪造出跟大佬握手的图,骗你入局。卖假货的,也犯不着请什么演员来做违背祖宗的决定,随便AI生成一下,便可以让明星大腕一脸真诚地手持自己的产品,免费做代言。


又或者说,诈骗犯只要搞到一张你的照片,就能制造出无数你挨打被虐的图,让你爹妈以为你被绑到缅北去了,然后掏空家底给你交赎金。
几十年前,整个社会都是以"眼见为实"的认知体系为基础,照片就是铁证,视频就是定论,因为那时候的人们知道,这些东西是难以修改和伪造的。PS的出现,第一次动摇了这个认知体系,因为伪造成本变得太低,稍微懂点技术的人都可以搞,但凡看到照片,我们脑子里都得冒出一句:“是原图吗?”
现如今,门槛更低、能力更强的图片编辑AI,又准备革掉PS的命,以后会发生什么呢?
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
153098
金币
351321
道行
20030
原创
764
奖券
233
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 18155(小时)
注册时间: 2012-06-21
最后登录: 2025-09-01
只看该作者 沙发  发表于: 昨天 13:51
图像生成AI新王者:NanoBanana(Gemini 2.5 Flash Image)的突破性进展
近期,一款名为NanoBanana的图像生成与编辑AI模型在行业内引发广泛关注,并迅速登上图像编辑AI的榜首位置。实际上,NanoBanana是谷歌最新推出的Gemini 2.5 Flash Image模型的测试代号,它凭借多项核心技术优势,被不少人视为图像生成AI领域的新王者,其影响力甚至被认为可能改变图像编辑的现有格局23。

NanoBanana(Gemini 2.5 Flash Image)的核心技术优势
卓越的角色与对象一致性:这是NanoBanana最突出的优势。在图像编辑任务中,如更换背景、调整人物动作或服装、替换特定物品等,它能精准保持原图中人物的相貌、体型、表情、肤色等关键特征,以及其他物品的细节,整体画质和风格也能与原图高度同步。例如,在将人物背景更换为泳池边的测试中,NanoBanana不仅完整保留人物细节,还合理添加了烟雾效果;在替换眼镜和手持物品的案例中,能精准还原脸型、表情、肤色,甚至墙壁上的小鼓包等细节,以及新物品的质感和光影效果23。
精准的自然语言指令理解与执行:用户只需通过简单的自然语言描述,即可完成复杂的图像编辑操作,无需掌握专业的图像编辑技能(如使用蒙版、套索工具等)。这极大降低了使用门槛,实现了“用嘴P图”,例如一句话即可完成换背景、抹除杂物、添加人物等操作2。
强大的细节处理与场景合理性判断:NanoBanana在细节处理上表现出色,如能还原墨镜的半透明效果和镜片反光,健康饮料的质感等。同时,它还能基于场景进行合理推断和创作,如为烟民场景添加烟雾效果,使生成内容更符合现实逻辑

NanoBanana(Gemini 2.5 Flash Image)的行业地位与影响力
权威榜单与测试的认可:在大模型竞技场LMArena上,NanoBanana(Gemini 2.5 Flash Image)获得了1360余分的高分,位列图像编辑AI第一名,力压GPT、千问等知名大模型,领先幅度接近15%。在谷歌公布的基准测试中,该模型在用户综合喜好度、人物、创造力、信息图、物体和环境的生成上均领先于GPT-4o图像生成、Flux.1 Kontext(max)、Qwen Image Edit等模型23。
对现有工具和流程的潜在颠覆:NanoBanana(Gemini 2.5 Flash Image)的出现,让普通用户能轻松完成以往需要专业PS高手才能实现的效果,这可能会改变图像编辑的传统工作流程和对专业软件(如Photoshop)的依赖,使得“P图这门学问,不存在了”的说法引发讨论,预示着图像编辑领域可能迎来大众化、便捷化的变革2。
NanoBanana(Gemini 2.5 Flash Image)的应用场景与未来展望
个人用户日常图像编辑:满足用户对照片美化、创意修改、个性化创作等需求,如制作纪念照、更换穿搭、生成不同年代风格写真等23。
专业设计与内容创作:可用于品牌资产生成、特定视觉模板设计(如“球星卡”)、产品多角度展示等专业场景,提升设计效率和创意实现能力3。
开发者与企业应用:作为主要面向开发者的模型,它可通过Gemini API、Google AI Studio、Vertex AI等平台供开发者使用,结合谷歌的视频生成模型(如Veo3)等,有望打造出更丰富的AI应用和视频效果,在电子商务、广告营销等领域具有广阔应用前景3。
仍有提升空间:尽管优势显著,但在风格化能力上,Gemini 2.5 Flash Image与GPT-4o图像生成相比仍有差距,未来在这一领域的进一步优化值得期待3。
综上所述,NanoBanana(Gemini 2.5 Flash Image)凭借其在一致性、自然语言交互、细节处理等方面的突破性进展,确实在图像生成AI领域展现出“新王”的潜质。它通过降低使用门槛、提升编辑效率和质量,正在改变人们进行图像编辑的方式,并可能对相关行业产生深远影响,这或许就是“一根香蕉(NanoBanana)改变世界”这一说法的由来——以一个看似普通的代号,代表着一场图像编辑技术的革新。
如何不发帖就快速得到金币道行
 
我有我可以
在线jjybzxw

UID: 551814


发帖
182193
金币
384412
道行
2004
原创
2425
奖券
2935
斑龄
37
道券
1068
获奖
0
座驾
设备
摄影级
在线时间: 40782(小时)
注册时间: 2008-10-01
最后登录: 2025-09-02
只看该作者 板凳  发表于: 昨天 19:26
NanoBanana:图像编辑的新时代

NanoBanana的出现,无疑在图像编辑领域掀起了一场革命。这个由谷歌开发的AI模型,以其卓越的一致性和强大的想象力,迅速成为图像编辑领域的佼佼者。以下是对NanoBanana的详细解析,以及它对普通用户和专业领域的潜在影响。

1. 一致性的王

NanoBanana最显著的特点之一是其在图像编辑中的一致性。无论是更换背景、修改人物动作还是更换服装,NanoBanana都能保持原图中人物的相貌、体型和其他细节不变。这种一致性使得生成的图像更加自然,几乎可以以假乱真。

例如,当要求NanoBanana将一张室内照片的背景更换为室外泳池边时,它不仅成功地更换了背景,还保留了人物的细节,甚至连原图中没有的烟雾效果也被合理地添加进去。这种细节处理能力是其他AI模型难以企及的。

2. 强大的想象力

除了保持一致性,NanoBanana还具备强大的想象力。它可以基于有限的参考信息,生成符合常识和逻辑的图像。例如,给它一张正脸图,要求它生成侧脸,NanoBanana可以在没有其他参考的情况下,合理想象侧脸的模样,并且看上去符合常识。

这种基于现实逻辑的想象能力,使得NanoBanana在生成图像时更加自然和真实。无论是改变人物的表情、生成不同角度的图像,还是根据固定角度的参考生成新角度,NanoBanana都能表现出色。

3. 全民创作,启动!

NanoBanana的出现,使得图像编辑变得更加简单和普及。用户只需用简单的自然语言描述所需的变化,NanoBanana就能快速生成符合要求的图像。这种便捷性使得更多的人能够参与到图像创作中来。

例如,网友们利用NanoBanana生成各种恶搞图,如与名人的合影、明星的变装照等。这些图像不仅有趣,而且以假乱真,极大地丰富了网络文化。

对于专业领域,如电商、广告设计、室内设计等,NanoBanana也是一个强大的工具。它可以快速生成高质量的图像,节省了大量的人力和时间成本。例如,在电商领域,NanoBanana可以快速生成不同服装搭配的效果图,帮助商家更好地展示产品。

4. 真假难辨

虽然NanoBanana带来了许多便利和创新,但也带来了新的挑战。随着AI生成图像的水平逐渐逼近“以假乱真”,它被用来作恶的能力也越强。例如,恶意用户可以利用NanoBanana生成虚假的照片和视频,用于诈骗、诽谤等不法行为。

因此,在享受NanoBanana带来的便利的同时,我们也需要加强对AI生成内容的监管和识别能力,确保其在合法和道德的范围内使用。

结语

NanoBanana的出现,标志着图像编辑AI达到了一个新的高度。它不仅解决了传统修图软件难以实现的一致性问题,还具备强大的想象力和创造力。对于普通人来说,修图做图不再是一门高深的技术;对于专业领域来说,NanoBanana是一个强大的生产力工具。然而,我们也需要警惕其潜在的风险,确保其在合法和道德的范围内使用。在这个新时代,创意将成为最宝贵的资源。

如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个