DoNews8月27日消息,據(jù)第一財經(jīng)報道,當(dāng)?shù)貢r間8月26日,谷歌發(fā)布了其最新的圖像生成和編輯模型Gemini 2.5 Flash Image,并迅速登頂多個主流圖像排行榜,成為新晉性能冠軍。
上周一款名為“nano-banana”的模型出現(xiàn)在大模型競技場中,開始接受用戶的匿名體驗和打分,目前投票數(shù)超過250萬。如今謎底揭曉,“nano-banana”正是Gemini 2.5 Flash Image。
在大模型競技場LMArena的文生圖與圖像編輯兩個場景,谷歌的圖像模型均拿下全球第一,在圖像編輯榜單上模型表現(xiàn)尤為出色,獲得1362的高分,以171分的差距領(lǐng)先第二名flux-1-knotext-max。
知名AI基準測試機構(gòu)Artificial Analysis同樣獲得了早期訪問權(quán)限,并在過去一周以“rex”的化名在競技場中進行了測試。目前谷歌的模型在圖像編輯方面排名第一,超過了OpenAI的GPT-4o和國內(nèi)阿里的Qwen-Image-Edit,在文生圖方面則略遜于字節(jié)Seedream 3.0和GPT-4o,排名第三。
Artificial Analysis還做了一個對比測試,給出了一張圖,讓谷歌、阿里通義和OpenAI三家的模型生成新的照片:在自行車后座上加一名乘客,并將地點更改為內(nèi)蒙古的草原。
從輸出結(jié)果看,千問的圖像模型未能準確進行指令跟隨,在畫面真實度上,谷歌的模型表現(xiàn)則比GPT-4o更為突出。
谷歌稱,Gemini 2.5 Flash Image的核心亮點是圖像編輯能力,這一模型可將多個圖像混合到一幅圖像中,保持高度的角色一致性,還能使用自然語言進行有針對性修改,并充分利用Gemini的世界知識來生成和編輯圖像。