DoNews12月8日消息,谷歌7日凌晨終于發(fā)布雙子座 Gemini 大模型,聲稱 MMLU 多任務(wù)語言理解數(shù)據(jù)集測試,Gemini Ultra 不光超越 GPT-4,甚至超越了人類專家。
然而有眼尖的網(wǎng)友發(fā)現(xiàn),在谷歌所給的圖片中,MMLU 測試中,Gemini 結(jié)果下面灰色小字標(biāo)稱 CoT@32,展開來代表使用了思維鏈提示技巧、嘗試了 32 次選最好結(jié)果。
而作為對比的 GPT-4,卻是無提示詞技巧給 5 個(gè)示例,這個(gè)標(biāo)準(zhǔn)下 Gemini Ultra 其實(shí)并不如 GPT-4。以及原圖比例尺也有點(diǎn)不厚道了,90.0% 與人類基準(zhǔn) 89.8% 明明只差一點(diǎn),y 軸上卻拉開很遠(yuǎn)。
HuggingFace 技術(shù)主管 Philipp Schmid 用技術(shù)報(bào)告中披露的數(shù)據(jù)修復(fù)了這張圖,這樣展示更公平恰當(dāng):
不僅如此,Gemini 在發(fā)布時(shí),谷歌給出的一系列 Demo 中最令人眼花繚亂的部分是偽造的。
名為《Hands-on with Gemini: Interacting with multimodal AI》的視頻現(xiàn)在的播放量已經(jīng)有 140 萬次,其中展示了谷歌認(rèn)為自己「最喜歡的與 Gemini 的交互案例」,展示了多模態(tài)模型(即它理解并混合語言和視覺理解)如何靈活地響應(yīng)各種輸入。
但點(diǎn)擊 YouTube 上的視頻描述,可以發(fā)現(xiàn) Google 有一個(gè)重要的免責(zé)聲明:「為了演示的目的,已經(jīng)減少延遲,為了簡潔,Gemini 的輸出也縮短了。」
也就是說,該視頻并非原始輸出,而是進(jìn)行了剪輯和優(yōu)化。隨后,谷歌官博也放出了解釋——是的,視頻的確有后期制作和剪輯的成分。
據(jù)新智元報(bào)道,根據(jù)官方發(fā)布的一個(gè)技術(shù)文檔,Gemini所有的這些交互都不是實(shí)時(shí)感知到的,而是通過提示詞問出來的。但其實(shí),真實(shí)的過程是,向Gemini上傳一張手比剪刀的照片,問它看到了什么。然后用人聲把它的回復(fù)讀了出來。
而石頭剪子布的視頻,則是把三張照片依次傳給Gemini,讓它把這三張照片連在一起推理,它直接給出回答,這是在玩石頭剪子布。
所以,實(shí)際上并不是Gemini看懂了一段視頻,它只是看懂了三張圖片,并且做出了推理而已。
同樣,在識(shí)別行星的演示,視頻給人營造的感覺仿佛是直接問Gemini「這個(gè)順序正確嗎」,它就能回答不正確,應(yīng)該是太陽、地球、土星。
但實(shí)際上,是谷歌給了Gemini一句prompt:「這個(gè)順序正確嗎?請考慮它們與太陽的距離,并且解釋你的理由」,隨后,Gemini才回答了那樣一句話。
很多網(wǎng)友也認(rèn)為,谷歌這種有意地誤導(dǎo)性呈現(xiàn),反而讓用戶會(huì)懷疑,到底模型的真實(shí)能力有多強(qiáng)。畢竟,產(chǎn)品不能永遠(yuǎn)停留在宣傳視頻里,最終都要交到用戶手上去體驗(yàn)。
這個(gè)視頻最大的誤導(dǎo)性在于,似乎讓用戶誤以為Gemini能實(shí)時(shí)的讀取視頻信息,并且能夠通過自己的理解直接推測用戶的問題并直接回復(fù)。
而實(shí)際情況是,谷歌員工是通過讀取圖片+良好的提示詞工程才能讓Gemini生成這些回復(fù)的。