精品人伦一区二区三电影,亚洲最大免费呦呦视频

DoNews > 專欄 > 聲音克隆+視頻通話，豆包猜出了我住哪個(gè)小區(qū)

聲音克隆+視頻通話，豆包猜出了我住哪個(gè)小區(qū)

字母榜 2025-05-27 18:27:36

472207

分享到

豆包的新功能，大家都試了嗎？

在最新版的豆包APP里，已經(jīng)有“視頻通話”的功能。

也就是說，你現(xiàn)在可以打開攝像頭，讓豆包直接“看”了。

我測試的時(shí)候，豆包不僅一眼看出我家龜背竹是仿真的假貨，還通過窗景猜出了我家小區(qū)的名字，真是刺激。

目前，“視頻通話”已經(jīng)是各家AI廠商爭相上線的功能：OpenAI的ChatGPT、谷歌的Gemini，以及國內(nèi)的智譜等，都已經(jīng)讓AI“開眼”。騰訊緊緊跟上，預(yù)計(jì)下周就會(huì)在元寶中看到類似功能。

別忘了，下一代硬件的尋找和創(chuàng)造，正在世界范圍里上演。當(dāng)我們不再需要舉起攝像頭，視頻通話還會(huì)帶來更多想象力。

“視頻通話”，相當(dāng)于豆包有了眼睛

豆包的視頻通話入口在“打電話”里，只不過從前點(diǎn)擊通話，僅有語音通話的功能，現(xiàn)在出現(xiàn)了一個(gè)攝像機(jī)按鈕。實(shí)際體驗(yàn)下來，這樣的安排符合使用邏輯。

點(diǎn)擊按鈕，畫面上出現(xiàn)你手機(jī)鏡頭拍攝的實(shí)時(shí)畫面。

所以要注意的是，和豆包視頻通話，與和人視頻通話有很大區(qū)別，不是說豆包作為一個(gè)虛擬形象和你面對(duì)面，而只會(huì)有你單方面的視頻畫面。更像是在給豆包做一對(duì)一的視頻直播，或者說邀請(qǐng)豆包通過你的攝像頭看你的世界。

我們進(jìn)行了以下測試：

第一，這是什么？

作為熱身項(xiàng)目，先測試一下豆包對(duì)各種事物的判斷是否準(zhǔn)確。

攝像頭打開后，豆包主動(dòng)發(fā)言，描述我正坐在電腦前，后方的電視正在播放美劇。

對(duì)家具、電器等的判斷沒有難度，輕松回答。令人驚訝的是以下三件：

在刻意搖晃鏡頭的情況下，一個(gè)看起來是大馬克杯的保溫杯，一盆（很多來我家的朋友都以為是真植物的）仿真龜背竹，在貓窩里只露出兩只腳和尾巴（且堆疊在一起）的橘貓，豆包都回答正確。

第二，我在哪兒？

判斷物品沒問題，我試圖將豆包帶到更有挑戰(zhàn)的場景里。

鏡頭對(duì)準(zhǔn)窗外，讓豆包幫我看看我在哪里。豆包先是根據(jù)街景和綠化度，給出了三個(gè)城市的名稱，其中包括正確答案，另外兩個(gè)城市也距離很近。接著看到了路牌上的街名，這條街道非常長，有幾公里，但是豆包準(zhǔn)確說出了我所在的小區(qū)的名字。

第三，這怎么用？

接下來是一個(gè)日常的“有用”場景，讓豆包教我使用電器。

鏡頭對(duì)準(zhǔn)一個(gè)小電器，豆包準(zhǔn)確判斷這是一款“膠囊咖啡機(jī)”。我隨后便問“膠囊是什么”邊用鏡頭快速掃過桌面，它用很自然的語言告訴我：“就在那兒啊，一個(gè)米色袋子里”。

隨后，豆包又指導(dǎo)我將膠囊放入咖啡機(jī)并按下按鈕，在我表示按了按鈕沒反應(yīng)后，又指導(dǎo)我檢查水箱。全程豆包并非機(jī)械式地“背誦使用說明”，而是根據(jù)看到的畫面進(jìn)行指導(dǎo)，比如“機(jī)器后方的兩個(gè)黑色按鈕”“把機(jī)器側(cè)一下，我看看水箱在哪里”“就是后面帶刻度、塑料的那個(gè)”。

整個(gè)過程非常絲滑、自然。

第四，我該買點(diǎn)啥？

很多人已經(jīng)在用AI輔助減肥，比如制定飲食、健身計(jì)劃，但是人嘛，自述情況很有可能有偏差，要是直接讓AI看呢？

打開冰箱，讓豆包猜猜我的飲食習(xí)慣，并給出采購建議。豆包準(zhǔn)確總結(jié)我的食物種類很多，肉食和速凍食品比較多，建議我購買綠葉蔬菜?？梢哉f是一針見血了。

幾個(gè)簡單的測試走下來，可以看出豆包可以透過鏡頭，頗為準(zhǔn)確地判斷看到的事物，并且和用戶產(chǎn)生實(shí)時(shí)的互動(dòng)。這提供了很多想象力，如在旅游時(shí)提供幫助、在采購時(shí)提供建議、教用戶使用物品等。

視頻通話仍擺脫不了“AI味兒”

特別要指出的一點(diǎn)是，豆包在視頻通話時(shí)，語言平實(shí)，表達(dá)方式生活化、口語化，不會(huì)有很機(jī)械、死板的感受，這非常重要。

順便推薦一個(gè)“進(jìn)階”玩法：豆包語音克隆+視頻通話。語音克隆的功能已經(jīng)在豆包里很久了，用戶不僅可以選擇豆包提供的預(yù)設(shè)音色，還可以通過簡單的步驟獲得克隆的音色。

我的豆包里一直用的是姐姐的克隆音，豆包在視頻通話中的語言又非常日常，也因此，視頻通話時(shí)真的有一種在和我姐打視頻的錯(cuò)覺。

不敢想象如果我給我媽的豆包安排一個(gè)我的克隆音，再教會(huì)她怎么視頻通話，她會(huì)有多愛用。

我們也同步測試了ChatGPT，在視頻通話模式下，二者的準(zhǔn)確度都很高。但是ChatGPT沒有看出彩色馬克杯實(shí)際上是一個(gè)保溫杯，進(jìn)一步追問才給出判斷，且在“看窗景猜地點(diǎn)”的小測中，ChatGPT的回答離正確答案差得很遠(yuǎn)。

另外很明顯的感受是，ChatGPT在視頻通話模式下的表達(dá)方式“更AI”，措辭比較書面化，不確定使用英文的話，ChatGPT會(huì)不會(huì)更自然一些。

但也不是沒有遺憾，目前豆包視頻通話還是要“等一下”AI的回復(fù)。而且有時(shí)候可能是問題比較難回答，“思考”時(shí)間會(huì)更長一些，經(jīng)常出現(xiàn)以為AI卡住了，結(jié)果和AI一起開口的情況。

另一個(gè)遺憾是，在視頻通話中，依然遵循用戶說話、AI回答的模式。在實(shí)際體驗(yàn)中，豆包會(huì)在自己的句尾主動(dòng)和用戶互動(dòng)，比如“你在看《無恥之徒》嗎”，但是它做不到“主動(dòng)出擊”。

如當(dāng)我告訴豆包，我現(xiàn)在要打字，當(dāng)看到“2”的時(shí)候立刻告訴我。雖然豆包欣然答應(yīng)，但是它并不會(huì)在看到“2”的時(shí)候立刻指出，而是必須等我詢問，它再回答。同樣地，對(duì)“看到掃地機(jī)器人就立刻告訴我”的請(qǐng)求，它也同樣無法做到。它的確看到了機(jī)器人，但是需要等我再說一句話，才輪到它發(fā)言。

當(dāng)然，這些不僅是豆包視頻通話的遺憾，ChatGPT也是同理。和已經(jīng)普及的“語音通話”一樣，AI依然需要遵循既定的對(duì)話模式，而非像人與人溝通時(shí)那般靈活。

AI交互方式再次迭代

“視頻通話”可以帶來很多想象力，尤其是在如今“AI代理”成為風(fēng)口、“超級(jí)AI助理”成為桂冠上的明珠之時(shí)。

豆包此次的升級(jí)基于“豆包·視覺理解模型”。該模型去年年底發(fā)布，此后又經(jīng)歷了升級(jí)，同時(shí)具備內(nèi)容識(shí)別能力、理解和推理能力以及更細(xì)膩的視覺描述能力。

從2022年底ChatGPT橫空出世之后，我們與AI的交互方式已經(jīng)不斷進(jìn)化：純文本交互（你打字給AI，AI也回復(fù)文字）、實(shí)時(shí)語音交互（直接和AI說話，AI也用聲音回復(fù)）、圖像交互（你發(fā)給AI一張圖片或視頻，AI可以解讀）、實(shí)時(shí)圖像交互（視頻通話）。

能直接打開攝像頭，讓AI自己“看”，直接邀請(qǐng)AI“進(jìn)入”所處的世界，相當(dāng)于揭開了我們和AI之間始終隔著的一層名為“描述”的薄紗。從實(shí)際體驗(yàn)來說，在視頻通話時(shí)，AI的“Agent”屬性更加凸顯，而非一個(gè)手機(jī)里的小小工具。

去年12月，OpenAI就給ChatGPT加入了視頻通話的功能，谷歌的項(xiàng)目Project Astra也已經(jīng)啟動(dòng)。在國內(nèi)，包括智譜在內(nèi)的頭部AI玩家也已經(jīng)配上了視頻通話。此外，就在上周，騰訊旗下語音通話模型Hunyuan-Voice宣布將于6月登陸元寶APP，直接對(duì)標(biāo)字節(jié)跳動(dòng)旗下豆包AI的視頻通話功能。

讓AI“開眼”，已經(jīng)越來越普遍。

對(duì)此，前不久在谷歌I/O開發(fā)者大會(huì)上，谷歌DeepMind創(chuàng)始人兼CEO戴密斯·哈薩比斯（Demis Hassabis）稱，他們將Gemini打造成一個(gè)世界模型，是開發(fā)一種新型、更通用、更有用AI助手的關(guān)鍵一步。

這家巨頭目標(biāo)直接指向構(gòu)建通用AI助手。大會(huì)上宣布，Gemini Live正式向 iOS 和安卓用戶開放。這項(xiàng)功能可以實(shí)時(shí)識(shí)別并回應(yīng)用戶手機(jī)攝像頭和屏幕上的內(nèi)容。

更值得注意的是，Gemini Live是Project Astra的延伸，而后者也在大會(huì)上展示了新的進(jìn)展：更主動(dòng)。比如AI“看”著用戶做題，在發(fā)現(xiàn)錯(cuò)誤的時(shí)候會(huì)直接指出。

這也對(duì)應(yīng)了在使用現(xiàn)有AI視頻通話功能時(shí)的那個(gè)困擾，即雖然AI已經(jīng)看到了某個(gè)物品，但仍然要“用戶一句，它一句”，等著輪到自己發(fā)言。

而以上討論還僅限于手機(jī)這個(gè)核心硬件。但未來的“AI硬件”未必還會(huì)是手機(jī)，如果下一代硬件比手機(jī)更小巧、更靈活，那視頻通話的能力還會(huì)發(fā)揮更大潛力。

比如如今已經(jīng)被AI廠商積極嘗試的XR眼鏡，通過這個(gè)設(shè)備“觀察”世界，不需要用戶舉起手機(jī)?？梢韵胂?，如果你戴著一副AR眼鏡，打開攝像頭，AI將可以更“無形”地提供幫助（甚至只是陪伴）。

隨處可見“自言自語”的人類，這樣的未來也許已經(jīng)不遠(yuǎn)了。

特別聲明：本文為合作媒體授權(quán)DoNews專欄轉(zhuǎn)載，文章版權(quán)歸原作者及原出處所有。文章系作者個(gè)人觀點(diǎn)，不代表DoNews專欄的立場，轉(zhuǎn)載請(qǐng)聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問都請(qǐng)聯(lián)系idonews@donews.com)