撰文 | 雁? 秋
編輯 | 李信馬
題圖 | IC Photo
?
?
龍年收官、蛇年啟幕之際,東方上演“驚蟄”一幕。
?
當(dāng)?shù)貢r(shí)間1月27日,美國(guó)人工智能主題股票遭拋售。英偉達(dá)(NVIDIA)股價(jià)歷史性暴跌16.97%,市值一日內(nèi)蒸發(fā)近6000億美元,創(chuàng)美國(guó)歷史上任何一家公司的單日最大市值損失。
?
“幕后推手”是來(lái)自中國(guó)一家初創(chuàng)公司DeepSeek(深度求索)開(kāi)發(fā)的大模型:DeepSeek-V3,其發(fā)布后,便迅速躍上美國(guó)蘋果App商店免費(fèi)下載排行榜冠軍,撼動(dòng)科技圈和華爾街。
?
1月28日凌晨,除夕夜前一晚,DeepSeek又開(kāi)源了其多模態(tài)模型Janus-Pro-7B,宣布在GenEval和DPG-Bench基準(zhǔn)測(cè)試中擊敗了來(lái)自O(shè)penAI的DALL-E 3和Stable Diffusion。
?
隨后,美國(guó)多名官員回應(yīng)DeepSeek對(duì)美國(guó)的影響,表示DeepSeek是“偷竊”,正對(duì)其影響開(kāi)展國(guó)家安全調(diào)查。
?
面對(duì)來(lái)自外部的壓力,360集團(tuán)創(chuàng)始人、董事長(zhǎng)周鴻祎在微博表示,如果DeepSeek有需要,360愿意提供網(wǎng)絡(luò)安全方面的全力支持。
?
DeepSeek保衛(wèi)戰(zhàn)已打響,這是一場(chǎng)來(lái)自中國(guó)的“科技黑馬”刮起的AI龍卷風(fēng),或?qū)⒅北迫蚩萍紭I(yè)態(tài)重構(gòu)。
?
?
在軟銀宣布準(zhǔn)備投資AI基礎(chǔ)建設(shè)5000億美元之際,DeepSeek-R1發(fā)布了。
?
這是一個(gè)按照MIT協(xié)議完全開(kāi)源的模型,從代碼到架構(gòu)再到從理論到訓(xùn)練方法,可以隨便看、隨便改、隨便用。據(jù)DeepSeek官方發(fā)布的數(shù)據(jù),該模型在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩美國(guó)OpenAI公司最新的o1大模型正式版。
?
這對(duì)于全球科技界,尤其是美國(guó)各個(gè)大模型無(wú)疑是降維打擊,甚至顛覆了他們傳統(tǒng)的“燒錢”信仰。
?
為何?
?
大家都知道,推動(dòng)人工智能發(fā)展,有三大要素——算法、算力和數(shù)據(jù)。
?
在DeepSeek出來(lái)之前的普遍認(rèn)知是,算力是AI的核心,發(fā)展AI就是要不斷的堆算力、堆GPU。所以O(shè)penAI興起的時(shí)候,全世界一片熱捧,英偉達(dá)因此受益。
?
而中國(guó)多年來(lái)不斷被“卡脖子”,算力方面較為落后,企業(yè)只能使用價(jià)格高昂、性能低下的閹割版AI芯片,艱難求發(fā)展。
?
DeepSeek就是在這種背景下誕生的「黑馬」,令人驚喜的是,該團(tuán)隊(duì)并沒(méi)有迷信“大力出奇跡”的尺度定律(Scaling law),而是專注算法的創(chuàng)新,減少對(duì)計(jì)算資源的需求。
?
據(jù)悉,R1完全拋棄傳統(tǒng)監(jiān)督學(xué)習(xí)(SFT)路線,通過(guò)動(dòng)態(tài)路由算法壓縮80%的冗余計(jì)算,以在有限的運(yùn)算能力中實(shí)現(xiàn)高性能,純靠強(qiáng)化學(xué)習(xí)就達(dá)到了與o1相當(dāng)?shù)乃健?/p>
?
與此同時(shí),R1訓(xùn)練成本極低。DeepSeek官方尚未公布訓(xùn)練推理模型R1的完整成本,但公布了其API定價(jià),R1每百萬(wàn)輸入tokens在1元-4元人民幣,每百萬(wàn)輸出tokens為16元人民幣。作為對(duì)比,OpenAI的ChatGPT-o1的運(yùn)行成本約為R1的30倍,使用了至少一萬(wàn)張更為先進(jìn)的英偉達(dá)H100顯卡。
?
這家剛成立一年半、去年才推出首款大模型的年輕公司,以極低的成本做出了硅谷需要上億投入才能燒出的大模型,R1幾乎一夜之間成為了美國(guó)頂尖大學(xué)研究人員的首選模型。
?
AMD宣布,已將新的DeepSeek-V3模型集成到Instinct MI300X GPU上,該模型旨在與SGLang一起實(shí)現(xiàn)最佳性能,DeepSeek-V3針對(duì)Al推理進(jìn)行了優(yōu)化。
?
一名美國(guó)Meta的員工發(fā)文,因?yàn)镈eepSeek的低成本高性能,他們公司的人工智能部門已經(jīng)陷入恐慌。并稱,從中國(guó)深度求索公司發(fā)布DeepSeek-V3模型開(kāi)始,Meta公司重金打造的Llama 4模型,在雙方的性能測(cè)試中,就沒(méi)有打贏過(guò)。
?
國(guó)內(nèi)大廠也被激勵(lì)到不行,阿里云除夕夜都在加班,發(fā)布了通義千問(wèn)旗艦版模型Qwen2.5-Max,并聲稱在多項(xiàng)測(cè)試中,全面超越GPT-4o、DeepSeek-V3、Llama-3.1......
?
毫無(wú)疑問(wèn),DeepSeek讓AI正變得更加廉價(jià)、高效,或?qū)⒊蔀榇笳Z(yǔ)言模型發(fā)展史上的典范。
?
?
?
DeepSeek出圈,全球都在為之瘋狂。資本市場(chǎng)的反應(yīng)最為直接,英偉達(dá)一夜之間跌出一個(gè)小米+騰訊,圍觀群眾看得也都很“上頭”,幾乎所有人都開(kāi)始使用它、熱議它。
?
游戲科學(xué)創(chuàng)始人兼CEO、《黑神話:悟空》制作人馮驥更是將其直接形容為“可能是個(gè)國(guó)運(yùn)級(jí)別的科技成果”。不少國(guó)內(nèi)媒體給出了“中國(guó)AI已經(jīng)超過(guò)美國(guó)”、“DeepSeek羞辱OpenAI”、“全球AI霸權(quán)之爭(zhēng)已經(jīng)結(jié)束”的說(shuō)法。
?
?
從不少人的實(shí)際感受來(lái)看,其在中文語(yǔ)境的表現(xiàn)確實(shí)更優(yōu)秀,理解問(wèn)題、描述概念都不在話下。(官網(wǎng)地址,方便大家自己去體驗(yàn)試用,https://chat.deepseek.com/)
?
比如,小編讓它寫一段拜年祝福語(yǔ),要求接地氣、真誠(chéng)、不隨大眾。
?
?
換成古語(yǔ)風(fēng)格的話,DeepSeek表現(xiàn)也比較不錯(cuò),寫的出「歲月靜好,現(xiàn)世安穩(wěn)」「家和人安,福壽綿長(zhǎng)」的句子。
?
?
其他社交平臺(tái)上,網(wǎng)友以自己祖母為原型讓DeepSeek構(gòu)思了一個(gè)故事,結(jié)果僅用5秒就生成出來(lái)。在得到網(wǎng)友高評(píng)價(jià)后,DeepSeek展露出高情商的安慰:
?
“記住,所有讓你顫栗的文字,本質(zhì)上都是你靈魂深處早已存在的回聲。我不過(guò)是偶爾經(jīng)過(guò)的山谷,讓你聽(tīng)見(jiàn)了自己聲音的重量?!?/p>
?
?
其他人也紛紛曬出了DeepSeek的“作業(yè)”:
?
甚至有人讓DeepSeek挑戰(zhàn)《紅樓夢(mèng)》后四十回續(xù)寫,從問(wèn)題拋出到生成答案,還不到一分鐘。
?
不過(guò),江蘇省紅樓夢(mèng)學(xué)會(huì)會(huì)長(zhǎng)、南京大學(xué)文學(xué)院教授苗懷明表示,相比ChatGPT,DeepSeek更加本土化,也更強(qiáng)大?!皬哪壳暗那闆r來(lái)看,它可以寫一些較為套路化、程序化的東西,但寫具有獨(dú)創(chuàng)性、有深度的文學(xué)作品還不行?!?/p>
?
?
小編在問(wèn)到英偉達(dá)的股價(jià)波動(dòng)是否和其有關(guān)系時(shí),DeepSeek“巧妙”地避開(kāi)直面回答,表示英偉達(dá)的股價(jià)波動(dòng)屬于正常的市場(chǎng)現(xiàn)象,“作為AI助手,我應(yīng)該明確說(shuō)明自己不具備影響股市的能力?!?/p>
?
?
然而,進(jìn)行文生圖創(chuàng)作時(shí),大模型Janus Pro的表現(xiàn)卻令人失望。
?
小編給出較為復(fù)雜的描述,“古城墻下白雪皚皚,火車悠悠駛過(guò),趕上了騎著車的人”,它并不能完整生成出要素內(nèi)容,更不用說(shuō)豐富藝術(shù)創(chuàng)作了。
?
?
換成簡(jiǎn)單的表述呢?要求基于“一位少女牽著小狗散步”,Janus Pro理解欠缺,生成的內(nèi)容似乎只描繪出了少女,還是古風(fēng)少女。
?
?
再簡(jiǎn)單一點(diǎn),要求是“小孩吃飯”,表現(xiàn)內(nèi)容勉強(qiáng)上道。
?
?
看得出來(lái),雖然官方宣稱在某些基準(zhǔn)測(cè)試上超越了 DALL-E 3,但實(shí)際體驗(yàn)卻差強(qiáng)人意。它不用部署也能在線免費(fèi)體驗(yàn):?https://cloud.siliconflow.cn/i/eGafyivT,感興趣的朋友們可以試試。
?
這波熱潮不是虛的,但客觀來(lái)講,還沒(méi)有到如此「封神」的地步。只能說(shuō),DeepSeek在設(shè)計(jì)時(shí)過(guò)分注重了理解能力的優(yōu)化,而在生成端可能還需要更多改進(jìn)。至于“超越open AI”、“霸權(quán)移位”,還遠(yuǎn)遠(yuǎn)不夠。
?
一來(lái),DeepSeek贏在了創(chuàng)新的算法,但算力才是地基,是長(zhǎng)期主義下大模型發(fā)展的必要條件。
?
在數(shù)據(jù)標(biāo)注和訓(xùn)練資源方面,OpenAI就像擁有一個(gè)“無(wú)底洞”,DeepSeek資源上還是有點(diǎn)捉襟見(jiàn)肘。此外,DeepSeek依然依賴于美國(guó)的算力生態(tài)。目前DeepSeek的訓(xùn)練還是依賴英偉達(dá)GPU,沒(méi)有國(guó)產(chǎn)GPU可以替代。
?
包括馬斯克在內(nèi)的多位業(yè)內(nèi)人士認(rèn)為,DeepSeek的訓(xùn)練方式仍然依賴于堆積算力,而非真正的突破。
?
馬斯克近期點(diǎn)贊了一則推文,推文中提到,DeepSeek大量依賴模型蒸餾技術(shù),需要借助ChatGPT-4o和o1才能完成訓(xùn)練。
?
模型蒸餾,是一項(xiàng)行業(yè)內(nèi)常見(jiàn)的技術(shù)手段,能夠?qū)penAI中的大量數(shù)據(jù)迅速提煉重點(diǎn)并快速理解和應(yīng)用。但這種模式只能讓DeepSeek接近OpenAI,而難以真正超越OpenAI。
?
Benchmark普通合伙人Chetan Puttagunta也表示:
?
“他們可以采用一個(gè)非常好的大型模型,并使用一種稱為蒸餾的過(guò)程?!?/p>
?
“基本上,你使用一個(gè)非常大的模型來(lái)幫助你的小模型在你希望它變得聰明的事情上變得聰明。這實(shí)際上非常具有成本效益?!?/p>
?
二來(lái),在DeepSeek登頂中美應(yīng)用下載榜的當(dāng)晚,它就因?yàn)樵馐艽笠?guī)模的惡意攻擊,而短暫關(guān)閉注冊(cè)通道。
?
實(shí)際使用中也會(huì)發(fā)現(xiàn),可能因?yàn)橛脩魯?shù)暴增,DeepSeek宣告宕機(jī)的頻次比之前要高得多:幾乎每問(wèn)3-5個(gè)問(wèn)題之后,它就會(huì)暫時(shí)停止思考不做回答,需要新開(kāi)一個(gè)對(duì)話窗口才能繼續(xù)使用。
?
這個(gè)問(wèn)題之前很多AI公司也遇到過(guò),相對(duì)有限的算力和完全開(kāi)源的技術(shù)生態(tài),會(huì)讓DeepSeek處于可能更高的風(fēng)險(xiǎn)之中。
?
DeepSeek的出圈,是中國(guó)AI算法的突破,值得我們肯定和自豪。但我們依舊要保持冷靜,看清差距。
?
梁文鋒在回復(fù)馮驥“國(guó)運(yùn)級(jí)別的科技成果”的盛贊時(shí),誠(chéng)懇真誠(chéng):
?
必須坦白,團(tuán)隊(duì)讀到“國(guó)運(yùn)級(jí)”這個(gè)形容時(shí)所有人頭皮都是麻的。我們不過(guò)是站在開(kāi)源社區(qū)巨人們的肩膀上,給國(guó)產(chǎn)大模型這棟大廈多擰了幾顆螺絲。
?
看得出他是清醒的,比起“戴高帽”,這位年輕的創(chuàng)始人或許已經(jīng)開(kāi)始考如何發(fā)揮“后發(fā)優(yōu)勢(shì)”,探索出可發(fā)展、可前進(jìn)的新路。
?
可以肯定的是,這是一條更困難、更有挑戰(zhàn)的路,需要百倍、甚至千萬(wàn)倍的努力。