精品一区二区无码毛片|中日无码av中文字幕久久|先锋影音中文字幕一区|国产乱码久久久久久高潮视频|手机AV每日更新在线观看|国产原创剧情一区二区三区

云知聲千億參數(shù)山海大模型首次亮相 C-Eval評(píng)測(cè)70分

DoNews8月30日消息,8月28日,云知聲旗下山海大模型迎來(lái)又一次迭代升級(jí),當(dāng)前版本參數(shù)規(guī)模達(dá)到千億,實(shí)現(xiàn)了多學(xué)科能力、醫(yī)療能力雙提升,實(shí)測(cè)性能在C-Eval全球大模型綜合性評(píng)測(cè)中超越GPT-4,以平均分70分的成績(jī)進(jìn)入前三甲。

C-Eval是由清華大學(xué)、上海交通大學(xué)和愛(ài)丁堡大學(xué)合作構(gòu)建的面向中文語(yǔ)言模型的綜合性考試評(píng)測(cè)集,包含13948道多項(xiàng)選擇題,涵蓋數(shù)學(xué)、物理、化學(xué)、生物、歷史、政治、計(jì)算機(jī)等52個(gè)不同學(xué)科和四個(gè)難度級(jí)別,是全球最具影響力的綜合性考試評(píng)測(cè)集之一。作為第三方發(fā)起的測(cè)試基準(zhǔn), C-Eval以其客觀性、公正性備受業(yè)內(nèi)關(guān)注,也吸引了多家企業(yè)、機(jī)構(gòu)和高校的參與。

據(jù)悉,本次山海大模型2.0版參數(shù)規(guī)模達(dá)到千億,增加了更多的學(xué)科類的預(yù)訓(xùn)練語(yǔ)料,訓(xùn)練數(shù)據(jù)(Tokens)達(dá)到兩萬(wàn)億(2.0T)。

在本次模型升級(jí)過(guò)程中,山海團(tuán)隊(duì)充分利用了教材、文獻(xiàn)、百科類語(yǔ)料的價(jià)值,這些語(yǔ)料包含了人類對(duì)客觀世界知識(shí)的豐富理解、詳盡解釋以及在各個(gè)領(lǐng)域的深入研究所得到的科學(xué)結(jié)論。不同的學(xué)科領(lǐng)域的數(shù)據(jù)涵蓋了各自學(xué)科的專業(yè)知識(shí),這在一定程度上彌補(bǔ)了第一版山海大模型在某些專業(yè)領(lǐng)域的知識(shí)盲區(qū)。

為了使模型能更科學(xué)合理地汲取這些不同領(lǐng)域和來(lái)源的數(shù)據(jù)中的知識(shí),山海大模型團(tuán)隊(duì)使用了DoReMi方法對(duì)數(shù)據(jù)進(jìn)行了優(yōu)化權(quán)重采樣。

通過(guò)這種策略,可以在較大范圍內(nèi)均勻并深入地提取各類信息。這一策略使得山海團(tuán)隊(duì)在本次模型升級(jí)過(guò)程中,能更有效地吸取和運(yùn)用各種知識(shí),使模型的知識(shí)庫(kù)更加全面。

云知聲深耕醫(yī)學(xué)領(lǐng)域多年,山海大模型2.0在預(yù)訓(xùn)練階段使用了海量的醫(yī)學(xué)病歷、醫(yī)學(xué)教材、臨床指南和醫(yī)學(xué)文獻(xiàn)等數(shù)據(jù),并在對(duì)齊階段使用了人機(jī)結(jié)合方法構(gòu)建的近百萬(wàn)級(jí)的病歷理解、醫(yī)學(xué)考試和醫(yī)學(xué)知識(shí)問(wèn)答等指令學(xué)習(xí)數(shù)據(jù)。

C-Eval中醫(yī)療學(xué)科的結(jié)果表明,山海大模型2.0在基礎(chǔ)醫(yī)學(xué)、臨床醫(yī)學(xué)和醫(yī)師資格數(shù)據(jù)集上都能獲得接近90分的水平,為業(yè)內(nèi)最高。

云知聲山海大模型團(tuán)隊(duì)參加了剛剛在沈陽(yáng)結(jié)束的CCKS2023-PromptCBLUE評(píng)測(cè),該評(píng)測(cè)是當(dāng)前最權(quán)威的中文醫(yī)療大模型的評(píng)測(cè)榜單,我們同樣也取得了第一名的成績(jī),再次證明了山海大模型專業(yè)的醫(yī)學(xué)能力。

山海團(tuán)隊(duì)發(fā)現(xiàn),在運(yùn)用位置插值(Position Interpolation)方法進(jìn)行大幅度擴(kuò)展時(shí)——比如將窗口從4k擴(kuò)展到32k——其性能會(huì)顯著受到影響。這種影響主要體現(xiàn)在短距離情況下的使用。

為了更好地解釋這一點(diǎn),假設(shè)原始數(shù)據(jù)中距離為1的兩個(gè)token,當(dāng)我們將數(shù)據(jù)從4k擴(kuò)展到32k時(shí),這兩個(gè)token之間的距離實(shí)際上變成了1/8。

這就意味著,在進(jìn)行位置插值的過(guò)程中,原本距離很近的兩個(gè)token之間的距離被大比例地拉遠(yuǎn)了。這種場(chǎng)景下,衰減規(guī)律在短距離的使用會(huì)受到較大的影響,這是因?yàn)樗p規(guī)律在短距離時(shí)可能具有非常突出的變化率,意味著原本應(yīng)該很近的兩個(gè)token在大規(guī)模擴(kuò)展之后,它們之間的關(guān)聯(lián)性會(huì)大幅度減小。

因此,直接進(jìn)行位置插值的方法會(huì)使得窗口大幅度擴(kuò)展后的性能較大程度地降低。發(fā)現(xiàn)RoPE位置編碼短距離之間的差異,主要體現(xiàn)在高頻分量上,長(zhǎng)距離之間的差異,主要體現(xiàn)在低頻分量上。

山海大模型2.0版根據(jù)神經(jīng)正切核的思想,采用Neural Tangent Kernel (NTK)的非線性差值方法,實(shí)現(xiàn)高頻外推、低頻內(nèi)插的大規(guī)模長(zhǎng)度擴(kuò)展。采用NTK擴(kuò)展后模型能夠更好的支持文本窗口擴(kuò)展,當(dāng)前山海大模型2.0版本已經(jīng)支持32K的窗口長(zhǎng)度。

在大多數(shù)行業(yè)中,對(duì)大模型的并發(fā)使用和響應(yīng)時(shí)間有很高的要求。這要求我們?cè)诒WC大模型算法效果的基礎(chǔ)上,更需要深思其推理速度。

本次山海大模型2.0基于落地場(chǎng)景需要,設(shè)計(jì)了受限解碼方法,在解碼過(guò)程中不需要計(jì)算整個(gè)詞表的概率,只需關(guān)注落地場(chǎng)景下關(guān)注的token,極大地提高了解碼效率。如圖所示,利用受限解碼方法,生成token“今”后面只需考慮token“夕”和“天”的概率,而不需要完成整個(gè)詞表概率分布的計(jì)算。

作為中國(guó)AGI技術(shù)產(chǎn)業(yè)化的先驅(qū)之一,云知聲于2016年開(kāi)始打造Atlas人工智能基礎(chǔ)設(shè)施,并以此為基礎(chǔ),構(gòu)建云知大腦(UniBrain)技術(shù)中臺(tái)——以山海(UniGPT)通用認(rèn)知大模型為核心,結(jié)合多模態(tài)感知與生成、知識(shí)圖譜、物聯(lián)平臺(tái)等智能組件,為云知聲智慧物聯(lián)、智慧醫(yī)療等業(yè)務(wù)提供高效的產(chǎn)品化支撐,持續(xù)推動(dòng)“U(云知大腦)+X(應(yīng)用場(chǎng)景)”戰(zhàn)略布局,踐行“通過(guò)通用人工智能(AGI)創(chuàng)建互聯(lián)直覺(jué)的世界”的公司使命。

山海大模型作為云知大腦的核心,能力體系涵蓋語(yǔ)言生成、語(yǔ)言理解、知識(shí)問(wèn)答、 邏輯推理、代碼能力、數(shù)學(xué)能力等。此外,為提高大模型在具體場(chǎng)景的應(yīng)用落地水平,山海大模型在通用能力基礎(chǔ)上,增強(qiáng)物聯(lián)、醫(yī)療等行業(yè)能力,致力為客戶提供更智能、更靈活的解決方案,加速千行百業(yè)的智慧化升級(jí)。

標(biāo)簽: 山海大模型
云知聲千億參數(shù)山海大模型首次亮相 C-Eval評(píng)測(cè)70分
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2025 All Rights Reserved
蜀ICP備2024059877號(hào)-1