DoNews8月28日消息,研究團(tuán)隊(duì)在Phind 內(nèi)部數(shù)據(jù)集上對 CodeLlama-34B 和 CodeLlama-34B-Python 進(jìn)行微調(diào)之后發(fā)現(xiàn),這兩款模型微調(diào)之后在 HumanEval 測試中的通過率均已超過GPT-4在3月份的成績。
本次發(fā)布的Code Llama是在Llama 2的基礎(chǔ)上,通過特定的代碼數(shù)據(jù)集進(jìn)一步訓(xùn)練而來,支持C++、Java、Python、PHP、Typescript(Javascript)、C#和Bash等眾多流行語言,依然是開源可商用。
Code Llama對編程專家和初學(xué)者都非常有用,無論是用專業(yè)的編程語言還是用自然語言(如普通話)來描述編程需求,Code Llama都能理解,并很好地生成相應(yīng)的代碼或與代碼相關(guān)的解釋。這極大降低了開發(fā)門檻和效率。
Code Llama是Meta公司開源可商用大模型Llama 2的編程版本,據(jù)悉,Code Llama分為7B、13B和34B三個(gè)不同參數(shù)版本,可滿足不同的服務(wù)和延遲要求。每個(gè)版本的模型都使用了500B tokens與代碼相關(guān)的數(shù)據(jù)進(jìn)行訓(xùn)練。