來源:中國經(jīng)濟(jì)網(wǎng) 發(fā)布時(shí)間:2023-11-20 9:51
11月16日,百川智能與鵬城實(shí)驗(yàn)室宣布攜手探索大模型訓(xùn)練和應(yīng)用,合作研發(fā)基于國產(chǎn)算力的128K長窗口大模型“鵬城-百川·腦海33B”。這是國產(chǎn)算力大模型創(chuàng)新與落地的一次實(shí)踐,對(duì)國產(chǎn)算力大模型發(fā)展具有積極示范作用。
百川智能攜手鵬城實(shí)驗(yàn)室助力國產(chǎn)算力大模型創(chuàng)新
眾所周知,訓(xùn)練大模型需要海量的算力,并且大模型參數(shù)數(shù)量的增長與算力的平方成正比。大模型性能的競爭,一定程度上是算力的比拼。在復(fù)雜多變的國際環(huán)境下,國內(nèi)算力供給與需求之間的“鴻溝”持續(xù)擴(kuò)大,國產(chǎn)化算力已經(jīng)成為國內(nèi)大模型企業(yè)的必要選擇。
雖然國內(nèi)諸多企業(yè)在通用AI芯片方面早有布局,在芯片量產(chǎn)、生態(tài)構(gòu)建、應(yīng)用拓展領(lǐng)域也取得了不錯(cuò)進(jìn)展,但基于國產(chǎn)算力訓(xùn)練大模型,仍面臨著生態(tài)建設(shè)、成本控制、能效比優(yōu)化等阻礙。因此算力完全自主,仍需要芯片廠商、大模型企業(yè)、學(xué)術(shù)科研機(jī)構(gòu)等多方共同努力。
百川智能表示,百川智能希望通過開源、與合作伙伴共創(chuàng)等方式助力中國大模型創(chuàng)新,繁榮本土大模型生態(tài)。鵬城實(shí)驗(yàn)室作為國家戰(zhàn)略科技力量的重要組成部分,在國產(chǎn)算力大模型研發(fā)和應(yīng)用等方面一直處于國內(nèi)領(lǐng)先位置。未來,百川智能將在技術(shù)、算力等諸多維度不斷深化與鵬城實(shí)驗(yàn)室的合作,持續(xù)助力本土大模型創(chuàng)新發(fā)展。
國產(chǎn)算力最長上下文窗口,“鵬城-百川·腦海33B”率先實(shí)現(xiàn)國產(chǎn)算力技術(shù)突破
百川智能和鵬城實(shí)驗(yàn)室共同研發(fā)的“鵬城-百川·腦海33B”128K長上下文窗口基于“鵬城云腦”國產(chǎn)算力平臺(tái)訓(xùn)練,未來可升級(jí)至192K,是基于國產(chǎn)算力訓(xùn)練的最長上下文窗口。
上下文窗口長度是大模型的核心技術(shù)之一。通常而言,更長的上下文窗口可以提供更豐富的語義信息、消除歧義,能夠讓模型生成的內(nèi)容更準(zhǔn)確、更流暢。
“鵬城-百川·腦海33B”在數(shù)據(jù)集構(gòu)建方面,采用精細(xì)的數(shù)據(jù)構(gòu)造,實(shí)現(xiàn)了段落、句子粒度的自動(dòng)化數(shù)據(jù)過濾、選擇、配比,良好的提升了數(shù)據(jù)質(zhì)量;在訓(xùn)練架構(gòu)上,通過NormHead、max-Z-Loss、dynamic-LR等自研或業(yè)界領(lǐng)先的模型訓(xùn)練優(yōu)化技術(shù),對(duì)Transformer模塊進(jìn)行深度優(yōu)化;此外,還在全生命周期的模型工具集中,首創(chuàng)了帶安全約束的RLHF對(duì)齊技術(shù),有效提升了模型內(nèi)容生成質(zhì)量和安全性。
未來,雙方將在國產(chǎn)算力大模型技術(shù)創(chuàng)新和模型落地等方面繼續(xù)加強(qiáng)合作,并與相關(guān)領(lǐng)域的優(yōu)勢單位如北京大學(xué)、清華大學(xué)等開展協(xié)同創(chuàng)新,助力本土大模型在模型性能、技術(shù)創(chuàng)新方面持續(xù)突破,推動(dòng)本土大模型進(jìn)一步開源開放,為更多行業(yè)智能化轉(zhuǎn)型提供幫助和支持。