主辦方:合作
官方網(wǎng)站:
2月18日,在大洋彼岸的馬斯克秀出最新大模型Grok 3當(dāng)天,國(guó)產(chǎn)AI公司深度求索(DeepSeek)最新一篇論文引發(fā)關(guān)注,創(chuàng)始人梁文鋒在署名之列,并2月16日提交到預(yù)印本平臺(tái)arxiv。媒體邀約【mediafabu.com】
這篇論文的核心關(guān)于NSA(Natively Sparse Attention,原生稀疏注意力)。據(jù)DeepSeek,上下文建模對(duì)于下一代語(yǔ)言模型至關(guān)重要,但標(biāo)準(zhǔn)注意力機(jī)制的高計(jì)算成本帶來(lái)了巨大的計(jì)算挑戰(zhàn)。NSA(稀疏注意力)在提高效率同時(shí),為提高模型能力提供新的方向,實(shí)現(xiàn)將算法創(chuàng)新與硬件對(duì)齊的優(yōu)化相結(jié)合,進(jìn)行高效的長(zhǎng)上下文建模。
DeepSeek在論文中介紹,NSA采用動(dòng)態(tài)分層稀疏策略,將粗粒度標(biāo)記壓縮與細(xì)粒度標(biāo)記選擇相結(jié)合,以保持全局上下文感知和局部精度。通過(guò)兩項(xiàng)關(guān)鍵創(chuàng)新推進(jìn)稀疏注意力設(shè)計(jì):第一,通過(guò)算術(shù)強(qiáng)度平衡算法設(shè)計(jì)實(shí)現(xiàn)了顯著的加速,并針對(duì)現(xiàn)代硬件進(jìn)行了實(shí)現(xiàn)優(yōu)化媒體管家最新資訊2025【mediafabu.com】。第二,支持端到端訓(xùn)練,在不犧牲模型性能的情況下減少預(yù)訓(xùn)練計(jì)算。
實(shí)驗(yàn)表明,使用 NSA 預(yù)訓(xùn)練的模型在一般基準(zhǔn)、長(zhǎng)上下文任務(wù)和基于指令的推理中保持或超過(guò)了全注意力模型。同時(shí),NSA在64k長(zhǎng)度序列的解碼、前向傳播和后向傳播過(guò)程中實(shí)現(xiàn)比全注意力機(jī)制顯著的加速,驗(yàn)證其在整個(gè)模型生命周期中的效率。
“此次DeepSeek發(fā)布的論文,可以稱(chēng)為基石更新?!睒I(yè)內(nèi)人士向澎湃新聞?dòng)浾咴u(píng)論,此前的DeepSeek-R1的瓶頸在于輸入上下文能力方面相對(duì)不足,此次更新正是解決了原先大模型文字處理的問(wèn)題。從內(nèi)容來(lái)看,NSA主要針對(duì)長(zhǎng)上下文高速訓(xùn)練,在長(zhǎng)上下文情況下,相比原先的結(jié)構(gòu)有更慢的性能衰減,這導(dǎo)致長(zhǎng)思維鏈的 COT 效果會(huì)更好,對(duì)于復(fù)雜數(shù)學(xué)推導(dǎo)非常有價(jià)值。
據(jù)業(yè)內(nèi)人士分析,DeepSeek此次是劍指大模型最核心的注意力機(jī)制。Transformer架構(gòu)是現(xiàn)有大部分大模型繁榮的基礎(chǔ),但其核心算法注意力機(jī)制存在先天問(wèn)題:為了理解和生成,會(huì)閱讀文本里的每個(gè)詞,并拿它與其他所有詞作比較,導(dǎo)致處理文本越長(zhǎng),技術(shù)就會(huì)越卡,甚至崩潰。
通過(guò)NSA新架構(gòu),和Transformer原先傳統(tǒng)的注意力機(jī)制相比,準(zhǔn)確率相同或更高,處理64k標(biāo)記序列時(shí)速度可提高至11.6倍,且訓(xùn)練更高效,所需算力更少。
值得注意的是,此次論文作者中,梁文鋒在作者排名中位列倒數(shù)第二。而第一作者是袁景陽(yáng)(Jingyang Yuan)。據(jù)公開(kāi)信息,袁景陽(yáng)目前是北京大學(xué)碩士研究生,研究領(lǐng)域包括LLM和AI for Science,目前是DeepSeek的實(shí)習(xí)生,據(jù)袁景陽(yáng)個(gè)人主頁(yè),他在去年參與7篇論文的撰寫(xiě)媒體管家官網(wǎng)【mediafabu.com】。
此前,在發(fā)布Grok 3同時(shí),馬斯克透露,Grok 3的計(jì)算能力是Grok 2的10倍以上,訓(xùn)練過(guò)程累計(jì)消耗20萬(wàn)張英偉達(dá)GPU。而梁文鋒的訓(xùn)練思路似乎與馬斯克截然相反,更關(guān)注如何在更少算力消耗下,達(dá)到更好的計(jì)算效果。
有趣的是,對(duì)于馬斯克堅(jiān)持大力出奇跡的思路,另一家國(guó)內(nèi)大模型獨(dú)角獸“月之暗面”幾乎在同時(shí)提出挑戰(zhàn)。
2月18日,就在DeepSeek論文發(fā)布當(dāng)天,月之暗面創(chuàng)始人楊植麟也帶領(lǐng)團(tuán)隊(duì)發(fā)布最新論文《MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS(直譯為“MoBA:面向長(zhǎng)上下文大語(yǔ)言模型的塊注意力混合方法”)》,提出了與NSA類(lèi)似的稀疏注意力框架MoBA,并設(shè)計(jì)了一套可以自由切換全注意力和稀疏注意力機(jī)制的方式,為已有的全注意力模型更多的適配空間。
據(jù)介紹,MoBA是“一種將混合專(zhuān)家(MoE)原理應(yīng)用于注意力機(jī)制的創(chuàng)新方法”,旨在提高長(zhǎng)文本處理效率。經(jīng)過(guò)Kimi平臺(tái)驗(yàn)證,MoBA架構(gòu)能將處理1M長(zhǎng)文本的速度提升6.5倍,將處理10M長(zhǎng)文本的速度提升16倍。
MoBA提升效率的關(guān)鍵手段在于僅關(guān)注部分鍵值。Kimi團(tuán)隊(duì)把完整的上下文劃分成“塊(block)”、讓每個(gè)查詢(xún)token自動(dòng)關(guān)注最相關(guān)的KV(鍵值)塊,從而實(shí)現(xiàn)長(zhǎng)序列數(shù)據(jù)的高效處理,并提出一種新的top-k門(mén)控機(jī)制,無(wú)需額外訓(xùn)練參數(shù),為每個(gè)查詢(xún)token挑選出最相關(guān)的“塊”,保證模型的注意力聚焦在包含最有用信息的“塊”上。
Kimi團(tuán)隊(duì)表示,開(kāi)展這項(xiàng)研究的原因在于,在傳統(tǒng)注意力機(jī)制中,計(jì)算復(fù)雜度隨著序列長(zhǎng)度的增加而呈平方級(jí)增長(zhǎng),阻礙了模型對(duì)長(zhǎng)序列的高效處理。MoBA架構(gòu)能夠輕松融入現(xiàn)有模型,不需要高昂的訓(xùn)練成本,并實(shí)現(xiàn)與全注意力模式的無(wú)縫切換。
國(guó)產(chǎn)AI競(jìng)賽正在日益加劇中。1月20日,中國(guó)AI初創(chuàng)公司深度求索(DeepSeek)推出大模型DeepSeek-R1。作為一款開(kāi)源模型,R1在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上的性能能夠比肩OpenAI o1模型正式版,并采用MIT許可協(xié)議,支持免費(fèi)商用、任意修改和衍生開(kāi)發(fā)等。春節(jié)假期后,國(guó)內(nèi)多個(gè)行業(yè)龍頭公司均宣布接入DeepSeek。
2月8日,QuestMobile數(shù)據(jù)顯示,DeepSeek在1月28日的日活躍用戶(hù)數(shù)首次超越豆包,隨后在2月1日突破3000萬(wàn)大關(guān),成為史上最快達(dá)成這一里程碑的應(yīng)用。
DeepSeek的爆發(fā)正在重塑中國(guó)大模型行業(yè),從過(guò)去的“燒錢(qián)換估值”轉(zhuǎn)向關(guān)注技術(shù)性?xún)r(jià)比與商業(yè)化閉環(huán)。在這個(gè)日新月異的賽道,由DeepSeek引領(lǐng)的開(kāi)源已成為大模型整體潮流,2月18日,階躍星辰和吉利汽車(chē)聯(lián)合宣布,將雙方合作的階躍兩款Step系列多模態(tài)大模型向全球開(kāi)發(fā)者開(kāi)源。其中,包含目前全球范圍內(nèi)參數(shù)量最大、性能最好的開(kāi)源視頻生成模型階躍Step-Video-T2V,以及行業(yè)內(nèi)首款產(chǎn)品級(jí)開(kāi)源語(yǔ)音交互大模型階躍Step-Audio。
近年來(lái),隨著資產(chǎn)處置市場(chǎng)規(guī)模快速成長(zhǎng)以及互聯(lián)網(wǎng)行業(yè)飛速發(fā)展,金融資產(chǎn)、司法拍賣(mài)、罰沒(méi)物資等處置方式...
由楊紫瓊、吳彥祖、關(guān)繼威等主演的漫改劇《西游ABC》已于5月24日上線(xiàn)Disney+,IGN為本劇...