近日,國家級專精特新重點“小巨人”企業(yè)——廣州萬協(xié)通信息技術(shù)股份有限公司(以下簡稱“萬協(xié)通”)的重磅研究成果《基于4bit量化的視頻大模型算力芯片關(guān)鍵技術(shù)研究》,獲工信部直屬權(quán)威期刊《信息技術(shù)與標(biāo)準(zhǔn)化》重點刊載。
這一來自國家級權(quán)威刊物的認(rèn)可,不僅標(biāo)志著萬協(xié)通在視頻大模型邊緣計算領(lǐng)域完成了從理論創(chuàng)新到產(chǎn)業(yè)應(yīng)用的閉環(huán) ,更向業(yè)界揭示了其攻克邊緣算力瓶頸的核心技術(shù)——基于自主可重構(gòu)TPU架構(gòu)的軟硬協(xié)同全棧式創(chuàng)新。
核心引擎:以可重構(gòu)TPU技術(shù)“丈量”大模型量化
在邊緣計算場景中,如何在資源受限的終端設(shè)備上部署龐大的視頻大模型,是制約AI落地的最大痛點。萬協(xié)通之所以能實現(xiàn)4bit量化技術(shù)的突破,其根基在于底層硬件的獨特優(yōu)勢——自主研發(fā)的可重構(gòu)TPU架構(gòu)。
可重構(gòu) TPU 架構(gòu)的研發(fā),首先要攻克 “動態(tài)適配” 的技術(shù)難題。傳統(tǒng)芯片架構(gòu)僵化固定,計算路徑與資源分配無法靈活調(diào)整,而可重構(gòu) TPU 需要成為具備高度靈活性的 “動態(tài)引擎”,這就要求在芯片設(shè)計階段,既要實現(xiàn)內(nèi)部異構(gòu) BOU(基礎(chǔ)計算單元)的模塊化設(shè)計,又要搭建可編程的數(shù)據(jù)通路,確保各單元能夠根據(jù)不同算法需求實現(xiàn)實時重組。這一過程涉及芯片架構(gòu)設(shè)計、硬件電路優(yōu)化、底層邏輯編程等多個細(xì)分領(lǐng)域的深度協(xié)同,對硬件設(shè)計的精準(zhǔn)度、兼容性和擴展性提出了極致要求,其技術(shù)復(fù)雜度遠(yuǎn)超傳統(tǒng)專用芯片。
其次,要解決 “算力與能耗平衡” 的行業(yè)難題。邊緣設(shè)備對功耗和體積有著嚴(yán)格限制,可重構(gòu) TPU 架構(gòu)不僅需要提升算力輸出,還要控制能耗,實現(xiàn)單位能耗下算力密度的最大化。研發(fā)團(tuán)隊通過無數(shù)次的仿真測試與迭代,優(yōu)化計算單元的布局、數(shù)據(jù)傳輸?shù)穆窂?,減少不必要的能耗損耗,這一過程需要突破硬件設(shè)計與能耗控制之間的矛盾,其研發(fā)周期長、技術(shù)門檻高,長期以來被少數(shù)國際巨頭掌握核心思路。
不同于傳統(tǒng)僵化的芯片架構(gòu),萬協(xié)通的可重構(gòu)TPU不僅是計算的載體,更是一個具備高度靈活性的“動態(tài)引擎”。針對大模型中復(fù)雜的算子融合挑戰(zhàn),該架構(gòu)通過動態(tài)重組內(nèi)部異構(gòu)BOU(基礎(chǔ)計算單元)與可編程數(shù)據(jù)通路,能夠根據(jù)算法需求實時調(diào)整計算資源的分配策略與執(zhí)行路徑。
這種“芯片適應(yīng)算法”的架構(gòu)特性,有效支撐了4bit量化技術(shù)的實際部署,在保證復(fù)雜模型推理精度的同時,顯著提升了單位能耗下的算力輸出密度 。可以說,正是可重構(gòu)TPU這一硬件基石,讓邊緣側(cè)的“降本增效”成為了可能,成功打破了視覺大模型在邊緣設(shè)備上的“算力墻”。

并行引擎:以流水線架構(gòu)“駕馭”量化張量運算
應(yīng)對4bit量化后激增的并行度需求,需要一套高效的“消化系統(tǒng)”。多維度張量運算作為視頻大模型的核心計算環(huán)節(jié),不僅數(shù)據(jù)規(guī)模龐大、維度復(fù)雜(涵蓋空間、時間、特征等多重維度),且運算邏輯存在高度關(guān)聯(lián)性與并行潛力。萬協(xié)通基于流水線(pipeline)方式設(shè)計的數(shù)據(jù)并行處理架構(gòu),精準(zhǔn)把握張量運算的并行化特征,通過 “數(shù)據(jù)拆分 - 節(jié)拍調(diào)度 - 并行執(zhí)行 - 結(jié)果聚合” 的全流程優(yōu)化,實現(xiàn)了計算效率與資源利用率的雙重提升,為 4bit 量化后的視頻大模型提供了強有力的算力支撐。
這種多維度并行模式,能夠充分適配 4bit 量化后張量數(shù)據(jù)的運算特征 —— 量化后的低精度數(shù)據(jù)雖降低了存儲需求,但對運算并行度的要求更高,而流水線架構(gòu)通過多層級并行設(shè)計,能夠同步消化海量低精度張量數(shù)據(jù)的運算壓力。同時,架構(gòu)可通過可編程數(shù)據(jù)通路,根據(jù)不同量化模型的運算需求,動態(tài)調(diào)整流水線的工序數(shù)量、節(jié)拍頻率與 BOU 單元分配策略,實現(xiàn) “運算需求與硬件資源” 的精準(zhǔn)匹配,在保證推理精度不損失的前提下,最大化提升單位能耗下的算力輸出密度。

硬件引擎:以BOU可重構(gòu)“構(gòu)建”動態(tài)計算單元
讓硬件資源像樂高一樣“隨需而建”,是解鎖算力極致效率的關(guān)鍵。萬協(xié)通的 BOU 并非單一功能的運算組件,而是具備獨立運算能力、可靈活配置的 “硬件原子”—— 每個 BOU 都集成了基礎(chǔ)張量運算、數(shù)據(jù)緩存、邏輯控制等核心功能,且通過標(biāo)準(zhǔn)化的接口與可編程的數(shù)據(jù)通路相連,形成可自由組合的 “BOU 原子陣列”。
“可重復(fù)構(gòu)建”核心優(yōu)勢在于針對不同算法需求、運算復(fù)雜度,無需額外新增專用硬件單元,僅通過對現(xiàn)有 BOU 的重復(fù)組合、動態(tài)拼接,即可構(gòu)建出適配當(dāng)前任務(wù)的專屬計算模塊。例如,處理簡單的矩陣乘法運算時,僅需調(diào)用 2-4 個 BOU 組成小型運算集群;面對視頻大模型中復(fù)雜的算子融合(如卷積、池化、激活函數(shù)的協(xié)同運算)時,則通過數(shù)十個甚至上百個 BOU 的重復(fù)堆疊、分層協(xié)作,形成高強度算力矩陣。這種 “按需組合” 的模式,讓硬件資源擺脫了 “一對一適配算法” 的僵化束縛,實現(xiàn)了單一硬件架構(gòu)對多樣化運算需求的覆蓋。研發(fā)團(tuán)隊通過定制化指令碼設(shè)計,對 BOU 的調(diào)度順序、運算時序、數(shù)據(jù)交互邏輯進(jìn)行全流程管控。針對不同運算任務(wù)的特征,指令碼會自動規(guī)劃最優(yōu)的 BOU 組合方案與運算路徑:例如在處理 4bit 量化后的低精度張量數(shù)據(jù)時,指令碼會優(yōu)先調(diào)用適配低精度運算的 BOU 單元,并優(yōu)化運算步驟,減少冗余的精度轉(zhuǎn)換環(huán)節(jié);在多任務(wù)并發(fā)場景中,指令碼通過分時復(fù)用策略,讓同一組 BOU 在不同時間段內(nèi)處理不同任務(wù),避免硬件資源閑置。這種 “任務(wù) - 指令 - 硬件” 的精準(zhǔn)匹配,讓運算流程更緊湊、高效,從根源上減少無效功耗。

作為國產(chǎn)可重構(gòu)TPU芯片的先行者,萬協(xié)通相關(guān)技術(shù)負(fù)責(zé)人表示,4bit量化技術(shù)是實現(xiàn)AI大規(guī)模商業(yè)化部署“最后一公里”的關(guān)鍵鑰匙,而可重構(gòu)TPU技術(shù)的自主可控則是這把鑰匙的 “安全鎖”。未來,萬協(xié)通將繼續(xù)堅持核心技術(shù)自主可控,深耕可重構(gòu)TPU與大模型技術(shù)的融合創(chuàng)新,以全棧式創(chuàng)新體系賦能千行百業(yè),為全球智能化浪潮注入強勁的中國力量。
關(guān)鍵詞:




