Arm UNLOCKED 峰會在上海召開。 Arm在此次峰會上正式發布了面向移動端的 Arm Lumex 計算子系統(Compute Subsystem, CSS) ,包括了全新的基于Armv9.3指令集的C1系列CPU集群,以及支持新一代光線追蹤技術的Mali G1 GPU系列。
其中,C1 CPU集群均支持可擴展矩陣延伸指令集 SME2 ,極大地提升了CPU對于AI 和 ML 工作負載的支持。

一、全新Armv9.3,加入對SME2支持
雖然對于目前的很多AI負載來說,利用GPU、NPU等計算單元來進行計算,可以擁有比CPU更高的計算效率。但是對于CPU廠商來說,也在不斷通過融入一些新的指令集來提升CPU的AI計算能力。
過去多年來,Arm 也一直致力于提升的CPU的AI能力,比如在 Armv7 架構中引入了高級單指令多數據 (SIMD,也稱Arm Neon 指令) 擴展,探索了機器學習 (ML) 工作負載;Armv8.4-A 支持 8 位整數點積指令;Armv8.6-A 支持各種數據類型的矢量內整數和浮點矩陣乘法指令。

進入到 Armv9 架構,Arm在 CPU 上集成了用于加速和保護如大語言模型 (LLM) 等先進的生成式 AI 工作負載的特性。
比如,Armv9-A 加入了可伸縮矢量擴展 2 (SVE2),用于數字信號處理器 (DSP)、媒體和通用矢量化;Armv9.2-A 則首次引入了可伸縮矩陣擴展 (SME)指令,可加速 AI 和 ML 工作負載,并為 Arm CPU 上運行的 AI 和 ML 應用提供更高的性能、能效和靈活性。

全新的Armv9.3則加入了對于SME2的支持,即在 SME 的基礎上增加了多矢量指令,允許在矩陣和矢量運算中復用架構狀態 (ZA Array),并具有更高吞吐量的矢量處理能力。
這有助于通過壓縮 AI 格式來減少內存帶寬并節省功耗,從而實現矢量和矩陣加速的平衡。
SME2 還能夠靈活地動態去量化,并解壓縮 2 位和 4 位權重,以節省內存帶寬。在生成式 AI 工作負載日益復雜和耗電加劇的背景下,這些特性非常重要,同時也彰顯了 Arm 致力于應對 AI 無止盡的能源需求。
二、面向 AI 高性能 Arm C1 CPU 集群
Arm全新的 C1 CPU 集群是 Arm Lumex CSS 平臺的組件之一,也是首個基于 Armv9.3 架構的CPU 系列產品。
高性能的 Arm C1 CPU 集群集成了新的 C1-Ultra CPU,以及可靈活組合的C1-Premium、C1-Pro 與 C1-Nano CPU 核心,能夠根據合作伙伴的特定需求,實現性能和能效提升。
同時,C1 CPU 通過 Armv9 架構直接內建第二代 Arm 可伸縮矩陣擴展 (SME2),這為加速 AI 體驗帶來了革新突破。

1、 C1-Ultra:強超大核
具體來說,C1-Ultra作為的C1 CPU系列當中性能強的超大核。
它帶來了業界領先的前端設計,并針對實際工作負載進行優化;擁有業內寬、吞吐量高的微架構;擁有出色的預取器,可在面積限制內優化性能。
這些特性使得C1-Ultra 的 IPC 進一步提升了12%,相比Cortex-X1的IPC提升了超過75%,使得C1-Ultra內核的性能表現比Cortex-X925高出約26%。

從Geekbench 6.3的測試數據來看,在同等性能水平下,C1-Ultra的能耗比Cortex-X925低了28%,而如果從高的單線程性能來看,C1-Ultra確實要比Cortex-X925高出25%左右。

2、C1-Premium:高PPA
C1-Premium是 Arm 首款次旗艦處理器CPU,追求高的PAA(性能、功耗、面積)。
據Arm介紹,C1-Premium核心面積比包含私有 L2 緩存的 C1-Ultra 核心縮小了 35%。該 CPU 在 SPEC 套件等基準測試中以更小的占用面積,保持了同等的性能水平,實現了卓越的面積效率。

得益于極高的PPA,這也使得C1-Premium可具有可靈活組合性,可以為新細分市場提供卓越性能。
比如,原本2個C1-Ultra + 6個C1-Pro的CPU,如果將超大核換成2個C1-Premium ,整體面積可以減少35%;同樣,如果原本4個C1-Pro + 4個
C1-Nano的CPU,升級成2個C1-Premium + 6個C1-Pro的CPU,在面積不會增加多少的情況下,性能可以迅速提升35%。

不過,Arm并未提供更多關于C1-Premium本身性能上的數據。
3、C1-Pro:高能效大核
C1-Pro的定位是高能效的大核。在微架構層面,Arm C1-Pro 引入了增強型分支預測和內存系統更新,尤其適用于實際用例中的多任務處理。
從Geekbench 6.3測試表現來看,在同等性能下,C1-Pro的功耗要比Cortex-A725低26%;在同等功耗下,C1-Pro的性能要比Cortex-A725高出11%。

在相關應用測試中,與Cortex-A725相比,C1-Pro CPU在相同主頻下,性能高提升了16%;在相同性能下,功耗降低了12%。

值得一提的是,C1-Pro 還具有面積優化的配置方案,可以幫助客戶輕松地遷移到新的Armv9.3,無需犧牲任何面積,并且保留關鍵的微架構優勢,并支持SME2。

4、C1-Nano:高能效小核
C1-Nano 在小面積占用的條件下,將 Arm C1 系列 CPU 的優勢集于一體。相比此前的Cortex-A520小核,C1-Nano電源效率大幅提高,在同一工藝下,與 Cortex-A520 相比,電源效率提高 26%了;減少 L3/DRAM 交互,實現了小面積和高區域效率。與 Cortex-A520 相比,SPECint2017 性能提高 5.5%,核心面積提高 2%;改進了指令獲取,解耦預測/獲取流水線在獲取工作負載方面提高了10%以上的性能。

C1-Nano出色的高能效和低功耗表現,使其成為可穿戴設備和緊湊型消費類電子設備的理想之選。
5、C1-DSU
DSU(DynamIQ Shared Unit)是Arm CPU集群架構中的一個關鍵組件,用于管理多核處理器的核心,優化性能和能效。對于全新的C1 CPU集群,Arm也帶來了全新的C1-DSU,也加入了對于SME2的支持。
據Arm介紹,與DSU-120相比,C1-DSU典型功耗降低了11%,快速喚醒 RAM 功耗降低了7%。

6、Arm C1 CPU 集群可滿足各類端側應用
C1系列的四款CPU內核,也為Arm C1 CPU集群的組合帶來了非常多的選擇。
如果拿低端的2個C1-Nano(基于不支持SME2的DSU)與高端的2個C1-Ultra + 6個C1-Pro(基于支持SEM2的DSU)對比,后者的性能達到了前者的17倍,不過面積也達到前者的25倍。足見性能、面積跨度之大,還可擴展至各個級別的消費類電子和移動設備,為多樣化的端側工作負載提供不同水平的性能、功耗和面積效率。

Arm C1 CPU 集群在實際用例中表現突出。在行業領先的性能基準測試,該 CPU 集群在同等條件下,相較于上一代 CPU 集群性能平均提升 30%,在游戲和視頻流媒體等應用中平均提速 15%。與此同時,在日常移動端工作負載(如視頻播放、社交媒體、網頁瀏覽)中,該 CPU 集群在同等條件下,相較于上一代 CPU 集群功耗平均降低 12%。

在Arm看來,下一代主流的智能手機的CPU集群可能將會是支持SME2的C1集群,比如C1-Pro + C1-Nano這樣的組合,預計相比當前的Cortex-A725+Cortex-A520的組合,可以帶來11%的性能提升和2倍的AI性能密度。

6、SEM2加持下的AI性能提升
得益于 SME2 內置的矩陣擴展,Arm C1 CPU 能夠加速 AI 功能,包括涉及大量矩陣運算的大語言模型 (LLM)、媒體處理(圖像與視頻)、語音識別、計算機視覺、實時應用(AI 助手、計算攝影與 AI 濾鏡)以及多模態應用等。
SME2 是在 SME 基礎上進行了全新的智能升級,能提升性能、降低內存占用,并使端側 AI 運行得更為流暢,尤其是在音頻生成、攝像頭推理、計算機視覺及即時聊天等高實時性要求的應用中。
據Arm介紹,針對生成式 AI、語音識別、典型的機器學習 (ML) 和計算機視覺 (CV) 等工作負載,啟用 SME2 的 Arm C1 CPU 集群在同等條件下,能比上一代 CPU 集群帶來5倍 AI 性能提速。
此外,借助 SME2,該C1 CPU 集群可實現多達3倍的能效優化。而上述的 AI 性能和能效改進能為用戶帶來更流暢、響應更迅速的端側體驗。

Arm表示,SME2 顯著縮小了C1 CPU與GPU之間的AI性能差距,特別是在小型AI工作負載上,CPU 現已超越 GPU,并且保留了CPU的靈活性。
從Arm公布的測試數據來看,在沒有SME2 的支持下,C1-Pro CPU的AI性能與Arm新的Mali G1 GPU的AI性能差距巨大。
但是,有了SME2加持的C1-Pro CPU,AI性能大幅提升,特別是在運行一些小的神經網絡時,其性能表現甚至比Arm新的Mali G1 GPU表現更好。

SME2 還可加速各種圖像處理工作負載,比如在libyuv中,支持SME2的C1-Pro的圖像處理表現提升到了原來的3倍。

對于 Arm 合作伙伴和開發者生態系統而言,相較于未啟用 SME2 特性的硬件,這些提升能顯著加速不同工作負載和用例中的 AI 性能,包括:
在 Whisper Base 上處理語音工作負載時,延遲降低 4.7 倍;在 Google Gemma 3 模型上進行聊天交互,AI 性能增長 4.7 倍;在 Stability AI Stable Audio 模型上生成音頻,速度提升 2.8 倍。

三、Mali G1-Ultra 重新定義游戲與 AI 體驗
手機的游戲性能一直以來都是廠商和用戶極為關心的一大關鍵能力。根據新的 Newzoo 報告,手游玩家占據了高達 83% 的全球游戲玩家人口,其手游總時長達到 3,900 億小時。
Arm作為移動計算平臺的霸主,其也一直致力于利用自身的GPU來提升手機游戲體驗。數據顯示,截至目前,搭載 Arm GPU 的芯片出貨量已逾 120 億顆。
此次,Arm全新推出的Mali G1-Ultra是專為新一代手游和 AI 體驗打造的GPU,基于 Arm 第五代 GPU 架構。引入多項核心級改進,旨在移動設備上實現高端沉浸式游戲體驗。
與上一代的Immortalis-G925 GPU相比,Mali G1-Ultra還帶來了新一代 Arm 光線追蹤單元 RTUv2,使得光線追蹤性能達到了前一代的兩倍;借助 IRD、tiler 改進、IDVS/計算調度,2倍快速訪問統一內存,使得Mali G1-Ultra在主流圖形基準測試中,性能表現提升了20%;通過優化計算和新的 MMUL.FP16 指令,使得AI性能也提升了20%;每幀生成的功耗也降低了9%。

除了面向旗艦智能手機的 Mali G1-Ultra,Arm 還推出 Arm Mali G1-Premium 和 Mali G1-Pro GPU,旨在提供可擴展的性能和能效選擇,以滿足不同移動設備市場和產品層級的需求。Mali G1 GPU 系列提供從 1 到 24 個著色器核心選項,使系統級芯片 (SoC) 設計商能夠根據其目標市場和特定需求,靈活配置 GPU。
1、新一代光線追蹤單元RTUv2
得益于 Mali G1-Ultra 中的光線追蹤單元RTUv2,在啟用硬件光線追蹤的游戲中,光線追蹤性能可提升兩倍,幀率可提升 40%。新的光線追蹤單元專為移動端的實時性能而打造,實現了桌面級的光照、反射與陰影。

與前一代 RTUv1 相比,RTUv2 更加智能,且采用單光線模型,大幅增強對非一致性光線的支持,并成為完全獨立的硬件單元。這些設計變化帶來了顯著的能效與性能優勢。例如,其模塊化架構與獨立電源域使得 RTUv2 可在設備空閑時斷電,從而為其他任務節省電力。
鑒于通過 RTUv2 實現的性能與能效平衡的優勢,Mali G1-Ultra 能在旗艦智能手機上實現長時間的游戲體驗,使其成為旗艦智能手機的理想配置。
2、端側實時智能加速
AI 正在重塑移動設備思考、感知與響應的方式,而 GPU 在這一演進歷程中扮演著關鍵角色。Mali G1-Ultra 引入新的矩陣乘法單元 (MMUL) FP16 指令,可加速如語義分割、去噪、深度估計、物體檢測、語音識別和圖像增強等端側關鍵 AI 工作負載。在FP32 ML網絡中,Mali G1-Ultra與上一代 Immortalis-G925(同樣均為14核心)相比,其性能提升高達 104%。

通過擴大的 L2 緩存和優化的互連設計,Mali G1-Ultra 專為并行處理 AI 與圖形工作負載而打造,大幅減少內存瓶頸,并確保實時體驗的靈敏響應與流暢運行。無論是增強照片質量,還是支持更智能的應用交互,Mali G1-Ultra 都在邊緣側實現響應靈敏的實時智能。
3、可擴展性能的新架構特性
據介紹,Mali G1-Ultra帶來了雙堆疊著色器核心,可使內部帶寬加倍并減少擁塞;增加快速訪問統一寄存器,以在著色器執行期間大幅減少內存提取。這些更新共同提升了包括實時光照和基于物理的渲染在內的響應效果(這些特效通常屬于計算密集型工作負載)。
此外,Mali G1-Ultra 還引入 Arm 圖像區域依賴 (Image Region Dependencies, IRD),這是一種更智能的調度特性,使 GPU 能同時處理屏幕的不同部分,從而在復雜場景中提升性能并減少空閑時間。
4、為開發者量身打造
為幫助開發者實現更精細的性能優化,Mali G1 GPU 通過基于塊 (tile) 的硬件計數器,提供更強的可觀測性。這些計數器能逐幀按區域洞察 GPU 活動,讓開發者可以更高效地識別熱點,并平衡工作負載。
這些計數器可通過 Vulkan 擴展訪問,并將在未來的安卓版本中支持 RenderDoc。這讓游戲引擎公司、游戲工作室和設備 OEM 廠商能夠更為輕松地從該架構中獲得大性能,同時保持視覺質量和電池效率。
Mali G1 GPU 還支持 Arm 精銳超級分辨率技術 (Arm Accuracy Super Resolution, Arm ASR),這項時域類超分技術可在減少 GPU 工作負載的同時,提升圖像質量。該技術通過虛幻引擎 5 (Unreal Engine 5) 提供,并已集成至《堡壘之夜》手游。Arm ASR 能幫助開發者在不犧牲視覺保真度的情況下,保持高幀率,從而在各種移動設備上實現更流暢的游戲體驗與更清晰的細節效果。
四、Arm Lumex CSS 平臺
在2024年5月,Arm就推出了面向客戶端的計算子系統(CSS for Client),整合了當時新的 Armv9.2 指令集的 CPU 集群,包括Cortex-X925 CPU、Cortex-A725 CPU、更新后的Cortex-A520 CPU,以及Immortalis-G925 GPU等IP。
此次Arm新的發布的Arm Lumex CSS 平臺是專門面向旗艦智能手機和大屏計算設備的計算子系統,不僅整合了前面介紹的Arm C1 CPU集群、Mali G1-Ultra GPU、C1-DSU,還帶來了Arm SI L1 系統互連與 Arm MMU L1 系統內存管理單元等IP。

1、面向AI優先SoC平臺的系統IP
Lumex CSS平臺要支持 AI 優先體驗,自然不能只局限于CPU、GPU等計算 IP 和前面提到的多核調度的DSU IP的提升,還必須在整個互連和內存架構層面持續演進。
所以,Arm為了Lumex CSS平臺帶來了全新的SI L1和MMU L1和NoC S3等系統IP,專為滿足高要求 AI 和其他計算密集型工作負載的帶寬與延遲需求而優化。

具體來說,新的SI L1系統互連適用于需要硬件管理一致性、SLC和高級QoS的數據共享的高性能設計。其配備了業內先進的,且具有出色面積效率的系統級緩存 (SLC) ,相比標準編譯的 RAM,其泄漏功耗降低了 71%,大幅減少了待機功耗。
SI L1 系統互連面向旗艦移動設備,具備完全集成的可選 SLC 并支持 Arm 內存標記擴展 (Memory Tagging Extension, MTE) 特性,可提供一流的安全性。
而MMU L1則是新一代面向移動優化的內存管理單元(Memory Management Unit,MMU),通過PPA優化提高系統MMU的可負擔性和可擴展的安全基礎,可以為Android和Windows設備實現基于內存轉換的安全、經濟、高效的可擴展虛擬化。
據Arm披露的數據顯示,SI L1 系統互連相比上代的CI-7000,互聯延遲降低了75%;MMU L1相比上代的MMU-700多可將TBU延遲降低83%。

NoC S3 片上網絡互連則面向注重成本且非一致性的移動系統。
2、解鎖3nm物理實現
據Arm介紹,Lumex CSS提供針對3nm工藝優化、生產就緒的 CPU 和 GPU 實現,已為多家晶圓代工廠所支持。

如此一來,Arm 的芯片合作伙伴和 OEM 廠商能夠:將這些實現作為靈活的構建模塊,以便專注于 CPU 和 GPU 集群層面的差異化設計;實現卓越的頻率和 PPA;在向新 3nm 工藝節點過渡時,助力確保芯片一次流片成功。
3、全棧軟件已就緒
為充分釋放 Lumex CSS性能潛力,幫助客戶在硅片發貨前,實現從固件到應用程序的所有層的頂級性能,Arm 推出了全新系列的軟件與工具,助力開發者即刻著手原型設計、構建 AI 工作負載,以及利用 Lumex CSS 平臺的完整 AI 功能。
這些軟件與工具包括:完整的 Android 16 就緒軟件棧,涵蓋可信固件至應用程序層;完整且免費的啟用 SME2 的 KleidiAI 軟件庫;全新的自頂向下的遙測解決方案,用于分析應用性能、識別瓶頸并優化算法。
Arm KleidiAI 于 2024 年推出,旨在為Arm CPU 上運行的 AI 推理工作負載提供軟件性能優化,開發者無需進行任何額外的工作,目前該軟件庫已應用于移動端、云和數據中心等關鍵領域,包括 KleidiAI 已被集成到 ExecuTorch、Llama.cpp、MediaPipe、PyTorch、LightRT等幾乎所有主流AI框架的新版本中,開發者只需開始構建應用程序,即可在基于 Arm 架構的平臺上自動獲取性能的顯著提升。

因此,當基于 Lumex 的設備在未來數月上市時,應用程序即刻就能在其 AI 工作負載上實現性能和效率提升。
在圖形處理方面,隨著未來的安卓版本將支持 RenderDoc,以及通過 Lumex 提供 Vulkan計數器、Streamline 和 Perfetto 等統一可觀測性工具,開發者能夠實時分析工作負載、調優延遲,并精確平衡電池續航與視覺效果。
小結:
Arm全新推出的 C1 CPU 集群提供了高性能、高能效、高可擴展性的內核IP選擇,并且憑借對于SME2的支持,極大地提升了CPU的AI性能,為未來端側 AI 的發展奠定了堅實的基礎。

全新的Mali G1-Ultra 則重新定義了移動 GPU 的性能,在光線追蹤性能提升的同時,在架構效率和AI加速性能上也迎來了突破性進展,有望為新一代移動終端的游戲體驗和AI應用帶來更出色的體驗。
基于全新IP的Arm Lumex CSS 平臺則為客戶帶來了更為完整的CPU/GPU集群解決方案和軟件棧,以及基于3nm節點的物理版圖,這在當前眾多科技大廠紛紛自研芯片的熱潮下,將有助于他們大幅降低在CPU/GPU集群研發上的投入,可以更專注地投入到自己核心的需求研發上,提升芯片一次流片成功率,加速產品的推出周期。
不過,Arm高管在采訪環節也明確指出,目前Arm的 CSS 平臺只是專注于其擅長的CPU、GPU IP和集群解決方案,可以為客戶提供參考設計和物理實現,并不意味著Arm利用Lumex CSS平臺就可以為客戶定制完整的SoC解決方案,客戶也并不能利用Lumex CSS平臺就能夠直接交由晶圓代工廠生產自己的芯片,因為SoC并不只有CPU/GPU就能夠運行,這并不是一個完整的SoC解決方案,客戶仍然需要在Lumex CSS平臺基礎上加入一系列自己的IP或第三方IP來打造一個完整的SoC解決方案,比如接口IP、NPU IP、基帶IP等等。
值得一提的是,以往Arm在發布全新的CPU/GPU IP時都會透露相關產品的大致上市時間,也會有相關芯片廠商宣布將會率先采用,但是在這次的發布會上卻并沒有,只有vivo這家手機廠商高管有上臺發言。
不過,猜測聯發科即將發布的天璣9500有可能會采用Arm全新的C1 CPU集群及G1-Ultra GPU,但是可能并不會采用Lumex CSS平臺來進行設計。
畢竟之前聯發科天璣9400被說是基于Arm面向客戶端的CSS設計時,聯發科還曾公開辟謠。
本文鏈接:http://m.yifxia.cn/showinfo-22-181455-0.htmlArm發布全新C1 CPU與G1-Ultra GPU:Armv9.3指令集、新一代光追
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com