7月8日,嘉楠科技正式發布AI芯片勘智K510。該芯片定位于中高端邊緣推理市場,搭載自主研發IP核的升級版本KPU2.0,采用獨創計算數據流與復用方式,在算力提升3倍的同時降低芯片功耗。K510集成新一代圖像處理單元,搭載3D ISP,支持TOF深度攝像頭,以及2D/3D降噪、WDR寬動態、魚眼矯正和硬件3A等功能。在應用方面,K510支持高清視頻會議、高清航拍和機器人等邊緣側場景。
K510在總線架構、IP核心與視頻子系統推出全新設計,相比一代芯片算力提升3倍,經典視覺算法大幅度優化,自研高速PHY接口理論帶寬10GB/s,8位數據壓縮率50%以上,極大優化了勘智AI系列在機器視覺場景的應用性能。
采用NoC總線架構解決單一時鐘與分區能耗
總線結構是一款SoC的主要特征。為了解決SoC總線地址空間有限以及芯片受單一時鐘的影響,嘉楠科技在NoC總線架構中設計了可擴展的地址空間,使每個IP核工作在特定的時鐘域。
根據相關性,K510將系統時鐘結構劃分成多個時鐘域,從而解決分狀態時鐘控制問題。把整個系統劃分成多個可支持上下電操作的電源域,從而解決了分區域控制能耗問題。
在ISA方面,K510沿用RISC-V雙核64位CPU架構,并集成了數字信號處理器DSP來輔助加速AI應用。不同的是,嘉楠科技為DSP設計了專用的片上存儲,并且在雙核CPU與DSP之間加入mailbox通信模塊,以實現對系統各部分的靈活調度。
KPU2.0:獨創計算數據流技術突破存儲與性能瓶頸
作為K510性能優化的“重頭戲”,其自主研發IP核KPU2.0融合了嘉楠科技在算法、軟硬件和編譯器的最新設計,集中突破AI芯片設計中廣泛存在的“存儲墻”和“性能墻”的問題。
首先是“存儲墻”,計算過程需要把數據從存儲器搬運到處理器才能進行運算。而存儲器的吞吐性能往往滯后于處理器的性能增長,直接影響了計算效率的提升。嘉楠科技在KPU2.0中采用了全局本地緩存設計,通過SRAM陣列滿足神經網絡中不同層級對內部訪問帶寬和存儲的需求。
其次是“性能墻”,為了提升計算效率,KPU2.0采用了動態3D PE陣列。第三個維度支持多種方式共享傳遞數據,并實現多個維度上的計算映射,提高PE陣列的利用率。同時也可以動態開啟或關閉每一個2D陣列,并根據不同層級對帶寬和計算資源的需求進行調整。
結合動態3D PE計算陣列和靈活的全局本地訪存設計,嘉楠科技提出獨創的計算數據流,計算卷積不需要進行im2col(image to column)數據重排,提升計算效率;而通過多級存儲設計,K510可以增加卷積計算的數據復用,從而減少數據的讀取次數,降低芯片功耗。
同時,KPU2.0還搭載了可重構的SIMD加速單元,通過創新的meshnet網絡可以靈活配置支持各種激活函數、pooling和resize等算子。
自研高速PHY接口 理論最大帶寬10GB/s
K510搭載的高速PHY接口由嘉楠科技自主研發。LPDDR4 支持32位雙通道,最高頻率2700MHz,理論最大帶寬10GB/s。MIPI D-PHY spec v1.2, 支持4通道輸入,每通道峰值速率達2.5Gbps。
外設升級 視覺能力大幅提升
與第一代芯片相比,K510在幀率和外設方面都有大幅優化。每T算力幀率達到業內領先水平。此外,K510還支持浮點 BF16 計算,在不適合進行模型量化的場景相比同類產品更具優勢。
在外設方面,K510搭載MIPI CSI2和DVP接口,可同時支持最多3個攝像頭輸入。MIPI CSI接口支持1×4 lane和2×2 lane模式,靈活支持各種MIPI攝像頭。K510 MIPI 支持DPHY v1.2標準,最高速率每lane 可達2.5Gbps,支持RAW, RGB, YUV等各種流行格式。
K510內部還集成了3個圖像處理單元ISP, 其中一個ISP支持3D 功能,無需軟件參與,直接依靠硬件完成深度數據的提取加工,相比軟件處理深度信息方式不但節省了巨大的CPU開銷,性能上也會有很大提升。
算法量化壓縮降低帶寬成本
為進一步提高芯片對算法模型的適配,嘉楠科技在K510的編譯器和軟件上聯合優化帶寬需求,對算法進行量化壓縮。
K510在設計上針對中間層數據和權重的分布特性采用不同的壓縮算法。針對中間層計算數據,利用相鄰數據的相關性進行無損壓縮,即便8位數據的平均壓縮率也能達到50%以上,并且基本不損失精度;對權重數據則采用稀疏壓縮,在網絡進行稀疏訓練的情況下,壓縮率也可以到50%以上。
在軟件方面,K510支持豐富的網絡模型算子,包括常見的CNN、RNN和各類向量計算和數據處理操作。支持裸機、嵌入式RTOS和Linux,并且移植了 OpenCV Python Numpy。同時,K510支持TensorFlow、PyTorch、ONNX和TVM等主流深度學習框架,兼容性更強。
支持高清航拍、機器人等場景
得益于架構優化和高清MIPI的強大配置,K510支持2~3路2K顯示和VPU圖像拼接,以及業內最前沿的TOF VSLAM視覺導航技術,快速實現對障礙物的測距和避障,可用于無人機航拍、高清視頻會議和機器人等多個場景。