廣東省智能科學與技術研究院類腦計算系統研究組一直致力于類腦專用處理架構、芯片及系統的研究,近期在解決硬件資源受限的邊緣端神經網絡處理上取得了新的突破,于2023年10月2日在集成電路與系統領域Top期刊IEEE Transactions on Circuits and Systems I: Regular Papers上發表了題為“ASLog: An Area-Efficient CNN Accelerator for Per-Channel Logarithmic Post-Training Quantization”的學術文章。文章針對神經網絡算法在資源有限的物聯網邊緣設備上應用受限的問題,通過對神經網絡模型和專用硬件的協同優化,提升了邊緣端神經網絡處理的存儲和計算效率。
得益于算法的精簡優化和神經網絡專用加速器的發展,以深度學習為代表的人工智能應用正逐步從云端向終端遷移,智能計算將更加貼近數據的源頭,物聯網設備可就近提供邊緣智能服務,滿足行業數字化在敏捷連接、實時業務、數據優化、應用智能、安全與隱私保護等方面的關鍵需求。面向計算密集型和存儲密集型的神經網絡處理任務,相關專用加速器芯片的設計仍面臨著挑戰:一方面,神經網絡算法要存儲的數據量和處理的計算量遠遠大于其他常見的邊緣端應用,使得馮·諾伊曼瓶頸問題在此應用場景中愈發嚴重;另一方面,邊緣計算對硬件的成本、面積和功耗有著極為苛刻的要求,因而需在保證足夠的性能前提下,盡量減小邊緣神經網絡加速器芯片的片上存儲空間以降低芯片的面積、功耗和成本。
面向資源受限下的邊緣端神經網絡智能處理,本論文通過神經網絡模型后訓練量化(Post-Training Quantization, PTQ)算法與領域專用芯片的協同優化設計,實現了高能效、高存儲效率、低功耗的專用神經網絡加速器芯片。在算法層面,本論文設計實現了一種逐通道的后訓練對數量化算法,不依賴原始數據集,不需要重訓練或是微調操作,就能夠以<2.5%的模型準確率損失實現>8倍的模型壓縮效果,首次將后訓練對數量化的極限優化至4-bit的數據精度。在硬件層面,本論文在類脈動陣列架構基礎上,實現了在無乘法器基本運算單元、偏移修正計算單元、逐通道量化友好的數據流設計、多層級緩存結構、可重構專用計算單元陣列這五個層面上的細粒度優化。在UMC 40nm工藝下,該加速器芯片能夠達到336.3 GOPS/mm2的面積效率(Area Efficiency),12.2 TOPS/W的能量效率(Power Efficiency),以及>500 Ops/Byte的算術運算強度(Operational Intensity)。
圖1. 論文提出的后訓練對數量化算法在專用硬件加速器上的部署方案
圖2. 團隊自研的面向逐通道后訓練對數量化的神經網絡加速器芯片
廣東省智能科學與技術研究院類腦計算系統研究組徐佳唯博士為本文第一作者,研究員環宇翔博士為論文通信作者,鄭立榮和鄒卓教授為論文合著者。這項工作由智能院與復旦大學團隊共同合作完成,工作得到國家基金委、廣東省科技廳等項目的支持。
文章連接:
https://ieeexplore.ieee.org/document/10268644
微信掃一掃
關注該公眾號
公眾號