美章網(wǎng) 資料文庫 可重構(gòu)電路圖編譯器設(shè)計(jì)分析范文

    可重構(gòu)電路圖編譯器設(shè)計(jì)分析范文

    本站小編為你精心準(zhǔn)備了可重構(gòu)電路圖編譯器設(shè)計(jì)分析參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

    可重構(gòu)電路圖編譯器設(shè)計(jì)分析

    【摘要】本文基于AI領(lǐng)域面向終端應(yīng)用中使用非常廣泛的CNN推理算法,以FPGA可重構(gòu)電路芯片為硬件載體,設(shè)計(jì)一款可重構(gòu)電路的圖編譯器,用來實(shí)現(xiàn)特定CNN網(wǎng)絡(luò)定制加速的功能,最大化的提高硬件電路利用效率。

    目前硬件加速器中,分為如下幾大派別:(1)采用NVIDIA公司的云產(chǎn)品,但是功耗太高,延遲很大,在端側(cè)無法應(yīng)用。(2)采用AI芯片,苦于算法還在不斷更新中,流片成本和風(fēng)險(xiǎn)高。(3)采用可重構(gòu)電路結(jié)構(gòu),那就是FPGA芯片作為加速電路,F(xiàn)PGA加速電路本身具有一定的重構(gòu)能力,但是面對(duì)眾多類型的神經(jīng)網(wǎng)絡(luò),最常用的屬于CNN卷積神經(jīng)網(wǎng)絡(luò),因此我們把目光投向了CNN神經(jīng)網(wǎng)絡(luò)的推理加速任務(wù)上。考慮到CNN推理加速網(wǎng)絡(luò),模型也繁多,如果做到既能考慮FPGA芯片的靈活性,又能準(zhǔn)確適配各種神經(jīng)網(wǎng)絡(luò),面對(duì)這種需求和難點(diǎn),本文提出了一種電路可重構(gòu)的圖編譯器架構(gòu),對(duì)CNN神經(jīng)網(wǎng)絡(luò)進(jìn)行適配和優(yōu)化,然后生成一組配置CNN加速器的參數(shù)接口,方便調(diào)度CNN加速器進(jìn)行離線推理加速。

    1CNN推理算法原理

    CNN推理算法大部分是大量的密集乘加計(jì)算,該算法包括計(jì)算量最密集的卷積層、Relu激活層,池化層以及全連接層等信息。這里定義不同類別的層,命名為算子。面對(duì)大量的算子,每層算子中參數(shù)不一致等情況,國內(nèi)外頂尖公司提出了TensorFlow、Caffe,Torch等深度學(xué)習(xí)平臺(tái),將深度學(xué)習(xí)網(wǎng)絡(luò)層進(jìn)行抽象和封裝,方便研發(fā)人員使用平臺(tái),將權(quán)重信息,配置文件以及輸入圖像FeatureMaps信息導(dǎo)入到平臺(tái)后,即可進(jìn)行大面積計(jì)算,這種方式適合GPU、CPU等平臺(tái)芯片產(chǎn)品,對(duì)于FPGA芯片來說,直接移植平臺(tái)架構(gòu)會(huì)導(dǎo)致FPGA芯片利用率偏低,因此本文提出了電路可重構(gòu)圖編譯器CRGC,目的在于將CNN網(wǎng)絡(luò)層數(shù)進(jìn)行抽象化、網(wǎng)絡(luò)優(yōu)化、數(shù)據(jù)量化、寄存器指令流生成等方式,最后得到能方便做FPGA加速的參數(shù)堆。一種可重構(gòu)電路圖編譯器設(shè)計(jì)文/邱超1馮肖雄2本文基于AI領(lǐng)域面向終端應(yīng)用中使用非常廣泛的CNN推理算法,以FPGA可重構(gòu)電路芯片為硬件載體,設(shè)計(jì)一款可重構(gòu)電路的圖編譯器,用來實(shí)現(xiàn)特定CNN網(wǎng)絡(luò)定制加速的功能,最大化的提高硬件電路利用效率。摘要除了配置FPGA對(duì)CNN網(wǎng)絡(luò)加速的參數(shù)外,還要配置FPGA電路可重構(gòu)的參數(shù)信息,這樣能夠最大性能挖掘FPGA天然的電路可重構(gòu)特性,接下來會(huì)重點(diǎn)介紹。

    2電路可重構(gòu)圖編譯器實(shí)現(xiàn)結(jié)構(gòu)

    2.1工作流程

    電路可重構(gòu)圖編譯器的重點(diǎn)在于,不僅需要配置CNN每層網(wǎng)絡(luò)信息,內(nèi)存分配信息,定點(diǎn)化信息等參數(shù)數(shù)據(jù)。更為關(guān)鍵的是還提供了針對(duì)CNN加速器硬件ZCNNA的電路重構(gòu)指令。接下來參考圖1的流程,重點(diǎn)介紹圖編譯器的工作流程。當(dāng)外部權(quán)重?cái)?shù)據(jù)、FeatureMap數(shù)據(jù)輸入到圖編譯器時(shí),首先需要經(jīng)過參數(shù)解析模塊,將參數(shù)、權(quán)重信息進(jìn)行抓取,解析來進(jìn)行網(wǎng)絡(luò)層優(yōu)化工作,具體優(yōu)化方法后文會(huì)介紹。網(wǎng)絡(luò)優(yōu)化結(jié)束后,進(jìn)行網(wǎng)絡(luò)參數(shù)的定點(diǎn)化,主要包括權(quán)重和FeatureMap兩類信息。接下來是寄存器配置流生成模塊,這部分包括網(wǎng)絡(luò)參數(shù)信息和可重構(gòu)電路信息參數(shù),可重構(gòu)電路信息參數(shù)有,卷積核的KernelSize層信息,是否有Pooling層信息,是否有FC全連接層信息等模塊,F(xiàn)PGA會(huì)根據(jù)生成的配置信息,針對(duì)特定的網(wǎng)絡(luò),生成不同的電路結(jié)構(gòu),進(jìn)而最大化提升電路工作效率,并且達(dá)到降低功耗的目的。

    2.2網(wǎng)絡(luò)優(yōu)化

    CNN加速器平臺(tái)中,優(yōu)化的任務(wù)分成前端軟件優(yōu)化和后端電路優(yōu)化兩種,本節(jié)介紹軟件優(yōu)化的方法。一般Conv卷積層后面的Relu層、Norm層等信息,可以通過合并的方法,直接合成Conv層,通過這種方式再網(wǎng)絡(luò)送給硬件加速器FPGA之前,達(dá)到了預(yù)處理加速的效果,從源頭上節(jié)省了計(jì)算量和帶寬開銷。

    3結(jié)論

    本文提出了基于電路可重構(gòu)方式的圖編譯器框架,與GPU、ASIC、CPU等實(shí)現(xiàn)CNN的硬件加速相比,充分發(fā)揮了FPGA電路可重構(gòu)的技術(shù)優(yōu)勢(shì),針對(duì)特定網(wǎng)絡(luò)生成定制化電路結(jié)構(gòu),峰值算力得到了很大提升,功耗也得到了有效降低,是一種非常高效的技術(shù)手段。

    作者:邱超 馮肖雄 單位:中興通訊股份有限公司技術(shù)規(guī)劃部

    主站蜘蛛池模板: 日韩精品一区二区三区四区| 福利视频一区二区牛牛| 日韩人妻无码一区二区三区| 国模无码视频一区二区三区| 夜精品a一区二区三区| 国产精品成人一区二区三区| 免费无码一区二区三区蜜桃| 久久99国产精一区二区三区| 人妻aⅴ无码一区二区三区| 亚洲韩国精品无码一区二区三区| 一区二区视频在线| 日韩视频免费一区二区三区| 国产A∨国片精品一区二区 | 日韩一区二区三区免费体验| 国产一区麻豆剧传媒果冻精品| 亚洲AV福利天堂一区二区三| 国产伦精品一区二区| 人妻体内射精一区二区三区| 日韩一区二区免费视频| 少妇无码一区二区三区免费| 立川理惠在线播放一区| 国产成人亚洲综合一区| 亚洲av高清在线观看一区二区| 51视频国产精品一区二区| 久久国产视频一区| 久久一区二区三区99| 一区二区三区免费电影| 人妻视频一区二区三区免费| 国产裸体歌舞一区二区| 国产精品毛片一区二区| 无码日韩AV一区二区三区| 人妻互换精品一区二区| 亚洲Av无码国产一区二区| 精品一区二区三区无码免费视频 | 天天视频一区二区三区| 国产丝袜无码一区二区视频| 美日韩一区二区三区| 精品一区二区三区在线观看l| 精品无码AV一区二区三区不卡 | 国产91一区二区在线播放不卡| 乱色熟女综合一区二区三区|