当前位置: 首页 » 行业资讯 » 机器人»AI芯片之争白热化的当下,如何设计一款真正适用于终端的AI芯片?
   

AI芯片之争白热化的当下,如何设计一款真正适用于终端的AI芯片?

 46.1K
     [点击复制]
放大字体  缩小字体 发布日期:2018-04-08   浏览次数:767
核心提示:  2017年,人工智能最火的风口必定是AI芯片。  AI芯片的涌现,与深度进修技巧的成熟及运用密弗成分。深度进修的进程可以简化懂得为应用年夜量标注的数据停止练习,练习出一个卓有成效的模子,再将这一模子应用于

  2017年,人工智能最火的风口必定是AI芯片。

  AI芯片的涌现,与深度进修技巧的成熟及运用密弗成分。深度进修的进程可以简化懂得为应用年夜量标注的数据停止练习,练习出一个卓有成效的模子,再将这一模子应用于新数据的揣摸。

  这个耳熟能详的爆款算法是树立在多层年夜范围神经收集之上的,后者实质上是包括了矩阵乘积和卷积操作的年夜运算量函数。常常须要先界说一个包括回归成绩的方差、分类时的穿插熵的价值函数,再数据分批传递进收集,依据参数求导出价值函数值,从而更新全部收集模子。这平日意味着至多几百万次的相乘处置,盘算量伟大。浅显来讲,包括了数百万次A*B+C的盘算,算力消费伟大。

  为处理这一成绩,AI芯片应运而生。2017年开端,环绕AI芯片,半导体行业,战事进级,赛场上新老玩家暗流涌动,连横合众,年夜有“AI芯片太多,装备都不敷用了”之势。

  时光进入2018年,备受存眷的年夜小公司都将正式推出自研AI芯片。这些芯片也都被业界寄与厚望,能否能处理或许部门处理终端盘算困难?甚么样的芯片能力够真正顺应终端智能的需求?

  这些都是我们非常猎奇且存眷的成绩。因而也与一些创业者停止了交换。本文等于个中的一篇,来自于与探境科技CEO鲁勇的访谈。今朝探境科技正研发实用于终真个AI芯片,在创业前鲁勇曾在芯片厂商Marvell任高管,从事过存储芯片的相干任务,而存储恰是盘算以外一切芯片另外一焦点。基于过往的阅历、经历与不雅察,鲁勇以为,做实用于终真个AI芯片,除要在盘算方面晋升,存储优化异样相当主要。

  以下为注释,来自36氪对鲁勇的访谈内容,36氪基于访谈内容对其不雅点停止了整顿。

  一

  AI算法在芯片完成时碰到的焦点成绩不是盘算资本而是存储成绩,强如GPU供给浩瀚的盘算资本,而现实盘算才能与盘算资本年夜为下降。

  归纳综合来讲,存储成绩分为两个部门,一个是带宽成绩,一个是功耗成绩,这两个成绩的处理其实也是耦合在一路的。

  详细来讲,深度进修算法应用年夜量存储资本,即包含静态模子参数,也包含收集层之间的静态数据。关于静态模子参数权重,动辄几十兆上百兆样本数目,没法在片上SRAM保留,是以须要存入内部DRAM。DRAM与AI盘算芯片间带宽无限,假如芯片上盘算资本很年夜,但受存储带宽的瓶颈限制,现实盘算力年夜为降低。

  打比喻来讲,担任存储的DRAM和与担任盘算的芯片就像是位于河两岸的仓库,全部运算的进程可以类比从存储的仓库搬取数据、搬运过桥,将数据搬入盘算的单位停止处置,并高速轮回来去。而以后的AI芯片技巧重点晋升将数据搬入盘算单位后的处置速度,但由于搬出数据、过桥的进程根本未发送变更,是以全体的效力晋升还绝对无限。

  与之对应的办法等于战胜存储带宽的手腕:一是削减数据量,下降所需数据带宽,就是说想方法只需从仓库搬出大批数据,便可以到达异样的后果;二是更迷信的调剂数据应用,晋升调剂的效力。

  (1)削减数据容量

  假如数据量下降了,这将整体上削减对DRAM的拜访,在DRAM物理带宽坚持不变的条件下,下降了DRAM的依附性,进步了全体机能,同时削减DRAM拜访也将年夜幅削减体系功耗开支。是以起首须要处理的成绩是削减静态参数权重的年夜小。平日的处理方法包含参数定点化,将每一个32bit浮点数削减为16bit以下的定点数,至多能下降50%乃至75%的存储容量,也异样幅度的下降了存储带宽的需求。理论证实16bit定点化可以采取线性量化的方法,而16bit以下定点化依据模子的分歧,有些须要采取非线性量化才可以到达保持模子机能的目标。

  今朝重要有模子剪枝、设计适于终端装备的简化收集两种完成方法。模子剪枝作为进一步下降模子容量和存储带宽的方法,是基于神经收集模子存在年夜量冗余信息的基本,而另外一种从泉源开端从新设计适于终端装备的简化收集的方法也在逐步鼓起,从异样范围的收集机能来看,新设计的收集能够比旧收集经由过程剪枝再练习的方法更加简略快捷,机能也更好。

  (2)更迷信的调剂数据应用

  深度进修的盘算年夜量应用乘累加,即完成AXB+C的任务,这类乘累加单位(MAC)每次运算须要三个输出,完成一个输入。介入运算的数据包含事前预备好的权重参数和收集层发生的中央数据。每一个乘累加完成后的输入平日也会作为下一次运算的输出,是以若何调剂这些数据成为症结。

  功耗角度来讲,从DRAM获得数据所消费的功耗最年夜,从SRAM中获得数据其次,从当地存放器中获得数据消费功耗最低,但从本钱角度斟酌恰好相反,是以这三个分歧条理的存储器的应用异常症结,我们愿望尽量削减DRAM的拜访,最幻想的成果是仅从DRAM中读取一次事前存好的模子参数,而不依附DRAM做任何其他任务。

  从微观上看,全部深度进修运算盘算一次,进入MAC的总数据量弘远于静态数据的容量,由于不管是模子参数照样中央数据都屡次被反复应用,是以现实所需的数据带宽异常年夜,而且当一切这些数据都仅经由过程DRAM被缓存应用时,其功耗开支也是惊人的,是以充足应用各级缓存的特征异常主要,设计一个公道的数据流,将屡次被反复应用的数据放在离盘算资本较近的处所,大批读取的数据放在DRAM中,将进步盘算机能,下降体系功耗。

  二

  那末成绩来了,若何能力设计一款真正实用于终真个AI芯片。

  简略的设计一个卷积加快器其实不能带来深度进修盘算机能上的进步,及格的盘算架构须要联合对存储成绩的剖析来设计,不只要斟酌盘算架构,也要斟酌存储的数据流掌握,是以深度进修的盘算特色并不是是一个简略粗鲁的并行盘算成绩。

  起首照样要斟酌浮点和定点盘算的成绩,8 位的整数乘法比IEEE 754尺度下16位浮点乘法下降 6 倍的能耗,占用的芯单方面积也少 6 倍;而整数加法的差别是13倍的能耗与38倍的面积,是以终端AI芯片采取定点盘算将取得伟大收益。当定点成为设计目的的时刻,要充足斟酌软硬件的联合,分歧收集对定点位数的影响水平是纷歧样的,数据量化的详细方法也有差别,有线性量化也有非线性量化的办法,是以针对运用场景联合软件协同设计异常有需要。

  其次深度进修不是简略粗鲁的并行盘算但依然有显著的并行盘算特点,是以斟酌存储成绩后放入更多的盘算资本会年夜幅进步盘算机能。起首将最多被反复应用的数据放在接近盘算资本的处所,这相符较为风行的In Memory Computing(存储盘算一体化)的思惟,而且斟酌到以后工业程度,这更加现实,而经由过程从新设计包含盘算单位的存储单位或采取ReRAM等方法是将来的 成长偏向。

  第三要斟酌到深度进修数据的另外一主要特征,即数据稀少化特征,也就是说在介入运算的数据中有年夜量的零值数据存在,这些零值数据便可以在存储中被紧缩寄存,下降存储容量和带宽需求,也能够在盘算中被进一步骤度,削减运算压力,进步运算的有用机能。这些零值数据不只存在于模子参数中,也年夜量存在于神经收集各层运算的中央数据中,这两方面都须要停止斟酌。稀少数据在多焦点并行盘算中的调剂是个庞杂的成绩,而分歧收集构造也会带来分歧的影响,是以将软硬件协同设计,静态调剂的调剂器长短常庞杂的设计难点。

  最初要斟酌针对分歧收集的资本有用应用率成绩,因为神经收集差别化较年夜,假如愿望针对分歧收集都有较高的资本有用应用率,则须要在较细的颗粒度长进行优化,进一步加深了数据流调剂器的庞杂度。

只要你关注机器人,你就无法错过睿慕课

 
 
 
[ 行业资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]