加载中...
JSSC 2023.2 Design and Implementation of a Hybrid, ADC/DAC-Free, Input-Sparsity-Aware, Precision Reconfigurable RRAM Processing-in-Memory Chip
探索bit级别sparsity的存内计算核——JSSC2023.1 该篇文章由电子科大与北大联合发表。摘要截图如下: 这个加速器的工作原理是bit-serial的存内计算(CIM)架构,将input activation中同一个bit-level的36个bit接在CIM模块的字线(WL)上,接下来每一个clock cycle激活一条WL。如果当前的WL为1,位线(BL)上读出RRAM中存储的weight bit。在每一条BL的下方用一个counter记录BL输出脉冲的个数。BL输出一个脉冲,代表当前input activation与weight的bit相乘等于”1”。而下面的counter就用于这些”1”的累加,最后通过shifter移位器左移相应的bit level即可。尽管这种架构能够节省ADC/DAC的面积和功耗,但也带来了计算密度低的缺点,它的macro大小为36$\times$128,平均一个clock cycle只能计算128个1bit乘法。根据该文章后边的数据,在22nm工艺下这样的cell大小为443.8$\mu m^2$。对于100MHz的工作频率而言,一个macr ...
LLM量化工具包
LLM量化工具包今天用一天时间整理一下当前对大型语言模型(LLM)各个主流量化方法的思路,看看能不能得到启发。 [1] I-BERT [ICML 2021]I-BERT应该是将INT型量化引入Transformer模型的开山之作。其目的主要是为了去除浮点数逻辑的巨大开销,原文中提到:除了完成了各个Non-linear Function (GeLU, Softmax,LayerNorm)的量化外。I-BERT实现了所有矩阵运算都量化至8bit,听起来似乎十分激进,但根据实验,它在RoBERTa-Base/Large上的GLUE分数比浮点模型还要分别高0.3和0.5。 [2] ZeroQuant [NIPS 2022]ZeroQuant介绍了一种训练后量化:Post Training Quantization (PTQ) 的方法。之所以不采用以往的量化感知训练: quantization aware training(QAT)的方法,是因为对于LLM而言,受限于发布者的保护性策略,往往无法获得其训练集。它采用了以下方法: group-wise quantization for weigh ...
版图设计中的一些小tips
版图设计中的一些小tipsVia enclosure应该怎么画以TSMC 28nm HPCPLUS为例:常见的DRC报错为Mx.EN.2Mx.EN.3Mx.EN.14__Mx.EN.15: 相关的DRC rule列出如下:Mx.EN.2: Enclosure of square VIAx-1 [at least two opposite sides] N $\geq$ 0.03Mx.EN.3: Enclosure of VIAx-1 [all sides] P $\geq$ 0.02Mx.EN.14: Enclosure of square VIAx-1 M $\geq$ 0.01Mx.EN.15: Enclosure of square VIAx-1 [at least two opposite sides] N $\geq$ 0.025 cell无法复制的问题一般是版图中包含markers导致复制不成功,删除掉marker即可。 VIVA Graph测量pulse width快捷键A: 添加sample点D: 测量差距 s ...
公告
欢迎来到我的博客,这里会定期更新有关神经网络算法与芯片设计技术相关的内容,希望你能得到收获\\\x7e ☀️### 公告