_ConchNest🐚

加载中...

JSSC 2023.2 Design and Implementation of a Hybrid, ADC/DAC-Free, Input-Sparsity-Aware, Precision Reconfigurable RRAM Processing-in-Memory Chip

JSSC 2023.2 Design and Implementation of a Hybrid, ADC/DAC-Free, Input-Sparsity-Aware, Precision Reconfigurable RRAM Processing-in-Memory Chip

发表于2023-12-25 | 芯片设计

探索bit级别sparsity的存内计算核——JSSC2023.1 该篇文章由电子科大与北大联合发表。摘要截图如下：这个加速器的工作原理是bit-serial的存内计算（CIM）架构，将input activation中同一个bit-level的36个bit接在CIM模块的字线（WL）上，接下来每一个clock cycle激活一条WL。如果当前的WL为1，位线（BL）上读出RRAM中存储的weight bit。在每一条BL的下方用一个counter记录BL输出脉冲的个数。BL输出一个脉冲，代表当前input activation与weight的bit相乘等于”1”。而下面的counter就用于这些”1”的累加，最后通过shifter移位器左移相应的bit level即可。尽管这种架构能够节省ADC/DAC的面积和功耗，但也带来了计算密度低的缺点，它的macro大小为36$\times$128，平均一个clock cycle只能计算128个1bit乘法。根据该文章后边的数据，在22nm工艺下这样的cell大小为443.8$\mu m^2$。对于100MHz的工作频率而言，一个macr ...

LLM量化工具包

LLM量化工具包

发表于2023-12-21 | 加速算法

LLM量化工具包今天用一天时间整理一下当前对大型语言模型（LLM）各个主流量化方法的思路，看看能不能得到启发。 [1] I-BERT [ICML 2021]I-BERT应该是将INT型量化引入Transformer模型的开山之作。其目的主要是为了去除浮点数逻辑的巨大开销，原文中提到：除了完成了各个Non-linear Function （GeLU, Softmax，LayerNorm）的量化外。I-BERT实现了所有矩阵运算都量化至8bit，听起来似乎十分激进，但根据实验，它在RoBERTa-Base/Large上的GLUE分数比浮点模型还要分别高0.3和0.5。 [2] ZeroQuant [NIPS 2022]ZeroQuant介绍了一种训练后量化：Post Training Quantization (PTQ) 的方法。之所以不采用以往的量化感知训练: quantization aware training（QAT）的方法，是因为对于LLM而言，受限于发布者的保护性策略，往往无法获得其训练集。它采用了以下方法： group-wise quantization for weigh ...

版图设计中的一些小tips

版图设计中的一些小tips

发表于2022-10-09

版图设计中的一些小tipsVia enclosure应该怎么画以TSMC 28nm HPCPLUS为例：常见的DRC报错为Mx.EN.2Mx.EN.3Mx.EN.14__Mx.EN.15: 相关的DRC rule列出如下：Mx.EN.2： Enclosure of square VIAx-1 [at least two opposite sides] N $\geq$ 0.03Mx.EN.3： Enclosure of VIAx-1 [all sides] P $\geq$ 0.02Mx.EN.14： Enclosure of square VIAx-1 M $\geq$ 0.01Mx.EN.15： Enclosure of square VIAx-1 [at least two opposite sides] N $\geq$ 0.025 cell无法复制的问题一般是版图中包含markers导致复制不成功，删除掉marker即可。 VIVA Graph测量pulse width快捷键A: 添加sample点D: 测量差距 s ...

数据库加载中