_ConchNest🐚

处理帧间残差——ISSCC2020 14.2

发表于2024-06-11 | 芯片设计

文章名与作者单位列出如下，来自清华大学刘永攀组。从名称可知，这个work主要目标是部署一个能够感知两次activation输入相似性的CNN神经网络。由于在视频处理中，相邻的两帧之间差别很小。把相邻的两帧作差，得到的feature map包含大量的sparsity (为0的值)。软件层面，控制帧重用的flow的工作模式如下：对神经网络的每一层，第一帧作为一个完整的图像进行处理，但接下来的帧仅仅处理与上一帧作差的结果，我将其称为帧间残差（difference frame）。由于帧间相似性，这个difference frame可以被量化为4b低精度矩阵与8b高精度稀疏矩阵的结合，之后可对两部分矩阵可以进行分治操作。由于ReLU操作的处理目标为原始图像，神经网络中除ReLU以外的所有操作都由difference frame作input activation。在进行ReLU之前，difference frame将会还原当前帧的原始图像（Recover frame），上图中左路的分支为当前帧的原始图像，而右路分支为前一帧。两者都进行ReLU之后，再重新生成difference frame ...

帝3——意大利阿根廷革命流

发表于2024-06-10 | 游戏

帝3——意大利阿根廷革命流视频教学参考：https://www.bilibili.com/video/BV15w4m1i7t4/ 卡组参考：小海龟oo的边境防御工事探索时代：开局用建筑师起市场，攒够木头之后加速建造。紧接着建筑师起一个房子。市场第一个科技研究大衣，之后市场卖食物研究猎犬，农民攻击力，并准备资源研究2级打猎。房子起好后建筑师去起TP。一卡发资本主义，紧接着研究一级伐木。17农升二本，理想情况下3分10秒点下升级按钮。升级选塔金（总督）。升级期间9农伐木，4农采金，其余赶肉。尽快用木头加速TP的建造，紧接着建筑师回家起一个房子与伦巴第。金子采够后造一个建筑师，采够75木升级一级采金后，7农采金，其余吃肉。商业时代：小海龟卡组4分50秒左右上本完成，塔放家里，上本后第一时间发700金，并准备造第三个建筑师。所有建筑师一起敲伦巴第。6分钟之前升级三本，选择篷车升级（主教），此时大概有19农。升本期间，建筑师敲第二个伦巴第。乐于卡组要塞时代：6分50秒左右上本完成，并且两个伦巴第也建造完成，建筑师开始敲第三个城镇中心（或者敲大教堂）。三本第一卡发4塔。第二卡发卢卡金融家 ...

DC怎样保持设计的hierarchy

发表于2024-06-08 | 技术栈

【DC】怎样保持住设计的hierarchyDesign hierarchy反应了设计的分割策略(partitioning)，良好的hierarchy不仅便于理顺数据流，有利于对边界进行时需优化，更方便了后续PR阶段对各个HInst进行布局。在读入RTL后，可以使用report_hierarchy检查当前设计的hierarchy，如图但是，如果不进行分组(grouping)，后续综合出来，DC会进行自动auto group，最终的hierarchy可能并不能像我们预想的那样。使用group命令将Digit_Sparsity_Exploiting_Engine0模块单独分组group {Digit_Sparsity_Exploiting_Engine0} -desgin_name DSEE -cell_name DSEE 再report hierarchy，可见DSEE加入到了整个设计的hierarchy中之后将ungroup属性设置为false，避免优化器进行flattenset_ungroup DSEE false 重新综合后可见DSEE并没有被flatt ...

Mamba为什么胜利

发表于2024-06-08 | 模型算法

Mamba为什么胜利 Mamba模型一出现就引起的广泛的讨论，尽管一开始论文没有被接收，很多人已经惊呼：“Transformer已死！Mamba即将取代Transformer成为新神！”，今年的6月4日，原作者推出了Mamba2，这次成功被ICML接收。抛开梗化的名称不论，从其论文展示出的性能上看确实击败了transformer。 **Mamba block的架构，论文名称：A Survey on Vision Mamba: Models, Applications and Challenges** 众所周知，当今的transformer面临的问题是attention计算量与token的数目存在平方的关系，如果序列过长的话，transformer网络将给计算系统的IO, 内存与计算单元全部上强度。动辄100天的训练时长让很多小作坊望而却步。而Mamba正是为了解决这个问题而提出的，它的类RNN的计算模式在长序列下更加的硬件友好。我们可以把mamba视为硬件和软件协同进化的产物。在2017年以前的RNN时代，我们拥有很强的硬件，但缺少能够利用好硬件平台的强大算法。RNN 递归的计算方 ...

数据和模型设计层面怎样让Transformer运行地更加高效——ACL2023

发表于2024-06-07 | 模型算法

数据和模型设计层面怎样让Transformer更加高效——ACL2023去年在ACL2023会议上发表的一篇综述性文章，系统地介绍了近年来可以应用在自然语言处理（NLP）任务中提高计算效率的方法。文章名，作者以及单位贴出如下：将这些方法整理为一个工具包，可以总结成下图：数据（data）层面：data filtering，目标是减少无效的训练样本，比如减少样本的重复性。active learning, 和data filtering不同，主动学习动态地更新训练集的样本，其流程如下：Curriculum Learning，通过改变训练集样本的顺序来提高计算效率，其并不改变训练集的大小。模型设计（Model design）层面：Compress Attention, Transforer-XL引入了循环机制和相对位置编码，使其inference比vanillar Transformer快300~1800倍。另一个案例是$ \infty $-former, 其目的是为了让系统能够hold住任意序列长度的attention。由对attention map （过Normalized Softm ...

设计本地加速器的意义

发表于2024-06-06 | 芯片设计

设计本地硬件加速器的意义最近在研究怎样针对diffusion model设计硬件加速器，这也将成为我博士工作的一部分。以diffusion model为基础的AI生成模型在很多方面惊艳了我，好似是一件极尽玄妙的高维造物。在我尝试理解diffusion model是如何从满是马赛克的噪声图创造出不输于人类画手的绝美图像的同时，发现了开展新工作的动机。 **B站上找到的由AI生成的宫崎骏画风壁纸 -- https://www.bilibili.com/video/BV1yQ4y1s71b/?spm_id_from=333.337** 我们现在熟知的AI生成模型通常需要大量的计算资源，因此它们经常被部署在云端。比如Sora和GPT4，用户需要通过网络接口才能进行访问和使用。尽管云端的AI生成模型已经具备非常强大的能力，但如果要真正刺激用户的使用需求，AI模型保密性与可定制性一定至关重要。想象一下，我们希望AI模型帮助自己自己生成博客，工作笔记甚至论文图片。但云端的模型往往同时接受成百上千的用户数据，其必然倾向于调和所用人的共同需求。如果要让它成为我们的助手，其表现往往难以获得信任。解决 ...

从残差入手——ISSCC2024中的diffusion model加速器

发表于2024-06-05 | 芯片设计

从残差入手——ISSCC2024中的diffusion model加速器设计$ \color{Green}{y = ax^2 + bx + c} $ Diffusion Model怎样生成图片这里简单叙述一下diffusion model生成图片的过程。Diffusion model出现之前，GAN一直主导着图像生成领域，直到OpenAI的问世，diffusion model才真正在图像生成领域击败了GAN。OpenAI采用了一种新的采样方法——classifier guidance，使得模型能够对输入的条件来选择生成什么样的图片。但Diffusion model的运算是非常消耗计算资源的，一台Nvidia A100生成$ 256 \times 256 $的图片需要50次迭代，一共消耗2560ms的时长与250W的功耗。发表于CPVR2023的U-ViT模型： ISSCC2024 20.2的加速器设计正巧在今年ISSCC2024，由清华大学发表的20.2设计了加速器，给我们提供了一种思路和方向。由于diffusion model生成图片是一个不断去噪的过程，每两次迭代中input ...

科学革命的结构-过去的思想与哲学

发表于2024-01-03 | 心得随笔

孔恩《科学革命的结构》读书笔记过去的思想与哲学1胡塞尔反对心理主义、历史主义，弗列格也反对那些充满历史味、心理主义的东西。近代科学哲学的发展一直是一个引人入胜的领域，埃德蒙德·胡塞尔作为现象学之父，试图为纯粹的逻辑提供基础。19世纪的哲学发展，似乎要把一切的认识活动，都归于心理活动的范畴。心理主义认为，认识论关注的是感知、信念、判断和认识的认知本性。而所有这些现象是心智现象，因此，明显地，研究和探索它们的结构是心理学的任务。同样，科学和逻辑的推理本质上也是心智的一部分，它们是从属于人的心理的。这导致逻辑学被看作是心理学的一部分。通俗来讲，好像这个世界现有了人的认知，才拥有了逻辑学。而自古以来就有不少人尝试以研究与解释个别人类历史发展（如部落史、王朝更替史）为基础去理解个别的社会与政治，认为了解历史发展的趋势便能掌握未来发展，知道什么趋势将会容易成功。在中国的文化土壤下，这样的哲学观很受到欢迎。所谓“以史为可以知兴替”，古典的儒家知识分子反复用过去的故事教育封建统治者，可以视为历史主义在中国的反复实践。但心理主义和历史主义固有的不可证伪性与自否性，让思想家们认为其缺乏一种“科学的味道” ...

SystemVerilog常见报错解决

发表于2024-01-03

SystemVerilog验证报错解决方案1.在initial块外定义全局变量，赋值时会报语法错误。其原因是在SV程序结构中，initial外的语句都要经过elaboration。等于号“=”会被默认理解为硬件描述语言，而硬件描述语言中“=”操作前需要跟assign。加入assign之后尽管不报错了，但输出结果不对。只有将其写为软件程序的格式才能保证输出成功：

RRAM的工作原理

发表于2023-12-25

RRAM的工作原理RRAM/ReRAM全称为Resistive random-access memory, 是基于忆阻器(memristor)制造的一种非易失存储模块。所谓非易失性，RRAM在掉电之后数据不会丢失。传统的SRAM架构掉电之后立即丢失所有的数据，DRAM架构甚至于在上电之后也要进行反复的刷新才能保证数据稳定。这使得非易失性内存器件在功耗上比易失性器件更低。此外，RRAM的cell能够做到特征尺寸小于10nm。并且，RRAM制作工艺能够很好的于CMOS工艺进行兼容，这使得RRAM相比其他非易失存储器更受到学界的青睐。从今年2月由电子科大和北大发表在JSSC上的RRAM存内计算加速器工作可以看出，在第五层金属上直接沉积TiN/HfO2/TaOx/TiN层，可以直接将RRAM做在MOS管上方，这样的集成是十分优雅的。典型的RRAM结构如图所示：TE(top electorde)和BE(back electorde)分别代表RRAM的上下极板，中间沉积忆阻材料。当接收到外界给与的正电压时，忆阻材料将从高电阻状态(HRS)转变为低电阻状态(LRS)。这是因为，高电压脉冲将软击穿忆阻 ...

JSSC 2023.2 Design and Implementation of a Hybrid, ADC/DAC-Free, Input-Sparsity-Aware, Precision Reconfigurable RRAM Processing-in-Memory Chip

发表于2023-12-25 | 芯片设计

探索bit级别sparsity的存内计算核——JSSC2023.1 该篇文章由电子科大与北大联合发表。摘要截图如下：这个加速器的工作原理是bit-serial的存内计算（CIM）架构，将input activation中同一个bit-level的36个bit接在CIM模块的字线（WL）上，接下来每一个clock cycle激活一条WL。如果当前的WL为1，位线（BL）上读出RRAM中存储的weight bit。在每一条BL的下方用一个counter记录BL输出脉冲的个数。BL输出一个脉冲，代表当前input activation与weight的bit相乘等于”1”。而下面的counter就用于这些”1”的累加，最后通过shifter移位器左移相应的bit level即可。尽管这种架构能够节省ADC/DAC的面积和功耗，但也带来了计算密度低的缺点，它的macro大小为36$\times$128，平均一个clock cycle只能计算128个1bit乘法。根据该文章后边的数据，在22nm工艺下这样的cell大小为443.8$\mu m^2$。对于100MHz的工作频率而言，一个macr ...

LLM量化工具包

发表于2023-12-21 | 加速算法

LLM量化工具包今天用一天时间整理一下当前对大型语言模型（LLM）各个主流量化方法的思路，看看能不能得到启发。 [1] I-BERT [ICML 2021]I-BERT应该是将INT型量化引入Transformer模型的开山之作。其目的主要是为了去除浮点数逻辑的巨大开销，原文中提到：除了完成了各个Non-linear Function （GeLU, Softmax，LayerNorm）的量化外。I-BERT实现了所有矩阵运算都量化至8bit，听起来似乎十分激进，但根据实验，它在RoBERTa-Base/Large上的GLUE分数比浮点模型还要分别高0.3和0.5。 [2] ZeroQuant [NIPS 2022]ZeroQuant介绍了一种训练后量化：Post Training Quantization (PTQ) 的方法。之所以不采用以往的量化感知训练: quantization aware training（QAT）的方法，是因为对于LLM而言，受限于发布者的保护性策略，往往无法获得其训练集。它采用了以下方法： group-wise quantization for weigh ...