加载中...
评测multi-modal task的benchmark
评测multi-modal task的dataset与benchmarkLLaVA images与ALLaVaLLaVA全称为Large Language and Vision Assistant。LLaVa images包含595K张image-text对。ALLaVa进一步使用高质量的训练数据(high-quality training data)可以在一个轻量化的模型上实现与大型vision-language model(LVLM)近似的表现。他们主要作为LVLM的pretrain训练数据。 MathVista其全称为Mathematical reasoning benchmark in Visual contexts,其在2024年的ICLR上提出。其目标主要是用于检验multi-modal模型的数学推理能力。其包含6141个样本。 表现最好的模型是GPT-4V,取得了49.9%的平均精度,而人类测试者取得的成绩是65%。 文中列出了数学推理能力对于模型的重要意义,其目标是满足解决教学中的问题、对统计数据进行有逻辑地整理甚至辅助科研等等的需求。 它集中解决5类问题: Figu ...
Scatter&gather数字计算核的设计
Scatter&gather数字计算核的设计ISSCC2024 20.8 SpaceMate的内存管理单元设计 Space-Mate面向的是neural radiance fields(NeRF)-based dense simultaneous localization and mapping(SLAM)算法 由于其采用了Sparse Mixture-of-Experts的算法,每次inference只调用神经网络中的一小部分神经元(被称为expert)。计算核需要根据一个decision map(DMAP)来选择哪些experts参于计算。其计算核被称为Expert decision SIMD unit,简称为EDSU。
帝3——西班牙与阿兹特克,印加帝国流程
西班牙与阿兹特克流程殖民rush一卡三农,二卡资本主义,15农塔金上本。上本期间起市场。二农前置,起一个前置兵营。 殖民时代,哨站前置。一卡700木,二卡长矛兵。兵营持续刷火枪,三卡兰朵武士。6分30秒冲家。 西班牙收复失地运动piro流侦察兵上三本送4轻骑兵,发教堂卡,然后1000木教堂研究御用长戟兵。 注:防守piro就得殖民时代去烧对手的房子,然后烧教堂 经典FF流程时代1造交易站,然后伐木起房子,一卡发三农,二卡发资本主义。15农塔金上本,时间大概在3分钟左右。上本期间伐木修市场,研究一级打猎与采金科技,并进一步研究二级打猎。二本一卡发700金。所有农民吃肉。随后二卡发700木,可以选择起双兵营或者一兵营一马厩。留200木升级老练兰朵武士。5分40秒左右开始升级。三本选择侦察兵或者守卫官上本。 七分30秒左右完成升级。一卡发西班牙大黄金。之后就开始进行枪骑兵剑盾二炮兵卡连发! 阿兹特克吃海打法早期把酋长和战斗祭祀一起拉出去打宝藏。一卡3农,同时3农吃肉,其余农民伐木。 起一个码头后,转换为3农伐木,其余吃肉。码头持续出渔船,20农上本。上本时间大约为3分40秒左右,4分10秒左 ...
DSLogic逻辑分析仪开箱及使用体验
用Butterfly Factorization来加速Transformer运算
用Butterfly Factorization来加速Transformer运算主要参考论文: Pixelated Butterfly: Simple and Efficient Sparse Training for Neural Network Models Learning Fast Algorithms for Linear Transforms Using Butterfly Factorizations 算法原理以及具体的数据流是怎样的?算法原理在代码上是如何实现的?是否可以将该算法用于所有的矩阵乘法运算?如果所有的weight都可以用以下两种公式表示,那么activation将怎样和它们进行相乘? Flat block butterfly与Low-rank两个矩阵各自占多少的计算量? 从这句话可以看到,计算量在二者之间的分配似乎是主观选取的? 该算法的局限性在哪里?该算法使用一个cost model来评测运算的开销。由于memory coalescing(访问一个单独的memory cell在开销上相当于访问了一整块的memory)的问题,所以一个sparse矩阵中non ...
Ayaka——对attention sparsity进行低秩估计
Ayaka——对attention-sparsity进行低方根估计文章名称为:Ayaka: A Versatile Transformer Accelerator With Low-Rank Estimation and Heterogeneous Dataflow 这是清华大学团队与2024年发表在JSSC上的文章。包含以下两个feature:低秩估计:通过低秩近似技术,在保证模型精度的同时,减少Transformer模型的参数数量和计算复杂度。异构数据流:设计了一种灵活的异构数据流架构,能够高效地处理Transformer模型中的不同计算任务,提高硬件资源的利用率。 提到了对FFN的优化 测试的数据集采用了long-range arena,它包含从1K-16K token length的各个任务用来测试efficient Transformer算法在长文本下的性能。
参会2024——Frontiers of AI Accelerators: Technologies, Circuits and Applications IV
参会2024——Frontiers of AI Accelerators: Technologies, Circuits and Applications IVOpening RemarksProf. Tim Cheng 是ACCESS(AI Chip Center for Emerging Smart Systems)实验室的Center Director,同时担任香港科技大学副校长。 Can we automate accelerator design with deep learning —— Prof. Jason CONG (ULCA)Prof. Jason Cong 是 UCLA VAST 实验室主任,也是电子设计自动化(EDA)与定制计算领域的核心人物。重点研究从C/C++到FPGA的映射,并推动Vivado HLS的商业化应用。Jason Cong提出”让大多数软件程序员成为硬件设计师“的愿景,介绍了他团队最新的研究进展,重点放在下面三个点上: 使用图神经网络(GNN)捕捉 HLS 设计数据的图结构,进行 HLS 质量预测; 引入 迁移学习,提高模型在新应用或新架构 ...
帝3——墨西哥革命
帝3——墨西哥革命下加利福尼亚革命开局不造市场也不造贸易站,木头箱只需要捡一个,金币箱不用捡,14农上时代。一卡发公共粮食交易所,大庄园前置。上时代过程中4农伐木,为的是在上本后花250肉与木发克里奥尔人(9个西班牙火枪手)。其余农民全部打猎。城镇中心里把农民点到18个。 4分15秒左右升级完成后,军事马车变为酒馆。一卡发克里奥尔人,先去对手家里进行一波骚扰,二卡可以考虑发原住民条约。之后所有农民往前线拉,同时进行下加利福尼亚革命。所有农民变为军事冒险家,同时送三个军事马车,此时时间在6分30秒左右。 两个军事马车修建原住民交易站,之后原住民条约即可生效,送来一批土著兵。上本之后可以发行者帮派补充兵力,或是发600金。 打法2开局起一个贸易站,2分左右以10农上时代,一卡发公共粮食交易,大庄园前置。上时代期间,吃够500肉,之后所有农采金。3分30秒左右升级完成,军事马车变为酒馆。二本一卡发700木。理想情况下,4分10秒开启下加利福尼亚革命。最好三个马车全部变为贸易站。同时用200肉,200木升级贸易路线。 350肉木金 补经济的话,可以一卡发工厂,二卡发细流经济,之后酒馆保持出亡 ...
6月14日雷雨中的午餐
6月14日雷雨中的午餐(本故事采样于真实的交谈,部分文字由ChatGPT补充)夏初的中午,空气仿佛被水汽泡胀得沉重。又是台风天,窗外雷声滚滚,雨水泼天而下,像是上天在清洗整个校园。电子系的实验室窗玻璃上挂满了雨珠,屋内却闷热不堪,唯一的风来自角落那台呼哧呼哧喘着气的落地扇。 几位博士生聚在休息室,勉强挤出一点空间,各自拆着外卖盒。又是乌鸡米线,空气中弥漫着香辣酱、卤蛋、咖啡混杂的味道,像一锅由高压生活炖出来的青春。 Nomad坐在角落,夹着凉掉的煎蛋,突然说: “老莫,读博做FPGA加速方向能不能搞呢?” 话音刚落,实验室一瞬陷入短暂的沉默,只剩下外头雷雨声灌进屋子里。 坐在靠窗一侧的老莫抬起头来,他没吃饭,只是握着一杯兑了冰块的黑咖啡,像往常一样一脸疲惫,眼神却清醒。他盯了Nomad一眼,叹了口气,说: “现在读博士还搞这个?建议换导师,或者早点跑路。” 众人笑了,笑声中带着些调侃、些许认同,还有些说不清道不明的心照不宣。 Nomad并不恼,眨了眨眼,说:“支持啊,我是认真的。不仅是FPGA,整个数字IC这一套,关键点其实在软件不在硬件。核心是——能不能找到别人没开发过的坑,咱自己填 ...
帝3——英国与法国打法
帝3——法国打法土著流14农三分钟之前开始升本。升本期间9农伐木,其余吃肉。4分30秒完成升本。一卡700木,二卡原住民条约。起一个贸易战,一个兵营。此时对面可能会来压原住民交易站。 英国打法格林尼治时间FI英国开局拥有300木,起一个TP后,用两农伐木,或者打木宝攒够140木,起一个房子。一卡格林尼治时间。3分钟左右以14农塔金上本。此时因为有2TP。理想情况下4分钟左右即可完成上本。 上本后一卡700金,二卡700木。5分40秒7豪德战斧兵上三本。同时三卡发出光荣革命。700木用于起4个房子与一个教堂。同样,在7分钟之前,可以成功上三本。上本期间所有农吃肉。 三本后一卡发2炮,攒够1000肉后出苏格兰黑卫士军团。此时应在8分半左右,以8黑卫士7战斧兵和二炮挡住对手的进攻,或是压对面的家。二卡发1000金,准备升级工业时代。工业时代选择可以2鹰炮升级。 12分左右,工业时代后,一卡可选择发3火箭或者长矛绅士。 该流程时代3因为缺经济,很容易站不稳。 两房经济型殖民rush卡组: 木箱收到280木时,正好可以起两个房子,此时停止收木箱。一卡发三农,17农时塔金上本,时间约为2分40秒左 ...
帝3——论大清商业时代打法
玩大清,探索时代赶肉非常重要,直接关系到生时代的速度!一定要确保所有的猎物被打死在城镇中心下面,保证最快的吃肉效率。 需要记住的一些热键: 寻找村庄:Ctrl+E村庄放出农民:z寻找兵营:Ctrl+B领事馆:Ctrl+F 打龙骑散强国(美国,葡萄牙),一定记得带驱逐齐发,可以让大清的诸葛弩和火绳枪拥有整个游戏对龙骑倍率最高的弓散单位。 大清至少应该在3分30前农民开始敲奇观。 二本大清打俄罗斯:法领3分30秒时4农瓷塔上二本,4分55秒升级完成。 一卡发城堡与猛火油柜,同时伐250木敲一个城堡。一般而言俄罗斯5分20秒左右5哥萨克10动员兵就会冲进家。老和尚此时必须回家,此时必须依靠和尚和民兵守住这一波,保证两个城堡能够起起来。之后领事馆切英领,发300茶出英领火枪和8诸葛弩挡住俄罗斯接下来的攻势。8分钟左右堡垒出两轮蒙古军,发鸳鸯阵,然后可以开始反击! 二本大清打美国:俄领4农颐和园上本,上时代期间3农伐木。然后2农前置起村庄。上本期间领事馆切10%茶叶出口,尽快发出俄领碉堡,俄领碉堡前置,5分30秒左右七草马冲对面家,这段时间主要目的是压对面的肉区。
CIMloop——全栈式评估存内计算架构
本文开篇强调了CIM的优势,即拥有更高的density。本文试图对CIM架构进行”full stack modeling”。所谓Full stack(全栈)贯穿了器件,电路,架构,工作负载和数据流各个层面,要对CIM的design space进行建模。 其面临的挑战是:建模必须要有足够的flexibility,不仅要能够描述数据在各种结构之间的移动,举例而言:memory hierarchy中的SRAM可能会互相进行交互。甚至进一步地,其要能描述在电路层面的数据流,比如SRAM内部,数据以怎样的方式读出来进入sense amplifier,之前的建模工具要么缺少足够的flexibility,要么缺少电路层面的建模功能。 为了解决这个问题,建模工具需要描述许多不同的电路架构(比如DRAM与L3/L2/L1缓存)与电路元件(data converters, SRAM bitcells, addressing circuitry) 另一个挑战是,建模工具需要对设计的功耗有一个准确的估计。很多时候,电路的功耗是和输入数据的值有相关性(data-value-dependent),比如一个ReR ...
公告
欢迎来到我的博客,这里会定期更新有关神经网络算法与芯片设计技术相关的内容,希望你能得到收获\\\x7e ☀️### 公告