加载中...
用可扩展的增强学习来部署大规模控制系统
用可扩展的增强学习来部署大规模控制系统论文标题为Efficient and scalable reinforcement learningfor large-scale network control,发表在2024年7月的Nature Machine Intelligence子刊上。作者来自北京大学。 本章首先提出了了一个概念,是如何部署一个可扩展的decision-making策略来构造一个大规模控制系统,其关键在于设计一个去中心化的决策优化策略(decentralized policy optimization network)以减少每一个agent之间的数据交互。传统的中心化学习(centralized learning)需要每一个agent都产生一个全局性的观测,然后将这些观测上传至服务器,服务器再根据观测针对每一个agent产生策略。这样做的缺陷是,算法的复杂度极其庞大,很容易就触碰到IO墙,以至于无法满足scalable的需求。所谓scalable decision-making即是将神经网络分布在边缘端,之后让这些边缘端的AI自主与外界进行交互并于其余的agent进行合 ...
CICC2022——DDPMnet 用pulse density来进行近似运算
CICC2022——DDPMnet 用pulse density来进行近似运算论文名为:DDPMnet: All-Digital Pulse Density-Based DNN Architecture with 228 Gate Equivalents/MAC Unit, 28-TOPS/W and 1.5-TOPS/mm2 in 40nm,
ISSCC2023——仅有45个参数的VAD芯片
ISSCC2023——仅有45个参数的VAD芯片标题为A 47nW Mixed-Signal Voice Activity Detector (VAD) Featuring a Non-Volatile Capacitor-ROM, a Short-Time CNN Feature Extractor and an RNN Classifier 单位为澳门大学,发表在2023年ISSCC 13.2上。 这个work在memory的内部进行运算。极大程度地降低了memory access带来的功耗。
计算机体系结构——量化研究方法笔记1
量化设计与分析基础与Memory Hierarchy体系结构的创新对微处理器性能的提升已经逐渐超过了纯粹依靠工艺节点的改进带来的性能提升。 并行度与并行体系总结数据级并行 Data-Level Parallelism(DLP)任务级并行 Task-Level Parallelism(TLP) 计算机设计的量化原理 充分利用并行系统级别并行:如提高在一个典型服务器基准测试(如SPECWeb或TPC-C)上的吞吐量性能,可以使用多个处理器或者多个磁盘。这也被称作scalability。指令级别并行:以流水线为例,基本思想就是将指令执行重叠起来。数字级别并行:组相联(Set Associative)缓存。 局域性原理分为时间局域性和空间局域性。我们可以利用这两个局域性预测代码近期会访问的资源并进行相应的优化。 重点关注Common Case计算机设计突然关注于优化常见情形。比如处理器钟指令提取以及译码器的使用可能比乘法器频繁的多。 Amdahl定律定义了加速比(speedup),可以表示为: 加速比受限于原计算机中可升级部分所占的比例。 处理器性能指标:每条指令时钟周期数 ...
Madiff代码结构梳理
对Madiff的批评Madiff的创新点确实存在一些问题,工作很大一部分依赖于Ajay于2023年ICLR上发表的论文 Is Conditional Generative Modeling all you need for Decision-Making? Madiff代码结构梳理在mad_mpe_tag_code_ctde_exp.yaml文件中定义了训练使用的各个参数。 其中variables定义了5个seed: 每个seed各自是什么含义? 实验使用的test dataset如下: MPE: multi-agent particle environments (MPE):三个智能体合作完成一个共同的任务: spread, 三个agent拥有不同的初始化位置,目标是收集地图中存在的三个landmarks Tag,三个捕食者通过合作来捕捉一个训练好的猎物,猎物跑的更快,所以需要捕食者合作来约束猎物的行进路线 World,同样是三个捕食者通过合作来捕捉一个训练好的猎物,猎物能够躲藏进地图中的森林 Multi-Agent Mujoco (MA mujoco):每个独立的agent可 ...
ISSCC2021-2024 Emerging Sensing and Computing Technologies的文章
ISSCC2021-2025 Emerging Sensing and Computing Technologies的文章ISSCC 20212021年的session 12名为Innovation in Low-Power and Secure IoT,包含3篇文章。 A 148nW General-Purpose Event-Driven Intelligent Wake-Up Chip for AIoT Devices Using Asynchronous Spike-Based Feature Extractor and Convolutional Neural Network来自北京大学黄如,叶乐团队 Stage I: always-on clock-free level-crossing ADC (LC-ADC) Stage II: time-domain instant rate of change (IROC)异步电路Spike-based Stage III: Convolutional Neural Network with power gating 使用了一个fr ...
内向思考
内向思考独处能使思维更加有条理,而这反过来可以促进逻辑分析的能力。 萨拉会记录下让自己产生情绪波动的事情,把每个事项都用彩色标注。绿色是感觉良好的,红色是感觉不好的,而紫色的则意味着她会以不同的方式进行处理。 领导者应该努力让自己头脑清晰,不仅要清楚了解所面临的挑战,也要清晰地认识自我,知道自己有哪些强项和不足。 应该警惕自我意识,这是一种外向的思维,会导致装腔作势,让我们以别人的看法来做出决定。 四周重峦雄伟,渺小的自我融入进了伟岸崇高的自然。你感到离上帝很近。我其实不是一个特别虔诚的信徒,但我感受到了一种欲望,对神祇的渴望。 “把军队送去战场之前,艾森豪威尔每次都尽力确定逻辑分析已经“谨慎准确地完成了”。 顿悟是信息、直觉和你最高价值观的碰撞。
ASIC实现一个简单数字模块的流程
ASIC实现一个简单数字模块的流程数字模块功耗分析primetime报告toggle rate的命令:1report_switching_activity -average_activity -hierarchy -based_clock $clk_name innovus后端在PR文件夹下创建以下子文件夹,并将default.view文件拷贝进来。 简单修改init_design.tcl中的部分。 pcell与pycell的区别在28nm库的technology file中有pcell与pycell两个文件夹,位置在/sec/pdk/tsmc/28n_HPCPLUS_V2103/PDK/Techfile/online/1P10M_5X2Y2R下。问题是pcell与pycell的区别是什么? 答:从高层次上讲,Pycells 是用 Python 语言编写的参数化的标准单元库,这些需要来自 Ciranova(现在是 Synopsys)的技术,并且不被 Cadence 支持。而 PCells 是用 SKILL(或面向对象的 SKILL,称为 SKILL++)编写的,并且得到 Cadence ...
扩散模型除了用于生成图片还能用在什么地方
Collaborative Computing in Multi UAV MEC Network OptimizationMulti-UAV collaborative path planing. 为什么不能用增强学习的方法?因为以下三点风险:GIoT的设备会动态地加入或者离开网络。恶劣的用户会上传低质量甚至有害的数据。甚至会发动逆模型攻击:即通过训练好的模型来提取训练数据。 MADIFF: Offline Multi-agent Learning with Diffusion ModelsMADIFF is the ffrst diffusion-based multi-agent learning framework, which behaves as both a decentralized policy and a centralized controller. 下面这句话说明了为什么diffusion model用于多智能体非监督式学习的创新点。Despite its effectiveness in single-agent learning, applying the g ...
怎样使用git mergetool
怎样使用git mergetool 当把远端的工程pull到本地上时,由于之前不小心commit过一次,导致版本出现冲突。此时git会报错,并且本地文件夹后会出现(master|MERGING)的字样。同时产生版本冲突的文件会出现以下字符: 此时,我们可以使用git mergetool来解决冲突。 工具启动后界面如下图所示: 各区域表示的意义如下:Local:本地目录下的branchBase: 本地与远端各自进行修改前保存的branchRemote: github远端目录下保存的branchMerged: 各个branch进行merge的结果 将光标移动到对应的<<<<< HEAD下面,运行下面的指令可以直接对代码进行修改。 如果要采用remote的修改::diffg RE 如果要采用base的修改::diffg BA 如果要采用base的修改::diffg LO 之后使用命令 git commit -am "fixing MERGE" git pull origin main 即可完成merging 使用scp向远端服务器传输代码s ...
Hydra库的使用
Hydra库的使用1hydra.utils.instantiate('_target_': 'torchmetrics.Accuracy') 该函数用于通过字符串来示例化一个对象。以此句话为例,其目的是为了实例化一个torchmetrics.Accuracy类。但实例化此类需要指定task参数,这个参数为’binary’, ‘multiclass’或是’multilabel’。参见下图: 直接执行该语句,效果相当于:metrics = torchmetrics.Accuracy()它将报出如下的错误: 其原因是,老版本的pytorch中的accuracy函数不需要指定task,然而新版本的由于更新,是需要格外指定一个’task’参数的。 修改后的metric初始化代码为:metrics = torchmetrics.Accuracy(task="multiclass", num_classes=1000) 修改为用hydra实例化对象的写法为: 1hydra.utils.instantiate('_target_& ...
ISSCC2024——C-Transformer怎样解决过高的片外读取问题
ISSCC2024——C-Transformer怎样解决过高的片外读取问题 大型语言模型(LLM)的过高的片外读取数目消耗了非常多的系统功耗。本文第一个采取的措施叫Big-little Network。该方法在Transformer网络上的应用详见UC Berkeley的论文 “Big Little Transformer Decoder” Transformer decoder需要模型反复从片外读入weight矩阵,以及之前生成的tokens的key与value,这导致Transformer decoder的性能被memory bottleneck限制的非常严重。该段论述详见: 下图展示了Big Little Transformer Decoder的工作流程。 Big Little Decoder包含两个不同大小的模型合作生成文本。小模型会利用fallback policy决定什么时候把workload转到大模型上去。即如果小模型预测出的下一个单词的probability小于一个阈值,那么这个单词将被大模型重新进行预测。同样,大模型会用rollback policy决定什么时候要出来 ...
公告
欢迎来到我的博客,这里会定期更新有关神经网络算法与芯片设计技术相关的内容,希望你能得到收获\\\x7e ☀️### 公告