加载中...
强化学习相关知识点梳理1
强化学习相关知识点梳理1马尔科夫链 三个重要元素: 智能体在环境中,观察到状态S。 状态S被输入到智能体,智能体经过计算,选择动作A。 动作A使只能体进入下一个状态S,并返回奖励R给智能体。 智能体根据返回,调整自己的策略(policy)。策略一般用$\pmb{\pi}$表示。 很多时候,我们不能单纯通过R来衡量一个动作的好坏,应该把未来的奖励也纳入决策。 举例:下棋的时候,弃子动作在当前奖励R非常低,但未来有可能获得更大的胜利。 评估动作的价值,成为Q值,代表了智能体选择这个动作之后,一直到最终状态奖励综合的期望。 评估状态的价值,成为V值,代表了智能体在这个状态下,一直到最终状态奖励综合的期望。 时序差分学习(TD)TD学习的原理应该怎样理解?该部分知识来源于https://www.bilibili.com/video/BV1PB4y1q7Dv/?spm_id_from=333.337.search-card.all.click&vd_source=bd0a4d03d6844f779cc2433f3ca7b4f6 @bilibili:DragonistYJ 动作价值 ...
Multi-Agent Learning学习与实践
Multi-Agent Learning学习与实践Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments该篇论文提出了MADDPG Successfully scaling RL to environments with multiple agents is crucial to building artificially intelligent systems that can productively interact with humans and each other. Unfortunately, traditional reinforcement learning approaches such as Q-Learning or policy gradient are poorly suited to multi-agent environments.就是说,multi-agent learning的环境可能在变化。而传统的Q-learning策略依赖于过去的学习经验来使学习过程稳定。 ...
一些使用Pycharm的小技巧
一些使用Pycharm的小技巧为当前的python解释器添加PYTHONPATH环境变量 在intepreter paths里添加地址即可
将Hierarchical Graph Attention-based Model用于Multi-agent Learning
将Hierarchical-Graph-Attention-based-Model用于Multi-agent Learning文章名:Scalable and Transferable Reinforcement Learning forMulti-Agent Mixed Cooperative–Competitive EnvironmentsBased on Hierarchical Graph Attention 这里的HGAT和GRU分别对应actor-critic网络中的哪两部分?
ISSCC2023_AQ与AB量化的加速器
ISSCC2023 AQ与AB量化的加速器ISSCC2023 22.3论文题目为:A 127.8TOPS/W Arbitrarily Quantized 1-to-8b Scalable-Precision Accelerator for General-Purpose Deep Learning with Reduction of Storage, Logic and Latency Waste它的journal版本发表在JSSC2024上,题目为Multipurpose Deep-Learning Accelerator for Arbitrary Quantization With Reduction of Storage, Logic, and Latency Waste 工艺为28nm LP CMOS
Pytorch DDP实践
Pytorch DDP实践关于使用多GPU进行分布式训练的详细教程可见https://zhuanlan.zhihu.com/p/113694038 实现一个distributed data parallel的重点是管理各个进程之间的通信问题。首先我们需要创建进程组。 123456789101112131415161718192021222324252627282930313233import osimport sysimport tempfileimport torchimport torch.distributed as distimport torch.nn as nnimport torch.optim as optimimport torch.multiprocessing as mpfrom torch.nn.parallel import DistributedDataParallel as DDP# On Windows platform, the torch.distributed package only# supports Gloo backend, FileSto ...
Cadence Virtuoso 操作备忘
Cadence Virtuoso操作备忘将plot好的电流曲线送进计算器计算功耗。 下面的图标用于打开function panel,里面有一系列函数可供选择。 将analoglib中的vpulse信号按如下方式设置,可以生成用于仿真的rst信号。
奥斯曼土耳其打法
奥斯曼土耳其与俄罗斯打法双兵营亲兵rush时代1,1TP1房子开局。只用掉300木,因此可以留100木不开。一般会在3分50秒左右到达时代2。一卡发3农。军需官400木升级。上本期间6农伐木凑够400木,同时1农民采金凑够50金。时代2前置双兵营,并起4个房子补人口,用掉升级送的400木。一卡发700金。双兵营点下一轮亲兵,第一轮亲兵只需要补1一个房子就够了。第一轮亲兵出来的时间约为5分10秒左右。二卡发700肉,第二轮亲兵可以等肉箱发了一半之后再造,约为5分30秒左右。因为第二轮亲兵如果要刷满,比较依赖700肉开出的速度。紧接着点下第三轮亲兵,同时卡发3德利骑兵。 7分钟左右,30亲兵+3德利冲家。 TPboom+10马FF时代1,1TP1房子1清真寺开局,一卡3农。一般会在4分钟左右到达时代2。上时代期间起市场,研究猎犬并收集25木125金。 丝绸之路+亲兵阿巴斯开局所有箱子只收集到剩20点。只起1个TP,军需官400木升级。一卡发丝绸之路。卡发到之后采集箱子,之后起一个房子与第二个TP。4分钟左右到达时代2。 到达时代2后,2农前置兵营。一卡发700木,二卡发700金。第一轮出满 ...
计算机体系结构——量化研究方法笔记2
流水线与指令级并行流水线冒险(pipeline hazard)包括结构冒险(structure hazard),数据冒险(data hazard)与控制冒险(Control hazard) 什么是结构冒险?在执行特定的指令组合时,由于资源冲突,一个指令不得不等待另一个指令结束再进行执行。通常情况下,流水线会将其中的一个指令停顿,直到所需单元可用为止。 旁路(forwarding)技术可以将数据冒险停顿减少到最小。 怎样实现动态分支预测?简单的动态分支预测机制是分支预测缓冲区或分支历史表。 记分牌算法与Tomasulo算法解决WAW(写后写)与RAW(读后写)产生的数据冒险问题。采用寄存器重命名的方式可以解决,这两种数据冒险成为假数据冒险。而对于WAR(写后读)的数据冒险问题。 “记分牌”本质是一个信息存储单元,分别记录了功能单元状态与寄存器结果状态。 信息包括部件是否正在忙、部件执行的指令类型、部件现在需要的源寄存器、部件现在的目的寄存器、源寄存器是否准备好($R_j$,$R_k$ 表示)和如果源寄存器没准备好部件该向哪里要数据($Q_j$,$Q_k$)表示。 记分牌算法特点是顺序发射 ...
架构方向面试准备
SOC架构工程师面试准备AMBA总线,全称为Advanced Microcontroller Bus Architecture。其包含5种协议,分别为Advanced High-Performance Bus(AHB),Advanced System Bus(ASB),Advanced Peripheral Bus(APB),Advanced Trace Bus(ATB)与AXI(AMBA Extensible Interface)。 APB总线APB主要用于连接低速且低功率的外设。其无流水线结构,其三种状态如下: AHB总线AHB支持split事务处理,即允许多个总线主设备同时使用总线,从而提高总线的并行性与效率。 为什么说AHB总线支持split事务处理AHB总线支持split事务处理,这是由于它能够在总线仲裁器(Arbiter)的控制下,将一个未完成的突发传输(Burst transfer)暂时中断,以便其他主设备(Master)可以访问总线。这种机制允许总线在高负载情况下更高效地进行任务调度,避免单个主设备长时间占用总线而阻塞其他设备。在AHB总线中,当一个主设备发起一个突发传 ...
用可扩展的增强学习来部署大规模控制系统
用可扩展的增强学习来部署大规模控制系统论文标题为Efficient and scalable reinforcement learningfor large-scale network control,发表在2024年7月的Nature Machine Intelligence子刊上。作者来自北京大学。 本章首先提出了了一个概念,是如何部署一个可扩展的decision-making策略来构造一个大规模控制系统,其关键在于设计一个去中心化的决策优化策略(decentralized policy optimization network)以减少每一个agent之间的数据交互。传统的中心化学习(centralized learning)需要每一个agent都产生一个全局性的观测,然后将这些观测上传至服务器,服务器再根据观测针对每一个agent产生策略。这样做的缺陷是,算法的复杂度极其庞大,很容易就触碰到IO墙,以至于无法满足scalable的需求。所谓scalable decision-making即是将神经网络分布在边缘端,之后让这些边缘端的AI自主与外界进行交互并于其余的agent进行合 ...
CICC2022——DDPMnet 用pulse density来进行近似运算
CICC2022——DDPMnet 用pulse density来进行近似运算论文名为:DDPMnet: All-Digital Pulse Density-Based DNN Architecture with 228 Gate Equivalents/MAC Unit, 28-TOPS/W and 1.5-TOPS/mm2 in 40nm,
公告
欢迎来到我的博客,这里会定期更新有关神经网络算法与芯片设计技术相关的内容,希望你能得到收获\\\x7e ☀️### 公告