Madiff代码结构梳理
对Madiff的批评
Madiff的创新点确实存在一些问题,工作很大一部分依赖于Ajay于2023年ICLR上发表的论文 Is Conditional Generative Modeling all you need for Decision-Making?
Madiff代码结构梳理
在mad_mpe_tag_code_ctde_exp.yaml文件中定义了训练使用的各个参数。
其中variables定义了5个seed:
每个seed各自是什么含义?
实验使用的test dataset如下:
MPE: multi-agent particle environments (MPE):
三个智能体合作完成一个共同的任务:
- spread, 三个agent拥有不同的初始化位置,目标是收集地图中存在的三个landmarks
- Tag,三个捕食者通过合作来捕捉一个训练好的猎物,猎物跑的更快,所以需要捕食者合作来约束猎物的行进路线
- World,同样是三个捕食者通过合作来捕捉一个训练好的猎物,猎物能够躲藏进地图中的森林
Multi-Agent Mujoco (MA mujoco):
每个独立的agent可以控制一个robot身上不同的关节并让这个robot跑的越快越好。
StarCraft Multi-Agent Challenge (SMAC)
多智能体星战。
Multi-Agent Trajectory Prediction (MATP)
每一个agent用于预测其他agent的路线。
inference的模型为SharedConvAttentionDeconv,其声明在diffuser.models.ma_temporal.py内
采用的Unet结构对象为TemporalUnet,其声明在diffuser.models.temporal.py内
Madiff中normalized score的计算方法为:
$100 \times (S-S{random})/(S{expert}-S_{random})$
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 _ConchNest🐚!