对Madiff的批评

Madiff的创新点确实存在一些问题,工作很大一部分依赖于Ajay于2023年ICLR上发表的论文 Is Conditional Generative Modeling all you need for Decision-Making?

Madiff代码结构梳理

在mad_mpe_tag_code_ctde_exp.yaml文件中定义了训练使用的各个参数。

其中variables定义了5个seed:

每个seed各自是什么含义?

实验使用的test dataset如下:

MPE: multi-agent particle environments (MPE):
三个智能体合作完成一个共同的任务:

  1. spread, 三个agent拥有不同的初始化位置,目标是收集地图中存在的三个landmarks
  2. Tag,三个捕食者通过合作来捕捉一个训练好的猎物,猎物跑的更快,所以需要捕食者合作来约束猎物的行进路线
  3. World,同样是三个捕食者通过合作来捕捉一个训练好的猎物,猎物能够躲藏进地图中的森林

Multi-Agent Mujoco (MA mujoco):
每个独立的agent可以控制一个robot身上不同的关节并让这个robot跑的越快越好。

StarCraft Multi-Agent Challenge (SMAC)
多智能体星战。

Multi-Agent Trajectory Prediction (MATP)
每一个agent用于预测其他agent的路线。

inference的模型为SharedConvAttentionDeconv,其声明在diffuser.models.ma_temporal.py内
采用的Unet结构对象为TemporalUnet,其声明在diffuser.models.temporal.py内

Madiff中normalized score的计算方法为:
$100 \times (S-S{random})/(S{expert}-S_{random})$