设计本地硬件加速器的意义

最近在研究怎样针对diffusion model设计硬件加速器，这也将成为我博士工作的一部分。以diffusion model为基础的AI生成模型在很多方面惊艳了我，好似是一件极尽玄妙的高维造物。在我尝试理解diffusion model是如何从满是马赛克的噪声图创造出不输于人类画手的绝美图像的同时，发现了开展新工作的动机。

**B站上找到的由AI生成的宫崎骏画风壁纸 -- https://www.bilibili.com/video/BV1yQ4y1s71b/?spm_id_from=333.337**

我们现在熟知的AI生成模型通常需要大量的计算资源，因此它们经常被部署在云端。比如Sora和GPT4，用户需要通过网络接口才能进行访问和使用。尽管云端的AI生成模型已经具备非常强大的能力，但如果要真正刺激用户的使用需求，AI模型保密性与可定制性一定至关重要。想象一下，我们希望AI模型帮助自己自己生成博客，工作笔记甚至论文图片。但云端的模型往往同时接受成百上千的用户数据，其必然倾向于调和所用人的共同需求。如果要让它成为我们的助手，其表现往往难以获得信任。

解决这个问题的方案有二，第一个思路是缩小生成模型的规模，使其能够完全部署在本地设备上。这种方案尽管获得了完全的可定制性，但把巨大规模的生成模型缩小到本地设备能够支持的大小，其表现一定会大打折扣。第二个思路是使用联合学习（federated learning）的算法，使客户能够（client）私有一部分模型的权重。此时AI模型与我们的关系好比是事务所与客户的关系，这相当于牺牲了一部分的可定制性，但对本地硬件上更加友好。总而言之，这是一个模型表现，本地计算效率和本地-云端通信效率互相折衷的局面，下图表现了三者的关系。如果本地的计算效率更高，我们就可以将更大一部分的模型部署于本地，这不仅能降低云端通信的负载，我们的模型也将拥有更强的可定制性，这也是设计部署于本地的加速器的意义所在。