参会2024——Frontiers of AI Accelerators: Technologies, Circuits and Applications IV

Opening Remarks

Prof. Tim Cheng 是ACCESS(AI Chip Center for Emerging Smart Systems)实验室的Center Director,同时担任香港科技大学副校长。

Can we automate accelerator design with deep learning —— Prof. Jason CONG (ULCA)

Prof. Jason Cong 是 UCLA VAST 实验室主任,也是电子设计自动化(EDA)与定制计算领域的核心人物。重点研究从C/C++到FPGA的映射,并推动Vivado HLS的商业化应用。Jason Cong提出”让大多数软件程序员成为硬件设计师“的愿景,介绍了他团队最新的研究进展,重点放在下面三个点上:

  1. 使用图神经网络(GNN)捕捉 HLS 设计数据的图结构,进行 HLS 质量预测;

  2. 引入 迁移学习,提高模型在新应用或新架构上的泛化能力;

  3. 借助 大语言模型(LLMs) 开展跨模态学习,实现语言接口与设计参数之间的语义联系

Public Lecture #4 “Mini-Gemini, a New Large Multi-Modal Model” — Prof. Jiaya Jia

贾佳亚教授介绍了 Mini-Gemini,一个面向视觉与语言任务的新型多模态大模型。和我们熟悉的 GPT-4 或 Google 的 Gemini 相比,Mini-Gemini 虽然规模更小,但它瞄准的是“如何用更有效的方式提升模型的表现”,而不是单纯地扩大参数数量。

另外贾教授还介绍了一种any-to-any的paradigm,即可以将文字和图片同时作为模型的输入以及输出,“文字和图片之间的交互被彻底打通了”。

根据团队公布的实验结果,Mini-Gemini 在多个常见的多模态基准测试上取得了领先成绩。在一些零样本(zero-shot)测试里,它甚至超越了部分闭源的大模型。与此同时,它的规模覆盖了从 2B 参数的小模型到 34B 参数的中大型模型,适应不同算力条件。代码也已经开源在 GitHub 上。

Workshop #1:Architectural and System Integration for Efficient Edge AI Computing

“LLM Inference On Chip” by Prof. Hao Yu (南方科技大学)

余浩教授探讨将大语言模型推理功能集成到片上,比如采用 in-memory computing 与 systolic cubic arrays 的融合形式。

“Reconfigurable AI Processor: Fundamental Concepts, Application, and Future Trends” by Prof. Shouyi YIN (清华大学)

尹教授强调可重构处理器的两个层级——芯片级的并行度调整,以及元件级的精度、稀疏度调整。

Reconfigurable AI processor
chip-level reconfiguration —— adjust the parallelism
element-level reconfiguration —— change computing precision, sparsity processing pattern

“Reconfigurable Computing for Dynamic Vision Sensing in Edge Applications” by Prof. Hayden So (香港大学)

So教授介绍了“ESDA”系统,利用 FPGA 的可重构架构实现模块化、参数化的稀疏 DNN 加速器,并支持异步触发的脉冲神经网络。

Workshop #2:Hardware Architectures and Designs for Machine Learning and Beyond

该workshop集中探讨如何让硬件架构更好地服务于机器学习与更广泛的计算任务。相比纯粹的软件创新,这些工作更接近硬件底层,因此特别强调效率、能耗和实际部署的可行性。

Design Automation for Processing-in-Memory Architectures —— Prof. Xiaoming Chen (中国科学院大学)

Processing-in-Memory是近年来芯片领域的热门话题。传统计算需要数据在内存和处理器之间不断搬运,而 PIM 的思路是把计算功能直接嵌入到存储器里,这样大大减少了数据移动,降低能耗。
Prof. Chen 的报告聚焦在“如何自动化设计这类架构”。过去,PIM 芯片的设计往往要工程师手工调优,非常耗时。通过设计自动化,研究团队希望能建立一套工具链,让硬件设计者像使用编程语言一样方便地构建 PIM 架构,从而加快落地应用。

RaDe-GS: Rasterizing Depth in Gaussian Splatting —— Prof. Ping Tan (港科大)

Prof. Ping Tan 的研究跨越了计算机视觉和硬件设计。他提出的 RaDe-GS 技术与一种新兴的 3D 表示方法 —— Gaussian Splatting —— 有关。这种方法能用一系列“高斯球”来表示三维场景,既紧凑又能保持较好的渲染质量。
RaDe-GS 的创新点在于:它把深度信息(depth)更高效地转换和光栅化(rasterize),以便硬件能够更快地处理三维场景。

Stochastic Multivariate Universal-Radix FSM —— Prof. Ngai Wong

Prof. Wong 的报告非常数学,重点关注怎样处理神经网络里的非线性函数。在深度学习中,非线性函数比如GELU是模型捕捉复杂关系的关键。但在硬件实现时,这些函数的计算往往开销很大。
他的团队提出了一种新架构:基于随机计算(stochastic computing)的多变量有限状态机(FSM),能以更节省资源的方式近似这些非线性函数。换句话说,他们用“巧妙的硬件数学”来减少功耗和面积,同时又能保留模型的表达能力,很有意思。

Public Lecture #2: Neuro-Inspired Edge AI Architectures for the Internet-of-Things Era

Public Lecture #3: Cross-Layer Design for Enhancing the Resilience of In-Memory Computing to Device Variations

Entrepreneurship Workshop

“Innovation Unleashed: The Rise of Deep Tech Start-ups from Academic Roots” —— Mr. Wenlei ZHUANG (香港科技大学)

“Embracing Opportunities: Fuelling the Microelectronics Ecosystem in Hong Kong” —— Dr. Carmen FUNG (香港科技园)

“Era of Great Transformation - The New Opportunities of Innovation and Entrepreneurship” —— Mr. Peter WU (Sinovation Ventures 创新工场)

“Meeting the Implementation Needs of AI in the Smart Manufacturing Sector” —— Mr. Yi PAN (Value Capital/Inovance Technology 汇川技术)

Workshop #2: Hardware Architectures and Designs for Machine Learning and Beyond

“Design Automation for Processing-in-Memory Architectures” —— Prof. Xiaoming CHEN

“RaDe-GS: Rasterizing Depth in Gaussian Splatting” —— Prof. Ping TAN (香港科技大学)

“Stochastic Multivariate Universal-Radix Finite-State Machine: A New and Hardware-Friendly Architecture for Multivariate Nonlinear Function Approximation” —— Prof. Ngai WONG (香港大学)

在深度神经网络中,non-linearity对于捕捉input与output之间的关系至关重要。本文试图用stocastic computing的方式来节约non-linear function(比如GELU)的计算开销。

Public Lecture #5: Hardware Design and the Fairness of A Neural Network

Workshop #3: Intelligent Computing, from Architecture to Algorithm

Workshop #4: Hardware-Accelerated Efficient AI Applications

“Hardware/Software Optimization for Edge AI — Two Sides of a Coin” ——Dr. Giovanni ANSALONI (EPFL洛桑联邦理工学院)

“Adapting Magnetoresistive Memory Devices for Unconventional Computing” ——Prof. Qiming SHAO

“Early Timing and Power Evaluation for VLSI Design” ——Zhiyao Xie

最后附一张厦门湾的海景。

2025-08-18T175730