开云(中国)Kaiyun·官方网站 - 登录入口允许自适合地礼聘最适合进行缓存的 token-开云·kaiyun(中国)体育官方网站 登录入口
发布日期:2025-03-10 19:04 点击次数:107
Diffusion Transformer 模子模子通过 token 粒度的缓存要领,兑现了图像和视频生成模子上无需老到的两倍以上的加快。
上海交通大学等团队提议 Toca(Token-wise Caching),关联论文已被 ICLR 2025 剿袭。

Diffusion Transformer 在图像和视频生成中展现了权贵的恶果,但代价是雄伟的谋略老本。
为了措置这一问题,特征缓存要领被引入,用于通过缓存前几个技能步的特征并在后续技能步中复用它们来加快扩散 Transformer。
然则,之前的缓存要领忽略了不同的 token 对特征缓存弘扬出不同的敏锐性,而对某些 token 的特征缓存可能导致生成质料全体上高达 10 倍的阻拦,相较于其他 token。
Toca 团队提议了基于 token 的特征缓存要领,允许自适合地礼聘最适合进行缓存的 token,并进一步为不同类型和深度的神经蚁集层利用不同的缓存比率。
通过在 PixArt- α、OpenSora 和 DiT, 以及 FLUX 上的无为实验,团队讲解注解了在图像和视频生成中无需老到即可兑现团队要领的有用性。举例,在 OpenSora 和 PixArt- α 上别离兑现了 2.36 倍和 1.93 倍的接近无损的生成加快。
配景 Backgrounds
扩散模子 ( Diffusion Models ) 在图像生成、视频生成等多种生成任务中展现了出色的性能。连年来,以 FLUX, Sora, 可灵等模子为代表的 Diffusion Transformers 通过扩张参数目和谋略范围进一步鼓动了视觉生成范围的发展。然则,Diffusion Transformers 面对的一个紧要挑战在于其高谋略老本,这导致推理速率逐渐,从而禁锢了其在实时场景中的实验利用。为了措置这一问题,相干者们提议了一系列加快要领,主要聚积在减少采样步数和加快去噪蚁集模子。
近期,基于特征缓存来兑现去噪模子加快的要领由于其优秀的无损加快性能,以及无需老到的优良性能,受到工业界的无为暄和。上海交通大学张林峰团队进一步忽闪到一个当然则真谛的舒畅:不合谋略层,以及合谋略层的不同 Token 关于缓存误差的适合性不同,雷同的缓存误差在不同位置对模子影响最高不错达到数十,百倍的相反,因此有必要进一步将模子加快的粒度由特征级进一步到 token 级,并谈判了怎样揣测视觉生成模子中 token 的伏击性,以兑现伏击 token 的筛选保留。
中枢孝顺
ToCa 初度在 DiT 加快中中引入 token 级的缓存复用计谋,并初度从误差累积与传播的角度分析特征缓存要领。
ToCa 提议 4 种从不同角度登程,适用于不珍惜形的 token selection 计谋:
基于 Self-Attention Map 来评估 token 对其它 token 的影响 ;
基于 Cross-Attention Map 评估文生图 / 视频任务中 image token 对 text token 的暄和分散,以加强收尾才能 ;
基于该 token 在先前往噪步中的被连气儿缓存复用的次数计算增益计谋,饱读舞 token 在技能步上被更均匀地谋略,幸免局部误差累积过大,阻拦全局图像 ;
将各个 token 的伏击性得分基于空间分散进行加权,饱读舞被谋略的 token 在空间上分散更均匀。
ToCa 被利用于多种最新模子上开展实验,讲解注解了其比拟现存要领愈加优秀,包含文生图模子 PixArt-alpha,FLUX-dev 和 FLUX-schnell,文生视频模子 OpenSora,以及基于 ImageNet 类标签生成图像的 DiT 模子。
相干动机

如图 1 所示,不同 token 在相邻两步间进行特征缓存引入的误差值的相反高达几十上百倍;
图 2 讲解不同 token 上引入雷同大小的误差,这领先幅度疏通的误差在模子推理过程经过累积和传播,对模子的输出的影响相反也极大。因此,有必要谈判 token 级别的特征缓存 - 复用计谋,使得模子的谋略更聚积在关键被需要的 token 上。
要领谋略经由
ToCa 的缓存 - 复用经由如图 3 ( a ) 所示:
Cache 运行化 最先推理一个齐备的技能步,将各层的特征放入 cache 中以便使用。
伏击性得分谋略在使用 ToCa 的技能步上,关于每一层:先谋略各个 token 的伏击性得分,将最低的部分 token 秀气为 cache 景况(举例图示中 ID 为 1 和 3 的 token),不传入蚁集层进行谋略。
部分谋略关于被传入的 token ( 2,4,5 ) , 施行普通的谋略 , 得到它们的输出。
Cache 更新从 cache 中调出存储的 token 1,3 的输出,并将谋略得到的新的 token 2,4,5 输出更到 cache 中。
时时这么的一个轮回长度为 2~4 个技能步,即 1 步充分谋略后续搭配 1 至 3 个 ToCa step。此外,ToCa 还基于不同层的伏击性,计算了跟着层深度高潮而衰减的谋略比例,确定请参考论文。

伏击性得分谋略
如图 4 所示,ToCa 计算了基于 4 个不同方面谈判的伏击性分数谋略,在实验利用中它们以 加权乞降给出总的伏击性得分,确定请参考论文。

实验闭幕
ToCa 被利用于文本到图像生成模子 PixArt-alpha, FLUX, 类到图像生成模子 DiT, 以及文本到视频生成模子 OpenSora 以考证其要领有用性,充分的实验闭幕讲解注解,ToCa 具有特出其他同类要领的加快恶果。
图像生成模子 : PixArt-alpha,FLUX, DiT

如上图所示,ToCa 比拟另两种加快要领和无加快的高质料原图对皆恶果更佳,且具有更佳的图 - 文对皆才能(举例从左到右第四列的 wooden dock)。

从 FID-30k 和 CLIP Score 上揣测,ToCa 也赢得了远超其他要领的弘扬。

如上图所示,ToCa 在 FLUX 模子上的生成质料也极佳,不错看到和原图基本莫得相反。但值得谈判的是在笔墨生成这类对细节条款极其高的任务上(举例左下角的舆图)仍有相反,这将当作团队后续相干的起点。

关于高档的模子,使用 Image Reward 时时能更好地对生成质料进行揣测,团队别离在 50step 的 FLUX-dev 和 4step 的 FLUX-schnell 上开展了实验,不错看到,ToCa 在 FLUX 上 1.5 倍加快,比拟未加快模子的数值观念基本不变,远远优于其他要领。

在基础模子 DiT 上的闭幕也讲解注解了 ToCa 的优厚性。
视频生成模子:OpenSora
团队制作了一个网页来展示 OpenSora 上的加快恶果。
https://toca2024.github.io/ToCa
此外,团队将视频生成闭幕部分抽帧以供快速浏览:


在 VBench 上测试 ToCa 的加快恶果,实验闭幕标明,ToCa 远优于其他要领,赢得了高达 2.36 倍的无损加快 , 在加快恶果和生成质料上都赢得最优弘扬。
ToCa 在 VBench 的大部分观念上都赢得了和原模子险些疏通的得分。

雅致
ToCa 当作初度被提议的从 Token 级来兑现扩散模子加快的要领,比拟以往加快要领具有更强的适配性,(尽管计算时当作专为 DiT 加快的决策,它的结构也不错被复用到 U-Net 结构的模子上),同期在多种任务上具有极佳的弘扬。连年来,包括 ToCa 在内的系列基于特征缓存的扩散模子加快要领兼具无需老到的优厚性和执意的无损加快恶果,赢得了荒谬的奏效,是一种不同于蒸馏类要领的值得被进一步探索的加快决策。
论文:https://arxiv.org/abs/2410.05317
Github:https://github.com/Shenyi-Z/ToCa
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 形态主页聚合,以及相关方式哦
咱们会(尽量)实时复兴你

一键暄和 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「提神心」
接待在褒贬区留住你的念念法!开云(中国)Kaiyun·官方网站 - 登录入口
