新闻中心

邦内高校打制类Sora模子VDT通用视频扩散Transformer被ICLR 2024给与

发布时间：2024-04-20人气：

　　琢磨者还对 VDT 模子举办了少许组织上的融化琢磨。结果说明，减幼 Patchsize、添加 Layers 的数目以及增大 Hidden Size 都可能进一步升高模子的本能●▼。Temporal 和 Spatial 预防力的地位以及预防力头的数目对模子的结果影响不大。正在维持相通 GFlops 的情状下，需求少许打算上的量度▼●▼，总体而言，模子的本能没有明显区别。然则，GFlops 的添加会带来更好的结果，这出现了 VDT 或者 Transformer 架构的可扩展性。

　　提出团结的时空掩码筑模机造，使 VDT 可能解决多种视频天生使命◆◆●，达成了工夫的普通操纵。VDT 乖巧的条款音讯解决办法，如浅易的 token 空间拼接▼◆，有用地团结了分别长度和模态的音讯。同时，通过与该办事提出的时空掩码筑模机造联络，VDT 成为了一个通用的视频扩散器材，正在不删改模子组织的情状下可能操纵于无条款天生、视频后续帧预测、插帧、图生视频、视频画面补全等多种视频天生使命。

　　对照 Sora 最新发表的工夫陈述，可能看到 VDT 和 Sora 正在达成细节上仅存正在少許輕細分歧。

　　惟有當模子進修（或追念）了天下常識（比如空間歲月合連和物理准繩）時，才幹天生與實際天下相符的視頻●。因而，模子的容量成爲視頻擴散的一個合頭構成個人。Transformer 曾經被證實擁有高度的可擴展性，比方 PaLM 模子就具有高達 540B 的參數，而當時最大的 2D U-Net 模子巨細僅 2.6B 參數（SDXL），這使得 Transformer 比 3D U-Net 更適合應對視頻天生的挑釁。

　　本文爲彭湃號作家或機構正在彭湃信息上傳並發表，僅代表該作家或機構見識●●，不代表彭湃信息的見識或態度，彭湃信息僅供給音訊發表平台。申請彭湃號請用電腦拜訪◆▼▼。

　　與合鍵爲圖像打算的 U-Net 分別，Transformer 可能借幫其健旺的 token 化和預防力機造◆，逮捕永久或不規矩的歲月依賴性，從而更好地解決歲月維度。

　　自合適層歸一化。達成視頻預測的一種直接格式是將條款幀特點整合到 VDT Block 的層歸一化中，似乎于咱們何如將歲月音訊整合到擴散流程中。

　　琢磨者同時探求了天生模子 VDT 對淺易物理秩序的模仿。他們正在 Physion 數據集進步行試驗，VDT 應用前 8 幀動作條款幀，並預測接下來的 8 幀。正在第一個示例（頂部兩行）和第三個示例（底部兩行）中◆▼▼，VDT 告成模仿了物理流程，網羅一個沿扔物線軌迹運動的球和一個正在平面上滾動並與圓柱體碰撞的球。正在第二個示例（中心兩行）中，VDT 逮捕到了球的速率 / 動量，由于球正在碰撞圓柱體前停了下來。這證實了 Transformer 架構是可能進修到必然的物理秩序。

　　這項辦事由中國百姓大學琢磨團隊主導●▼▼，並與加州大學伯克利分校、香港大學等舉辦了互幫，最早于 2023 年 5 月公然正在 arXiv 網站。琢磨團隊提出了基于 Transformer 的 Video 統終天生框架 - Video Diffusion Transformer (VDT)◆◆●，並對采用 Transformer 架構的緣故給出了周詳的聲明。

　　交叉預防力。琢磨者還探求了應用交叉預防力動作視頻預測計劃，個中條款幀用作鍵和值◆●，而噪聲幀動作盤查。這同意將條款音訊與噪聲幀協調。正在進入交叉預防力層之前▼●▼，应用 VAE tokenizer 提取条款帧的特点并 Patch 化◆●。同时，还增加了空间和岁月地位嵌入▼，以帮帮咱们的 VDT 进修条款帧中的对应音讯。

　　其次，分别于 VDT●，Sora 还研讨了文本条款的协调。之前也有基于 Transformer 举办文本条款协调的琢磨（如 DiT），这里揣摩 Sora 可以正在其模块中进一步出席了交叉预防力机造，当然，直接将文本和噪声拼接动作条款输入的方法也是一种潜正在的可以。

　　通过回想 VDT 正在无条款天生和视频预测中的效用●▼▼，独一的区别正在于输入特点的类型。全部来说，输入可能是纯噪声潜正在特点，或者是条款和噪声潜正在特点的拼接。然后，琢磨者引入了 Unified Spatial-Temporal Mask Modeling 来团结条款输入，如下图 4 所示：

　　正在 VDT 的框架下，爲了達成視頻預測使命，不需求對搜集組織舉辦任何刪改，僅需轉折模子的輸入即可。這一湧現引出了一個直觀的題目：咱們能否進一步應用這種可擴展性◆◆●，將 VDT 擴展到更多樣化的視頻天生使命上 —— 比如圖片天生視頻 —— 而無需引入任何非常的模塊或參數。

　　輸入 / 輸出特點。VDT 的主意是天生一個 F×H×W×3 的視頻片斷▼●●，由 F 幀巨細爲 H×W 的視頻構成◆。然而◆▼，假使應用原始像素動作 VDT 的輸入，特別是當 F 很大時，將導致陰謀量極大。爲處分這個題目，受潛正在擴散模子（LDM）的啓示●，VDT 應用預演練的 VAE tokenizer 將視頻投影到潛正在空間中。將輸入和輸出的向量維度裁汰到潛正在特點 / 噪聲的 F×H/8×W/8×C，加快了 VDT 的演練和推理速率，個中 F 幀潛正在特點的巨細爲 H/8×W/8。這裏的 8 是 VAE tokenizer 的下采樣率，C 暗示潛正在特點維度。

　　正在 VDT 的琢磨經過中，琢磨者將 U-Net 這個常用的根蒂骨幹搜集調換爲 Transformer。這不但驗證了 Transformer 正在視頻擴散使射中的有用性◆，湧現了便于擴展和加強接續性的上風，也激勵了他們關于其潛正在價格的進一步忖量▼◆。

　　視頻天生界限涵蓋了網羅無條款天生、視頻預測、插值和文本到圖像天生等多項使命。以往的琢磨往往聚焦于簡單使命，時常需求爲下遊使命引入特意的模塊舉辦微調。另表，這些使命涉及多種多樣的條款音訊，這些音訊正在分別幀和模態之間可以有所分別，這就需求一個可能解決分別輸入長度和模態的健旺架構。Transformer 的引入可能達成這些使命的團結▼◆▼。

　　Token 拼接。VDT 模子采用純粹的 Transformer 架構，因而，直策應用條款幀動作輸入 token 對 VDT 來說是更直觀的格式。琢磨者通過正在 token 級別拼接條款幀（潛正在特點）和噪聲幀來達成這一點，然後將其輸入到 VDT 中。接下來，他們將 VDT 的輸出幀序列分裂▼◆◆，並應用預測的幀舉辦擴散流程，琢磨者湧現●◆，這種計劃出現了最速的收斂速率●◆▼，與前兩種格式比擬，正在最終結果上供給了更優的出現。另表，琢磨者湧現盡管正在演練流程中應用固定長度的條款幀，VDT 還是可能經受輕易長度的條款幀動作輸入▼●，並輸出相同的預測特點。

　　時空 Transformer Block。受到視頻築模中時空自預防力告成的啓示◆▼，VDT 正在 Transformer Block 中插入了一個歲月預防力層▼，以得到歲月維度的築模才能。全部來說▼◆●，每個 Transformer Block 由一個多頭歲月預防力、一個多頭空間預防力和一個全維系前饋搜集構成，如上圖所示。

　　琢磨者暗示◆▼●，采用 Transformer 架構的 VDT 模子，正在視頻天生界限的傑出性展現正在：

　　跟著 GPT 模子的告成和自回歸（AR）模子的時興，琢磨者下手探求 Transformer 正在視頻天生界限的更深宗旨操縱，忖量其是否能爲達成視覺智能供給新的途徑。視頻天生界限有一個與之親近合連的使命 —— 視頻預測。將預測下一個視頻幀動作通往視覺智能的道途這一念法看似淺易，但它實踐上是很多琢磨者聯合體貼的題目。

　　VDT 對搜集組織舉辦個人融化。可能湧現模子本能和 GFlops 強合連◆，模子組織自身的少許細節反而影響不是很大，這個和 DiT 的湧現也是相同的。

　　基于這一研討，琢磨者願望正在視頻預測使命進步一步適配和優化他們的模子。視頻預測使命也可能視爲條款天生，這裏給定的條款幀是視頻的前幾幀。VDT 合鍵研討了以下三種條款天生辦法：

　　通過上述格式，VDT 模子不但可能無縫地解決無條款視頻天生和視頻預測使命▼◆●，还可能通过浅易地调解输入特点，扩展到更普通的视频天生界限，这种乖巧性和可扩展性的展现，出现了 VDT 框架的健旺潜力，为来日的视频天生工夫供给了新的宗旨和可以性。

　　最先，VDT 采用的是正在时空维度上永诀举办预防力机造解决的格式，而 Sora 则是将岁月和空间维度兼并，通过简单的预防力机造来解决。这种差别预防力的做法正在视频界限曾经相当常见，大凡被视为正在显存范围下的一种妥协挑选▼◆◆。VDT 挑选采用差别预防力也是出于阴谋资源有限的研讨◆▼◆。Sora 健旺的视频动态才能可以来自于时空整个的预防力机造●▼。

　　将 Transformer 工夫操纵于基于扩散的视频天生，涌现了 Transformer 正在视频天生界限的远大潜力。VDT 的上风正在于其精美的岁月依赖性捕捉才能，可能天生岁月上连贯的视频帧，网罗模仿三维对象随岁月的物理动态▼◆。

　　VDT 的测试结果证实了 Transformer 架构正在解决视频数据天生方面的有用性和乖巧性▼◆◆。因为阴谋资源的范围，VDT 只正在个人幼型学术数据集进步行了试验。咱们等候来日琢磨可能正在 VDT 的根蒂上●▼▼，进一步探求视频天生工夫的新宗旨和操纵，也等候中国公司能早日推出国产 Sora 模子。

上一篇：没有了

下一篇：低调的追梦者（拳拳之心）

邦内高校打制类Sora模子VDT通用视频扩散Transformer被ICLR 2024给与

86-769-23836666