当前位置:郑州汽车第三方调研公司 > 神秘顾客视频 >
发布日期:2024-03-19 01:27 点击次数:91
它能生成富贵都市夜景中的络绎连接。全球首个开源的类Sora架构视频生成模子郑州汽车第三方调研公司,来了!
通盘历练经由,包括数据处理、扫数历练细节和模子权重,全部怒放。
这便是刚刚发布的Open-Sora 1.0。
它带来的实际遵循如下,能生成富贵都市夜景中的络绎连接。
还能用航拍视角,展现陡壁海岸边,海水拍打着岩石的画面。
亦或是延时照相下的广博星空。
自Sora发布以来,由于遵循惊艳但技巧细节寥寥,揭秘、复现Sora成为了成就社区最热议话题之一。比如Colossal-AI团队推出本钱直降46%的Sora历练推理复现经由。
短短两周时刻后,该团队再次发布最新阐明,复现类Sora有策画,并将技巧有策画及详实上手教程在GitHub上免费开源。
那么问题来了,复现Sora如何罢了?
Open-Sora 开源地址:https://github.com/hpcaitech/Open-Sora
全面解读Sora复现有策画
Sora复现有策画包括四个方面:
模子架构想象
历练复现有策画
数据预处理
高效历练优化计谋
模子架构想象
模子弃取了Sora同源架构Diffusion Transformer (DiT) 。
它以弃取DiT架构的高质地开源文生图模子PixArt-α为基座,在此基础上引入时刻珍贵力层,将其膨大到视频数据上。
具体来看,通盘架构包括一个预历练好的VAE,一个文本编码器和一个期骗空间-时刻珍贵力机制的STDiT (Spatial Temporal Diffusion Transformer)模子。
其中,STDiT 每层的结构如下图所示。
它弃取串行的神态在二维的空间珍贵力模块上重叠一维的时刻珍贵力模块,用于建模时序关系。在时刻珍贵力模块之后,交叉珍贵力模块用于对皆文本的语意。
与全珍贵力机制比较,这么的结构大大缩短了历练和推理支拨。
与相通使用空间-时刻珍贵力机制的 Latte模子比较,STDiT 不错更好的期骗如故预历练好的图像 DiT 的权重,从而在视频数据上连接历练。
STDiT结构暗示图
通盘模子的历练和推理经由如下。
据了解,在历练阶段领先弃取预历练好的Variational Autoencoder (VAE)的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本镶嵌(text embedding)沿路历练STDiT扩散模子。
在推理阶段,从VAE的潜在空间中马上采样出一个高斯噪声,与教唆词镶嵌(prompt embedding)沿路输入到STDiT中,得且归噪之后的特征,终末输入到VAE的解码器,解码得回视频。
模子历练经由历练复现有策画
在历练复现部分,Open-Sora参考了Stable Video Diffusion (SVD)。
一共分为3个阶段:
大范畴图像预历练;
大范畴视频预历练;
高质地视频数据微调。
每个阶段都会基于前一个阶段的权重连接历练。
比较于从零来源单阶段历练,多阶段历练通过冉冉膨大数据,更高效地达成高质地视频生成的见识。
历练有策画三阶段
第一阶段是大范畴图像预历练。
团队期骗互联网上丰富的图像数据和文生图技巧,先历练出一个高质地的文生图模子,将该模子手眼下一阶段视频预历练的运蜿蜒权重。
我们试图通过一组企业打假的案例,解密公司的知识产权保护小组是如何工作的,他们的工作,为企业带来了怎样的价值。
同期,由于现在莫得高质地的时空VAE,他们弃取Stable Diffusion预历练好的图像VAE。
这么不仅能保险运转模子的优厚性能,还能显耀缩短视频预历练的合座本钱。
第二阶段是大范畴视频预历练。
这一阶段主要增多模子的泛化才智,神秘顾客暗访有用掌捏视频的时刻序列关联。
它需要使用多半视频数据历练,而且保险视频素材的种种性。
同期,第二阶段的模子在第一阶段文生图模子的基础上加入了时序珍贵力模块,用于学习视频中的时序关系。其余模块与第一阶段保持一致,并加载第一阶段权重手脚运蜿蜒,同期运转片霎序珍贵力模块输出为零,以达到更高效更快速的护士。
Colossal-AI团队使用了PixArt-alpha的开源权重手脚第二阶段STDiT模子的运蜿蜒,以及弃取了T5模子手脚文本编码器。他们弃取了256x256的小辞别率进行预历练,进一步增多了护士速率,缩短历练本钱。
Open-Sora生奏遵循(教唆词:水中叶界的镜头,镜头中一只海龟在珊瑚礁间稳固游弋)
第三阶段是高质地视频数据微调。
据先容,这一阶段能显耀擢升模子的生成质地。使用的数据范畴比上一阶段缩短一个量级,可是视频的时长、辞别率和质地都更高。
通过这种神态进行微调,能罢了视频生成从短到长、从低辞别率到高辞别率、从低保真度到高保真度的高效膨大。
值得一提的是,Colossal-AI还详实流露了每阶段的资源使用情况。
在Open-Sora的复现经由中,他们使用了64块H800进行历练。第二阶段的历练量一共是 2808 GPU hours,约合7000好意思元,第三阶段的历练量是1920 GPU hours,未必4500好意思元。经过初步估算,通盘历练有策画得手把Open-Sora复现经由限度在了1万好意思元驾驭。
数据预处理
为了进一步缩短Sora复现的门槛和复杂度,Colossal-AI团队在代码仓库中还提供了陋劣的视频数据预处理剧本,让众人不错松弛启动Sora复现预历练。
包括公开视频数据集下载、长视频证据镜头一语气性分割为短视频片断、使用开源大道话模子LLaVA生成雅致的教唆词。
他们提供的批量视频标题生成代码不错用两卡 3 秒标注一个视频,而且质地接近于 GPT-4V。
最终得回的视频/文本对可平直用于历练。借助他们在GitHub上提供的开源代码,不错松弛地在我方的数据集上快速生成历练所需的视频/文本对,显耀缩短了启动Sora复现技俩的技巧门槛和前期准备。
高效历练加持
除此以外,Colossal-AI团队还提供了历练加快有策画。
通过算子优化和搀杂并行等高效历练计谋,在处理64帧、512x512辞别率视频的历练中,罢了了1.55倍的加快遵循。
同期,收获于Colossal-AI的异构内存管理系统,在单台管事器上(8H800)不错无绝交地进行1分钟的1080p高清视频历练任务。
而且团队还发现STDiT模子架构在历练时也展现出特等的高效性。
和弃取全珍贵力机制的DiT比较,跟着帧数的增多,STDiT罢了了高达5倍的加快遵循,这在处理长视频序列等现实任务中尤为关键。
终末,团队还放出了更多Open-Sora的生奏遵循。
团队和量子位流露,他们将永久更新优化Open-Sora的关系惩处有策画和动态。改日将使用更多视频历练数据,以生成更高质地、更万古长的视频内容,并复旧多辞别率特质。
实际应用方面,团队流露将推动在电影、游戏、告白等范畴落地。
感兴味的成就者们,可打听GitHub技俩了解更多~
Open-Sora 开源地址:https://github.com/hpcaitech/Open-Sora
参考暴露:
[1]https://arxiv.org/abs/2212.09748 Scalable Diffusion Models with Transformers
[2]https://arxiv.org/abs/2310.00426 PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
[3]https://arxiv.org/abs/2311.15127 Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets
[4]https://arxiv.org/abs/2401.03048 Latte: Latent Diffusion Transformer for Video Generation
[5]https://huggingface.co/stabilityai/sd-vae-ft-mse-original
[6]https://github.com/google-research/text-to-text-transfer-transformer
[7]https://github.com/haotian-liu/LLaVA
[8]https://hpc-ai.com/blog/open-sora-v1.0郑州汽车第三方调研公司
Powered by 郑州汽车第三方调研公司 @2013-2022 RSS地图 HTML地图
Copyright 站群 © 2013-2022 粤ICP备09006501号