Goku：港大字节推出的AI视频生成模型

Goku是什么？

Goku是香港大学与字节跳动合作开发的视频生成模型，支持文本到视频、图像到视频、文本到图像等多种生成任务。基于Rectified Flow Transformer架构，通过多模态训练，Goku能够生成自然互动的广告视频，显著降低制作成本。其强大的视频生成能力为广告创作、内容生产和AI研究提供了创新性解决方案。

Goku的主要功能

文本生成视频：Goku能够根据用户提供的文本描述生成完整的视频内容。通过理解文本中的细节和情节，Goku将其转化为动态视频，适用于广告制作、营销视频、短视频创作等场景。这一功能使得无需拍摄即可快速生成与描述一致的视频，极大地提升了创作效率。
图像生成视频：用户只需提供一张静态图像，Goku即可基于这张图片生成动态视频。这一功能特别适合电商和品牌推广，可以将产品图片转化为生动的广告视频，并展示产品的不同角度和特性，增强视觉吸引力。
文本生成图像：除了视频生成，Goku还支持根据文本描述生成静态图像。用户输入具体的文字信息，Goku能生成符合描述的高质量图像，广泛应用于创意设计、广告、插画等领域，帮助设计师快速获取视觉素材。
高质量生成：Goku的图像与视频生成效果非常真实，能够清晰地表现人物情感和细节，展示出广告产品的细腻质感。

Goku的模型性能

Goku在多个视频生成基准测试中表现优异，特别是在VBench（视频生成基准）上，Goku-T2V模型以84.85分获得第二名，超越了许多领先的商业模型。具体表现如下：

GenEval 和 DPG-Bench：Goku在文本到图像生成任务中，分别获得了0.76和83.65的高分，展示了其在图像生成领域的卓越性能。
VBench：Goku-T2V在VBench中的综合得分为84.85，在多个细分指标上都表现突出，包括质量评分、采样评分、样式一致性、背景一致性、动态度等。
超越同行：Goku-T2V的表现超过了许多现有的生成模型，如AnimateDiff-V2、VideoCrafter-2.0等，尤其在人类动作和物体关系的表现上，展现了更高的准确性和一致性。

Goku的应用场景

广告视频制作：Goku可以根据文本或图像生成广告视频，极大提升广告创作的效率和创意表达。通过生成定制化的视频内容，品牌能够快速制作吸引观众的广告，降低传统制作流程中的时间与成本。
电商与产品展示：在电商平台，商家可以通过图像生成视频展示产品的各个角度与功能，帮助消费者更直观地了解商品。Goku的图像到视频生成能力，能够快速将产品图像转化为生动的展示视频，提高用户购买的转化率。
内容创作者与短视频平台：内容创作者可以利用Goku将文本描述转化为视频内容，提升短视频创作的效率。这对于快速生成符合平台需求的原创内容，尤其是需要大量视频生产的社交平台尤为重要。
教育与培训：Goku可以根据教材内容生成教学视频，特别是在需要通过视频讲解复杂概念时。这使得教育资源更加丰富且易于传播，尤其是在在线教育和远程培训中，能够帮助学习者更好地理解学习内容。
虚拟现实与游戏开发：Goku的多模态生成能力，也可应用于虚拟现实和游戏开发中，通过生成场景、角色互动视频来创建沉浸式的虚拟体验，为玩家和用户提供更加生动的交互内容。
影视制作与动画创作：Goku能够根据脚本或场景描述生成完整的动画视频，减少传统影视制作中的复杂和高成本环节。动画工作室和影视制作团队可以使用Goku来快速实现创意构思的可视化。