CogView4 - 智谱推出的开源文生图模型，支持汉字生成 - AIHub

CogView4是什么？

CogView4是北京智谱华章推出的开源文生图模型，支持中英双语输入，擅长生成含汉字图像。它在DPG-Bench测试中排名第一，性能卓越。具备任意分辨率生成和长提示词输入能力，技术领先，遵循Apache 2.0协议，适用于广告、短视频等创意领域。

CogView4的主要特性

性能卓越：CogView4在DPG-Bench基准测试中综合评分排名第一，具备较强的复杂语义对齐和指令跟随能力，能够生成高质量的图像。
中英双语支持：支持任意长度的中英双语输入，擅长理解和遵循中文提示词，能够在画面中生成汉字，满足广告、短视频等领域的创意需求。
任意分辨率与提示词长度：支持输入任意长度的提示词，能够生成给定范围内的任意分辨率图像，提升了用户的创作自由度和训练效率。
技术领先性：
- 文本编码器升级：将文本编码器从纯英文的T5 encoder换为具备双语能力的GLM-4 encoder，并通过中英双语图文进行训练。
- 图像位置编码：采用二维旋转位置编码（2D RoPE）来建模图像的位置信息，并通过内插位置编码的方式支持不同分辨率的图像生成任务。
- 扩散生成建模：采用Flow-matching方案进行扩散生成建模，并结合参数化的线性动态噪声规划，以适应不同分辨率图像的信噪比需求。
- 架构设计：在DiT模型架构上，延续了上一代的Share-param DiT架构，并为文本和图像模态分别设计独立的自适应LayerNorm层。
- 多阶段训练：采用多阶段训练策略，包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。
- 训练框架优化：突破了传统固定token长度的限制，允许更高的token上限，并显著减少了训练过程中的文本token冗余。
遵循Apache 2.0协议：CogView4模型支持Apache 2.0协议，后续会陆续增加ControlNet、ComfyUI等生态支持，全套的微调工具包也即将推出。