CogView4是什么?
CogView4是北京智谱华章推出的开源文生图模型,支持中英双语输入,擅长生成含汉字图像。它在DPG-Bench测试中排名第一,性能卓越。具备任意分辨率生成和长提示词输入能力,技术领先,遵循Apache 2.0协议,适用于广告、短视频等创意领域。

CogView4的主要特性
- 性能卓越:CogView4在DPG-Bench基准测试中综合评分排名第一,具备较强的复杂语义对齐和指令跟随能力,能够生成高质量的图像。
- 中英双语支持:支持任意长度的中英双语输入,擅长理解和遵循中文提示词,能够在画面中生成汉字,满足广告、短视频等领域的创意需求。
- 任意分辨率与提示词长度:支持输入任意长度的提示词,能够生成给定范围内的任意分辨率图像,提升了用户的创作自由度和训练效率。
- 技术领先性:
- 文本编码器升级:将文本编码器从纯英文的T5 encoder换为具备双语能力的GLM-4 encoder,并通过中英双语图文进行训练。
- 图像位置编码:采用二维旋转位置编码(2D RoPE)来建模图像的位置信息,并通过内插位置编码的方式支持不同分辨率的图像生成任务。
- 扩散生成建模:采用Flow-matching方案进行扩散生成建模,并结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。
- 架构设计:在DiT模型架构上,延续了上一代的Share-param DiT架构,并为文本和图像模态分别设计独立的自适应LayerNorm层。
- 多阶段训练:采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。
- 训练框架优化:突破了传统固定token长度的限制,允许更高的token上限,并显著减少了训练过程中的文本token冗余。
- 遵循Apache 2.0协议:CogView4模型支持Apache 2.0协议,后续会陆续增加ControlNet、ComfyUI等生态支持,全套的微调工具包也即将推出。
CogView4的适合场景
- 广告创意:CogView4能够根据中英双语提示词生成高质量的图像,满足广告设计中的创意需求,如生成带有特定文字的海报、文案配图等。
- 短视频制作:CogView4为短视频创作者提供便捷的图像生成工具,根据视频脚本或创意描述生成相应的画面,提高短视频的制作效率和质量。
- 艺术创作:艺术家和设计师可以利用CogView4生成具有特定风格和意境的图像,激发创作灵感,辅助艺术作品的创作。
- 教育领域:教师可以利用该模型生成与教学内容相关的图像,如古诗文的意境图、历史事件的场景图等,增强教学的趣味性和直观性。
- 游戏开发:游戏开发者可以根据游戏剧情和角色设定生成相应的游戏画面和角色形象,提高游戏开发的效率和质量。
- 其他创意领域:如漫画创作、插画设计、品牌宣传等,CogView4都能够根据用户的需求生成相应的高质量图像,满足不同创意领域的创作需求。
如何使用CogView4?
最新的 CogView4-0304 版本现已开源,并将于3 月 13 日上线智谱清言(chatglm.cn)。
- 在线体验地址:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
- 开源仓库地址:https://github.com/THUDM/CogView4
- 模型仓库地址: https://huggingface.co/THUDM/CogView4-6B
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。
