2025年3月4日,北京智谱华章科技有限公司宣布推出「智谱2025开源年」的第一个模型——CogView4,这是全球首个支持生成汉字的开源文生图模型。CogView4在DPG-Bench基准测试中综合评分排名第一,达到开源文生图模型的最先进水平(SOTA),并遵循Apache 2.0开源协议,为开发者和创意工作者提供了强大的工具。
CogView4的核心亮点
- 性能卓越:CogView4具备强大的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,并能生成任意分辨率的图像。
- 中文理解与生成:作为首个支持生成汉字的文生图模型,CogView4能够将中英文字符自然融入画面,满足广告、短视频等创意领域的需求。
- 技术突破:模型采用二维旋转位置编码(2D RoPE)和多阶段训练策略,支持长文本提示词输入,显著提升了训练效率和创作自由度。
- 开源与生态支持:CogView4遵循Apache 2.0协议,后续将增加ControlNet、ComfyUI等生态支持,并推出微调工具包。
CogView4的应用场景
CogView4的推出为创意产业带来了新的机遇。它能够生成高质量的图像,适用于广告设计、短视频制作、艺术创作、教育等领域。例如,它可以将古诗文意境转化为视觉画面,或根据长故事生成四格漫画,极大地提升了创作效率和表现力。
CogView4的开源信息
该模型将于3月13日正式上线智谱清言平台(chatglm.cn),供用户使用。
- 在线体验地址:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
- CogView4的开源仓库地址为:https://github.com/THUDM/CogView4,
- 模型仓库地址为:https://huggingface.co/THUDM/CogView4-6B。
智谱表示,2025年将是其开源年,未来还将陆续开源基础模型、推理模型、多模态模型等,推动AI普惠化发展。